三年前的2016年,互聯(lián)網(wǎng)女皇瑪麗•米克爾在其年度《互聯(lián)網(wǎng)趨勢(shì)》報(bào)告中曾經(jīng)預(yù)測(cè),人機(jī)交互即將迎來(lái)新一輪的變革,而語(yǔ)音將成為人機(jī)交互的新范式。從那以后,本來(lái)已經(jīng)蠢蠢欲動(dòng)的智能語(yǔ)音市場(chǎng)就真的應(yīng)聲“火”了起來(lái)。
這把“火”究竟有多旺,我們可以從三個(gè)方面直觀地感受出來(lái):其一,就是眾多互聯(lián)網(wǎng)巨頭在語(yǔ)音處理領(lǐng)域的積極投入;其二,是2017年之后以亞馬遜Echo為代表的智能音箱單品的火爆;其三,是類(lèi)似Siri的語(yǔ)音助手功能在智能手機(jī)中滲透率越來(lái)越高。種種跡象都在告訴我們,智能語(yǔ)音相關(guān)的生態(tài)鏈正在逐漸成熟,基于智能語(yǔ)音的相關(guān)應(yīng)用遲早有一天會(huì)成為眾多智能產(chǎn)品的標(biāo)配,比如說(shuō)在智能家居等應(yīng)用中的語(yǔ)音控制功能。
當(dāng)然,想做率先“吃螃蟹”的人,也就必然會(huì)面臨著一系列需要跨越的“坑”。具體到智能語(yǔ)音控制領(lǐng)域,這樣的“坑”主要來(lái)自三個(gè)方面:
首先是成本。因?yàn)槌杀臼侨魏我环N技術(shù)大規(guī)模普及的重要前提,特別是當(dāng)我們考慮到要將語(yǔ)音控制功能集成到不同的嵌入式設(shè)備中去,真正做到讓語(yǔ)音“無(wú)處不在”的時(shí)候,成本的壓力會(huì)更為突出。
其次是缺乏整體解決方案。畢竟,對(duì)于新技術(shù)來(lái)說(shuō),完整成熟的參考設(shè)計(jì)方案會(huì)比較“罕見(jiàn)”。如果有,對(duì)于開(kāi)發(fā)者來(lái)說(shuō)將是真福利。
再有就是如何順利接入語(yǔ)音處理引擎。眾所周知,智能語(yǔ)音控制應(yīng)用背后都會(huì)與一個(gè)云端的語(yǔ)音處理引擎相連,如亞馬遜的Alexa、科大訊飛開(kāi)發(fā)語(yǔ)音平臺(tái)等,這其中有不少繁復(fù)的測(cè)試認(rèn)證過(guò)程。
上面這三個(gè)制約因素也決定了語(yǔ)音控制方案開(kāi)發(fā)之旅并不是一場(chǎng)“說(shuō)走就走”的旅行,在此之前開(kāi)發(fā)者免不了要做大量準(zhǔn)備工作。
不過(guò)現(xiàn)在,情況不一樣了,因?yàn)橄旅孢@個(gè)由恩智浦開(kāi)發(fā)的方案(見(jiàn)圖1),打破了以往的制約。在這個(gè)面積為30mmx40mm超小型電路板中,幾乎覆蓋了嵌入式語(yǔ)音識(shí)別所有的性能和功能需求,讓困惑開(kāi)發(fā)者的難題迎刃而解。
圖1.基于恩智浦i.MX RT跨界處理器的語(yǔ)音控制方案(圖片來(lái)源:NXP)
基于MCU的設(shè)計(jì)
這個(gè)方案最鮮明的一個(gè)特點(diǎn)就是,其主控芯片采用的不是微處理器,而是一顆‘MCU’——恩智浦的i.MX RT跨界處理器。之所以稱(chēng)為“跨界”,是因?yàn)橐环矫鎖.MX RT采用了主頻高達(dá)600MHz的Arm Cortex-M7內(nèi)核,性能甚至比普通的Cortex-A5都高一倍;而另一方面,其在成本和功耗方面又能夠與MCU看齊,而且繼承了MCU的開(kāi)發(fā)工具鏈,使得以前熟悉MCU的開(kāi)發(fā)者都能夠很快上手。正是因?yàn)檫@種“魚(yú)和熊掌”兼得的特性,i.MX RT一經(jīng)推出就受到了開(kāi)發(fā)者的青睞。
此番將i.MX RT引入到語(yǔ)音控制領(lǐng)域,根據(jù)恩智浦的估算,與以往基于微處理器的解決方案相比可以將總系統(tǒng)成本減少一半以上。這也使得這個(gè)基于MCU的語(yǔ)音控制方案極具競(jìng)爭(zhēng)力。
圖2.i.MX RT106A跨界處理器系統(tǒng)框圖(圖片來(lái)源:NXP)
整體解決方案
該方案中使用的跨界處理器的型號(hào)是i.MX RT106A,它是通用的i.MX RT1060產(chǎn)品中的一個(gè)特殊型號(hào),專(zhuān)門(mén)針對(duì)基于云端的嵌入式語(yǔ)音應(yīng)用進(jìn)行了優(yōu)化,特別是可授權(quán)使用恩智浦完整的語(yǔ)音助手軟件解決方案,包括低延遲,遠(yuǎn)場(chǎng)“喚醒字”檢測(cè)、噪聲抑制、回聲消除和語(yǔ)音打斷功能等一系列特性。這顯然會(huì)令開(kāi)發(fā)事半功倍,也讓整個(gè)系統(tǒng)的BOM更為簡(jiǎn)化。
除了核心的主控芯片,整個(gè)基于i.MX RT的語(yǔ)音控制解決方案中還包括其他一些關(guān)鍵元器件,如TFA9894D智能音頻放大器和可選的A71CH安全元件,以及一個(gè)完整的參考BOM,可為客戶(hù)提供了一個(gè)從硬件到軟件的完整的交鑰匙解決方案。
圖3.i.MX RT語(yǔ)音控制方案硬件框圖(圖片來(lái)源:NXP)
與Alexa連接
特別值得一提的是,該方案還可無(wú)縫連接Amazon Alexa語(yǔ)音服務(wù)(AVS)平臺(tái),與AVS認(rèn)證軟件、安全性和入門(mén)使用完全整合,大幅減少了植入Alexa所需的工程投資,縮短語(yǔ)音控制產(chǎn)品的上市時(shí)間。為此,恩智浦還在美國(guó)設(shè)置了實(shí)驗(yàn)室,專(zhuān)門(mén)為內(nèi)置Alexa的產(chǎn)品提供測(cè)試服務(wù),幫助客戶(hù)通過(guò)亞馬遜的最終評(píng)估。
實(shí)際上這種增值服務(wù)模式,也是亞馬遜等語(yǔ)音處理平臺(tái)提供商所樂(lè)見(jiàn)的,因?yàn)檫@有利于其平臺(tái)形成一個(gè)更完善的應(yīng)用生態(tài)系統(tǒng),是一個(gè)雙贏的結(jié)果。所以我們也可以想見(jiàn)未來(lái)類(lèi)似的服務(wù)會(huì)被復(fù)制到與其他智能語(yǔ)音處理平臺(tái)的合作中。
圖4.i.MX RT語(yǔ)音控制方案與AVS整合框圖(圖片來(lái)源:安富利)
總之,這個(gè)基于MCU的語(yǔ)音控制解決方案為開(kāi)發(fā)者提供了一種“即插即用”式的開(kāi)發(fā)體驗(yàn),無(wú)論是從硬件、軟件,還是與語(yǔ)音處理平臺(tái)功能的整合,都能快速搞掂。如果你想在自己的嵌入式產(chǎn)品中加入智能語(yǔ)音處理功能,現(xiàn)在可以“說(shuō)走咱就走”了。