音頻邊緣處理器如何實現(xiàn)物聯(lián)網設備中的語音集成
從家庭自動化、電子商務到醫(yī)療保健和汽車,越來越多的行業(yè)正在將物聯(lián)網功能與語音集成結合起來,以滿足不斷變化的需求,并釋放業(yè)務優(yōu)勢。然而,語音仍處于采用的早期階段,并剛剛開始向移動設備和揚聲器之外擴展。語音將成為用戶和他們的物聯(lián)網設備之間交互的標準方法。這種向語音優(yōu)先的轉變不僅僅是基于它在技術上提高了消費者的舒適度。用于動態(tài)語音搜索的語音設備的全球移動性、自然語言處理(NLP)的進展以及人工智能和機器學習的進步將使新的應用程序能夠快速發(fā)展。
愉快和吸引人的聲音互動受到一致的噪音和其他干擾物存在的音質的限制。你的設備智能管理聲音的能力決定了你的溝通能力。預計永遠開機的語音用戶界面(VUI)將在更多的消費產品中普及,包括音頻和視頻設備、白色產品,以及各種電池供電的設備,如遙控器、可穿戴設備、藍牙揚聲器、安全設備和戶外活動攝像頭。雖然有設計上的挑戰(zhàn)需要克服,但組件供應商和OEMS都有很大的機會來交付滿足這些應用程序需求的產品。
為了充分利用語音集成機會的成熟,更多的處理技術正在走向邊緣,遠離云計算。結果是改進了用戶界面,更低的延遲和成本,包括美元和帶寬。為未來設計支持物聯(lián)網的CE解決方案的制造商必須考慮將語音集成作為產品特性的先決條件。能夠在邊緣部署專用語音處理的oem將能夠擴展這些應用程序并擴展他們的投資組合。
本文討論了在物聯(lián)網始終在上/始終收聽的設備中實現(xiàn)vui時最常見的挑戰(zhàn)。本文回顧了相關的需求,以及有效解決這些需求所需的設計能力,包括與控制接口的集成、軟件堆棧、算法開發(fā)和用戶空間應用程序開發(fā)。
將音頻邊緣處理器集成到物聯(lián)網設備中
專門關注音頻保真度和機器學習優(yōu)化核心的專用音頻邊緣處理器是支持高質量音頻通信設備的關鍵。這些處理器可以提供足夠的計算能力來使用傳統(tǒng)算法和ML算法處理音頻,同時使用通用處理器的一小部分能量。由于處理是在設備上進行的,所以它比將信息發(fā)送回云要快得多。
物聯(lián)網設備集成了音頻處理器,增加了語音喚醒等豐富的功能。雖然云計算可能會提供一些巨大的好處,但邊緣處理允許用戶在任何時候利用他們的設備的全部能力,而不需要高帶寬的互聯(lián)網連接。例如,邊緣音頻處理器通過對上下文數(shù)據(jù)進行低延遲處理,在虛擬通信中提供優(yōu)越的用戶體驗,同時保持上下文數(shù)據(jù)的本地和安全。
在集成語音方面所面臨的挑戰(zhàn)
語音通話、控制和交互的應用程序機會繼續(xù)增加。然而,隨著更多的設備,更多的碎片化被引入,這使得集成語音變得更加困難。你如何將語音控制集成到每個應用程序中——無論是藍牙揚聲器、家用電器、耳機、可穿戴設備還是電梯——將會有所不同。添加一個語音喚醒觸發(fā)器可能很簡單,但設計一個企業(yè)級的藍牙揚聲器和耳機要復雜得多。如果該揚聲器包含了真正的無線立體聲(TWS)集成,那么復雜性就會再次上升。
此外,各種應用程序都需要與不同的生態(tài)系統(tǒng)進行語音集成。例如,你需要在Linux生態(tài)系統(tǒng)中工作,才能在大多數(shù)智能電視上實現(xiàn)語音,但要在家用電器上獲得語音,就需要在微控制器(MCU)生態(tài)系統(tǒng)中工作。對于所有這些集成,都有一種常見的推薦方法,但總是有變化,這增加了復雜性。
高質量、大眾市場的開發(fā)解決方案對于克服這些挑戰(zhàn)并快速將新技術推向市場,以支持我們工作、生活和溝通的快速發(fā)展方式至關重要。為了應對這些挑戰(zhàn),合適的解決方案需要解決多種設計需求。
滿足關鍵的設計要求
電力消耗
為了讓VUI設備接收命令,它必須始終打開/始終偵聽命令。無論這些設備是否插電,特別是由電池驅動的,對功耗的限制可能是一個主要的設計挑戰(zhàn)。為了讓VUI設備接收命令,它必須始終打開/始終偵聽命令。無論這些設備是否插電,特別是由電池驅動的,對功耗的限制可能是一個主要的設計挑戰(zhàn)。
在語音命令系統(tǒng)中,至少有一個麥克風必須始終是活動的,并且負責識別喚醒字的處理器也必須是活動的。使用專有架構、硬件加速器和特殊指令集設計的音頻邊緣處理器可以最優(yōu)地運行音頻和ML算法。這些優(yōu)化有助于降低功耗。
潛在因素
對語音激活設備的延遲沒有容忍度。即使有超過200毫秒的感知延遲,人類也會開始在語音通話中互相交談,或者向語音助手重復他們的命令。為了開發(fā)語音集成設備,將獲得必要的消費者認可,工程師和產品設計師必須在整個系統(tǒng)中提供優(yōu)化的音頻鏈,以符合行業(yè)規(guī)范和最佳的用戶體驗。因此,邊緣處理器中的低延遲處理是確保高質量語音通信的關鍵要求。
整合
因為在為不同的VUI實現(xiàn)選擇硬件和軟件時,有很多選擇,所以在集成階段的各個階段,有些需求可能會成為一個挑戰(zhàn)。在此過程中需要考慮的一些關鍵設計考慮包括下面討論的那些。
硬件集成
根據(jù)設備的使用情況、應用程序和生態(tài)系統(tǒng),有各種硬件架構用于實現(xiàn)VUI系統(tǒng)。每個VUI設備將包括麥克風,單個麥克風或麥克風陣列,連接到一個音頻處理器,用于捕獲和處理音頻。在Khowles最近的一篇嵌入式文章中,我的同事回顧了實現(xiàn)VUI系統(tǒng)的硬件架構考慮事項,以及每個系統(tǒng)的優(yōu)缺點。
主機軟件集成
如上所述,有不同的操作系統(tǒng)和驅動程序可供選擇。理想情況下,音頻處理器將配備固件和一組配置為與主機處理器連接的驅動程序。該操作系統(tǒng),如Android或Linux,通常運行在主機處理器上。
在內核空間中運行的驅動程序軟件組件通過控制接口與固件進行交互,而來自音頻邊緣處理器的音頻數(shù)據(jù)可以通過標準的高級Linux音頻架構(ALSA)接口在用戶空間中讀取。
要將軟件與主機系統(tǒng)的其他部分集成,將軟件發(fā)布包中提供的音頻處理器驅動程序連接到內核映像中可能成為一項復雜的工作。這包括將驅動程序源代碼復制到內核源樹中,更新一些內核配置文件,并根據(jù)相關的硬件配置添加設備樹條目。
解決這個問題的一種方法是使用具有精確或類似配置的預集成的標準參考設計。
在理想的情況下,音頻邊緣處理器將為集成提供簡化的軟件堆棧,并提供預集成和驗證的算法作為系統(tǒng)級解決方案,以進一步簡化過程。
算法集成
當我們講在算法集成的主題上時。通常有多個算法級聯(lián),在任何給定的時間在不同的用例之間切換。即使是對于語音喚醒,一個設計也需要多麥克風波束形成器、一個邊緣語音喚醒引擎和基于云的驗證。這意味著至少有三種算法一起工作來優(yōu)化性能。對于任何集成了Alexa或谷歌Home關鍵字的設備,必須有多種算法,通常來自不同的供應商,必須在一個設備中一起進行優(yōu)化。
一種解決方案是選擇一個音頻邊緣處理器,它預先集成了經過驗證的算法,開發(fā)和測試獨立于主機系統(tǒng)。
形式因素集成
今天的設備可以采取很多形式的因素。每個設備都有自己的多個麥克風安裝的配置。麥克風和揚聲器的距離和位置在表演中起著重要的作用。性能調整和優(yōu)化必須根據(jù)最終的形式因素和目標用例進行更改。還有一些影響性能的制造變化,如麥克風密封,設備上的聲學處理,振動抑制等。
隱私
許多音頻處理器檢測到喚醒字,然后立即將信息發(fā)送到云,在那里它被解釋和采取行動。一個大問題是,一旦音頻數(shù)據(jù)出現(xiàn)在云中,用戶就無法控制這些數(shù)據(jù),因此就會暴露在很高的隱私風險中。解決這一挑戰(zhàn)的方案是選擇一個邊緣AI智能處理器,可以在設備上“在邊緣”執(zhí)行命令解釋和響應邏輯。
這使得敏感的個人音頻數(shù)據(jù)保持本地,而不會被發(fā)送到云,在那里它可以違背我們的意愿使用。VUI的實現(xiàn)現(xiàn)在不僅更加私有,而且可以更快地響應,使用戶的交互更加自然。這是一個很好的例子,說明了邊緣人工智能處理器如何推進現(xiàn)有的用例,以最大限度地提高我們每天使用和信任的設備的幫助性。
硬件和軟件接口
VUI實現(xiàn)的設計要求可能很復雜,并使將具有語音集成的設備快速推向市場具有挑戰(zhàn)性。oem和系統(tǒng)集成商可以通過使用標準解決方案開發(fā)工具包,如諾爾斯AISonic藍牙標準解決方案工具包,從而大大降低風險。這些工具包為原型提供了預先配置的起點,允許設計師在上面開發(fā)他們自己的創(chuàng)新,而不必擔心我們上面討論的設計挑戰(zhàn)。設計人員應該尋找具有預集成和驗證過的算法的開發(fā)工具包、預配置的麥克風和與主機處理器和操作系統(tǒng)兼容的驅動程序。
打開其架構和開發(fā)環(huán)境的音頻邊緣處理器,通過為音頻應用程序開發(fā)人員提供創(chuàng)建新設備和應用程序的工具和支持,從而加速了創(chuàng)新。未來的音頻設備將是一種合作的努力。