探境科技:瞄準(zhǔn)智能家居語音芯片實(shí)現(xiàn)百萬級出貨量
探境科技副總裁李同治告訴機(jī)器之心,家電廠商可以直接使用這個(gè)電路板用語音交互來控制家電,比如代替抽油煙機(jī)原來需要按按鍵的操作,或者是將板卡與家電廠商的控制模塊,通過串口協(xié)議直接相連,不做其它改變,即可升級為一套語音識別控制的智能家電。由 Marvell 中國芯片研發(fā)部門前高管魯勇創(chuàng)立的 AI 芯片公司探境科技,想以此切入廣闊的智能家居市場,通過語音芯片打開人機(jī)交互的入口。目前為止,搭載語音芯片的探境語音識別方案已實(shí)現(xiàn)百萬級產(chǎn)品出貨。今年?duì)I收已經(jīng)破千萬元。
在擁擠的語音 AI 芯片賽道,他們擁有自研的全棧式技術(shù)能力,先將目標(biāo)瞄準(zhǔn)智能家居市場,通過語音芯片打開人機(jī)交互的入口,再鋪向更多的應(yīng)用場景。正在播放電視劇的電視機(jī)旁,放著一個(gè)電路板,即內(nèi)含探境科技的語音芯片——Voitist 音旋風(fēng) 611、外圍電路、麥克風(fēng),這是一個(gè)用于智能家居語音控制的原型系統(tǒng)。當(dāng)人對著用于智能家居語音操控的原型系統(tǒng)說話時(shí),該「系統(tǒng)」就會進(jìn)行回應(yīng),它可以根據(jù)人的指令做出反饋,比如當(dāng)你說出「最大風(fēng)量」時(shí),系統(tǒng)就會復(fù)述一句,將抽油煙機(jī)調(diào)整為最大風(fēng)量。在夾雜多聲源的語音環(huán)境下,離線不聯(lián)網(wǎng)的語音控制系統(tǒng)仍能接聽人發(fā)出的指令,并作出反饋。
實(shí)現(xiàn)百萬級出貨量
2017 年,擔(dān)任 Marvell 中國芯片研發(fā)部門高管魯勇看到了 AI 芯片熱潮背后,存在著龐大的市場需求和落地場景,便創(chuàng)立了探境科技。兩年時(shí)間,探境科技迅速實(shí)現(xiàn)芯片量產(chǎn)出貨,且快速實(shí)現(xiàn)商業(yè)化落地。
2018 年,探境科技初步完成 SFA 架構(gòu)雛形,實(shí)現(xiàn)語音芯片 Voitist 音旋風(fēng) 611 的流片;2019 年第一季度 611 一次性流片成功,開始合作首個(gè) alpha 客戶,;2019 年中實(shí)現(xiàn)量產(chǎn)供貨。2 年時(shí)間,魯勇透露,搭載語音芯片的探境語音識別方案已實(shí)現(xiàn)百萬級產(chǎn)品出貨。未來探境還會將語音產(chǎn)品進(jìn)行二次升級,推出更多在線離線一體化方案。截至目前,探境已經(jīng)合作約 30 家機(jī)構(gòu),合作廠商包括美的、海爾等智能家居制造廠商。探境科技在全球有 6 個(gè)研發(fā)中心,分別是北京、上海、深圳、合肥、杭州、美國硅谷。公司總員工接近 200 人,其中 150 人是研發(fā)人員,其骨干研發(fā)人員平均工作經(jīng)驗(yàn)約 15 年,其中有 50 人擁有碩士、博士學(xué)歷。
三大「自研降噪」法寶:AI 降噪技術(shù)+HONN 神經(jīng)網(wǎng)絡(luò)+端到端雙麥
在智能家居細(xì)分門類中,智能燈具、抽油煙機(jī)、空氣凈化器、垃圾桶、窗簾等家居設(shè)備,均可以通過搭載語音芯片的智能家居語音控制系統(tǒng)實(shí)現(xiàn)。據(jù) Strategy Analytics 發(fā)布的研究報(bào)告顯示,擁有語音控制的智能家居設(shè)備 (不包括智能音箱) 的銷量將從 2018 年的 15.4 萬臺躍升至 2025 年的 3230 萬臺。在火熱的智能家居語音市場,語音芯片在語音交互中扮演著一個(gè)關(guān)鍵的角色。因其在語音識別、智能交互等方面的優(yōu)勢,可以為智能家居提供新的控制入口。
但是目前語音控制技術(shù)層面仍面臨諸多挑戰(zhàn)。高噪聲、遠(yuǎn)場識別環(huán)境造成低信噪比情況。信噪比,是衡量需要識別的目標(biāo)聲源與其它干擾聲源強(qiáng)度比值的對數(shù)。一般將信噪比低于 15dB 的稱為噪聲環(huán)境。信噪比越低,識別難度越大。非穩(wěn)態(tài)噪聲,即干擾人們休息 、學(xué)習(xí)和工作的聲音,也會對降噪算法產(chǎn)生影響。另外播放電視劇、音樂造成的多聲源也會影響語音識別。在語音識別的研發(fā)過程中,一個(gè)完整的識別鏈路可以簡化為麥克風(fēng)輸入、降噪處理、語音識別、識別結(jié)果輸入四個(gè)環(huán)節(jié)。
語音識別研發(fā)流程
為了順利完成語音識別,探境科技提出,首先在降噪處理方面下功夫,通過自研的 AI 降噪算法,對非穩(wěn)態(tài)的突發(fā)性噪聲進(jìn)行過濾。其次,通過高計(jì)算強(qiáng)度神經(jīng)網(wǎng)絡(luò)(HONN)進(jìn)行語音識別。在這一環(huán)節(jié),神經(jīng)網(wǎng)絡(luò)模型所需的算力決定了模型的描述能力,同時(shí)也決定了模型處理能力和識別率的上限。
在傳統(tǒng)的語音識別算法里,通常采用 DNN 的方法。DNN 即全連接神經(jīng)網(wǎng)絡(luò),最樸素的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)最多,計(jì)算量大。高強(qiáng)度神經(jīng)網(wǎng)絡(luò)的參數(shù)量不大,僅為 DNN 的五分之一,用更小的參數(shù)量和存儲,即可實(shí)現(xiàn)更好的效果。相比較于全連接操作,卷積操作能夠提供更高的計(jì)算強(qiáng)度,且卷積運(yùn)算與人類大腦負(fù)責(zé)感知模塊的處理方法類似,能夠提取滿足大腦認(rèn)知的本質(zhì)特征。探境將其計(jì)算機(jī)視覺中的一些經(jīng)驗(yàn)遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設(shè)計(jì)了一個(gè)高計(jì)算強(qiáng)度的神經(jīng)網(wǎng)絡(luò),即 HONN。結(jié)果顯示,HONN 在遠(yuǎn)場和高噪聲等環(huán)境下的識別率明顯優(yōu)于 DNN。基于 AI 降噪技術(shù)與 HONN 神經(jīng)網(wǎng)絡(luò)還不足以解決語音識別問題。為了提升超強(qiáng)噪音場景下的語音識別率,探境科技開發(fā)了基于 FCSP 的端到端 AI 雙麥算法。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復(fù)數(shù)子空間投影算法的簡稱。通過這個(gè)算法直接輸入陣列信號,輸出的是最終的識別結(jié)果,中間部分全部交給基于深度學(xué)習(xí)的 AI 算法來處理,不再使用傳統(tǒng)的數(shù)字信號處理方法。
李同治表示,在模型訓(xùn)練期間,采取「注意力增強(qiáng)」的學(xué)習(xí)方法,能夠靈敏地檢測到喚醒詞和命令詞。「類似于在一個(gè)嘈雜的環(huán)境里面,如果有人喊自己的名字,一下子就能反應(yīng)過來?!顾扔鞯?。
探境科技的邏輯是,通過 AI 語音算法+HONN 神經(jīng)網(wǎng)絡(luò)模型來提升識別率,再通過 FCSP「端到端」的雙麥處理算法簡化識別流程,降低最終語音識別的錯(cuò)誤率。將這三個(gè)「法寶」集結(jié)一體,目的是攻克語音識別難題。結(jié)合這三大條件,探境科技發(fā)布離在線一體的語音識別解決方案,即 Voitist 音旋風(fēng) 612。Voitist 音旋風(fēng) 612 的特點(diǎn)是降低傳統(tǒng)語音設(shè)備對多麥的信號處理,相應(yīng)節(jié)省硬件成本;在高噪聲環(huán)境下識別率高;有效算力更高。
自研全棧式「硬底盤」
與其他公司不同,探境科技更強(qiáng)調(diào)自研,在全棧式技術(shù)上,提供芯片、軟件、算法、系統(tǒng)一站式整體方案。存儲優(yōu)先的芯片架構(gòu) SFA(Storage First Architecture) 則成為探境科技搭建「全?!故椒?wù)的基礎(chǔ)。先用 SFA 解決算力的存儲問題,再借助 AI 降噪算法,通過全棧式的解決方案「殺進(jìn)」市場。
魯勇表示,SFA 是針對 AI 芯片存儲墻問題而設(shè)置的芯片架構(gòu)。所謂存儲墻問題指的是,與數(shù)據(jù)和存儲相關(guān)的帶寬瓶頸、功耗瓶頸問題。同行業(yè)其他 AI 芯片設(shè)計(jì)公司也意識到,AI 芯片的本質(zhì)不是要解決計(jì)算問題,而是要解決數(shù)據(jù)問題。「所有運(yùn)行的深度學(xué)習(xí)算法和 AI 芯片都面臨一個(gè)問題,并不是要做卷積運(yùn)算的乘法或加法,這并不是最難解決的問題,難點(diǎn)是在于存儲帶寬要求很大,存儲功耗很高?!顾赋觯罅繑?shù)據(jù)的重復(fù)使用,以及數(shù)據(jù)在存儲器里的位置、相對關(guān)系、讀取的性能,會影響到算法運(yùn)行的性能。
目前常見的芯片類型 CPU、GPU、FPGA、ASIC 都可以運(yùn)行深度學(xué)習(xí)算法,都可統(tǒng)稱為 AI 芯片。CPU、GPU 都屬于馮·諾依曼結(jié)構(gòu),指令譯碼執(zhí)行、共享內(nèi)存。用馮·諾依曼結(jié)構(gòu)的處理器處理深度學(xué)習(xí)算法時(shí),提供算力雖簡單,但當(dāng)運(yùn)算部件達(dá)到一定的能力,存儲器則無法跟上運(yùn)算部件消耗的數(shù)據(jù)。因此,SFA 架構(gòu)以存儲來驅(qū)動計(jì)算,推翻馮·諾依曼架構(gòu),設(shè)計(jì)不同于之前類 CPU 的計(jì)算架構(gòu)。
2019 年 8 月,探境自主研發(fā)的通用型語音芯片「音旋風(fēng)」611,能夠支持 200 條的命令詞,能夠做到 99% 的喚醒率和極低的誤喚醒率,已切入智能家居領(lǐng)域,涉及智能空調(diào)、空氣凈化器等多個(gè)品類。另外,探境科技搭載的 SFA 架構(gòu)的圖像芯片 Imagist851 已流片成功,圖像芯片的核心指標(biāo) IPS/W 高達(dá) 800,瞄準(zhǔn)工業(yè)視覺、新零售、安防、輔助駕駛等市場。
魯勇稱,SFA 可實(shí)現(xiàn)真正的通用型 AI 芯片架構(gòu),可支持任意神經(jīng)網(wǎng)絡(luò)?!覆粌H適配于終端,也適配于云端、推理、訓(xùn)練,可組成不同類型的產(chǎn)品形態(tài)。」據(jù)魯勇透露,探境的云端 AI 芯片也已提上日程,將于 2020 年推出。他向機(jī)器之心表示,現(xiàn)階段會以智能家居為主基點(diǎn),而后再逐漸加碼至其他場景。
實(shí)測數(shù)據(jù)表明,在同等條件下,SFA 可帶來超高的能效比,數(shù)據(jù)訪問可降低 10~100 倍,存儲子系統(tǒng)功耗下降 10 倍;28nm 工藝測試下,系統(tǒng)能效超過 4T OPS/W,計(jì)算資源利用率超過 80%,DDR 帶寬占用率降低 5 倍?;?SFA 架構(gòu),探境科技開辟語音和圖像兩條產(chǎn)品線。在探境科技的語音芯片產(chǎn)品矩陣中,除了支持 AI 雙麥的 Voitist 音旋風(fēng) 612 之外,還包括在離線一體的 Voitist 音旋風(fēng) 621、以及語音芯片的旗艦產(chǎn)品——可支持本地 NLP 的音旋風(fēng) 7 系列。
目前探境科技選擇做終端 AI 芯片,相對云端芯片投入成本較低,離手機(jī)、智能音箱這類產(chǎn)品的設(shè)計(jì)和生產(chǎn)較近。在擁擠的語音 AI 芯片賽道,基于自研的全棧式技術(shù)能力,先解決存儲再解決算力,探境走出一條不同尋常的路。談及未來的發(fā)展規(guī)劃,魯勇表示,探境科技定位于一家語音、圖像相結(jié)合的 AI 芯片公司,基于語音算法、圖像算法,既有面向家具、玩具、智能穿戴等場景的語音系列解決方案,也有面向安防、新零售、輔助駕駛等圖像解決方案。