當(dāng)前位置：首頁 > 智能硬件 > 人工智能AI

人類與AI的對(duì)話頻率正在進(jìn)入一個(gè)前所未有的大爆炸時(shí)代

時(shí)間：2020-06-24 10:42:58

關(guān)鍵字： AI

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 人類與AI的對(duì)話頻率，正在進(jìn)入一個(gè)前所未有的大爆炸時(shí)代。無論是智能手機(jī)里的語音助手、有買有送的智能音箱，還是千嬌百媚的智能機(jī)器人或者地圖導(dǎo)航，總有一款聲音萌動(dòng)你心。這些生活中

人類與AI的對(duì)話頻率，正在進(jìn)入一個(gè)前所未有的大爆炸時(shí)代。

無論是智能手機(jī)里的語音助手、有買有送的智能音箱，還是千嬌百媚的智能機(jī)器人或者地圖導(dǎo)航，總有一款聲音萌動(dòng)你心。

這些生活中隨處可見的聲線，背后其實(shí)都是靠一項(xiàng)核心技術(shù)來支撐的：語音合成TTS（ Text－To－Speech），即將文字轉(zhuǎn)化為聲音。

在一般情況下TTS并不受到廣泛關(guān)注。很多智能語音相關(guān)產(chǎn)品的發(fā)布會(huì)上，它甚至不會(huì)占用超過一頁P(yáng)PT的篇幅。但實(shí)際上，TTS對(duì)于整個(gè)AI語音交互的體驗(yàn)觸發(fā)，起到了決定性的作用：用戶聽到什么聲音，直接影響到AI在他心中的“三次元化”形象。

比如我一個(gè)朋友就是因?yàn)橹玖峤憬汔青堑呐湟?，成為了地圖導(dǎo)航的死忠粉。而在經(jīng)典的AI電影《Her》里，人工智能系統(tǒng)OS1就擁有斯嘉麗約翰遜的迷人聲線，讓男主人公為之傾倒，一段人與AI的虐戀就此展開。

語音合成，為機(jī)器注入了一種人格化的魅力，也讓人類更愿意與之建立親密關(guān)系。這也意味著，在商業(yè)價(jià)值都要靠黏住用戶來實(shí)現(xiàn)的當(dāng)下，TTS能力將成為各個(gè)語音場(chǎng)景輸贏的命脈。

盡管企業(yè)對(duì)TTS的需求是如此迫切，但從學(xué)術(shù)到產(chǎn)業(yè)應(yīng)用之間，TTS依然存在著大片的技術(shù)空白。相近的技術(shù)原理和前沿算法探索之后，每家公司的解決方案、解決能力都千差萬別。二者疊加之下，導(dǎo)致TTS變成了一個(gè)巨大的賽場(chǎng)。

本文希望剖析這個(gè)并不為大眾熟知的賽道，透視一下是什么決定了機(jī)器如何說話，決定了用戶耳朵的體驗(yàn)與舒適度，又有哪些玩家憑借TTS撬開了智能語音的富礦。

那場(chǎng)極速的溫柔：讓機(jī)器聽上去像人，是AI公司的首要奔跑方向

最近，網(wǎng)上流行起了一種新的搞笑玩法：扮演機(jī)器。比如，用百度翻譯的語音包跟游戲中的隊(duì)友說話，濃烈的機(jī)械味怕是會(huì)被隊(duì)友忍不住一槍爆頭。

與此同時(shí)，一個(gè)娘化的AI形象“絆愛”也迅速走紅，被粉絲們親切地稱為“愛醬”。它有著少女一樣的形象，能夠像人類一樣交流，言語之間還會(huì)時(shí)不時(shí)流露出作為AI的志得意滿。

對(duì)過度機(jī)械的語音無情調(diào)侃，為高度人性化的語音瘋狂打call，可以說是普通人對(duì)TTS的下限與上限最為直接的反應(yīng)了。

從中不難看出，TTS的核心賽道，就在于如何讓機(jī)器的聲音聽上去韻律自然、情感充沛。說白了，就是如何在機(jī)器聲音中注入人性。

這個(gè)聽起來很模糊的需求，現(xiàn)實(shí)中只能通過TTS多個(gè)技術(shù)層次的逐步通關(guān)來實(shí)現(xiàn)。

綜合整個(gè)流程來看，目前有兩方面的工作是AI公司努力的核心方向：

用心的語料庫，正在成為TTS發(fā)動(dòng)機(jī)

如何用更少的語料合成更自然的高質(zhì)量語音，可能是未來TTS的技術(shù)攻堅(jiān)方向。

目前看來，更有情感表現(xiàn)力和精準(zhǔn)韻律的聲音，一定是通過龐大精準(zhǔn)的語料庫直接拼接產(chǎn)生的。

這背后隱藏的，是AI公司正在比拼構(gòu)建語料庫的投入成本與產(chǎn)品精神。

比如蘋果就請(qǐng)來了專業(yè)配音員蘇珊·貝內(nèi)特（Susan Bennett）為Siri錄制原始語料，而微軟小娜Cortana的聲音則來自演員簡(jiǎn)·泰勒（Jen Taylor），曾為《光暈》游戲中的角色Cortana配音。

國內(nèi)，高德則邀請(qǐng)了林志玲、郭德綱、TFBOYS、羅永浩、黃曉明、高曉松等眾多流量擔(dān)當(dāng)來錄制導(dǎo)航語音包。

而為小米音箱、喜馬拉雅音箱、美的音箱等智能硬件提供服務(wù)的AI女聲“小雅”，則是獵戶星空從300個(gè)女聲中投票海選出來的。為了能讓“小雅”更為流暢自然地進(jìn)行中英文混說，獵戶專門找了一個(gè)和中文聲源發(fā)音很像的女孩子來錄制英語語料包。

從大量發(fā)音人的挑選，語料的精心打磨，以及對(duì)用戶場(chǎng)景的深度適配，好的TTS前端數(shù)據(jù)處理能力，是今天區(qū)分這個(gè)細(xì)分領(lǐng)域產(chǎn)業(yè)地位的核心。

用算法探索“聽著舒服”的邊界

解決了基礎(chǔ)音源和龐大語料庫還遠(yuǎn)遠(yuǎn)不夠。今天的TTS領(lǐng)域，普遍前進(jìn)方向是基于相似的模型，在細(xì)節(jié)上帶來TTS效果優(yōu)化。

這個(gè)領(lǐng)域構(gòu)成了AI技術(shù)公司在TTS上的算法優(yōu)勢(shì)，百度、微軟等都在重磅押注。

簡(jiǎn)單來說，就是通過系統(tǒng)對(duì)輸入的文本進(jìn)行分析，獲得合成語音的基本單元信息，從標(biāo)注好的語音庫中挑選出最合適的語音單元，根據(jù)需求進(jìn)行一定的修改和調(diào)整后，經(jīng)過波形拼接的方式獲得合成的語音。

目前，DeepMind 最新的深度生成模型 WaveNet ，改變了傳統(tǒng)的拼接法，而是選擇直接對(duì)音頻信號(hào)的原始波形進(jìn)行建模，一次處理一個(gè)樣本，來產(chǎn)出更為自然的聲音。

目前，WaveNet已經(jīng)能夠模擬任何人類的語音，并且將機(jī)器語音合成的表現(xiàn)與人類之間水平的差距至少縮減了 50％。

中國這邊，百度正在研究用講話人編碼（speaker encoding）技術(shù)來進(jìn)行自然語音的生成。

簡(jiǎn)單來說，講話人編碼器已經(jīng)學(xué)會(huì)了把不同人說的話分別聚類，更好地模仿講話人的聲音特點(diǎn)。比如，機(jī)器能從口音判斷出，講話者是一個(gè)來自北美的男性還是來自英國的男性，從而更逼真地還原出原音。

獵豹?jiǎng)t是通過更多層級(jí)的標(biāo)注體系，來進(jìn)行語音特征單元的提取。目前可以從聲韻母層、音節(jié)層、詞層、韻律詞層、短語層和語句層等6個(gè)層級(jí)，讓合成后的語音在上下文韻律信息及準(zhǔn)確度上更加完善，聽起來也就更符合真人的發(fā)音習(xí)慣。

總而言之，好的TTS算法，正成為如今區(qū)分語音合成領(lǐng)域產(chǎn)業(yè)地位的核心。

訓(xùn)練成本之爭(zhēng)：AI界的另一個(gè)方法，是讓機(jī)器用你的聲音開口

TTS的另一個(gè)賽道，是如何讓機(jī)器低成本地學(xué)習(xí)用戶的聲音。

讓更多的明星，甚至普通人的聲音都可以在終端設(shè)備中蘇醒，這個(gè)技術(shù)能力具有廣泛的市場(chǎng)想象力。但是，采用明星的聲音，往往需要大量語料的錄入和拼接。

錄入時(shí)間過長(zhǎng)不說，還需要在專業(yè)指導(dǎo)下完成。合作的明星要錄制幾千句，時(shí)間跨度動(dòng)輒1－2個(gè)月，耗資不菲。

即便如此折騰，也難以覆蓋全部細(xì)分應(yīng)用領(lǐng)域。在某些銜接處，往往會(huì)出現(xiàn)機(jī)械拼湊的生澀感。不但阻礙了明星聲音進(jìn)入泛化設(shè)備場(chǎng)景，更讓普通人對(duì)錄入自己的聲音望而卻步。

所以如何降低訓(xùn)練成本，用更少的語料達(dá)成聲音學(xué)習(xí)和語音生成，是這條賽道的關(guān)鍵。

最近，百度就發(fā)布了自己在語音合成方面的最新成果，可以通過“語音克隆”模仿數(shù)千個(gè)不同的聲音，每個(gè)說話者只需要不到一個(gè)半小時(shí)就能完成數(shù)據(jù)訓(xùn)練。

核心方法是講話人適配（speaker adaptation），使用數(shù)個(gè)語音克隆樣本，讓機(jī)器從幾秒長(zhǎng)度的短句中學(xué)習(xí)說話者的聲音特點(diǎn)，然后通過反向傳播的優(yōu)化方法對(duì)多講話人語音生成模型做精細(xì)調(diào)節(jié)（fine－tune）。講話人只需提供少量的語料，余下的語音復(fù)制所需的素材都可以通過克隆來完成。

獵豹移動(dòng)的獵戶星空語音OS，用戶花費(fèi)20分鐘錄制10段話，系統(tǒng)就能自動(dòng)用2個(gè)星期合成一個(gè)覆蓋常用領(lǐng)域的語音包，并且音色自然。

簡(jiǎn)單來說，是用深度學(xué)習(xí)TTS模型TACOTRON，將文本分析、聲學(xué)模型、音頻合成等模塊進(jìn)行大語料庫的打包訓(xùn)練，以這樣的語音庫作為基礎(chǔ)模型，就可以在10句話中提取出發(fā)音人的語音特征，然后通過聲碼器合成出音色相同的語音。

總結(jié)一下，目前TSS領(lǐng)域的現(xiàn)狀是，傳統(tǒng)的語料對(duì)數(shù)據(jù)的要求太大，往往需要消耗大量人力物力，短期內(nèi)根本無法被大規(guī)模復(fù)制。但個(gè)性化語音背后隱藏的，又是一個(gè)龐大的交互需求。

一旦音源采集成本能夠大大降低，普通人也可以輕松生成獨(dú)屬于自己的個(gè)性化語音包。試想一下，如果一個(gè)聊天機(jī)器人具有了真人的語氣、生動(dòng)的表達(dá)，是不是能訓(xùn)練出一個(gè)很高仿的AI？它可以是一位好久不見的朋友、一個(gè)會(huì)講故事的媽媽，或者是一位即將逝去的親人最后的剪影。

這個(gè)技術(shù)的“處女地”一旦被撬動(dòng)，很多智能語音軟硬件體驗(yàn)上的困擾都將迎刃而解。

因此，建立在數(shù)據(jù)與算法優(yōu)勢(shì)上的少語料分析能力，也成為TTS賽場(chǎng)上重要的彎道技巧，只把少數(shù)企業(yè)推向更廣闊的市場(chǎng)。

工程化與商業(yè)入口：TTS的產(chǎn)業(yè)地緣爭(zhēng)奪

說了這么多不難看出，TTS是一項(xiàng)“可甜可鹽”的技術(shù)。

它看似存在感很低，卻讓許多站在金字塔頂端的高科技企業(yè)操碎了心；要用最前沿的技術(shù)矩陣才能攻克，最終還是要到真實(shí)瑣碎的人間煙火中千錘百煉。

而它的終極目標(biāo)，還是通過智能設(shè)備與生活場(chǎng)景相聯(lián)接，建立服務(wù)市場(chǎng)。

所以一場(chǎng)圍繞TTS的爭(zhēng)奪戰(zhàn)，不僅僅是技術(shù)競(jìng)速。最重要的競(jìng)爭(zhēng)指標(biāo)，是企業(yè)的工程化完成能力與市場(chǎng)信賴度。

比如說，如果某些新技術(shù)只停留在實(shí)驗(yàn)室階段，放到真實(shí)的音箱、電視產(chǎn)品上根本不是那么回事兒，或者說優(yōu)化程度很有限，不但合作伙伴要背鍋，“狼來了”聽多了，消費(fèi)者的熱情也會(huì)被消耗殆盡。

目前百度和科大訊飛在國內(nèi)難解難分，微軟憑借具有號(hào)召力的技術(shù)表現(xiàn)力占得一席之地，谷歌則是遠(yuǎn)在天邊的“技術(shù)明燈”。但普通人能在哪里用到它們，還真是個(gè)謎。重技術(shù)突破而輕應(yīng)用、輕市場(chǎng)，恐怕是當(dāng)前TTS升級(jí)階段的主要矛盾。

這或許也顯露出了TTS目前最急需的，不是“居廟堂之高”，反而應(yīng)該將技術(shù)突破盡快投擲于現(xiàn)實(shí)，與用戶共舞，與產(chǎn)業(yè)磨合。

從大環(huán)境來看，TTS的應(yīng)用場(chǎng)景非常豐富。出行、購物、娛樂、育兒、智能手機(jī)等等等等，都是能夠大顯身手的地方。用戶的耐心也還在培養(yǎng)期，體驗(yàn)不盡如人意，也只會(huì)被友善的調(diào)侃一下。

一些技術(shù)廠商之所以無法跑通這條康莊大道，一方面是產(chǎn)業(yè)下沉能力，習(xí)慣了在技術(shù)上九天攬?jiān)?，?duì)工程化產(chǎn)品缺乏耐心細(xì)致的打磨；

另一方面是大眾認(rèn)知斷層，在消費(fèi)層面缺乏有力的品牌支持和心智保障，出現(xiàn)了“叫好不叫座”的局面。

TTS的應(yīng)用價(jià)值，決定了它是一個(gè)非常泛在的通用型技術(shù)，但并不是所有AI企業(yè)都能憑借TTS在泛AI交互市場(chǎng)成功“吃雞”，它考驗(yàn)的是企業(yè)無短板的綜合能力。

目前看來，想要擁有不尷尬的TTS，從實(shí)驗(yàn)室到產(chǎn)業(yè)，還需要長(zhǎng)期的應(yīng)用突破和商業(yè)迭代，才能迎來真正的破曉。
?

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場(chǎng)開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)