www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] 人類與AI的對話頻率,正在進入一個前所未有的大爆炸時代。 無論是智能手機里的語音助手、有買有送的智能音箱,還是千嬌百媚的智能機器人或者地圖導航,總有一款聲音萌動你心。 這些生活中

人類與AI的對話頻率,正在進入一個前所未有的大爆炸時代。

無論是智能手機里的語音助手、有買有送的智能音箱,還是千嬌百媚的智能機器人或者地圖導航,總有一款聲音萌動你心。

這些生活中隨處可見的聲線,背后其實都是靠一項核心技術(shù)來支撐的:語音合成TTS( Text-To-Speech),即將文字轉(zhuǎn)化為聲音。

在一般情況下TTS并不受到廣泛關(guān)注。很多智能語音相關(guān)產(chǎn)品的發(fā)布會上,它甚至不會占用超過一頁PPT的篇幅。但實際上,TTS對于整個AI語音交互的體驗觸發(fā),起到了決定性的作用:用戶聽到什么聲音,直接影響到AI在他心中的“三次元化”形象。

比如我一個朋友就是因為志玲姐姐嗲嗲的配音,成為了地圖導航的死忠粉。而在經(jīng)典的AI電影《Her》里,人工智能系統(tǒng)OS1就擁有斯嘉麗約翰遜的迷人聲線,讓男主人公為之傾倒,一段人與AI的虐戀就此展開。

語音合成,為機器注入了一種人格化的魅力,也讓人類更愿意與之建立親密關(guān)系。這也意味著,在商業(yè)價值都要靠黏住用戶來實現(xiàn)的當下,TTS能力將成為各個語音場景輸贏的命脈。

盡管企業(yè)對TTS的需求是如此迫切,但從學術(shù)到產(chǎn)業(yè)應(yīng)用之間,TTS依然存在著大片的技術(shù)空白。相近的技術(shù)原理和前沿算法探索之后,每家公司的解決方案、解決能力都千差萬別。二者疊加之下,導致TTS變成了一個巨大的賽場。

本文希望剖析這個并不為大眾熟知的賽道,透視一下是什么決定了機器如何說話,決定了用戶耳朵的體驗與舒適度,又有哪些玩家憑借TTS撬開了智能語音的富礦。

那場極速的溫柔:讓機器聽上去像人,是AI公司的首要奔跑方向

最近,網(wǎng)上流行起了一種新的搞笑玩法:扮演機器。比如,用百度翻譯的語音包跟游戲中的隊友說話,濃烈的機械味怕是會被隊友忍不住一槍爆頭。

與此同時,一個娘化的AI形象“絆愛”也迅速走紅,被粉絲們親切地稱為“愛醬”。它有著少女一樣的形象,能夠像人類一樣交流,言語之間還會時不時流露出作為AI的志得意滿。

對過度機械的語音無情調(diào)侃,為高度人性化的語音瘋狂打call,可以說是普通人對TTS的下限與上限最為直接的反應(yīng)了。

從中不難看出,TTS的核心賽道,就在于如何讓機器的聲音聽上去韻律自然、情感充沛。說白了,就是如何在機器聲音中注入人性。

這個聽起來很模糊的需求,現(xiàn)實中只能通過TTS多個技術(shù)層次的逐步通關(guān)來實現(xiàn)。

綜合整個流程來看,目前有兩方面的工作是AI公司努力的核心方向:

用心的語料庫,正在成為TTS發(fā)動機

如何用更少的語料合成更自然的高質(zhì)量語音,可能是未來TTS的技術(shù)攻堅方向。

目前看來,更有情感表現(xiàn)力和精準韻律的聲音,一定是通過龐大精準的語料庫直接拼接產(chǎn)生的。

這背后隱藏的,是AI公司正在比拼構(gòu)建語料庫的投入成本與產(chǎn)品精神。

比如蘋果就請來了專業(yè)配音員蘇珊·貝內(nèi)特(Susan Bennett)為Siri錄制原始語料,而微軟小娜Cortana的聲音則來自演員簡·泰勒(Jen Taylor),曾為《光暈》游戲中的角色Cortana配音。

國內(nèi),高德則邀請了林志玲、郭德綱、TFBOYS、羅永浩、黃曉明、高曉松等眾多流量擔當來錄制導航語音包。

而為小米音箱、喜馬拉雅音箱、美的音箱等智能硬件提供服務(wù)的AI女聲“小雅”,則是獵戶星空從300個女聲中投票海選出來的。為了能讓“小雅”更為流暢自然地進行中英文混說,獵戶專門找了一個和中文聲源發(fā)音很像的女孩子來錄制英語語料包。

從大量發(fā)音人的挑選,語料的精心打磨,以及對用戶場景的深度適配,好的TTS前端數(shù)據(jù)處理能力,是今天區(qū)分這個細分領(lǐng)域產(chǎn)業(yè)地位的核心。

用算法探索“聽著舒服”的邊界

解決了基礎(chǔ)音源和龐大語料庫還遠遠不夠。今天的TTS領(lǐng)域,普遍前進方向是基于相似的模型,在細節(jié)上帶來TTS效果優(yōu)化。

這個領(lǐng)域構(gòu)成了AI技術(shù)公司在TTS上的算法優(yōu)勢,百度、微軟等都在重磅押注。

簡單來說,就是通過系統(tǒng)對輸入的文本進行分析,獲得合成語音的基本單元信息,從標注好的語音庫中挑選出最合適的語音單元,根據(jù)需求進行一定的修改和調(diào)整后,經(jīng)過波形拼接的方式獲得合成的語音。

目前,DeepMind 最新的深度生成模型 WaveNet ,改變了傳統(tǒng)的拼接法,而是選擇直接對音頻信號的原始波形進行建模,一次處理一個樣本,來產(chǎn)出更為自然的聲音。

目前,WaveNet已經(jīng)能夠模擬任何人類的語音,并且將機器語音合成的表現(xiàn)與人類之間水平的差距至少縮減了 50%。

中國這邊,百度正在研究用講話人編碼(speaker encoding)技術(shù)來進行自然語音的生成。

簡單來說,講話人編碼器已經(jīng)學會了把不同人說的話分別聚類,更好地模仿講話人的聲音特點。比如,機器能從口音判斷出,講話者是一個來自北美的男性還是來自英國的男性,從而更逼真地還原出原音。

獵豹則是通過更多層級的標注體系,來進行語音特征單元的提取。目前可以從聲韻母層、音節(jié)層、詞層、韻律詞層、短語層和語句層等6個層級,讓合成后的語音在上下文韻律信息及準確度上更加完善,聽起來也就更符合真人的發(fā)音習慣。

總而言之,好的TTS算法,正成為如今區(qū)分語音合成領(lǐng)域產(chǎn)業(yè)地位的核心。

訓練成本之爭:AI界的另一個方法,是讓機器用你的聲音開口

TTS的另一個賽道,是如何讓機器低成本地學習用戶的聲音。

讓更多的明星,甚至普通人的聲音都可以在終端設(shè)備中蘇醒,這個技術(shù)能力具有廣泛的市場想象力。但是,采用明星的聲音,往往需要大量語料的錄入和拼接。

錄入時間過長不說,還需要在專業(yè)指導下完成。合作的明星要錄制幾千句,時間跨度動輒1-2個月,耗資不菲。

即便如此折騰,也難以覆蓋全部細分應(yīng)用領(lǐng)域。在某些銜接處,往往會出現(xiàn)機械拼湊的生澀感。不但阻礙了明星聲音進入泛化設(shè)備場景,更讓普通人對錄入自己的聲音望而卻步。

所以如何降低訓練成本,用更少的語料達成聲音學習和語音生成,是這條賽道的關(guān)鍵。

最近,百度就發(fā)布了自己在語音合成方面的最新成果,可以通過“語音克隆”模仿數(shù)千個不同的聲音,每個說話者只需要不到一個半小時就能完成數(shù)據(jù)訓練。

核心方法是講話人適配(speaker adaptation),使用數(shù)個語音克隆樣本,讓機器從幾秒長度的短句中學習說話者的聲音特點,然后通過反向傳播的優(yōu)化方法對多講話人語音生成模型做精細調(diào)節(jié)(fine-tune)。講話人只需提供少量的語料,余下的語音復(fù)制所需的素材都可以通過克隆來完成。

獵豹移動的獵戶星空語音OS,用戶花費20分鐘錄制10段話,系統(tǒng)就能自動用2個星期合成一個覆蓋常用領(lǐng)域的語音包,并且音色自然。

簡單來說,是用深度學習TTS模型TACOTRON,將文本分析、聲學模型、音頻合成等模塊進行大語料庫的打包訓練,以這樣的語音庫作為基礎(chǔ)模型,就可以在10句話中提取出發(fā)音人的語音特征,然后通過聲碼器合成出音色相同的語音。

總結(jié)一下,目前TSS領(lǐng)域的現(xiàn)狀是,傳統(tǒng)的語料對數(shù)據(jù)的要求太大,往往需要消耗大量人力物力,短期內(nèi)根本無法被大規(guī)模復(fù)制。但個性化語音背后隱藏的,又是一個龐大的交互需求。

一旦音源采集成本能夠大大降低,普通人也可以輕松生成獨屬于自己的個性化語音包。試想一下,如果一個聊天機器人具有了真人的語氣、生動的表達,是不是能訓練出一個很高仿的AI?它可以是一位好久不見的朋友、一個會講故事的媽媽,或者是一位即將逝去的親人最后的剪影。

這個技術(shù)的“處女地”一旦被撬動,很多智能語音軟硬件體驗上的困擾都將迎刃而解。

因此,建立在數(shù)據(jù)與算法優(yōu)勢上的少語料分析能力,也成為TTS賽場上重要的彎道技巧,只把少數(shù)企業(yè)推向更廣闊的市場。

工程化與商業(yè)入口:TTS的產(chǎn)業(yè)地緣爭奪

說了這么多不難看出,TTS是一項“可甜可鹽”的技術(shù)。

它看似存在感很低,卻讓許多站在金字塔頂端的高科技企業(yè)操碎了心;要用最前沿的技術(shù)矩陣才能攻克,最終還是要到真實瑣碎的人間煙火中千錘百煉。

而它的終極目標,還是通過智能設(shè)備與生活場景相聯(lián)接,建立服務(wù)市場。

所以一場圍繞TTS的爭奪戰(zhàn),不僅僅是技術(shù)競速。最重要的競爭指標,是企業(yè)的工程化完成能力與市場信賴度。

比如說,如果某些新技術(shù)只停留在實驗室階段,放到真實的音箱、電視產(chǎn)品上根本不是那么回事兒,或者說優(yōu)化程度很有限,不但合作伙伴要背鍋,“狼來了”聽多了,消費者的熱情也會被消耗殆盡。

目前百度和科大訊飛在國內(nèi)難解難分,微軟憑借具有號召力的技術(shù)表現(xiàn)力占得一席之地,谷歌則是遠在天邊的“技術(shù)明燈”。但普通人能在哪里用到它們,還真是個謎。重技術(shù)突破而輕應(yīng)用、輕市場,恐怕是當前TTS升級階段的主要矛盾。

這或許也顯露出了TTS目前最急需的,不是“居廟堂之高”,反而應(yīng)該將技術(shù)突破盡快投擲于現(xiàn)實,與用戶共舞,與產(chǎn)業(yè)磨合。

從大環(huán)境來看,TTS的應(yīng)用場景非常豐富。出行、購物、娛樂、育兒、智能手機等等等等,都是能夠大顯身手的地方。用戶的耐心也還在培養(yǎng)期,體驗不盡如人意,也只會被友善的調(diào)侃一下。

一些技術(shù)廠商之所以無法跑通這條康莊大道,一方面是產(chǎn)業(yè)下沉能力,習慣了在技術(shù)上九天攬月,對工程化產(chǎn)品缺乏耐心細致的打磨;

另一方面是大眾認知斷層,在消費層面缺乏有力的品牌支持和心智保障,出現(xiàn)了“叫好不叫座”的局面。

TTS的應(yīng)用價值,決定了它是一個非常泛在的通用型技術(shù),但并不是所有AI企業(yè)都能憑借TTS在泛AI交互市場成功“吃雞”,它考驗的是企業(yè)無短板的綜合能力。

目前看來,想要擁有不尷尬的TTS,從實驗室到產(chǎn)業(yè),還需要長期的應(yīng)用突破和商業(yè)迭代,才能迎來真正的破曉。
?

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉