逼真音頻對VR有什么作用 AMD又做了什么

時間：2020-08-03 16:30:02

關(guān)鍵字： AMD vr 音頻

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 在VR技術(shù)中音頻會是一個較好的切入點，給一名VR用帶來更準確的定位。意味著逼真的音頻是在虛擬現(xiàn)實中建立臨場感的重要先決條件。對虛擬世界中的聽者而言，聲音位置準確，也不能創(chuàng)建臨場感。傳統(tǒng)方法不足以

在VR技術(shù)中音頻會是一個較好的切入點，給一名VR用帶來更準確的定位。意味著逼真的音頻是在虛擬現(xiàn)實中建立臨場感的重要先決條件。對虛擬世界中的聽者而言，聲音位置準確，也不能創(chuàng)建臨場感。傳統(tǒng)方法不足以創(chuàng)建臨場感的原因是，現(xiàn)實世界的聲學(xué)要比這種近似估算的范圍更加復(fù)雜。音頻對VR為何重要，AMD又是如何去解決這一難題。

對于虛擬現(xiàn)實中的音頻處理，我們需要一種新的思考方法。在游戲和視頻的多年發(fā)展歷史中，音頻渲染的逼真度標準相對較低，特別是與同時期的圖形和電影視頻渲染相比時更是如此。盡管聽覺固有地具有立體感，但是平面屏幕游戲和電影/視頻的音頻通常是最小化使用3D和其他先進的音頻渲染技術(shù)，因為所有的圖形和視頻都呈現(xiàn)在你的面前。當你對著一個2D屏幕時，如果你聽到背后傳來聲音并轉(zhuǎn)過頭來，你所看到的只是一個揚聲器或者公寓的墻壁。除了部分FPS游戲外，平板電腦或電影的音頻如果過于逼真，其有時會令玩家分神，尤其是如果它不符合視覺體驗。例如，電影院環(huán)繞聲幾乎普遍使用后置和側(cè)面揚聲器來實現(xiàn)環(huán)境填充效果，但幾乎從不使用重要的聽覺提示，因為這樣做會分散觀眾的注意力。

但現(xiàn)在頭顯改變了一切。用戶可以轉(zhuǎn)向任何方向，并看到一個連續(xù)的視覺場景。另外，隨著技術(shù)的進步，用戶已經(jīng)可以在虛擬世界中獨立行走。先進的虛擬現(xiàn)實系統(tǒng)有望為用戶提供一個接近共識現(xiàn)實的臨場感。研究顯示，逼真的音頻是在虛擬現(xiàn)實中建立臨場感的重要先決條件。

1. 逼真音頻的基礎(chǔ)

實現(xiàn)逼真音頻的“秘方”到底是什么？通常來說，通過頭部相關(guān)傳輸函數(shù)（HRTF）實現(xiàn)的精確空間和位置音頻渲染足以產(chǎn)生逼真的音頻。如果用戶固定在一個位置或者是置放于“魔毯之旅”上的場景，同時音頻設(shè)計師在每個預(yù)置聲音中都包含混響、遮擋、反射、衍射、吸收和擴散等所有環(huán)境效果，這可能是正確的說法，因為HRTF負責定位每個聲音。但一旦用戶開始在場景中自由移動（即使是有效的區(qū)域內(nèi)），這一過程將變得不夠充分。當用戶在運動或改變頭部的中心位置時，每個聲音的反射路徑和環(huán)境效果都在不斷變化。預(yù)先烘烤場景中每種聲音的環(huán)境效果已經(jīng)不再實際可行。所采用的典型快捷近似估算方式是將所有這些效果合并到一個混響插件中，然后在特定情況下為整個場景使用一個混響設(shè)置，或者將多個設(shè)置分配到場景中的不同房間。行業(yè)自20世紀90年代以來便一直在使用提供這種渲染功能的技術(shù)。

對虛擬世界中的聽者而言，即使聲音的位置非常準確，這種近似估算也不能創(chuàng)建臨場感。舉一個例子，一名VR用戶沿著走廊前進，走廊左前方有一個大門敞開的房間，用戶能聽到房間中傳來聲音，用戶走過門口后，聲音也仍在。但在現(xiàn)實世界中，用戶在聲音環(huán)境效果中則會聽到持續(xù)的變化：

房間墻壁的遮擋；在門口的衍射；墻壁，地板和天花板的表面反射；構(gòu)成建筑物內(nèi)墻/地板/天花板表面的材料及其物體或家具的擴散和吸收。

在錄音棚中提取房間混響的傳統(tǒng)音頻設(shè)計和渲染方法，通過對聲源增加簡單衰減和低通濾波，并使用HRTF進行定位，可以產(chǎn)生可靠的聲音呈現(xiàn)，但無法創(chuàng)建臨場感。即使音頻設(shè)計師努力使用逼真的曲線實現(xiàn)距離衰減和聲源濾波，并且隨著聽者耳朵或聲源改變位置而不斷更新HRTF位置，結(jié)果也同樣如此。

傳統(tǒng)方法不足以創(chuàng)建臨場感的原因是，現(xiàn)實世界的聲學(xué)要比這種近似估算的范圍更加復(fù)雜，而且通過大量的接觸和適應(yīng)，人類大腦已經(jīng)訓(xùn)練有素，能夠識別真實世界的聲學(xué)并精確區(qū)分它們。人類聽覺是一個關(guān)鍵的生存進化，因為聲音往往是危險出現(xiàn)的第一個信號，而且從嘈雜的環(huán)境中判斷聲音方向和距離的能力是一個關(guān)鍵的生存技能。對于這種能力，一個例子就是所謂的“雞尾酒會效應(yīng)”，亦即人類的一種聽覺選擇能力。當人類把注意力集中在某一個人的談話時，其可以忽略背景中其他的對話或噪音。

2. 用物理建模音頻環(huán)境

如果環(huán)境聲音渲染要更接近真實世界的聲學(xué)，我們需要對傳播聲音的物理學(xué)模型進行建模，這被稱為可聽化（auralizaTIon）。行業(yè)已經(jīng)提出并實施了多種用于聲傳播建模的方法，而它們在復(fù)雜性和準確性之間做出了各種平衡。當前VR系統(tǒng)的實時計算能力仍無法滿足完美的建模（為每個聲音傳播事件求解聲波方程），但借助AMD TrueAudio Next所帶來的實時GPU計算功能，我們可以大幅度提升單憑CPU難以實現(xiàn)的可聽化能力。一種可以在關(guān)鍵頻段內(nèi)為音頻遮擋和音頻反射顯著提升逼真可聽化的方法是：幾何聲學(xué)。

幾何聲學(xué)一開始的切入點是每個聲源與聽者耳朵位置之間的光線追蹤路徑（通常是采樣子集），并將一組算法應(yīng)用于追蹤路徑的數(shù)據(jù)集和路徑反彈中遇到的材料屬性，以生成每個聲音，每個耳朵的獨特脈沖響應(yīng)。除了路徑反射、擴散和遮擋之外，衍射效果（如有限邊緣衍射）和HRTF濾波器也可以在這個框架內(nèi)建模，并疊加到每個時變脈沖響應(yīng)。在渲染過程中，隨著聲源和聽者改變位置而不斷更新的脈沖響應(yīng)將與相應(yīng)的音頻源信號卷積。然后，這些信號將根據(jù)每個耳朵分別混合，以生成可聽見的輸出音頻波形。這種方法具有可擴展性，并已通過AMD TrueAudio Next在CPU上實現(xiàn)。TrueAudio Next能夠顯著增強可被支持的物理建模聲源的數(shù)量。應(yīng)用程序可以通過“借用”小量的GPU計算單元子集（大約10%-15％）來擴展環(huán)境音源，而不是局限于一小部分的主要聲音提示。當部署多個GPU或者APU和GPU的組合時，質(zhì)量可以在更大的維度上進行擴展。

3. 通過TrueAudio Next和FireRays加速音頻物理

幾何聲學(xué)渲染所需的兩個主要算法是時變卷積（位于音頻處理組件）和射線追蹤（位于傳播組件）。對于AMD的Radeon GPU，AMD的開源FireRays庫可以加速光線追蹤；而AMD的TrueAudio Next庫可以加速時變實時卷積。

AMD TrueAudio Next庫是一種高性能的，基于OpenCL的實時數(shù)學(xué)音頻加速庫，其特別注重于GPU計算加速。除了低延遲，時變卷積外，TrueAudio Next庫同時還支持高效的FFT和Fast Hartley Transforms（FHT）。

TrueAudio Next支持x86 CPU和AMD Radeon GPU。

4. 綜合所有

上文已經(jīng)說明TrueAudio Next庫是一個關(guān)鍵的解決方案，但我們?nèi)孕杌卮饍蓚€重要的問題：

GPU計算著色器上是否可以支持這種技術(shù)，同時不會導(dǎo)致干擾圖形渲染并導(dǎo)致抖動和/或關(guān)鍵幀速率丟失呢？

在VR游戲或高級電影渲染場景中，高性能GPU音頻是否真的能夠?qū)崿F(xiàn)無雜訊，低延遲渲染呢？

雖然傳統(tǒng)的觀點告訴我們說，GPU上的音頻渲染會導(dǎo)致不可接受的延遲，并干擾圖形性能，但上述兩個問題的答案是肯定的，而這指向了AMD TrueAudio Next的另一根重要支柱：基于異步計算的預(yù)留計算單元（Compute Unit ReservaTIon）。

作為LiquidVR TIme Warp和Direct-to-GPU渲染功能的關(guān)鍵組件，AMD的異步計算技術(shù)在VR渲染空間中已經(jīng)是眾所周知。在一個有效硬件調(diào)度程序的控制下，異步計算具備可變的執(zhí)行優(yōu)先級，允許多個隊列的函數(shù)同時使用不同的CU集合，而不是說所有的圖形著色函數(shù)都在單個隊列中等待，以便在CU的整個數(shù)組中執(zhí)行。

AMD的預(yù)留計算單元（Compute Unit ReservaTIon）功能則進一步深化了這一思想：只要啟用的應(yīng)用程序需要，就可以劃分和保留一組有限的CU，并且通過預(yù)留的實時隊列訪問。例如，在具有32個CU的GPU中，可以保留4個或8個CU為TrueAudio Next專用，其余的24個到28個CU則可用于圖形。預(yù)留CU可完全在啟用TrueAudio Next的應(yīng)用程序，插件或引擎中執(zhí)行（不是在啟動時），當應(yīng)用程序主動釋放它們（CU）或退出時，CU將重獲自由。另外，對于稍低優(yōu)先級的內(nèi)核，可以為預(yù)留的CU分配額外的“中等優(yōu)先級”隊列。在時變卷積的情況下，對于必須是低延遲，絕對無雜訊的音頻數(shù)據(jù)通道，其可以使用實時隊列；而稍不那么關(guān)鍵的脈沖響應(yīng)更新則使用中等優(yōu)先級隊列。

預(yù)留計算單元（Compute Unit Reservation）提供了一系列支持音頻與圖形共存的關(guān)鍵優(yōu)勢：

在插件的指導(dǎo)和音頻引擎供應(yīng)商的建議下，預(yù)留CU的數(shù)量完全由游戲開發(fā)者自行決定。音頻引擎在使用優(yōu)秀分析工具來擴展可用CPU資源上具備豐富的經(jīng)驗。AMD TrueAudio Next只是增加了一個更高的維度：一個大型、可靠、可配置的私有沙箱。

避免措手不及?？梢栽谟螒蜷_發(fā)的早期階段分配CU預(yù)留值。音設(shè)計頻和圖形設(shè)計可以獨立進行，無需擔心音頻可能在無意中“偷走”任何圖形計算資源。與運行通用OS的多核CPU相比，預(yù)留計算單元實際上提供了更緊密（但更大）的沙箱。

圖形獨立于音頻，音頻獨立于圖形。只有內(nèi)存帶寬為共享資源，而對于這一點，音頻占用的比例遠小于圖形；DMA傳輸延遲則不足以形成影響。可以通過超過2秒的脈沖響應(yīng)實現(xiàn)低至1.33毫秒（48kHz 64采樣）的無雜訊卷積濾波器延遲，而典型的音頻游戲引擎則需要5到21毫秒的總緩沖延遲。

預(yù)留計算單元是一個提供給NDA合作伙伴的驅(qū)動程序功能。另外，有無預(yù)留計算單元都可使用TrueAudio Next庫。

AMD TrueAudio Next開源庫和由驅(qū)動程序控制的預(yù)留計算單元將能為虛擬現(xiàn)實帶來更高水平的音頻渲染真實感。我們十分期待開發(fā)者利用它們所創(chuàng)造的作品。

注：最高的技術(shù)級別一般稱為Fellow，級別上Fellow一般與VP平級。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點：有效應(yīng)對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]