當前位置：首頁 > 單片機 > 單片機

語音通信中時延時延是怎么產(chǎn)生的？怎么樣在通信終端上減小時延?

時間：2018-09-26 17:02:50

關(guān)鍵字：時延語音通信音頻信號

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]時延是語音通信中的一個重要指標，當端到端(end2end)的時延(即one-way-delay,單向時延)低于150Ms時人感覺不到，當端到端的時延超過150Ms且小于450Ms時人能感受到但能忍受不影響通話交流，當端到端的時延大于1000Ms時嚴重影響通話交流，用戶體驗很差。同時時延也是語音方案過認證的必選項，超過了規(guī)定值這個方案是過不了認證的。今天我們就講講時延是怎么產(chǎn)生的以及怎么樣在通信終端上減小時延。

時延是語音通信中的一個重要指標，當端到端(end2end)的時延(即one-way-delay,單向時延)低于150Ms時人感覺不到，當端到端的時延超過150Ms且小于450Ms時人能感受到但能忍受不影響通話交流，當端到端的時延大于1000Ms時嚴重影響通話交流，用戶體驗很差。同時時延也是語音方案過認證的必選項，超過了規(guī)定值這個方案是過不了認證的。今天我們就講講時延是怎么產(chǎn)生的以及怎么樣在通信終端上減小時延。

1、時延產(chǎn)生

下圖是語音從采集到播放的傳輸過程。

從上圖看出，傳輸過程包括三部分，一是從發(fā)送端采集到語音數(shù)據(jù)處理后發(fā)送到網(wǎng)絡(luò)設(shè)備，二是網(wǎng)絡(luò)設(shè)備之間傳送，三是從網(wǎng)絡(luò)設(shè)備發(fā)送給接收端并播放出來。每個過程都會產(chǎn)生時延，總體可以分為三類。一是通信終端上引入的時延，這時本文要講的重點，后面具體講。二是通信終端和網(wǎng)絡(luò)設(shè)備之間的時延，包括采集終端到網(wǎng)絡(luò)設(shè)備的延時和網(wǎng)絡(luò)設(shè)備到播放設(shè)備的延時。三是網(wǎng)絡(luò)設(shè)備之間的時延。二和三屬于網(wǎng)絡(luò)設(shè)備引入的延時，本文不討論。

現(xiàn)在我們具體看通信終端上引入的時延，它在發(fā)送端(或者叫上行/TX)和接收端(或者叫下行/RX)都有。在發(fā)送端主要包括聲音的采集引入的延時、前處理算法引入的延時和編碼算法引入的時延。聲音采集時通常5Ms或者10Ms從采集DMA中取一次語音數(shù)據(jù)，但是編碼時多數(shù)codec要求的一幀是20Ms(比如AMR-WB)，這兩者之間不匹配，就要求采集到的數(shù)據(jù)放在buffer里緩一段時間，等到幀長時再取出來去編碼，這就引入了時延。以一幀20Ms為例，就會引入20Ms的延時。前處理算法主要有AEC、ANS、AGC，這些算法都會引入延時，這跟濾波器的階數(shù)有關(guān)，階數(shù)越多，延時越大。編碼算法同前處理算法一樣也引入了延時。在接收端主要包括端網(wǎng)絡(luò)延時、解碼算法延時、后處理算法延時和播放延時。端網(wǎng)絡(luò)延時主要出現(xiàn)在解碼之前的jitter buffer內(nèi)，如果有抗丟包處理(例如FEC)延時還會增加(有FEC增加延時的原因是要等接收到的包到指定個數(shù)才能做FEC解碼還原出原始包，用FEC抗丟包的原理我在前面的文章(語音通信中提高音質(zhì)的方法)中寫過)。解碼和后處理算法和發(fā)送端的編碼前處理類似有延時。播放前為了保持播放的流暢性會在語音數(shù)據(jù)進播放DMA前加一級buffer，這也引入了延時。

2、時延測量

時延是過認證的必選項。對于語音通信解決方案來說，先得讓時延低于認證指定的值，然后再看有沒有減小的可能。如可以將時延做到更小，則是該方案的亮點。要測量時延就得在實驗室搭建一個理想的端到端的語音通信系統(tǒng)(理想是指網(wǎng)絡(luò)幾乎不引入時延)，同時兩端均采用該語音方案，這樣就可以用儀器測出端到端的延時了。測時延時，儀器上顯示的時延是一個平均值，等通話時長達到一定值后就會穩(wěn)定下來。拿它跟認證指定的值比較，如果大于指定值，認證是過不了的，先要減小時延讓它低于指定值。如果低于指定值，則說明該方案有一個好的起點，可以繼續(xù)減小讓其成為亮點。

用儀器測出來的單向時延大體上應該是終端上各個模塊引入的時延之和。要減小時延首先得搞清楚是哪個模塊引入的時延較大。有些模塊引入的時延是已知固定的，且不能減少，比如信號處理算法模塊。有些模塊引入的時延是未知的，我們就需要去測量這個模塊引入的時延具體是多少。做這些前需要對該語音通信方案的軟件架構(gòu)熟悉，知道方案中有幾個(除了信號處理算法模塊外)引入時延的點。這種時延通常是對buffer的存取引入的時間差，該怎么測出時延值呢?我一般用如下的方法：當把語音數(shù)據(jù)放進buffer時記下當時的時間t1，保存在這段數(shù)據(jù)開始的地方(雖然破壞了語音數(shù)據(jù)，不過沒關(guān)系，我們只是用來測延時，是一種手段，不關(guān)心語音質(zhì)量)，當從buffer中取出這段語音數(shù)據(jù)時，再記錄下時間t2，將t2減去保存在數(shù)據(jù)中的t1就得到本次存取引入的延時。統(tǒng)計非常多次(我通常用一萬次)再算平均值，就可以得到這個點引入的時延了。下面舉例說明。有一塊可以存5幀(每幀20Ms)的buffer，某一幀語音數(shù)據(jù)放在第三幀處。放時的時間是158120毫秒，將這個值放在放這段數(shù)據(jù)開始的地方。將這段數(shù)據(jù)從buffer里取出來時的時間是158180秒，可以算出本次延時是60Ms(158180-158120=60)，統(tǒng)計10000次，算出延時總和，再除以10000，得到延時平均值是58Ms。所以這個點引入的時延是58Ms。

3、時延的減小方法

知道了各個點引入的時延大小，下面就要看怎么減小時延了。這里的減小是指能減小的，有些是不能減小的，比如codec引入的時延。我用過的方法主要有以下兩種。

1)用減小緩沖深度來減小時延

這種方法說白了就是讓語音數(shù)據(jù)在buffer里呆的時間短些，比如以前在buffer里有了3幀(假設(shè)每幀20Ms)語音數(shù)據(jù)才會從buffer中取出給下一模塊，這樣平均就會引入60Ms的時延。如果將3幀改為2 幀，則平均引入的時延就降為40Ms，這樣就減少了20Ms的時延。不過用這種方法是有條件的，要確保語音質(zhì)量不下降。改了后要用儀器測，如果長時測試下語音質(zhì)量不下降就說明這個改后的值是可以接受的。經(jīng)過試驗后找到一個可以接受的緩沖深度的最小的值，就把這個值用在方案中。

2)用加速信號處理算法來減少時延

音頻信號處理中有個算法叫加速，它是對PCM信號進行處理，在不丟失語音信息的前提下把時長減小，它的原理是WSOLA。比如原PCM數(shù)據(jù)時長是5秒，經(jīng)過加速處理后變成了4秒，人聽上去信息沒丟失，但是語速變快了。如果在buffer中待播放的PCM數(shù)據(jù)較長，肯定延時較大，可以通過這種加速算法把要播放的數(shù)據(jù)處理一下，變成短時長的PCM數(shù)據(jù)，這樣就可以減小延時了。我第一次做voice engine的時候，除了減小buffer緩沖深度沒有其他好的方法來減小延時。后來做了語音加速播放的功能(具體見我前面的文章：音頻處理之語音加速播放)，覺得可以用這個算法來減小延時?？墒钱敃r事情非常多，再加上要做到延時減小了但同時也要讓聽者感覺不到在加速播放還有很多細節(jié)工作要做，也就沒做成。隨著webRTC風靡音視頻開發(fā)圈，我也開始關(guān)注。了解到其中的netEQ就有用加速算法來減小延時的功能，看來英雄所見略同啊。哈哈。同時我也感覺到要多做東西，見多才能識廣呀，說不定結(jié)合以前做過的東西就能得到解決問題的好的思路呢。當然加速減少延時功能只是netEQ的一部分。netEQ主要是解決網(wǎng)絡(luò)抖動延時丟包等問題來提高語音質(zhì)量的，可以說說目前公開的處理此類問題的最佳方案了。從下篇開始，我將花幾篇文章來詳細的講講netEQ。netEQ是webRTC中音頻相關(guān)的兩大核心技術(shù)之一(另一個是前后處理，有AEC/ANS/AGC等)，很值得研究。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

一文詳解音頻信號采樣和保持

音頻信號采樣將隨時間連續(xù)變化的模擬信號的大小(振幅)，按一定的時間間隔采集樣值，這樣形成在時間上不連續(xù)的脈沖序列，這一操作稱為采樣。

關(guān)鍵字：音頻信號模擬信號

[嵌入式分享]

屏蔽電卷傳輸音頻信號，有噪聲干擾怎么解決

屏蔽電卷是一種特殊的卷狀導體，其外部由金屬(如銅、鋁等)材料緊密包裹形成屏蔽層。這種設(shè)計能夠有效地抑制電磁干擾(EMI)的影響，保護內(nèi)部的信號線免受外部噪聲的干擾。同時，屏蔽電卷還可以防止內(nèi)部的信號線產(chǎn)生的電磁波向外輻射...

關(guān)鍵字：屏蔽電卷音頻信號

[智能應用]

語音通信系統(tǒng)有哪些應用及設(shè)計？

語音通信系統(tǒng)是一種利用通信技術(shù)實現(xiàn)人與人之間語音交流的系統(tǒng)。它可以通過各種通信媒介，如固定電話、移動電話、互聯(lián)網(wǎng)等，實現(xiàn)遠距離的實時語音傳輸。

關(guān)鍵字：語音通信移動電話

[通信技術(shù)]

光波語音通信有哪些行業(yè)應用設(shè)計方案？

在無線激光通信中，激光束通過大氣空間傳輸，可以覆蓋較遠的距離，同時具有較高的傳輸速率和較大的傳輸容量。

關(guān)鍵字：光波語音通信無線激光

[通信技術(shù)]

語音通信可以提高語音質(zhì)量嗎？它有哪些行業(yè)應用設(shè)計？

語音通信是一種利用語音信號在通信網(wǎng)絡(luò)中傳輸?shù)募夹g(shù)。它涉及到聲音的采集、信號處理、編碼、傳輸和解碼等過程，旨在實現(xiàn)人與人之間的語音交流。語音通信技術(shù)廣泛應用于各種領(lǐng)域，如社交、教育、醫(yī)療、娛樂等。

關(guān)鍵字：語音通信智能家居

[基礎(chǔ)知識科普站]

幀同步技術(shù)

在數(shù)字時分多路通信系統(tǒng)中，為了能正確分離各路時隙信號，在發(fā)送端必須提供每幀的起始標記，在接收端檢測并獲取這一標志的過程稱為幀同步。幀同步有起止式同步法和插入特殊同步碼組法兩種。要求開機后整個系統(tǒng)要能很快地進人幀同步，或一...

關(guān)鍵字：時分多路語音通信幀同步

[基礎(chǔ)知識科普站]

固定無線接入服務

固定無線接入(fixed wireless access，F(xiàn)WA)是指業(yè)務節(jié)點到用戶終端間部分或全部采用了無線傳輸?shù)慕尤敕绞?。固定無線接入主要面向固定終端，只提供有限的終端可移動性，如用戶步行。固定無線接入的目的是通過無...

關(guān)鍵字：固定無線接入固定終端時延

[《物聯(lián)網(wǎng)技術(shù)》雜志]

基于ZigBee和AODV協(xié)議的無線體域網(wǎng)性能仿真

摘要：作為無線傳感器網(wǎng)絡(luò)的一個重要分支，無線體域網(wǎng)以其巨大的應用前景，受到學術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。文章依據(jù)采集人體主要生理指標的傳感器節(jié)點位置，采用ZigBee無線通信協(xié)議和AODV路由協(xié)議，構(gòu)建了無線體域網(wǎng)人體模型...

關(guān)鍵字：無線體域網(wǎng) Zigbee NS2 時延丟包率

[電子技術(shù)資源]