當(dāng)前位置：首頁 > 智能硬件 > 人工智能AI

人工智能是怎樣賦能流媒體

時間：2020-05-31 09:18:02

關(guān)鍵字： AI 人工智能

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 前言人工智能（AI）、深度學(xué)習(xí)和自然語言處理將成為新一代流媒體行業(yè)的關(guān)鍵技術(shù)。從生產(chǎn)到消費(fèi)的各個階段，它們都將產(chǎn)生非常重大的影響。毫無疑問，隨著人工智能在許多不同行業(yè)的逐步深入，它也將

前言

人工智能（AI）、深度學(xué)習(xí)和自然語言處理將成為新一代流媒體行業(yè)的關(guān)鍵技術(shù)。從生產(chǎn)到消費(fèi)的各個階段，它們都將產(chǎn)生非常重大的影響。毫無疑問，隨著人工智能在許多不同行業(yè)的逐步深入，它也將被更廣泛地應(yīng)用于流媒體領(lǐng)域。

近年來，一些公司已經(jīng)取得了重要的進(jìn)展，包括Google云視頻智能API，Conviva的視頻智能架構(gòu)，NVIDIA DLA和IBM Watson技術(shù)。所有這些技術(shù)都在不同程度上部署了AI，尤其是在云計算領(lǐng)域。另外，我們很快也會看到AI被應(yīng)用于流媒體的其他方面。

人工智能可以用來取代很多人力資源，甚至可以執(zhí)行繁瑣、重復(fù)和耗時的任務(wù)，比如工作量巨大的內(nèi)容和數(shù)據(jù)管理。目前，人工智能被用于視頻分析處理、網(wǎng)絡(luò)和技術(shù)故障診斷以及廣告推廣等很多方面。當(dāng)然，還存在很多尚未開發(fā)的潛在用途。

智能跟蹤攝像機(jī)

目前市場上，有一些運(yùn)動跟蹤攝像機(jī)系統(tǒng)可以自動跟蹤移動的物體，但它們都必須在被跟蹤物體上安放發(fā)射器或者傳感器，而人工智能的出現(xiàn)將會很好地解決這一問題。無需額外的傳感器，人工智能也能實現(xiàn)在不同場合跟蹤拍攝演講者，運(yùn)動員，或者藝人等移動目標(biāo)。

其中，深度學(xué)習(xí)算法將會被用來分析視頻，判斷人的行為以及周圍環(huán)境，從而使目標(biāo)完美地出現(xiàn)在鏡頭中。現(xiàn)在來說，這項技術(shù)已經(jīng)使無人機(jī)可以非常準(zhǔn)確地追蹤運(yùn)動員沖刺的場景。如圖1 所示，展示的是全自動體育運(yùn)動追蹤無人機(jī)AirDog。

圖1 AirDog全自動體育運(yùn)動追蹤無人機(jī)［1］

視頻幀合成

視頻的生成與數(shù)學(xué)之間有著緊密的聯(lián)系。視頻成像的關(guān)鍵因素——幀率、焦距、光圈和構(gòu)圖是基于比例的，了解它們背后的數(shù)學(xué)知識將會有很大的幫助。比如，“黃金比例”可以用于深度學(xué)習(xí)的視覺感知算法。因此，人工智能相機(jī)能夠自動捕捉最美觀的視頻圖像，而不是由人來手動完成。近年來，生成對抗式網(wǎng)絡(luò)（GAN）的出現(xiàn)，實現(xiàn)了生成質(zhì)量極高、以假亂真的圖像［2］。如圖2所示，是NVIDIA的最新成果——GAN生成的高分辨率1024×1024圖像。

除了生成高質(zhì)量的圖像，人工智能也給視頻幀合成帶來了驚人的效果。例如ICLR 2016的論文［3］，通過生成對抗式網(wǎng)絡(luò)，成功實現(xiàn)了視頻的預(yù)測。同樣地，在超幀率技術(shù)方面，深度學(xué)習(xí)算法已經(jīng)超過了傳統(tǒng)的插幀算法，有效地提升了視頻質(zhì)量。傳統(tǒng)算法上，超幀率往往是運(yùn)用運(yùn)動補(bǔ)償技術(shù)，首先估計出運(yùn)動矢量，然后通過補(bǔ)償插值來生成中間幀，從而提高視頻的幀率。但是，生成視頻幀的質(zhì)量受到運(yùn)動矢量準(zhǔn)確度的極大影響。而最新出現(xiàn)在ICCV 2017中的論文［4］，采用端對端式的深度卷積神經(jīng)網(wǎng)絡(luò)，將預(yù)測運(yùn)動信息和補(bǔ)償插幀這兩個步驟合為一體，直接生成了中間幀，如圖3所示。由此看來，人工智能正在逐步改進(jìn)、優(yōu)化、甚至超越傳統(tǒng)的視頻處理算法。

實時視頻切換

深度學(xué)習(xí)算法能夠?qū)崿F(xiàn)自動處理和生成視頻，這也將有助于將AI引入實時視頻切換。智能視頻軟件將通過分析面部表情、手勢、衣服、身體、顏色和其他成像數(shù)據(jù)，選擇最佳的相機(jī)鏡頭或角度，從而更好的跟蹤拍攝整個事件。通過分析視頻內(nèi)容，將會確定鏡頭遠(yuǎn)近的選擇，關(guān)鍵人物和題材的選取，從而自然流暢地進(jìn)行視頻切換。

這些視頻分析的功能將有助于實現(xiàn)一個完全智能的實時視頻切換系統(tǒng)。在不久的將來，它最終將會取代現(xiàn)場活動技術(shù)總監(jiān)的角色。而基于計算機(jī)視覺的視頻切換器可以獨(dú)立工作在嵌入式系統(tǒng)或設(shè)備上，甚至可以利用網(wǎng)絡(luò)化的云服務(wù)器。

流媒體碼率自適應(yīng)

傳統(tǒng)的流媒體碼率自適應(yīng)方法面臨著兩大難題：復(fù)雜多變的網(wǎng)絡(luò)環(huán)境和QoE指標(biāo)。而在今年的SIGCOMM上，MIT CSAIL的一支研究團(tuán)隊提出了基于神經(jīng)網(wǎng)絡(luò)優(yōu)化碼率的自適應(yīng)算法Pensieve［5］，用來提高媒體傳輸質(zhì)量。

文章結(jié)果表明，與傳統(tǒng)方法相比，Pensieve能平均提升QoE高達(dá)12%-25%。雖然該模型還比較簡單，但給我們開辟了一個新的思路，可以將深度學(xué)習(xí)的方法用于流媒體傳輸優(yōu)化上。由此可見，深度學(xué)習(xí)將會給傳統(tǒng)的流媒體技術(shù)帶來巨大的變革。

音頻分析

自然語言處理（NLP）能夠為會議、講座或者其他場合提供自動的現(xiàn)場轉(zhuǎn)錄、翻譯、口譯、字幕以及音頻描述技術(shù)。這將給很多跨國企業(yè)，甚至是政府部門在發(fā)布會或者其他交流場合提供多語言的技術(shù)支持。

另外，自然語言處理可以實現(xiàn)社交媒體監(jiān)控。通過監(jiān)控在線對話和情緒分析，可以實時跟蹤觀眾反應(yīng)。這將有助于商家及時調(diào)整內(nèi)容，從而滿足觀眾的喜好。同時，自然語言算法將會從數(shù)據(jù)中捕獲重要話題和關(guān)鍵詞，然后通過編譯截屏和高亮剪輯等方式達(dá)到營銷的目的，也可自動上傳到社交媒體上。而在網(wǎng)絡(luò)直播領(lǐng)域，音頻檢測也可以起到督查監(jiān)控的作用。通過自然語言算法，可以自動分析檢測音頻內(nèi)容，從而實時監(jiān)控直播狀態(tài)，及時關(guān)閉低俗內(nèi)容。

視頻分析和數(shù)據(jù)提取

隨著越來越多的公司參與到流媒體服務(wù)中，視頻生成的數(shù)據(jù)量正以指數(shù)級增長。從這些數(shù)據(jù)中獲得的信息將會遠(yuǎn)遠(yuǎn)超過人類手動提取的信息。人工智能將通過對視頻的分析處理，生成標(biāo)簽、類別和描述，自動提取視頻中的數(shù)據(jù)。這將有利于視頻內(nèi)容的分析、理解和管理，從而實現(xiàn)智能化的廣告投放等業(yè)務(wù)。

另外，對于城市的交通、安保來說，視頻大數(shù)據(jù)分析承擔(dān)了重要的作用。例如阿里云在杭州打造的城市大腦，通過對道路視頻的分析檢測，智能實時地改變紅綠燈的策略，大大改善了交通狀況。而在這個過程中，我們需要在復(fù)雜環(huán)境下對人、車、物的多重特征的信息提取，讓計算機(jī)“看到”并且“領(lǐng)會”視頻中的信息，這將是人工智能給我們帶來的巨大改變。

總結(jié)

對于流媒體行業(yè)來說，人工智能將會是一個十分強(qiáng)大的工具。目前，在流媒體服務(wù)中人工智能的作用初步得到體現(xiàn)，還有很大的空間值得我們?nèi)ラ_發(fā)。從以上談及的一些例子中我們可以看出，人工智能可以大幅提升流媒體服務(wù)的吸引力和效率，同時也大大節(jié)省了從生產(chǎn)到發(fā)布各個環(huán)節(jié)的成本。人工智能將推動內(nèi)容所有者，媒體生產(chǎn)商和廣告商進(jìn)入一個新的時代，創(chuàng)造出智能而優(yōu)質(zhì)的視頻內(nèi)容。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點：有效應(yīng)對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運(yùn)營商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]