人工智能(AI)、深度學(xué)習(xí)和自然語言處理將成為新一代流媒體行業(yè)的關(guān)鍵技術(shù)。從生產(chǎn)到消費(fèi)的各個階段,它們都將產(chǎn)生非常重大的影響。毫無疑問,隨著人工智能在許多不同行業(yè)的逐步深入,它也將被更廣泛地應(yīng)用于流媒體領(lǐng)域。
近年來,一些公司已經(jīng)取得了重要的進(jìn)展,包括Google云視頻智能API,Conviva的視頻智能架構(gòu),NVIDIA DLA和IBM Watson技術(shù)。所有這些技術(shù)都在不同程度上部署了AI,尤其是在云計算領(lǐng)域。另外,我們很快也會看到AI被應(yīng)用于流媒體的其他方面。
人工智能可以用來取代很多人力資源,甚至可以執(zhí)行繁瑣、重復(fù)和耗時的任務(wù),比如工作量巨大的內(nèi)容和數(shù)據(jù)管理。目前,人工智能被用于視頻分析處理、網(wǎng)絡(luò)和技術(shù)故障診斷以及廣告推廣等很多方面。當(dāng)然,還存在很多尚未開發(fā)的潛在用途。
智能跟蹤攝像機(jī)目前市場上,有一些運(yùn)動跟蹤攝像機(jī)系統(tǒng)可以自動跟蹤移動的物體,但它們都必須在被跟蹤物體上安放發(fā)射器或者傳感器,而人工智能的出現(xiàn)將會很好地解決這一問題。無需額外的傳感器,人工智能也能實現(xiàn)在不同場合跟蹤拍攝演講者,運(yùn)動員,或者藝人等移動目標(biāo)。
其中,深度學(xué)習(xí)算法將會被用來分析視頻,判斷人的行為以及周圍環(huán)境,從而使目標(biāo)完美地出現(xiàn)在鏡頭中。現(xiàn)在來說,這項技術(shù)已經(jīng)使無人機(jī)可以非常準(zhǔn)確地追蹤運(yùn)動員沖刺的場景。如圖1 所示,展示的是全自動體育運(yùn)動追蹤無人機(jī)AirDog。
圖1 AirDog全自動體育運(yùn)動追蹤無人機(jī)[1]
視頻幀合成視頻的生成與數(shù)學(xué)之間有著緊密的聯(lián)系。視頻成像的關(guān)鍵因素——幀率、焦距、光圈和構(gòu)圖是基于比例的,了解它們背后的數(shù)學(xué)知識將會有很大的幫助。比如,“黃金比例”可以用于深度學(xué)習(xí)的視覺感知算法。因此,人工智能相機(jī)能夠自動捕捉最美觀的視頻圖像,而不是由人來手動完成。近年來,生成對抗式網(wǎng)絡(luò)(GAN)的出現(xiàn),實現(xiàn)了生成質(zhì)量極高、以假亂真的圖像[2]。如圖2所示,是NVIDIA的最新成果——GAN生成的高分辨率1024×1024圖像。
除了生成高質(zhì)量的圖像,人工智能也給視頻幀合成帶來了驚人的效果。例如ICLR 2016的論文[3],通過生成對抗式網(wǎng)絡(luò),成功實現(xiàn)了視頻的預(yù)測。同樣地,在超幀率技術(shù)方面,深度學(xué)習(xí)算法已經(jīng)超過了傳統(tǒng)的插幀算法,有效地提升了視頻質(zhì)量。傳統(tǒng)算法上,超幀率往往是運(yùn)用運(yùn)動補(bǔ)償技術(shù),首先估計出運(yùn)動矢量,然后通過補(bǔ)償插值來生成中間幀,從而提高視頻的幀率。但是,生成視頻幀的質(zhì)量受到運(yùn)動矢量準(zhǔn)確度的極大影響。而最新出現(xiàn)在ICCV 2017中的論文[4],采用端對端式的深度卷積神經(jīng)網(wǎng)絡(luò),將預(yù)測運(yùn)動信息和補(bǔ)償插幀這兩個步驟合為一體,直接生成了中間幀,如圖3所示。由此看來,人工智能正在逐步改進(jìn)、優(yōu)化、甚至超越傳統(tǒng)的視頻處理算法。
實時視頻切換深度學(xué)習(xí)算法能夠?qū)崿F(xiàn)自動處理和生成視頻,這也將有助于將AI引入實時視頻切換。智能視頻軟件將通過分析面部表情、手勢、衣服、身體、顏色和其他成像數(shù)據(jù),選擇最佳的相機(jī)鏡頭或角度,從而更好的跟蹤拍攝整個事件。通過分析視頻內(nèi)容,將會確定鏡頭遠(yuǎn)近的選擇,關(guān)鍵人物和題材的選取,從而自然流暢地進(jìn)行視頻切換。
這些視頻分析的功能將有助于實現(xiàn)一個完全智能的實時視頻切換系統(tǒng)。在不久的將來,它最終將會取代現(xiàn)場活動技術(shù)總監(jiān)的角色。而基于計算機(jī)視覺的視頻切換器可以獨(dú)立工作在嵌入式系統(tǒng)或設(shè)備上,甚至可以利用網(wǎng)絡(luò)化的云服務(wù)器。
流媒體碼率自適應(yīng)傳統(tǒng)的流媒體碼率自適應(yīng)方法面臨著兩大難題:復(fù)雜多變的網(wǎng)絡(luò)環(huán)境和QoE指標(biāo)。而在今年的SIGCOMM上,MIT CSAIL的一支研究團(tuán)隊提出了基于神經(jīng)網(wǎng)絡(luò)優(yōu)化碼率的自適應(yīng)算法Pensieve[5],用來提高媒體傳輸質(zhì)量。
文章結(jié)果表明,與傳統(tǒng)方法相比,Pensieve能平均提升QoE高達(dá)12%-25%。雖然該模型還比較簡單,但給我們開辟了一個新的思路,可以將深度學(xué)習(xí)的方法用于流媒體傳輸優(yōu)化上。由此可見,深度學(xué)習(xí)將會給傳統(tǒng)的流媒體技術(shù)帶來巨大的變革。
音頻分析自然語言處理(NLP)能夠為會議、講座或者其他場合提供自動的現(xiàn)場轉(zhuǎn)錄、翻譯、口譯、字幕以及音頻描述技術(shù)。這將給很多跨國企業(yè),甚至是政府部門在發(fā)布會或者其他交流場合提供多語言的技術(shù)支持。
另外,自然語言處理可以實現(xiàn)社交媒體監(jiān)控。通過監(jiān)控在線對話和情緒分析,可以實時跟蹤觀眾反應(yīng)。這將有助于商家及時調(diào)整內(nèi)容,從而滿足觀眾的喜好。同時,自然語言算法將會從數(shù)據(jù)中捕獲重要話題和關(guān)鍵詞,然后通過編譯截屏和高亮剪輯等方式達(dá)到營銷的目的,也可自動上傳到社交媒體上。而在網(wǎng)絡(luò)直播領(lǐng)域,音頻檢測也可以起到督查監(jiān)控的作用。通過自然語言算法,可以自動分析檢測音頻內(nèi)容,從而實時監(jiān)控直播狀態(tài),及時關(guān)閉低俗內(nèi)容。
視頻分析和數(shù)據(jù)提取隨著越來越多的公司參與到流媒體服務(wù)中,視頻生成的數(shù)據(jù)量正以指數(shù)級增長。從這些數(shù)據(jù)中獲得的信息將會遠(yuǎn)遠(yuǎn)超過人類手動提取的信息。人工智能將通過對視頻的分析處理,生成標(biāo)簽、類別和描述,自動提取視頻中的數(shù)據(jù)。這將有利于視頻內(nèi)容的分析、理解和管理,從而實現(xiàn)智能化的廣告投放等業(yè)務(wù)。
另外,對于城市的交通、安保來說,視頻大數(shù)據(jù)分析承擔(dān)了重要的作用。例如阿里云在杭州打造的城市大腦,通過對道路視頻的分析檢測,智能實時地改變紅綠燈的策略,大大改善了交通狀況。而在這個過程中,我們需要在復(fù)雜環(huán)境下對人、車、物的多重特征的信息提取,讓計算機(jī)“看到”并且“領(lǐng)會”視頻中的信息,這將是人工智能給我們帶來的巨大改變。
總結(jié)對于流媒體行業(yè)來說,人工智能將會是一個十分強(qiáng)大的工具。目前,在流媒體服務(wù)中人工智能的作用初步得到體現(xiàn),還有很大的空間值得我們?nèi)ラ_發(fā)。從以上談及的一些例子中我們可以看出,人工智能可以大幅提升流媒體服務(wù)的吸引力和效率,同時也大大節(jié)省了從生產(chǎn)到發(fā)布各個環(huán)節(jié)的成本。人工智能將推動內(nèi)容所有者,媒體生產(chǎn)商和廣告商進(jìn)入一個新的時代,創(chuàng)造出智能而優(yōu)質(zhì)的視頻內(nèi)容。