如果給 AI 一個(gè)星期的時(shí)間看電視 它都會(huì)看些啥?
電視新聞是大家的一個(gè)重要信息來源,但與數(shù)字化印刷和網(wǎng)上新聞文本相比,對(duì)于電視新聞的研究卻很少。與此同時(shí),深度學(xué)習(xí)發(fā)展到今天我們已經(jīng)有了人工智能算法,不僅可以分析文本,還可以分析語音、圖像甚至視頻。使用谷歌現(xiàn)成的云人工智能算法來“看”一周的互聯(lián)網(wǎng)電視新聞會(huì)是什么樣子?人工智能在看新聞時(shí)能“看到”什么?最重要的是,這種新的非消耗性分析模式能否為打擊網(wǎng)絡(luò)虛假信息、錯(cuò)誤信息、假新聞等提供幫助?
過去10年,互聯(lián)網(wǎng)電視新聞檔案一直在保存著這些年的廣播新聞資料。如今,通過對(duì)近200萬檔節(jié)目的字幕關(guān)鍵字進(jìn)行抓取,讓研究人員和記者得以探究每個(gè)電視臺(tái)在過去10年里是如何報(bào)道重要新聞的。
許多記者像FiveThirtyEight的Dhrumil Mehta和Oliver Roeder,《華盛頓郵報(bào)》的Philip Bump, Vox的Alvin Chang以及其他許多記者都用此來研究電視新聞在過去十年中是如何報(bào)道重大新聞的。與此同時(shí),深度學(xué)習(xí)已經(jīng)成熟到可以通過現(xiàn)成的云人工智能API觀看電視和檢索圖像,以對(duì)其描述的對(duì)象和活動(dòng)進(jìn)行精確分類編輯。好處是,這些人工智能工具不需要任何人工干預(yù),這不僅使這些功能具有無限的可擴(kuò)展性,而且最重要的是無消耗。
如今,機(jī)器學(xué)習(xí)算法經(jīng)常被用來對(duì)書籍進(jìn)行分析,這些算法可以分析書籍的主題以及敘事結(jié)構(gòu)。由于傳統(tǒng)機(jī)器學(xué)習(xí)在對(duì)除文本之外資料的局限性,視頻和圖像等視覺材料長(zhǎng)期以來一直不適合這樣的分析。不過現(xiàn)在,隨著深度學(xué)習(xí)算法的成熟,這種分析現(xiàn)在可以擴(kuò)展到視頻和圖像資料,使機(jī)器能夠觀看數(shù)百萬甚至數(shù)十億小時(shí)的電視節(jié)目,并總結(jié)出其中關(guān)鍵信息,無需自己觀看原始材料。
為了更詳細(xì)地探索這一新技術(shù),互聯(lián)網(wǎng)檔案館的電視新聞檔案館分析了為期一周的電視新聞報(bào)道,從2019年4月15日至4月22日,新聞主體包括CNN、MSNBC和Fox News,以及舊金山KGO (ABC)、KPIX (CBS)、KNTV (NBC)和KQED (PBS)的早晚廣播,總計(jì)812小時(shí)的電視新聞。之所以選中這周是因?yàn)檫@周有兩個(gè)重要新聞,一個(gè)是全國(guó)性的重要新聞,4月18日的通俄門調(diào)查報(bào)告,另一個(gè)是國(guó)際性的新聞,4月15日的巴黎圣母院大火。
每段視頻都使用谷歌的Vision AI API進(jìn)行分析,并啟用了其所有功能,包括識(shí)別每一秒視頻的主題和活動(dòng)、場(chǎng)景變化、OCR文本識(shí)別和對(duì)象跟蹤。然后,視頻被分割成每秒1幀的預(yù)覽縮略圖,并通過谷歌的Vision AI API進(jìn)行分析,以檢驗(yàn)將視頻視為靜止圖像以及拉大圖像之間的距離會(huì)如何影響分析結(jié)果。
雖然Vision AI API支持自動(dòng)生成文本,但在這次探究中,每個(gè)視頻都是使用谷歌的云Speech-to-Text API轉(zhuǎn)錄的,支持120種語言,也為將來其擴(kuò)展到英語電視新聞之外提供了途徑。
最后,使用谷歌的Natural Language API對(duì)站點(diǎn)提供的字幕和自動(dòng)生成的文本進(jìn)行處理,以列出提到的所有主要人員、地點(diǎn)、組織和其他主題。總共分析了近2TB的數(shù)據(jù),產(chǎn)生了615GB的機(jī)器分析。這四個(gè)API代表了當(dāng)前深度學(xué)習(xí)信息分析的四種主要模式:視頻、圖像、語音和文本。
為什么要用深度學(xué)習(xí)技術(shù)來分析電視新聞?
也許比較重要的一點(diǎn)是,因?yàn)樯疃葘W(xué)習(xí)可以幫助打擊錯(cuò)誤信息,虛假信息等誤導(dǎo)信息,還可以超越文本信息,擴(kuò)展到視覺信息領(lǐng)域,我們也可以越來越多地“看到”我們周圍的世界。
電視新聞攝像機(jī)和記者通常是最先出現(xiàn)在重大事件現(xiàn)場(chǎng)的,對(duì)實(shí)時(shí)事件進(jìn)行可靠記錄。通過分析,對(duì)電視新聞的視覺和口頭雙重?cái)⑹逻M(jìn)行量化,將其與這些事件的在線新聞以及社交媒體報(bào)道聯(lián)系起來。比如,一條關(guān)于巴黎圣母院著火的推特可以鏈接到一個(gè)事件現(xiàn)場(chǎng)的視頻。反過來,電視對(duì)于這次火災(zāi)的報(bào)道可以與世界各地的在線報(bào)道相連接,提供一個(gè)全球化視角,進(jìn)一步了解巴黎圣母院對(duì)每個(gè)國(guó)家的人民意味著什么以及巴黎圣母院的歷史背景等。
每個(gè)視頻每隔一秒應(yīng)用谷歌的Vision AI API,可以執(zhí)行相當(dāng)于反向谷歌圖像搜索的功能,以識(shí)別來自整個(gè)網(wǎng)絡(luò)的圖像,選取那些與這些圖像在視覺上最為相似的。反過來,Vision AI API會(huì)在這些類似的圖像的標(biāo)題中選取最熱門的主題并進(jìn)行分析。
因此,雖然谷歌的Vision AI API不執(zhí)行任何類型的面部識(shí)別,但可以將人名和圖片進(jìn)行標(biāo)記,一般網(wǎng)絡(luò)上,相似的圖片會(huì)有一些最常帶有的主題的標(biāo)題。反過來,這種視覺相似性匹配甚至可以用來幫助識(shí)別虛假信息。比如說有一段據(jù)稱是突發(fā)新聞的視頻片段在推特上發(fā)布后,可以立即與實(shí)際電視臺(tái)的視頻進(jìn)行對(duì)比,以確認(rèn)該視頻實(shí)際上是否播出過,以確認(rèn)其真實(shí)性。
未來,我們或許可以設(shè)想一下組織一個(gè)由不同公眾利益相關(guān)者組成的全球聯(lián)盟,共同探索如何以創(chuàng)新的方式利用深度學(xué)習(xí)等技術(shù),打擊虛假信息的傳播。研究人員可以應(yīng)用非消耗分析來研究和研究虛假信息的全球傳播,從識(shí)別虛假信息和偽造事實(shí),到記錄虛假信息如何在媒體之間流動(dòng),再進(jìn)行深度分析。
這個(gè)實(shí)驗(yàn)中,谷歌視頻人工智能、視覺人工智能和Natural Language API在觀看本周來自Internet Archive的電視新聞存檔中的電視新聞時(shí)生成的所有機(jī)器分析都是有價(jià)值的參考材料。這些分析信息大小總計(jì)615GB,為有研究深度學(xué)習(xí)如何識(shí)別信息提供了一個(gè)強(qiáng)大的測(cè)試平臺(tái)。
總之,深度學(xué)習(xí)已經(jīng)成熟到可能讓人工智能自己觀看電視新聞,并且是在沒有任何人工干預(yù)的情況下,以完全非消耗的方式對(duì)其所看到的內(nèi)容進(jìn)行分類。反過來,這些分析可以用來將電視新聞與相關(guān)的在線新聞和社交媒體連接起來,從而多方向地來理解和打擊虛假信息。最重要的是,這種非消耗性分析為全球合作打開了大門,可以把世界各地的利益相關(guān)方聚集在一起,探索數(shù)據(jù)分析的新方法,打擊虛假信息。