當(dāng)前位置：首頁(yè) > 智能硬件 > 人工智能AI

谷歌首席科學(xué)家李飛飛：“AI超越 ImageNet 的視覺智能”

時(shí)間：2020-07-13 15:51:02

關(guān)鍵字： AI

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 說起人工智能，孕育了卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法的 ImageNet 挑戰(zhàn)賽恐怕是世界上最著名的 AI 數(shù)據(jù)集。8 年來，在 ImageNet 數(shù)據(jù)集的訓(xùn)練下，人工智能對(duì)于圖像識(shí)別的準(zhǔn)確度整整提高

說起人工智能，孕育了卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法的 ImageNet 挑戰(zhàn)賽恐怕是世界上最著名的 AI 數(shù)據(jù)集。8 年來，在 ImageNet 數(shù)據(jù)集的訓(xùn)練下，人工智能對(duì)于圖像識(shí)別的準(zhǔn)確度整整提高了 10 倍，甚至超越了人類視覺本身。

然而，AI 領(lǐng)域的科學(xué)家們并沒有停下前進(jìn)的腳步。上個(gè)周末，人工智能領(lǐng)域最卓越的科學(xué)家之一：斯坦福大學(xué)終身教授、谷歌云首席科學(xué)家李飛飛在未來論壇年會(huì)上，為我們做了一場(chǎng)名為“超越 ImageNet 的視覺智能”的精彩演講。她告訴我們，AI 不僅僅能夠精準(zhǔn)辨認(rèn)物體，還能夠理解圖片內(nèi)容、甚至能根據(jù)一張圖片寫一小段文章，還能“看懂”視頻……

我們都知道，地球上有很多種動(dòng)物，這其中的絕大多數(shù)都有眼睛，這告訴我們視覺是最為重要的一種感覺和認(rèn)知方式。它對(duì)動(dòng)物的生存和發(fā)展至關(guān)重要。

所以無論我們?cè)谟懻搫?dòng)物智能還是機(jī)器智能，視覺是非常重要的基石。世界上所存在的這些系統(tǒng)當(dāng)中，我們目前了解最深入的是人類的視覺系統(tǒng)。從 5 億多年前寒武紀(jì)大爆發(fā)開始，我們的視覺系統(tǒng)就不斷地進(jìn)化發(fā)展，這一重要的過程得以讓我們理解這個(gè)世界。而且視覺系統(tǒng)是我們大腦當(dāng)中最為復(fù)雜的系統(tǒng)，大腦中負(fù)責(zé)視覺加工的皮層占所有皮層的 50％，這告訴我們，人類的視覺系統(tǒng)非常了不起。

寒武紀(jì)物種大爆發(fā)

一位認(rèn)知心理學(xué)家做過一個(gè)非常著名的實(shí)驗(yàn)，這個(gè)實(shí)驗(yàn)?zāi)芨嬖V大家，人類的視覺體系有多么了不起。大家看一下這個(gè)視頻，你的任務(wù)是如果看到一個(gè)人的話就舉手。每張圖呈現(xiàn)的時(shí)間是非常短的，也就是 1／10 秒。不僅這樣，如果讓大家去尋找一個(gè)人，你并不知道對(duì)方是什么樣的人，或者 TA 站在哪里，用什么樣的姿勢(shì)，穿什么樣的衣服，然而你仍然能快速準(zhǔn)確地識(shí)別出這個(gè)人。

1996 年的時(shí)候，法國(guó)著名的心理學(xué)家、神經(jīng)科學(xué)家 Simon J． Thorpe 的論文證明出視覺認(rèn)知能力是人類大腦當(dāng)中最為了不起的能力，因?yàn)樗乃俣确浅？?，大概?150 毫秒。在 150 毫秒之內(nèi)，我們的大腦能夠把非常復(fù)雜的含動(dòng)物和不含動(dòng)物的圖像區(qū)別出來。那個(gè)時(shí)候計(jì)算機(jī)與人類存在天壤之別，這激勵(lì)著計(jì)算機(jī)科學(xué)家，他們希望解決的最為基本的問題就是圖像識(shí)別問題。

在 ImageNet 之外，在單純的物體識(shí)別之外，我們還能做些什么？

過了 20 年到現(xiàn)在，計(jì)算機(jī)領(lǐng)域內(nèi)的專家們也針對(duì)物體識(shí)別發(fā)明了幾代技術(shù)，這個(gè)就是眾所周知的 ImageNet。我們?cè)趫D像識(shí)別領(lǐng)域內(nèi)取得了非常大的進(jìn)步：8 年的時(shí)間里，在 ImageNet 挑戰(zhàn)賽中，計(jì)算機(jī)對(duì)圖像分類的錯(cuò)誤率降低了 10 倍。同時(shí)，這 8 年當(dāng)中一項(xiàng)巨大的革命也出現(xiàn)了： 2012 年，卷積神經(jīng)網(wǎng)絡(luò)（convoluTIonary neural network）和 GPU（圖形處理器，Graphic Processing Unit）技術(shù)的出現(xiàn)，對(duì)于計(jì)算機(jī)視覺和人工智能研究來說是個(gè)非常令人激動(dòng)的進(jìn)步。作為科學(xué)家，我也在思考，在 ImageNet 之外，在單純的物體識(shí)別之外，我們還能做些什么？

8年的時(shí)間里，在ImageNet挑戰(zhàn)賽中，計(jì)算機(jī)對(duì)圖像分類的錯(cuò)誤率降低了10倍。

通過一個(gè)例子告訴大家：兩張圖片，都包含一個(gè)動(dòng)物和一個(gè)人，如果只是單純的觀察這兩張圖中出現(xiàn)的事物，這兩張圖是非常相似的，但是他們呈現(xiàn)出來的故事卻是完全不同的。當(dāng)然你肯定不想出現(xiàn)在右邊這張圖的場(chǎng)景當(dāng)中。

這里體現(xiàn)出了一個(gè)非常重要的問題，也就是人類能夠做到的、最為重要、最為基礎(chǔ)的圖像識(shí)別功能——理解圖像中物體之間的關(guān)系。為了模擬人類，在計(jì)算機(jī)的圖像識(shí)別任務(wù)中，輸入的是圖像，計(jì)算機(jī)所輸出的信息包括圖像中的物體、它們所處的位置以及物體之間的關(guān)系。目前我們有一些前期工作，但是絕大多數(shù)由計(jì)算機(jī)所判斷的物體之間的關(guān)系都是十分有限的。

最近我們開始了一項(xiàng)新的研究，我們使用深度學(xué)習(xí)算法和視覺語(yǔ)言模型，讓計(jì)算機(jī)去了解圖像中不同物體之間的關(guān)系。

計(jì)算機(jī)能夠告訴我們不同物體之間的空間關(guān)系，能在物體之間進(jìn)行比較，觀察它們是否對(duì)稱，然后了解他們之間的動(dòng)作，以及他們之間的介詞方位關(guān)系。所以這是一個(gè)更為豐富的方法，去了解我們的視覺世界，而不僅僅是簡(jiǎn)單識(shí)別一堆物體的名稱。

Visual RelaTIonship DetecTIon with Language Priors

更有趣的是，我們甚至可以讓計(jì)算機(jī)實(shí)現(xiàn) Zero short（0 樣本學(xué)習(xí)）對(duì)象關(guān)系識(shí)別。舉個(gè)例子，用一張某人坐在椅子上、消防栓在旁邊的圖片訓(xùn)練算法。然后再拿出另一張圖片，一個(gè)人坐在消防栓上。雖然算法沒見過這張圖片，但能夠表達(dá)出這是“一個(gè)人坐在消防栓上”。類似的，算法能識(shí)別出“一匹馬戴著帽子”，雖然訓(xùn)練集里只有“人騎馬”以及“人戴著帽子”的圖片。

讓 AI 讀懂圖像

在物體識(shí)別問題已經(jīng)很大程度上解決以后，我們的下一個(gè)目標(biāo)是走出物體本身，關(guān)注更為廣泛的對(duì)象之間的關(guān)系、語(yǔ)言等等。

ImageNet 為我們帶來了很多，但是它從圖像中識(shí)別出的信息是非常有限的。COCO 軟件則能夠識(shí)別一個(gè)場(chǎng)景中的多個(gè)物體，并且能夠生成一個(gè)描述場(chǎng)景的短句子。但是視覺信息數(shù)據(jù)遠(yuǎn)不止這些。

經(jīng)過三年的研究，我們發(fā)現(xiàn)了一個(gè)可以有更為豐富的方法來描述這些內(nèi)容，通過不同的標(biāo)簽，描述這些物體，包括他們的性質(zhì)、屬性以及關(guān)系，然后通過這樣的一個(gè)圖譜建立起他們之間的聯(lián)系，我們稱之為 Visual Genome dataset（視覺基因組數(shù)據(jù)集）。這個(gè)數(shù)據(jù)集中包含 10 多萬張圖片，100 多萬種屬性和關(guān)系標(biāo)簽，還有幾百萬個(gè)描述和問答信息。在我們這樣一個(gè)數(shù)據(jù)集中，能夠非常精確地讓我們超越物體識(shí)別，來進(jìn)行更加精確的對(duì)于物體間關(guān)系識(shí)別的研究。

那么我們到底要怎么使用這個(gè)工具呢？場(chǎng)景識(shí)別就是一個(gè)例子：它單獨(dú)來看是一項(xiàng)簡(jiǎn)單的任務(wù)，比如在谷歌里搜索“穿西裝的男人”或者“可愛的小狗”，都能直接得到理想的結(jié)果。但是當(dāng)你搜索“穿西裝的男人抱著可愛的小狗”的時(shí)候，它的表現(xiàn)就變得糟糕了，這種物體間的關(guān)系是一件很難處理的事情。

絕大多數(shù)搜索引擎的這種算法，在搜索圖像的時(shí)候，可能很多還是僅僅使用物體本身的信息，算法只是簡(jiǎn)單地了解這個(gè)圖有什么物體，但是這是不夠的。比如搜索一個(gè)坐在椅子上的男性的圖片，如果我們能把物體之外、場(chǎng)景之內(nèi)的關(guān)系全都包含進(jìn)來，然后再想辦法提取精確的關(guān)系，這個(gè)結(jié)果就會(huì)更好一些。

2015 年的時(shí)候，我們開始去探索這種新的呈現(xiàn)方法，我們可以去輸入非常長(zhǎng)的描述性的段落，放進(jìn) ImageNet 數(shù)據(jù)集中，然后反過來把它和我們的場(chǎng)景圖進(jìn)行對(duì)比，我們通過這種算法能夠幫助我們進(jìn)行很好的搜索，這就遠(yuǎn)遠(yuǎn)地超過了我們?cè)谥暗倪@個(gè)圖像搜索技術(shù)當(dāng)中所看到的結(jié)果。

Google圖片的準(zhǔn)確率已經(jīng)得到了顯著提升

這看起來非常棒，但是大家會(huì)有一個(gè)問題，在哪里能夠找到這些場(chǎng)景圖像呢？構(gòu)建起一個(gè)場(chǎng)景圖是一件非常復(fù)雜并且很困難的事情。目前 Visual Genome 數(shù)據(jù)集中的場(chǎng)景圖都是人工定義的，里面的實(shí)體、結(jié)構(gòu)、實(shí)體間的關(guān)系和到圖像的匹配都是我們?nèi)斯ね瓿傻?，過程挺痛苦的，我們也不希望以后還要對(duì)每一個(gè)場(chǎng)景都做這樣的工作。

所以我們下一步的工作，就是希望能夠出現(xiàn)自動(dòng)地產(chǎn)生場(chǎng)景圖的一個(gè)技術(shù)。所以我們?cè)诮衲晗奶彀l(fā)表的一篇 CVPR 文章中做了這樣一個(gè)自動(dòng)生成場(chǎng)景圖的方案：對(duì)于一張輸入圖像，我們首先得到物體識(shí)別的備選結(jié)果，然后用圖推理算法得到實(shí)體和實(shí)體之間的關(guān)系等等；這個(gè)過程都是自動(dòng)完成的。

Scene Graph GeneraTIon by Iterative Message Passing

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國(guó)游戲市場(chǎng)開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)