谷歌大神Jeff Dean：大規(guī)模深度學習最新進展

時間：2016-03-18 08:51:46

關鍵字： alphago 人工智能谷歌

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 在AlphaGo與李世石比賽期間，谷歌天才工程師Jeff Dean在Google Campus漢城校區(qū)做了一次關于智能計算機系統(tǒng)的大規(guī)模深度學習(Large-Scale Deep Learning for Intelligent Computer Systems)的演講。

在AlphaGo與李世石比賽期間，谷歌天才工程師Jeff Dean在Google Campus漢城校區(qū)做了一次關于智能計算機系統(tǒng)的大規(guī)模深度學習(Large-Scale Deep Learning for Intelligent Computer Systems)的演講。本文是對他這次演講的總結。

如果你無法理解信息里包含的內容，那么就會很難將其組織起來。

自從AlphaGo與李世石的比賽——這是約翰·亨利對戰(zhàn)蒸汽錘的現(xiàn)代版本——吸引了全世界，再次滋生了對「人工智能毀滅世界」的恐懼感，似乎此時一睹Jeff的演講是絕佳時刻。如果你認為AlphaGo現(xiàn)在很好，就等待它的beta版本吧。

Jeff當然提到了谷歌的著名語錄：組織這個世界的信息，使信息唾手可得并變得有用。

過去，我們可能會將「組織」和收集、清除、存儲、索引、報告和搜索數(shù)據聯(lián)系起來。所有這些都是谷歌早期精通的業(yè)務。而這些任務完成后，谷歌已經開始進行下一項挑戰(zhàn)了。

現(xiàn)在，組織意味著理解。

此次演講的一些重點：

真正的神經網絡由幾億個參數(shù)組成。谷歌現(xiàn)在所擁有的技能在于如何建造并快速訓練這些大型模型來處理大量數(shù)據集，并用它們去解決實際問題，之后快速將這些模型部署到不同平臺上的大量產品中(手機、傳感器、云等等)。

神經網絡在90年代沒有得到快速發(fā)展是由于缺乏足夠的計算能力和大型的數(shù)據集。你能看到谷歌對算法的天然熱愛是如何與他們的大量基礎設施結合到一起的，也能看到不斷擴大的數(shù)據集如何為谷歌的人工智能創(chuàng)造了完美的推動。

谷歌和其他公司的一個關鍵區(qū)別就在于，當他們在2011年啟動谷歌大腦計劃時，他們并沒有將他們的研究獨立成該公司一個單獨的研究部門，成為象牙塔一般的存在。而是項目團隊和其他團隊緊密合作，比如安卓、Gmail 和photo等部門，以確實改進它們的特性，解決困難的問題。這對每一家公司來說都是非常珍貴的一刻。通過和你的人一起工作將研究進行實際應用。

這一想法十分強大：他們知道他們能夠獲取完整的子系統(tǒng)，有些可能是機器學習到的，用更加通用的端對端的機器學習塊進行替換。通常當你有很多復雜的子系統(tǒng)時，總會有很多復雜的代碼將這些系統(tǒng)拼接起來。如果能夠用數(shù)據和非常簡單的算法將這一切進行替換的話就再好不過了。

機器學習很快將會變得更好。引用Jeff的話說：機器學習領域的發(fā)展非?？臁Ｒ黄撐陌l(fā)布出來，一周內全球眾多研究團體會下載這篇論文，閱讀、解析論文，驗證論文的內容，然后把自己對論文的延展發(fā)布到arXiv.org上。這與計算機學的其他領域不同，他們首先需要提交文件，而后六個月會議討論決定是否接收，再過三個月會議上才會有結果。這就耗費了一年時間。電子論文能把這個時間壓縮到一周是非常驚人的。

技術能夠非常神奇的結合起來。谷歌翻譯團隊寫了一個APP，能夠使用計算機視覺在取景器上識別文本。在翻譯完文本后，可以把翻譯后的內容自動添加到圖片上。另外一個例子是寫圖片字幕。把圖片識別和一序列一序列的神經網絡結合起來?？梢韵胂?，這些模塊化的內容在未來將何等緊密的結合起來。

有強大功能的模型要小到足以在智能手機上運行?？萍枷胍肴〈橇Ρ仨氉叩竭@一步。它不能依靠網絡連接外部的「云大腦」。既然TensorFlow模型能夠在手機上運行，那這一點是有可能實現(xiàn)的。

如果你還沒有思考深度神經網絡如何解決數(shù)據理解問題，那你就要開始思考了。這條起始線從現(xiàn)在開始，但它的實現(xiàn)是非常明了的，我們看到了很多難題在深度學習網絡面前都迎刃而解。

Jeff 發(fā)表的講話都非常的棒，這次毫不例外。內容非常直接有趣，有深度，還非常容易理解。如果你想了解深度學習或了解Googel打算做什么，這些內容就值得一看了。

理解意味著什么?

當一個人看到街道景象時，他能輕而易舉地挑選出圖片上的文本，了解到有的商店賣紀念品，有家店價格特別低等信息。但直到現(xiàn)在，計算機依然不能從圖片中提取出這些信息。

如果計算機想要從圖片中了解現(xiàn)實世界，它需要能夠從中挑選出有趣的信息點，閱讀文本并理解它。

在未來，小型移動設備將主宰著計算機交互。這些設備都需要不同類型的界面。需要真的能夠理解并生成對話。

我們在搜索引擎中輸入：[汽車零部件]。舊的谷歌版本會因為關鍵詞匹配給你第一條結果，但更好的結果其實是第二個結果。真正的理解是這個問題深層次的意義是什么，并非字眼的表面意義。這才是構建好的搜索與語言理解產品所需要的。

谷歌深度神經網絡小歷史

谷歌大腦計劃于2011年啟動，聚焦于真正推動神經網絡科學能達到的最先進的技術。

神經網絡已經存在很多年了，出現(xiàn)于19世紀60年代至70年代之間，在80年代晚期和90年代早期紅極一時，然后逐漸暗淡。主要因為兩個問題：1)缺乏必備的計算能力去訓練大量的模型，這意味著神經網絡不能應用于包含大量有趣的數(shù)據集的大型問題。2)缺乏大量的有趣的數(shù)據集。

谷歌開始只有幾個產品團隊工作。隨著這些團隊發(fā)布一些很好的、能解決以前不能解決的問題的產品。名聲漸起，很快，更多的團隊加入其中幫助解決問題。

谷歌需要利用深度學習技術的產品/領域：安卓，Apps，藥物發(fā)現(xiàn)，谷歌郵箱，圖像理解，地圖，自然語言，圖片，機器人，語音翻譯，等等。

深度學習能應用于如此完全不同的項目的原因是他們涉及相同的基石，這些基石可用于不同的領域：語音、文本、搜索查詢、圖像、視頻、標簽、實體(一種特定的軟件模塊)、文字、音頻特性。你可以輸入一種類型的信息，決定你想要輸出信息類型，收集訓練數(shù)據集指示出你想要計算的功能。然后，你可以放手不管了。

這些模型十分奏效，因為你輸入的是非常原始的數(shù)據。你不必給出數(shù)據大量的有趣特點，模型的力量足以讓它自動地通過觀察許多許多例子決定數(shù)據集的有趣之處。

你可以學習常見的表征，這種學習很可能是跨領域的。例如，一輛『汽車』可以指圖像中與真實相同的汽車。

他們已經學到他們可以聚集一大堆的子系統(tǒng)，其中一些可能是由機器學習的，然后用更通用的端對端的機器學習塊代替它。通常當你有很多復雜的子系統(tǒng)時，往往有大量復雜的代碼將這些子系統(tǒng)縫結在一起。如果你能用數(shù)據和簡單的算法代替所有復雜代碼，那就太好了。

什么是單個深度神經網絡?

神經網絡從數(shù)據中學習真正復雜的函數(shù)。從一端輸入內容轉換成另一端的輸出內容。

這一函數(shù)不像計算x2，而是真正復雜的函數(shù)。當你輸入原始像素，比如一只貓是，輸出結果就會是事物的類別。

深度學習中的「深度」是指神經網絡的層的數(shù)量。

對于深度，一個好的屬性是系統(tǒng)是由簡單的可訓練的數(shù)學函數(shù)的集合構成的。

深度神經網絡與大量機器學習方式是兼容的。

例如，你輸入貓的圖片，輸出的是一張人為標注為貓的圖像，這叫作監(jiān)督式學習。你可以給系統(tǒng)列舉大量的監(jiān)督式樣例，并且將學習結合一個函數(shù)，這個函數(shù)與在監(jiān)督式例子所描述的是相似的。

你也可以進行非監(jiān)督式訓練，你只得到圖像而不知道圖像里面的什么。然后系統(tǒng)可以依靠在眾多圖片中出現(xiàn)的模式學會挑選。所以，即使不知道圖像叫作什么，它也可以在所有這些有貓的圖形辨別出共同的事物來。

這也和更多像強化學習這樣的外來技術是兼容的。強化學習是非常重要的技術，它正在被AlphaGo使用。

什么是深度學習?

神經網絡模型可以說是基于我們所認識的大腦運作的方式，它并不是對神經元真正工作的詳細模擬，而是一個簡單抽象的神經元版本。

一個神經元能夠接收許多輸入信息，真實的神經元會將不同的優(yōu)勢(strengths)與不同的輸入相聯(lián)系。人工智能網絡試著學習為所有那些邊緣，亦即與這些不同輸入關聯(lián)的優(yōu)勢進行加權。

真實的神經元吸收一些輸入與優(yōu)勢的組合，并決定是否發(fā)出一個脈沖。人工神經元不僅僅會發(fā)出脈沖，還會發(fā)出一個實數(shù)值。這些神經元計算的函數(shù)是輸入的加權求和乘以非線性函數(shù)的權重。

現(xiàn)今通常所用的非線性函數(shù)是ReLU(max(0,x))。在上世紀九十年代，大部分非線性函數(shù)都是更加平滑 (https://www.quora.com/What-is-special-about-rectifier-neural-units-used-in-NN-learning)的 sigmoid或tanh函數(shù)。當神經元不放電的時候會取真正的零值，而不是非常接近零的數(shù)值的優(yōu)秀特性，從而幫助優(yōu)化系統(tǒng)。

例如，如果神經元有著三個輸入X1，X2，X3，分別有著0.21,0.3,0.7的權重，那么計算函數(shù)將為：y = max(0, -.0.21*x1 + 0.3*x2 + 0.7*x3)。

在識別圖片里是一只貓還是一只狗的過程中，圖像會經過多層級處理，基于它們的輸入神經元可以決定是否發(fā)射脈沖。

最底層的神經元只處理一小部分像素，更高層的神經元則會處理下層神經元的輸出并決定是否發(fā)射脈沖。

模型會如此向上直至最后一層處理完畢，舉個例子，這是一只貓。在這種情況下它錯了，這是一只狗(盡管我也認為那是一只貓，那是一只在籃子里的狗嗎?)。

輸出錯誤的信號會反饋回系統(tǒng)中，接著其余模型會做出調整以讓它在下一次處理圖片時更有可能給出正確的答案。

調整整個模型所有的邊緣權重以增大獲得正確結果的可能性，這就是神經網絡的目標。人們在所有的樣本都如此處理，這樣在大部分的樣本中都會得到正確的輸出。

學習算法非常簡單。循環(huán)計算步驟如下：

隨機選擇一個訓練樣本「(輸入，標簽)」。例如，一張貓的圖片，以及預期輸出「貓」。

用「輸入」運行神經網絡，并觀察它的結果。

調整邊緣權重，讓輸出更接近與標簽」。

該如何調整邊緣權重以讓輸出接近標簽呢?

反向傳播法：這里是一篇針對此的推薦文章：Calculus on Computational Graphs: Backpropagation (http://colah.github.io/posts/2015-08-Backprop/)。

當神經網頂層選擇的是貓而不是狗的時候，通過微積分鏈式法則來調整權重參數(shù)使得網絡可以做更準確的預測。

你需要和權重的箭頭保持同一方向，讓它更有可能認為這是一只狗。不要跳一大步，因為這可是一個復雜坎坷的表面。小步前進會讓結果在下一次更有可能變成狗。通過大量迭代以及對樣本的觀察，結果就越有可能變成狗。

通過鏈式法則你可以理解底層的參數(shù)變化會如何影響輸出。這意味著神經網絡網絡的變化如同漣漪般波及至輸入，調整整個模型，并增大它說出狗的可能性。

真的神經網絡由數(shù)以億計參數(shù)組成，因此你正在一個億維空間內做調整，并試著理解那是怎樣影響網絡輸出結果的。

神經網絡的很多優(yōu)秀特性

神經網絡可以運用到多個不同領域，用來解決不同的問題：

文本：英語和其他語言包含數(shù)萬億的單詞?，F(xiàn)有很多對應的文字資料，包含句與句對應的一種源語言文字與其翻譯版的另一種語言文字。

視覺數(shù)據：數(shù)十億的圖像和視頻。

聲音：每天會產生幾萬小時的音頻數(shù)據;

用戶行為：不同的應用程序都在產生數(shù)據，無論你在搜索引擎敲下的字符還是在郵箱里標記的垃圾郵件，這些用戶行為里可以不斷被學習，并用來給你「定制」智能系統(tǒng)。

知識圖譜：數(shù)十億打標簽的RDF triple數(shù)據。

你給的數(shù)據越多，其反饋的結果越好，你也會讓這個模型更大。

如果你投入更多的數(shù)據卻不去擴大你的模型，會進入一個模型能力的飽和狀態(tài)，此時，模型學習到的只是關于你的數(shù)據集最顯而易見的事實。

通過增加模型的規(guī)模，模型不僅可以記住一些明顯的特征，還會記住一些只是偶然在數(shù)據集中出現(xiàn)的細微特征。

打造更大的模型需要更多數(shù)據和更強大的計算能力。谷歌一直在做的就是如何規(guī)模化計算量并投入到這些問題的解決中，從而訓練更大的模型。

深度學習給谷歌帶來哪些影響?

語音識別

語音識別團隊第一個和谷歌大腦團隊合作部署神經網絡。在谷歌大腦團隊幫助下，部署上線了一個新的、基于神經網絡的語音模型，不再使用之前的隱馬爾科夫模型。

聲學模型的問題是從150毫秒的語音里預測其中10毫秒的聲音是什么。類似與「ba」還是「ka」。接著你有了這些預測的完整序列，然后將它們和語言模型對接起來，以理解用戶在說什么。

這個模型將識別錯誤率降低了30%，意義非常重大。此后語音團隊繼續(xù)在構建更加復雜的模型，并結合更好的神經網絡降低錯誤率?，F(xiàn)在你在手機上說話，語音識別已經比三到五年前好太多了。

Image 挑戰(zhàn)賽

大約六年前， ImageNet的數(shù)據庫公開，大約有100萬圖像數(shù)據，這個巨大的圖像數(shù)據庫對于推進計算機視覺的發(fā)展意義重大。

圖像被分為1000個不同種類，每個種類大約1000張照片;

大約有1000張不同的豹子照片、1000張不同的汽車、滑板車照片等等;

其中有個復雜的因素：并非所有的標簽都是正確的;

比賽的目標是概括出照片的新的類型。對于一張新照片，你能判斷出來上面是獵豹還是櫻桃嗎?

在神經網絡運用到比賽之前，這項比賽的錯誤率為26℅。2014年，谷歌贏得比賽時的錯誤率為6.66%。2015年的時候，獲勝團隊的錯誤率降低到3.46%。

這是一個巨大而且有深度的模型。每個盒子都布滿了完整層級的神經元，它們正在進行卷積運算，關于這方面的詳細情況，可以查看這篇論文《Going Deeper with Convolutions》

一個名叫 Andrej Karpathy 的人也參與了比賽，他的錯誤率是5.1%，他后來還寫了篇文章《What I learned from competing against a ConvNet on ImageNet.》

神經網絡模型擅長什么?

神經網絡模型非常擅長識別精細程度的差別。比如，計算機擅長辨別人類不善于分辨的犬種。人類可能看到一朵花就只知道那是一朵花，計算機可以分辨那是一朵「芙蓉」或是一朵「大麗花」。

神經網絡模型擅長歸納。比如不同種類的飯菜，盡管看起來不一樣，但都會被標記為「飯菜」。

當計算機出錯時，錯誤的原因是合理的。比如一只蛞蝓看起來很像一條蛇。

谷歌照片搜索

檢查照片的像素并理解圖像中的內容，這是個很強大的能力。

Google Photos 團隊在沒有標記它們的情況下部署了這一能力。你可以在沒有標記圖片的情況下搜索到雕像、尤達、圖畫、水等圖片。

街景影像

在街景影像中，你希望可以閱讀到所有的文本。這是更為精細更為具體的視覺任務。

首先需要能夠找到圖像中的文本。模型基本上都是被訓練用來預測像素熱圖的：哪些像素包含文本，哪些不包含。訓練數(shù)據是繪制于文本像素周圍的多邊形。

因為訓練數(shù)據包含不同的字符集，它可以找到多種不同語言的文本。它可以識別大字體和小字體，離鏡頭近的和離得很遠的文字，以及不同顏色的文本。

這是一個訓練相對簡單的模型。這是一個試圖預測每個像素是否包含文本的傳統(tǒng)的網絡。

谷歌搜索排名的RankBrain

RankBrain于2015年推出，是谷歌第三重要的搜索排名因素。了解更多：谷歌將其利潤豐厚的網絡搜索交給人工智能機器。

搜索排名是不同的，因為你想要能夠理解該模型，你想理解為什么它會做出特定的決策。

這是搜索排名團隊猶豫在搜索排名中使用神經網絡的一個原因。當系統(tǒng)出錯時，他們希望了解什么會這樣。

調試工具已被制造出來，而且模型也能被充分地理解，以克服這種異議。

一般來說你不想手動調整參數(shù)。你嘗試理解為什么模型會做出那樣的預測并搞清楚是否與訓練數(shù)據相關，是與問題不匹配嗎?你可能在一個分布式數(shù)據上進行訓練，然后將其應用于另一個。通過搜索查詢的分布，模型每天都能獲得一點改變。因為事件在改變，模型也一直在改變。你必須了解你的分布是否是穩(wěn)定的，比如在語音識別中，人們的聲音并不會發(fā)生太大改變。查詢和文檔內容經常在改變，所以你必須確保你的模型是新鮮的。更一般地，我們需要打造更好的用于理解這些神經網絡內部狀況的工具，搞清楚是什么得出了預測。

序列至序列(Sequence-to-Sequence)映射模型

世界上許多問題都可歸入到一個序列映射到另一個序列的框架中。谷歌的Sutskever、Vinyals 和 Le 在這個主題上寫了一篇開關性的論文：使用神經網絡的序列到序列學習 (http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf)。

特別地，他們研究了語言翻譯，將英語翻譯成法語中的問題。翻譯事實上只是將英語句子序列映射到法語句子序列。

神經網絡非常擅長學習非常復雜的功能，所以這個模型學習了映射英語句子到法語句子的功能。

一種語言的一個句子通過EOS(end of sentence)信號一次輸入一個詞。當模型看到EOS 開始產出其它語言對應的句子時，模型就得到了訓練。訓練數(shù)據是具有同樣含義的不同語言中的配對句子。它只是試圖該函數(shù)建模。

模型會在每一步發(fā)出你的詞匯中所有詞條輸入的概率分布。在推理而不是訓練時間，你需要做一點搜索。如果你必須最大化每個詞的概率，你并不一定會得到最可能的句子。直到找到最大可能的句子，聯(lián)合概率的搜索才完成。

該系統(tǒng)是現(xiàn)在公共翻譯服務中最先進的。其它翻譯系統(tǒng)是一堆手寫的代碼或這個翻譯問題的子塊的機器學習模型，而非完全的端到端學習系統(tǒng)。

人們對這一模型的興趣在暴增，因為很多問題都可被映射到序列到序列的方法。

智能回復(Smart Reply)

Smart Reply是序列到序列在產品中的一個應用案例。在手機上，你希望快速回復郵件，而打字又讓人痛苦。

和 Gmail 團隊合作，他們開發(fā)了一個能預測一條信息可能的回復的系統(tǒng)。

第一步是訓練一個小模型以預測一條信息是否是可以快速回復的信息。如果是，就會激活一個更大的計算上更昂貴的模型;該模型將該信息作為一個序列，并嘗試預測回復的單詞序列。

比如，對于一封詢問感恩節(jié)邀請的電子郵件，可預測到的回復有三個：把我們算上;我們會去;抱歉我們去不了。

Inbox 應用中驚人數(shù)量的回復都是通過 Smart Reply 生成的。

圖片說明

生成一張圖片說明時，你會試著讓機器盡可能寫出類似人類基于圖片會做出的說明。

采用已經開發(fā)出來的圖片模型，以及已經研發(fā)出來的Sequence-to-Sequence模型，把它們插在一起。圖片模型被用作輸入。

它被訓練用來生成說明。訓練數(shù)據集擁有五種不同的人給出的五種不同說明的圖片。10萬到20萬的圖片需要寫70萬句的說明。

一張嬰兒懷抱泰迪熊的圖片，電腦這么寫的：一個抱著填充玩具動物孩子的特寫;一個嬰兒在泰迪熊旁邊睡著了。

還沒有達到人類理解水平，但機器出錯時，結果可能會有趣。

綜合視覺+翻譯

技術能夠綜合起來。翻譯團隊編寫了使用了在取景器中識別文本的計算機視覺APP。翻譯文本，然后給圖片疊加翻譯文本(讓人印象非常深刻，約37;29)。

模型足夠小，整個計算都在設備上運行。

迭代(turnaround)時間和對研究的影響

在一天內完成單個CPU花費6周才能完成的訓練

谷歌真的關心能夠快速迭代研究。它的想法是快速的訓練模型。理解什么運行良好，什么運行欠佳，找出下一組要運行的實驗。

一個模型應該在在幾分鐘幾小時內就能可訓練，而不是幾天甚至幾個禮拜。讓每個做這類研究的人更加富有生產力。

如何快速訓練模型?

模型的并行性

一個神經網絡有許多內在的并行性。

所有不同的個體神經元幾乎都是彼此獨立的，當你計算它們時，特別是，加入你有Local Receptive Fields，這是一個神經元從其下方少量神經元那里接受輸入的地方。

能夠跨越不同GPU卡上的不同機器對工作進行劃分，只有跨越邊界的數(shù)據才需要交流。

數(shù)據的并行性

當你對模型的參數(shù)集進行優(yōu)化時，不應該在中央服務的一臺機器上進行，這樣你就有不同的模型副本，通過它們之間的合作來進行參數(shù)優(yōu)化。

在訓練中理解不同的隨機數(shù)據片段。每一個副本都會獲得模型中當前的參數(shù)集，通過對相當規(guī)模數(shù)據的理解來判斷出梯度，找出需要對參數(shù)所作的調整，并且將調整值發(fā)回至中央參數(shù)集服務器。參數(shù)服務器會對參數(shù)進行調整。不斷重復這個過程。

這會在多個副本之間完成。有時他們會使用500臺機器來生成500個模型副本，以便迅速實現(xiàn)參數(shù)的優(yōu)化和處理數(shù)據。

這個過程可以異步進行，每個數(shù)據分任務在各自獨自的循環(huán)運算中，獲取參數(shù)，計算梯度并將它們傳回，不會受到其他彼此的控制和同步。結果是，按照50-100的副本規(guī)模進行練習，對許多模型來說是可行的。

Q&A

如果不是諸如谷歌這樣的大公司，無法獲取海量數(shù)據集，你會怎么做?從一個運行良好的模型開始，用公共數(shù)據集進行訓練。公共數(shù)據集普遍可以獲取。然后用更加適合你問題的數(shù)據進行訓練。當你從一個類似并且公開可獲取的數(shù)據組開始時，針對你的特殊問題，可能只需要1,000或者10,000標簽實例。ImageNet就是這種處理可行的好例子。

身為一個工程師，你所犯過的最大錯誤是什么?沒有在BigTable里放入分布式事務處理能力。如果你想要更新多條數(shù)據，你不得不運作你自己的事務處理流程。沒有放入事務處理能力是因為會增加系統(tǒng)設計的復雜度?；叵肫饋恚軐F隊想要有那種能力，他們各自獨立(在上層)去添加這個能力，也獲得了不同程度成功。我們應該在核心系統(tǒng)實現(xiàn)事務處理能力。它在內部應用場景也會很有用。Spanner系統(tǒng)增加了事務處理搞定了這個問題。