當(dāng)前位置：首頁(yè) > 芯聞號(hào) > 充電吧

深度學(xué)習(xí)的發(fā)展，與由此引發(fā)的氣候變化問(wèn)題

時(shí)間：2020-07-10 16:42:01

關(guān)鍵字： AI 氣候變化深度學(xué)習(xí)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]人腦是一種效率極高的智能來(lái)源，但目前的AI還達(dá)不到這樣的水平。本月早些時(shí)候，OpenAI宣布已經(jīng)構(gòu)建起有史以來(lái)規(guī)模最大的AI模型。這套驚人的模型名為GPT-3，已經(jīng)成為令人印象深刻的偉大技術(shù)成就。但

人腦是一種效率極高的智能來(lái)源，但目前的AI還達(dá)不到這樣的水平。

本月早些時(shí)候，OpenAI宣布已經(jīng)構(gòu)建起有史以來(lái)規(guī)模最大的AI模型。這套驚人的模型名為GPT-3，已經(jīng)成為令人印象深刻的偉大技術(shù)成就。但在這輝煌的背后，也凸顯出人工智能領(lǐng)域一種令人擔(dān)憂的負(fù)面趨勢(shì)—;—;更可怕的是，主流輿論對(duì)此尚未給予足夠的關(guān)注。

現(xiàn)代AI模型需要消耗大量電力，而且對(duì)電力的需求正以驚人的速度增長(zhǎng)。在深度學(xué)習(xí)時(shí)代，構(gòu)建一流AI模型所需要的計(jì)算資源平均每3.4個(gè)月翻一番;換句話說(shuō)，從2012年到2018年間，AI計(jì)算資源消耗量增長(zhǎng)了30萬(wàn)倍。而GPT-3，只是這股潮流的最新體現(xiàn)。

總而言之，AI技術(shù)帶來(lái)的碳排放已經(jīng)不容忽視；如果行業(yè)趨勢(shì)繼續(xù)下去，那么情況將很快失去控制。除非我們?cè)敢庵匦略u(píng)估并改革當(dāng)今的AI研究議程，否則人工智能領(lǐng)域很可能在不久的未來(lái)成為引發(fā)氣候變化的罪魁禍?zhǔn)住?/p>

更大并不一定更好

在當(dāng)今以深度學(xué)習(xí)為中心的研究范式當(dāng)中，人工智能的主要進(jìn)步主要依賴于模型的規(guī)?；瘮U(kuò)展：數(shù)據(jù)集更大、模型更大、計(jì)算資源更大。

GPT-3就很好地說(shuō)明了這種現(xiàn)象。這套模型中包含多達(dá)1750億個(gè)參數(shù)。為了幫助大家更直觀地理解這個(gè)數(shù)字，其前身GPT-2模型(在去年發(fā)布時(shí)，同樣創(chuàng)下了體量層面的紀(jì)錄)只有15億個(gè)參數(shù)。去年的GPT-2在擁有千萬(wàn)億次算力的設(shè)備上訓(xùn)練了幾十天;相比之下，GPT-3的訓(xùn)練時(shí)長(zhǎng)將增長(zhǎng)至數(shù)千天。

這種靠“每況愈大”模型推動(dòng)AI技術(shù)進(jìn)步的問(wèn)題在于，這類模型的構(gòu)建與部署都需要消耗大量能源，并由此產(chǎn)生巨量碳排放。

在2019年的一項(xiàng)廣泛研究當(dāng)中，由Emma Strubell牽頭的一組研究人員估計(jì)，訓(xùn)練一套深度學(xué)習(xí)模型可能產(chǎn)生高達(dá)62萬(wàn)6155磅的二氧化碳排放量—;—;大約相當(dāng)于五輛汽車從出廠到報(bào)廢的總二氧化碳排放規(guī)模。如果這還不夠直觀，那么每個(gè)美國(guó)人每年平均產(chǎn)生3萬(wàn)6156磅二氧化碳排放量。

可以肯定的是，這項(xiàng)估算主要針對(duì)那些高度依賴于能源的模型。畢竟結(jié)合當(dāng)前現(xiàn)實(shí)，機(jī)器學(xué)習(xí)模型的平均訓(xùn)練過(guò)程絕不至于產(chǎn)生60多萬(wàn)磅二氧化碳。

同樣值得注意的是，在進(jìn)行這項(xiàng)分析時(shí)，GPT-2仍然是研究領(lǐng)域規(guī)模最大的模型，研究人員也將其視為深度學(xué)習(xí)模型的極限。但僅僅一年之后，GPT-2就成了“纖細(xì)瘦小”的代名詞，下代模型的體量超過(guò)其百倍。

為什么機(jī)器學(xué)習(xí)模型會(huì)消耗那么多能源?

最重要的原因，就是訓(xùn)練這些模型的數(shù)據(jù)集本身也在快速增肥。在使用包含30億個(gè)單詞的數(shù)據(jù)集進(jìn)行訓(xùn)練之后，BERT模型在2018年實(shí)現(xiàn)了同類最佳的自然語(yǔ)言處理(NLP)性能。而在利用包含320億個(gè)單詞的訓(xùn)練集完成訓(xùn)練之后，XLNet又超越了BERT。不久之后，GPT-2開始在包含400億個(gè)單詞的數(shù)據(jù)集上接受訓(xùn)練。最終是我們前面提到的GPT-3，它使用的是一套包含約5000億個(gè)單詞的加權(quán)數(shù)據(jù)集。

在訓(xùn)練過(guò)程中，神經(jīng)網(wǎng)絡(luò)需要為每一條數(shù)據(jù)執(zhí)行一整套冗長(zhǎng)的數(shù)學(xué)運(yùn)算(正向傳播與反向傳播)，并以復(fù)雜的方式更新模型參數(shù)。因此，數(shù)據(jù)集規(guī)模越大，與之對(duì)應(yīng)的算力與能源需求也在飛速增長(zhǎng)。

導(dǎo)致AI模型大量消耗能源的另一個(gè)理由，在于模型開發(fā)過(guò)程中所需要的大量實(shí)驗(yàn)與調(diào)整。目前，機(jī)器學(xué)習(xí)在很大程度上仍是一個(gè)反復(fù)實(shí)驗(yàn)試錯(cuò)的流程。從業(yè)人員通常會(huì)在訓(xùn)練過(guò)程中為當(dāng)前模型構(gòu)建數(shù)百個(gè)版本，并通過(guò)不斷嘗試各類神經(jīng)架構(gòu)與超參數(shù)確定最佳設(shè)計(jì)方案。

之前提到的2019年論文中還包含一項(xiàng)案例研究，研究人員們選擇了一個(gè)體量適中的模型(顯然要比GPT-3這樣的龐然大物小得多)，并對(duì)訓(xùn)練其最終版本所需要的電力、以及生產(chǎn)最終版本所需要的試運(yùn)行總量進(jìn)行了統(tǒng)計(jì)。

在為期六個(gè)月的過(guò)程中，研究人員共訓(xùn)練了該模型的4789個(gè)不同版本，折合單GPU運(yùn)行時(shí)長(zhǎng)為9998天(超過(guò)27年)?？紤]到所有因素，研究人員們估計(jì)，該模型的構(gòu)建過(guò)程將產(chǎn)生約7萬(wàn)8000磅二氧化碳，超過(guò)美國(guó)成年人兩年的平均二氧化碳排放量。

而到這里，我們討論的還僅僅是機(jī)器學(xué)習(xí)模型的訓(xùn)練部分。而訓(xùn)練只能算是模型生命周期的開始;在訓(xùn)練完成之后，我們還需要在現(xiàn)實(shí)環(huán)境中使用這些模型。

在現(xiàn)實(shí)環(huán)境中部署并運(yùn)行AI模型(即推理過(guò)程)，所帶來(lái)的能源消耗量甚至高于訓(xùn)練過(guò)程。實(shí)際上，英偉達(dá)公司估計(jì)，神經(jīng)網(wǎng)絡(luò)全部算力成本中的80%到90%來(lái)自推理階段，而非訓(xùn)練階段。

例如，我們可以考慮自動(dòng)駕駛汽車中的AI模型。我們需要首先對(duì)該神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，教會(huì)它駕駛技巧。在訓(xùn)練完成并部署至車輛上之后，該模型將持續(xù)不斷地進(jìn)行推理以實(shí)現(xiàn)環(huán)境導(dǎo)航—;—;只要汽車仍在行駛，模型的推理過(guò)程就將不間斷地進(jìn)行。

毋庸置疑，模型中包含的參數(shù)量越大，推理階段所帶來(lái)的電力需求就越夸張。

能源使用與碳排放

要探討這個(gè)問(wèn)題，我們先要找到能源使用與碳排放之間的對(duì)應(yīng)關(guān)系。那么，該如何準(zhǔn)確判斷這種對(duì)應(yīng)關(guān)系?

根據(jù)美國(guó)環(huán)保署(EPA)公布的數(shù)據(jù)，在美國(guó)，一千瓦時(shí)電力平均對(duì)應(yīng)0.954磅二氧化碳排放量。這一平均值反映了碳足跡變化以及美國(guó)電網(wǎng)當(dāng)中的不同電力來(lái)源(包括可再生能源、核能、天然氣以及煤炭等)的客觀比例。

如上所述，Strubell在分析中采用了美國(guó)本土的電力碳排放平均值，以根據(jù)不同AI模型的能源需求計(jì)算對(duì)應(yīng)的碳排放量。這個(gè)假設(shè)已經(jīng)相當(dāng)合理，因?yàn)锳mazon Web Services的電力組合就一致符合美國(guó)整體的發(fā)電來(lái)源結(jié)構(gòu)，而目前的大多數(shù)AI模型都會(huì)選擇在公有云端進(jìn)行訓(xùn)練。

當(dāng)然，如果盡可能使用可再生能源產(chǎn)生的電力進(jìn)行AI模型訓(xùn)練，其碳足跡必將有所降低。例如，與AWS相比，Google Cloud Platform的電力結(jié)構(gòu)中可再生能源的比例更高(根據(jù)Strubell的論文，AWS的可再生能源占比17%，谷歌方面則占比56%)。

我們也可以再舉個(gè)例子，由于所在地區(qū)擁有豐富的清潔水電資源，因此大西洋西北部區(qū)域的硬件設(shè)施在訓(xùn)練模型時(shí)所產(chǎn)生的碳排放將低于全美平均水平。值得一提的是，目前各大云服務(wù)供應(yīng)商都在強(qiáng)調(diào)其在碳排放控制方面做出的努力。

但總體來(lái)說(shuō)，Strubell認(rèn)為美國(guó)的整體電力組合仍然具有充分的說(shuō)服力，可用于大體準(zhǔn)確地估算出AI模型的碳足跡。

收益遞減

模型體量與模型性能之間的關(guān)系，則能幫助我們了解提升模型規(guī)模到底能夠給AI技術(shù)發(fā)展帶來(lái)怎樣的幫助。這方面數(shù)據(jù)倒是非常明確：模型體量的持續(xù)增加，最終會(huì)導(dǎo)致性能回報(bào)急劇下降。

我們用實(shí)例來(lái)證明這個(gè)觀點(diǎn)。ResNet是一套于2015年發(fā)布的知名計(jì)算機(jī)視覺(jué)模型。該模型的改進(jìn)版本名為ResNeXt，于2017年問(wèn)世。與ResNet相比，ResNeXt需要的計(jì)算資源提升了35%(按總浮點(diǎn)運(yùn)算量計(jì)算)，但精度卻只增長(zhǎng)了0.5%。

在艾倫人工智能研究所2019年發(fā)表的論文中，我們可以看到更詳盡的比較數(shù)據(jù)，其中記錄了不同任務(wù)、模型與AI子領(lǐng)域的模型規(guī)模收益遞減情況。與GPT-2相比，最新發(fā)布的超大型GPT-3模型也出現(xiàn)了顯著的收益遞減跡象。

如果AI社區(qū)繼續(xù)沿著當(dāng)前的道路前進(jìn)，那么研究人員們必然需要花費(fèi)更多精力構(gòu)建起越來(lái)越大的模型，但由此帶來(lái)的性能提升卻越來(lái)越小。這意味著成本/收益率將變得愈發(fā)不相稱。

既然收益遞減客觀存在，為什么人們還在不斷推出越來(lái)越大的模型呢?一大主要原因，在于AI社區(qū)當(dāng)下仍過(guò)于關(guān)注能在性能基準(zhǔn)測(cè)試中創(chuàng)下新高的“最新”紀(jì)錄。在眾所周知的基準(zhǔn)測(cè)試中拿下新頂點(diǎn)的模型(即使僅提升一個(gè)百分點(diǎn))，也能贏得研究人員們的一致認(rèn)可與好評(píng)。

正如加州大學(xué)洛杉磯分校(UCLA)Guy Van den Broeck教授所言，“我認(rèn)為比較準(zhǔn)確的比喻，就是某個(gè)盛產(chǎn)石油的國(guó)家能夠建造一座很高的摩天大樓。在摩天大樓的建造過(guò)程中，當(dāng)然能夠幫國(guó)家積累下「最先進(jìn)的技術(shù)」。但這一切……無(wú)法帶來(lái)任何科學(xué)意義上的進(jìn)步?！?/p>

目前，AI研究議程領(lǐng)域這種“越大越好”的偏執(zhí)精神很可能在未來(lái)幾年給自然環(huán)境造成重大破壞。這就要求我們?cè)谏钏际鞈]之后進(jìn)行大膽變革，將人工智能重新引導(dǎo)到持續(xù)性更強(qiáng)、生產(chǎn)力水平更高的正確軌道上。

展望未來(lái)

首先，每一位AI從業(yè)者應(yīng)該盡快將“縮短周期”作為研究目標(biāo)，借此降低技術(shù)發(fā)展對(duì)環(huán)境造成的影響。

而最重要的第一步，就是增強(qiáng)AI模型碳排放問(wèn)題的透明度與量化考核。當(dāng)AI研究人員發(fā)布新模型的研究結(jié)果時(shí)，除了性能與精度兩項(xiàng)核心指標(biāo)之外，還應(yīng)該附上模型開發(fā)過(guò)程中的總體能源數(shù)據(jù)。

經(jīng)過(guò)認(rèn)真分析，艾倫人工智能研究所的團(tuán)隊(duì)提出將浮點(diǎn)運(yùn)算作為研究人員們最通用也最準(zhǔn)確的能效衡量標(biāo)準(zhǔn)。另一支小組也創(chuàng)建出一款機(jī)器學(xué)習(xí)碳排放計(jì)算器，可幫助從業(yè)者們借此估算當(dāng)前模型的碳足跡(其中涵蓋硬件、云服務(wù)供應(yīng)商以及地理區(qū)域等諸多因素)。

遵循這些思路，研究人員們還需要在模型訓(xùn)練過(guò)程中，將能源成本與性能收益之間的關(guān)系作為不能回避的重要度量。明確量化這項(xiàng)指標(biāo)，將促使研究人員們重要收益遞減問(wèn)題，進(jìn)而在資源分配上做出更明智、更平衡的決策。

希望隨著可持續(xù)AI實(shí)踐的普及，技術(shù)社區(qū)能夠在評(píng)估AI研究時(shí)著重考慮這些效率指標(biāo)，并把這些指標(biāo)的重要性提高到精度等傳統(tǒng)性能指標(biāo)的水平，最終使其在論文發(fā)表、演講分享以及學(xué)術(shù)成果等領(lǐng)域發(fā)揮更重要的作用。

當(dāng)然，其他一些方法也有望在短期之內(nèi)幫助AI模型減少碳排放：使用更高效的超參數(shù)搜索方法、減少訓(xùn)練過(guò)程中不必要的實(shí)驗(yàn)次數(shù)、采用更節(jié)能的硬件等等。

但單靠這些補(bǔ)救性的措施，不足以徹底解決問(wèn)題。人工智能領(lǐng)域需要在根本上做出長(zhǎng)期轉(zhuǎn)變。

我們需要退后一步，承認(rèn)單純建立越來(lái)越龐大的神經(jīng)網(wǎng)絡(luò)并不是通往廣義智能的正確路徑。從第一原理出發(fā)，我們必須逼迫自己去發(fā)現(xiàn)更優(yōu)雅、更高效的方法，對(duì)機(jī)器中的智能進(jìn)行建模。我們與氣候變化的斗爭(zhēng)，甚至是整顆藍(lán)色星球的未來(lái)，可能也都將維系于此。

引用AI界傳奇人物、深度學(xué)習(xí)教父Geoff Hinton的名言，“未來(lái)可能掌握的某些研究生手里，因?yàn)樗麄儗?duì)我所說(shuō)的一切深表懷疑……他們可能會(huì)徹底拋棄我的觀點(diǎn)，從零開始再次探索。”

AI社區(qū)必須敢于建立人工智能的新范式，這些范式既不需要指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)集、也不需要恐怖的電力消耗。小樣本學(xué)習(xí)等新興研究領(lǐng)域，也許會(huì)成為我們走向光明未來(lái)的新道路。

作為最初的智能來(lái)源，人腦也將給我們帶來(lái)重要啟發(fā)。與目前的深度學(xué)習(xí)方法相比，我們的大腦非常高效。人腦僅幾磅重，運(yùn)行功率約20瓦—;—;只夠讓低功率燈泡亮起昏暗的光。然而，它們卻也代表著宇宙中當(dāng)前已知的最強(qiáng)大的智能形態(tài)。

AI研究人員Siva Reddy也不禁感嘆，“人腦只需要極低的功耗，就能達(dá)成令人驚奇的表現(xiàn)。問(wèn)題在于，我們?nèi)绾尾拍苤圃斐鲞@樣的機(jī)器?！?/p>

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國(guó)游戲市場(chǎng)開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)