AI混合加速器平臺有統(tǒng)一的標準嗎
日前,浪潮服務(wù)器產(chǎn)品部副總經(jīng)理張耀文(Alan Chang)在海外權(quán)威AI媒體EnterpriseAI上發(fā)表署名文章,介紹了加速器平臺統(tǒng)一硬件標準對AI計算的重要意義,同大家分享。
如今只要一打開電視,就充斥著宣傳人工智能好處和潛力的廣告。人工智能這個不久前還難以想象的應(yīng)用正變得司空見慣,未來更會跳躍式發(fā)展。但是要真正實現(xiàn)人工智能,高性能、高可靠和可擴展的計算平臺必不可少,同時該平臺還要擁抱開源,從而提高互操作性,并且能夠以更快的速度和更低的成本應(yīng)對市場需求。
為了提高不同AI加速模塊和系統(tǒng)的互操作性,滿足制造商提升人工智能系統(tǒng)能力的需求,OCP(Open Compute Project)聚集了眾多希望利用開放標準推動AI計算發(fā)展的合作伙伴共同努力,OAI(Open Accelerator Infrastructure)就是其最新的一個項目組。憑借以往開放硬件和軟件項目的經(jīng)驗,項目組吸引了來自計算生態(tài)系統(tǒng)各個領(lǐng)域的參與者,取得的最新成果推動了加速器技術(shù)的標準化,為AI計算平臺提供了更加規(guī)范、簡單和可訪問的開放標準。
在最近與OCP和百度領(lǐng)導(dǎo)人進行的圓桌會議上,我們探討了OAI的發(fā)展和價值主張,并得出了一些值得關(guān)注的結(jié)論。
現(xiàn)在很多企業(yè)都面臨著諸多挑戰(zhàn),無論是數(shù)據(jù)中心基礎(chǔ)架構(gòu)、硬件加速還是從設(shè)施到機架再到節(jié)點的硬件管理。OCP努力為應(yīng)對這些挑戰(zhàn)創(chuàng)造一個協(xié)作的環(huán)境,并且找到一種通用的解決方案,實現(xiàn)規(guī)模經(jīng)濟,從而提高效率,節(jié)約成本。
—— OCP社區(qū)總監(jiān)Archna Haylock
OAI的一個主要目標是簡化加速器模塊的設(shè)計。由此產(chǎn)生的標準是一種技術(shù)解決方案,制造企業(yè)可以根據(jù)這一標準設(shè)計自己的產(chǎn)品,而不必從頭開始。和其他開源軟件(例如Hadoop、GFS、Linux)一樣,用戶可以免費下載代碼,然后繼續(xù)進行各自的開發(fā)工作。
實際上,該標準促進了不同加速器(例如ASIC、GPU和FPGA)技術(shù)的融合,克服了兼容問題,并使這些技術(shù)能夠在統(tǒng)一的硬件標準下運行。這樣一來,用戶可以自由更換不同的芯片,制造企業(yè)獲得更多選擇。OAI有如下關(guān)鍵技術(shù)優(yōu)勢。
全面的兼容性,支持當前的AI加速器(例如FPGA、GPU和ASIC),以及下一代異構(gòu)加速器;
支持12V和54V電源。12V電源的最大功率為300W,54V電源的最大功率為450W-500W;
支持四種互連拓撲,包括HCM(用于8端口和6端口OAM)、FC、FC/HCM組合和4D Hypercube。
第一批從該規(guī)范受益的產(chǎn)品是百度X-MAN 4.0,這一AI計算平臺由百度與浪潮基于OAI標準聯(lián)合開發(fā)完成。OAI標準的發(fā)展始于百度、Facebook、微軟三家共同發(fā)起的OpenAPI模型規(guī)范。從這之后,人們意識到建立AI加速器模塊統(tǒng)一規(guī)范的重要性,于是在OCP社區(qū),重點關(guān)注如何為多樣化的加速器提供最好的支持的OAI研究組成立了。OAI的成立不僅讓制造商在開放的生態(tài)系統(tǒng)中獲得了更多選擇,還可以讓AI應(yīng)用程序的開發(fā)人員和終端用戶都從中獲益。
OCP對于開發(fā)人員、用戶和系統(tǒng)集成商以及芯片提供商來說都是一個很好的協(xié)同平臺?;贠CP平臺,我們可以更好地確定我們的需求,更好地與合作伙伴,甚至是競爭對手,一起合作,定義一種可以使整個生態(tài)系統(tǒng)受益的標準??偟膩碚f,正是這些成功的合作促成了我們最新的全機架人工智能計算產(chǎn)品——X-MAN 4.0的開發(fā)。
—— 百度AI系統(tǒng)架構(gòu)師Richard Ding
OAI小組的工作范圍包括定義物理模塊,這些模塊涉及邏輯方面,例如電氣、機械、散熱、管理、硬件安全和物理可維護性等,生成與傳統(tǒng)現(xiàn)有操作系統(tǒng)兼容的解決方案,允許創(chuàng)建運行異構(gòu)加速器應(yīng)用程序的框架。展望未來,業(yè)界日益達成共識,通過鼓勵采用標準和進一步的實際應(yīng)用測試,AI生態(tài)系統(tǒng)可以通過標準化實現(xiàn)持續(xù)發(fā)展。
OAI項目圍繞設(shè)計模塊化架構(gòu)的理念進行,這一架構(gòu)支持不同加速器和多系統(tǒng)的擴展,從而輕松實現(xiàn)互連通信。未來OAI還需進行標準的應(yīng)用推廣,在業(yè)內(nèi)獲取更多支持,從而在高性能計算生態(tài)系統(tǒng)和垂直市場中擴大規(guī)模。隨著標準變得更具實際意義,可以通過實際應(yīng)用測試它的優(yōu)缺點,然后對標準的技術(shù)進行升級來滿足基于AI應(yīng)用程序的實際計算場景。浪潮致力于持續(xù)提高OAI標準的可擴展性,并支持其市場普及。
作者簡介
浪潮服務(wù)器產(chǎn)品部副總經(jīng)理張耀文(Alan Chang)
作為浪潮服務(wù)器產(chǎn)品部副總經(jīng)理,Alan致力于建立開放硬件社區(qū),開發(fā)下一代人工智能和5G網(wǎng)絡(luò)解決方案的架構(gòu),在硬件設(shè)計、市場協(xié)作等方面,為OCP做出了許多貢獻。在IT領(lǐng)域,Alan已有超十年的豐富經(jīng)驗,擔任過軟件程序員,負責開發(fā)服務(wù)器產(chǎn)品和管理OxM帳戶的硬件產(chǎn)品開發(fā)人員等各種角色。
宅家戰(zhàn)疫期間,歡迎大家點擊到DOIT學(xué)院訪問學(xué)習,祝愿大家 宅家學(xué)習,天天向上!
DOIT學(xué)院以存儲和數(shù)據(jù)科技為基礎(chǔ),涵蓋大數(shù)據(jù)、云計算、人工智能、物聯(lián)網(wǎng)等領(lǐng)域,利用碎片化時間和靈活的學(xué)習方式幫助讀者快速專業(yè)知識,成就更多DT專家。