張云泉:超算應(yīng)有國家戰(zhàn)略
中國已經(jīng)躋身“超算大國”行列。然而,中國離“超算強國”的目標(biāo)卻有差距。我國超算產(chǎn)業(yè)暴露出明顯的應(yīng)用瓶頸,存在重技術(shù)、輕應(yīng)用,重硬件、輕軟件等問題,其根源在于我國缺乏完善的超速應(yīng)用生態(tài)軟環(huán)境,具體表現(xiàn)在人才儲備、應(yīng)用意識、政策導(dǎo)向等方面。
目前,我國超算投資僅有10%的資金用于應(yīng)用軟件的開發(fā)和優(yōu)化,而美國的這一比例已經(jīng)超過50%。應(yīng)用瓶頸的存在不僅會導(dǎo)致超級計算機資源無法充分應(yīng)用到社會、科研及生產(chǎn)中,也會反過來限制其自身的發(fā)展。
中國計算機學(xué)會高性能計算專業(yè)委員會秘書長、中科院計算所張云泉研究員在接受《中國經(jīng)濟和信息化》記者專訪時表示:“國家已經(jīng)意識到長期忽視對應(yīng)用軟件的投入開始影響超級計算機的應(yīng)用推廣和后續(xù)研發(fā),必須平衡投入的重要性,但另一方面國家對超算應(yīng)用軟件研發(fā)投入的決心仍顯不足,國家應(yīng)該成立專門的國家級超算應(yīng)用軟件工程中心統(tǒng)籌和協(xié)調(diào)全國超算應(yīng)用軟件的研制和推廣工作。”
CEI: 中國超級計算機在應(yīng)用領(lǐng)域的發(fā)展演變史是怎樣的?
張云泉:戰(zhàn)爭的需要造就了超級計算機(下稱超算)最早的用戶。早期的計算機主要被用于軍事用途。二戰(zhàn)時期德國潛艇的狼群戰(zhàn)術(shù)就是通過計算機對密碼的成功破譯被瓦解的,而超算在美國研制原子彈的曼哈頓計劃中應(yīng)用的也非常成功。中國最早的超算也是被用于類似的用途。上世紀(jì)80年代以后,PC機開始出現(xiàn)和普及,除了科學(xué)和軍事用途之外,超算開始有了其他的應(yīng)用。但是由于當(dāng)時MPP超算的成本很貴,所以主要還是應(yīng)用在氣象、石油等需求比較明確和成熟的行業(yè)。直至上世紀(jì)90年代中期左右,隨著機群的出現(xiàn)和普及,超算成本開始大幅度下降,超算的應(yīng)用開始百花齊放起來,廣泛分布在氣候氣象、地球物理、計算化學(xué)、藥物設(shè)計、動漫、生物信息學(xué)、天體物理、互聯(lián)網(wǎng)服務(wù)、在線游戲等領(lǐng)域?,F(xiàn)在,超算仍以機群體系架構(gòu)為主,但是其功耗問題逐漸顯現(xiàn)出來,為了控制功耗,超算科學(xué)家和工程師開始在原有的超算體系架構(gòu)上添加“異構(gòu)加速部件”,比如和MIC等進一步提升性能。2009年之后,超算開始出現(xiàn)異構(gòu)集群的新趨勢,但這也意味著其硬件越來越復(fù)雜,并行編程越來越復(fù)雜,而應(yīng)用開發(fā)也越來越難。
CEI:與國外相比,我們在超算的應(yīng)用上有哪些差距?
張云泉:2002年我們剛發(fā)布第一期中國高性能計算機TOP100排行榜的時候,我國超算能力排名100臺超算的平均性能與國外前500臺的平均性能差距是3-5年左右,后來很快縮短為2-3年,直至去年我國超算的平均性能已經(jīng)超過世界平均水平,這說明我國超算平臺系統(tǒng)的發(fā)展態(tài)勢良好且研制水平已經(jīng)步入國際領(lǐng)先水平。
我國超算取得這樣的成績,意味著中國超算整體水平提升,在國際舞臺上的發(fā)言權(quán)也隨之提升,合作和交流機會也越來越多,對于提升國內(nèi)科研水平、培養(yǎng)科研隊伍,包括參與國際高水平會議研討和對話,增進國際合作都有很好的幫助,我們科研工作者在高水平國際會議上對這一點有很強烈的感受。
奪取超算TOP 500排行榜冠軍不僅僅是個排名問題,而是關(guān)系到整個國家從事超算研究的科研人員在國際上的地位和話語權(quán)問題,所以還是不能忽視排行榜的重要性,我們不鼓勵去刻意追求,但是要在戰(zhàn)略上重視。
2011年,日本的京速機奪走“天河一號A”TOP500冠軍位置的時候,日本國內(nèi)去了80多個參會代表,西裝革履拿著錄像機進入會場,我們在現(xiàn)場感受到了國與國之間在高技術(shù)領(lǐng)域競爭的殘酷和無情,更強烈地感覺到日本對超算的重視程度并不像他們表面上所表現(xiàn)出來的平靜。美國其實更重視超算的排名,一旦失去第一的位置,就會加大對超算的科研投入,制定中長期研制計劃,確保能夠盡快把第一名的位置奪回來。
不過,雖然我國超算硬件平臺的研制水平很強,但是我們的超算應(yīng)用水平確實落后國際水平比較多。當(dāng)然超算軟件的研制落后于超算硬件的發(fā)展速度也不僅是我們國家存在,美國也是一樣。在美國,超級計算機的使用年限大概為3-5年,我國的使用年限約為5-8年,有的使用年限甚至能達到10年。而假如超算應(yīng)用軟件研制成功的話,其使用年限至少是10-20年,當(dāng)然使用的過程中軟件還得不斷改進。美國甚至認(rèn)為超級計算成功的關(guān)鍵是物理建模+計算方法+并行軟件,缺一不可。
超級計算最大的投資應(yīng)該在應(yīng)用軟件,最大的困難也在應(yīng)用軟件。以前美國投資超算硬件的力度也比應(yīng)用軟件大,但現(xiàn)在美國對應(yīng)用軟件的投資達到50%以上,超算硬件投資只占不到40%。
過去,我們國家長期忽視對超算應(yīng)用軟件的開發(fā),一直把應(yīng)用軟件當(dāng)做是超算硬件平臺的配套來研制。往往等超算硬件平臺研制成功之后,才撥付一小筆經(jīng)費為其研制配套的應(yīng)用軟件,對機器進行測試和評價,而不是像美國等發(fā)達國家一樣在開始部署超算研制項目時,同時部署超算硬件平臺和應(yīng)用軟件的研制任務(wù),等到超算硬件平臺投入使用時,超算應(yīng)用軟件也同時可以上線運行,大大提高了生產(chǎn)效率和利用率。
CEI:有觀點認(rèn)為受限于軟件開發(fā)和應(yīng)用支持,設(shè)備運行時資源利用率低下,是當(dāng)前應(yīng)用瓶頸的核心所在。你認(rèn)同嗎?
張云泉:這有客觀和主觀原因。像一些軍事、氣象等成熟的行業(yè),軟件和硬件是同步發(fā)展,但是現(xiàn)在很多超算中心的硬件能力很強,應(yīng)用又跟不上計算能力,需要有一段時間推動應(yīng)用跟上計算能力的發(fā)展。所以會出現(xiàn)你說的現(xiàn)象。
因此,我們不能單純說應(yīng)用不行,這需要一個發(fā)展過程。我國過去是超算應(yīng)用需求牽引超算硬件發(fā)展的模式,現(xiàn)在變成了超算硬件的發(fā)展超前超算應(yīng)用需求的發(fā)展模式,計算能力開始驅(qū)動應(yīng)用需求的發(fā)展,應(yīng)用自然會顯得滯后。今后兩種發(fā)展模式會不斷出現(xiàn)交替的情況。
CEI: 現(xiàn)在一些超算被用在政府電子網(wǎng)站建設(shè)中,有觀點認(rèn)為這是一種超算“物非所用”的現(xiàn)象,你怎么看?你認(rèn)為中國超算在應(yīng)用領(lǐng)域有哪些發(fā)展隱患?
張云泉:這其實是一種誤解。超算應(yīng)用在電子政務(wù)網(wǎng)站的運行并不算是物非所用,不過是一種不同的應(yīng)用形式而已。廣義的超算可以分為兩種,一種用于科學(xué)計算,一種用于互聯(lián)網(wǎng)服務(wù)。
過去的超算中心是行業(yè)內(nèi)專用的計算中心,僅僅用在有限的幾個比較成熟的科學(xué)計算應(yīng)用領(lǐng)域,而現(xiàn)代意義上的超算中心成為一個綜合的計算能力服務(wù)機構(gòu),面向各行各業(yè)提供計算能力和存儲能力的服務(wù)包括政府的電子政務(wù)。超級計算機在提供這類互聯(lián)網(wǎng)服務(wù)的時候,往往采取云計算的形式提供服務(wù)。實際上,云計算也是一種松散耦合的結(jié)合了虛擬化技術(shù)的超級計算。[!--empirenews.page--]
實際上,超算中心服務(wù)于政府的電子政務(wù)不但不浪費資源,反而會節(jié)約政府預(yù)算和提高資源的利用率。試想如果政府的每個部門還像過去一樣分散地采購服務(wù)器,搭建自己的信息化服務(wù)平臺,部門間很容易形成信息孤島,造成資源的重復(fù)投入和浪費,通過集中起來采購建設(shè)統(tǒng)一的超算中心并以云計算的形式為各部門服務(wù),既節(jié)約了經(jīng)費投入,又提高了資源的利用率。為此,目前中國的不少超算中心,往往會通過將超算系統(tǒng)劃分成傳統(tǒng)的科學(xué)計算分區(qū)和云計算分區(qū)兩個分區(qū)提供不同類型的服務(wù)以提高超算資源的利用率。
CEI:應(yīng)用瓶頸是一個過程問題,真正把大超算做成一個生產(chǎn)工具,國內(nèi)還差得比較遠。如何盡快實現(xiàn)這個目標(biāo)?
張云泉:過去,超算是戰(zhàn)略性行業(yè),冷門行業(yè),人才容易流失且比較匱乏?,F(xiàn)在,由于各地方政府都在建超算中心,對人才的需求開始逐漸增加。在美國,一個很普通的高校也有超算中心,美國建設(shè)中小規(guī)模超算中心的目的,一個是滿足本地的應(yīng)用需求;另一個是通過小的超算中心作為培養(yǎng)應(yīng)用人才的基地。通過把大中小超算中心合理布局和建設(shè),形成一個超算應(yīng)用的生態(tài)系統(tǒng),才有利于超算的長期健康發(fā)展。
目前,國家對超算應(yīng)用軟件研發(fā)投入的決心仍然不足,投資力度還是不夠。因此,建議繼續(xù)加大對7個已經(jīng)成立的國家超級計算中心的研發(fā)及應(yīng)用投入,持續(xù)加大對計算科學(xué)軟硬件研究開發(fā)平臺特別是軟件的協(xié)調(diào)支持力度,維持目前穩(wěn)定持續(xù)的發(fā)展勢頭。
其次,科研人員需要靜下心來花費更多的精力開發(fā)國產(chǎn)超算應(yīng)用軟件,不能搞短、平、快。因為應(yīng)用軟件研制的難度非常大,建議國家制定20-30年的中長期規(guī)劃。
國家應(yīng)該在中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組下面成立專門的類似美國總統(tǒng)信息技術(shù)顧問委員會這類的專家委員會統(tǒng)籌協(xié)調(diào)超算系統(tǒng)和應(yīng)用軟件的發(fā)展;成立國家級超算應(yīng)用軟件研發(fā)工程中心,專門研制各行各業(yè)應(yīng)用軟件,而不僅僅只是通過小實驗室的小課題進行斷斷續(xù)續(xù)的研制。