面對(duì)AI以及未來(lái),我們需要怎樣靠譜的存儲(chǔ)方案?
經(jīng)過(guò)短短幾年時(shí)間的發(fā)展,全社會(huì)共同見(jiàn)證了AI從技術(shù)崛起到產(chǎn)業(yè)崛起的過(guò)程。ICT市場(chǎng)的關(guān)注重點(diǎn)也從最開始的自然語(yǔ)義識(shí)別、機(jī)器視覺(jué)、邏輯判斷等純技術(shù)領(lǐng)域向著智慧醫(yī)療、智慧金融、智慧交通、智慧政府等產(chǎn)業(yè)應(yīng)用領(lǐng)域轉(zhuǎn)變。而這種轉(zhuǎn)變不僅是數(shù)字化轉(zhuǎn)型的一部分,更實(shí)踐了AI從技術(shù)趨勢(shì)到產(chǎn)業(yè)落地再到商機(jī)發(fā)掘的完整價(jià)值鏈條。在這場(chǎng)涉及整個(gè)IT領(lǐng)域和全行業(yè)應(yīng)用的歷史性變革之中,技術(shù)、產(chǎn)品、方案和應(yīng)用都在高速發(fā)展。其中,機(jī)遇很多,挑戰(zhàn)亦不小。
眾所周知,AI應(yīng)用是對(duì)算力的巨大挑戰(zhàn),每一次推理都需要復(fù)雜且不斷重復(fù)的數(shù)值計(jì)算來(lái)完成,而訓(xùn)練AI的過(guò)程更是要面對(duì)海量數(shù)據(jù)的反復(fù)計(jì)算。在發(fā)展AI的過(guò)程中,龐大的算力需求甚至帶來(lái)了整個(gè)數(shù)據(jù)中心的架構(gòu)改變。而這也正是異構(gòu)計(jì)算以及對(duì)應(yīng)的管理方式成為近些年服務(wù)器和數(shù)據(jù)中心行業(yè)變革的重點(diǎn)。
AI時(shí)代,計(jì)算之外的基礎(chǔ)架構(gòu)變革雖然AI的產(chǎn)生和應(yīng)用基于計(jì)算,但AI對(duì)于整個(gè)基礎(chǔ)架構(gòu)領(lǐng)域的影響卻并沒(méi)有止步于計(jì)算。
作為AI產(chǎn)業(yè)的上游,算法的產(chǎn)生需要長(zhǎng)時(shí)間、高強(qiáng)度的訓(xùn)練過(guò)程。而數(shù)據(jù)正是驅(qū)動(dòng)這一過(guò)程高速進(jìn)行的重要燃料之一。要保證AI引擎的持續(xù)高效運(yùn)行,承載數(shù)據(jù)的存儲(chǔ)系統(tǒng)也必須要跟上時(shí)代的腳步。
正如同AI帶來(lái)了算力市場(chǎng)的變革,另一場(chǎng)針對(duì)AI的存儲(chǔ)設(shè)備革新也在如火如荼。
非結(jié)構(gòu)化:伴隨數(shù)據(jù)庫(kù)和統(tǒng)計(jì)學(xué)的發(fā)展,人們已經(jīng)有非常多的手段和工具來(lái)管理和處理結(jié)構(gòu)化的數(shù)據(jù)。但在機(jī)器視覺(jué)、語(yǔ)音語(yǔ)義識(shí)別等主流的AI應(yīng)用領(lǐng)域當(dāng)中,非結(jié)構(gòu)化的視頻、圖片、音頻才是數(shù)據(jù)的主要類別。在No-SQL之外,企業(yè)用戶仍舊迫切需要一套專門針對(duì)AI應(yīng)用的非結(jié)構(gòu)化數(shù)據(jù)管理解決方案。
龐大的文件規(guī)模:從數(shù)據(jù)的角度來(lái)看,AI同樣是一種典型的大數(shù)據(jù)應(yīng)用。而這種數(shù)據(jù)的“大”并非只是單純意義的容量大,更意味著文件數(shù)量的龐大。要獲得高精度的AI模型,訓(xùn)練集的內(nèi)容會(huì)非??捎^。在實(shí)際的應(yīng)用當(dāng)中,這樣的訓(xùn)練集至少都要包含數(shù)萬(wàn)個(gè)文件,而除此之外還要有驗(yàn)證集和測(cè)試集;而有時(shí),文字或圖片類AI訓(xùn)練庫(kù)的樣本空間更是高達(dá)數(shù)十萬(wàn)個(gè)文件。更何況,在訓(xùn)練的過(guò)程當(dāng)中,AI訓(xùn)練程序還會(huì)產(chǎn)生大量的過(guò)程數(shù)據(jù)和紀(jì)錄。當(dāng)一套存儲(chǔ)系統(tǒng)要面對(duì)同時(shí)進(jìn)行的數(shù)套AI訓(xùn)練應(yīng)用時(shí),超大規(guī)模文件管理也就成了AI對(duì)存儲(chǔ)提出的新挑戰(zhàn)。
IO優(yōu)化:傳統(tǒng)環(huán)境下,評(píng)判存儲(chǔ)系統(tǒng)性能的高低通常需要在不同的讀寫比例下進(jìn)行測(cè)試;這一比例可能是3:7、4:6、5:5等等。但對(duì)于AI應(yīng)用來(lái)說(shuō),傳統(tǒng)存儲(chǔ)讀寫平衡的情況似乎很少出現(xiàn),更多的是在訓(xùn)練過(guò)程中對(duì)海量數(shù)據(jù)的大量讀操作。換句話說(shuō),AI訓(xùn)練是一個(gè)典型的輸入很多、輸出很少的應(yīng)用。另一方面,由于AI的訓(xùn)練通常以計(jì)算集群方式進(jìn)行,因此,與數(shù)據(jù)源一樣,存儲(chǔ)結(jié)構(gòu)也需要從串行變?yōu)椴⑿?。而在這一過(guò)程中不同數(shù)據(jù)節(jié)點(diǎn)的負(fù)載均衡也同樣值得關(guān)注。
數(shù)據(jù)生命周期管理:在AI與行業(yè)深度融合的當(dāng)下,企業(yè)越來(lái)越需要具備場(chǎng)景屬性的AI應(yīng)用。換句話說(shuō),只有用生產(chǎn)數(shù)據(jù)訓(xùn)練出來(lái)的AI才能更好的在生產(chǎn)場(chǎng)景中發(fā)揮價(jià)值。但顯然,任何生產(chǎn)數(shù)據(jù)的獲得與管理都不是一件“便宜”的事情。因此,專門針對(duì)AI訓(xùn)練進(jìn)行調(diào)整的數(shù)據(jù)生命周期管理系統(tǒng)也就順理成章的構(gòu)成了AI對(duì)存儲(chǔ)系統(tǒng)挑戰(zhàn)的另一個(gè)維度。
以上只是AI對(duì)于存儲(chǔ)架構(gòu)帶來(lái)挑戰(zhàn)的幾個(gè)主要層面,在具體的應(yīng)用當(dāng)中,實(shí)際的技術(shù)層挑戰(zhàn)還有更多。
要應(yīng)對(duì)這些存儲(chǔ)挑戰(zhàn),解決方案提供者不僅要了解存儲(chǔ)、有深厚的技術(shù)底蘊(yùn),更要了解AI應(yīng)用形態(tài),具備豐富的AI實(shí)踐經(jīng)驗(yàn)。但在當(dāng)今市場(chǎng)上,能把存儲(chǔ)技術(shù)和豐富的AI經(jīng)驗(yàn)融合到一起、并通過(guò)強(qiáng)大的產(chǎn)品力將之打造為方案的廠牌真的存在嗎?
為AI插上騰飛的翅膀
AI應(yīng)用帶給存儲(chǔ)的挑戰(zhàn)并不小,但我們真的需要一套專門針對(duì)AI需求再開發(fā)一套新的存儲(chǔ)系統(tǒng)嗎?
仔細(xì)分析AI帶給IA的挑戰(zhàn),無(wú)論數(shù)據(jù)類型、數(shù)據(jù)模式、數(shù)據(jù)管理還是對(duì)多種不同用戶的數(shù)據(jù)輸出,其都是數(shù)據(jù)湖的另一種特化應(yīng)用形態(tài)。因此,在數(shù)字化轉(zhuǎn)型和AI發(fā)展道路上,企業(yè)只需找到一款能夠?qū)I提供更好支持的數(shù)據(jù)湖存儲(chǔ)便可實(shí)現(xiàn)一舉多得。
2020年7月,IBM針對(duì)數(shù)據(jù)湖市場(chǎng)發(fā)布了全新的ESS 5000系列存儲(chǔ),并通過(guò)一系列針對(duì)AI應(yīng)用的全面優(yōu)化為市場(chǎng)帶來(lái)了應(yīng)用、效能以及成本三個(gè)維度上的全新平衡。
作為IBM Elastic Storage System家族的新成員,ESS 5000系列是一款面向文件的數(shù)據(jù)湖產(chǎn)品。通過(guò)使用磁盤介質(zhì),ESS 5000系列能夠?yàn)槠髽I(yè)的各類存儲(chǔ)需求提供更低的成本。ESS 5000目前包含2種型號(hào),標(biāo)準(zhǔn)機(jī)柜構(gòu)型的SL型號(hào)和采用加深機(jī)柜的SC型號(hào)。其中SL型號(hào)能夠以260TB/u的密度提供552TB至8.8PB的存儲(chǔ)空間;而采用加深機(jī)柜的SC型號(hào)則能夠以375TB/u的密度提供1-13.5PB的存儲(chǔ)空間。
采用磁盤系統(tǒng)并不意味著ESS 5000在性能上會(huì)受到任何限制。相反,通過(guò)進(jìn)一步的IO優(yōu)化,在典型的12節(jié)點(diǎn)配置當(dāng)中,ESS 5000能夠提供55GB/s的超高讀取速度,相對(duì)于目前市場(chǎng)上其他的磁盤類文件存儲(chǔ)系統(tǒng),讀取性能至少提升300%。
而在配合基于NVMe閃存的ESS 3000時(shí),企業(yè)便能夠在簡(jiǎn)化存儲(chǔ)系統(tǒng)結(jié)構(gòu)的同時(shí)滿足更高性能和容量方面的需求。
打造包容AI的寬廣數(shù)據(jù)湖當(dāng)然,性能、容量與擴(kuò)展性方面的提升和型號(hào)的簡(jiǎn)化只是ESS 5000對(duì)于企業(yè)用戶的見(jiàn)面禮,其真正的價(jià)值在于內(nèi)部對(duì)于各類先進(jìn)架構(gòu)的支持、融合與更新。
1、全面與云融合
ESS 5000是一款與云架構(gòu)全面融合的產(chǎn)品。通過(guò)與紅帽RedHat Open Shift容器平臺(tái)的全面兼容,各類基于容器的AI應(yīng)用可以在ESS 5000上進(jìn)行方便的數(shù)據(jù)索引,降低AI訓(xùn)練在數(shù)據(jù)準(zhǔn)備階段所需的時(shí)間和工作量。
2、更多數(shù)據(jù)源支持
ESS 5000支持更多類型的數(shù)據(jù)源,而這些數(shù)據(jù)源不僅可以來(lái)自于傳統(tǒng)的業(yè)務(wù)系統(tǒng),更可以來(lái)自移動(dòng)端、物聯(lián)網(wǎng)、傳感器等新一代數(shù)據(jù)源。而這樣的設(shè)計(jì)不僅讓AI應(yīng)用能夠獲得更多、更廣泛的業(yè)務(wù)數(shù)據(jù),更可以擴(kuò)展整個(gè)企業(yè)數(shù)據(jù)湖的寬度,為基于數(shù)據(jù)的精細(xì)化管理和業(yè)務(wù)轉(zhuǎn)型鋪平道路。
3、更全面數(shù)據(jù)生命周期管理
由于目前的AI技術(shù)仍舊需要通過(guò)海量數(shù)據(jù)來(lái)獲取業(yè)務(wù)洞察,所以無(wú)論AI或其他數(shù)字化應(yīng)用,尋求數(shù)據(jù)的多維度價(jià)值都是其核心目的。而在這一應(yīng)用形態(tài)長(zhǎng)期不變的前提下,數(shù)據(jù)的生命周期管理和其在不同介質(zhì)、系統(tǒng)中的高效移動(dòng)就成為了加速數(shù)據(jù)價(jià)值體現(xiàn)的關(guān)鍵一步。作為廣受好評(píng)的元數(shù)據(jù)管理解決方案,IBM Spectrum系列軟件有著極高的人氣和應(yīng)用范圍。而新推出的ESS 5000系列則可以與Spectrum Discover、Spectrum Scale Data Acceleration for AI等方案進(jìn)行聯(lián)合容器化部署,增強(qiáng)AI應(yīng)用中的數(shù)據(jù)移動(dòng)、數(shù)據(jù)管理,并降低備份產(chǎn)生的空間損失,為數(shù)據(jù)生命周期管理補(bǔ)齊AI短板。
4、YB級(jí)命名空間
針對(duì)AI訓(xùn)練中所需的龐大文件數(shù)量和集群產(chǎn)生的海量過(guò)程文件,ESS 5000還能夠支持YB級(jí)別(10的24次方)的命名空間,為AI更復(fù)雜的卷積應(yīng)用創(chuàng)造前提。
以AI為契機(jī),探索存儲(chǔ)新未來(lái)AI是眼下ICT及數(shù)字化轉(zhuǎn)型中最主要的方向之一,在為商業(yè)應(yīng)用提供全新模式的同時(shí),AI給整個(gè)基礎(chǔ)架構(gòu)帶來(lái)的新需求、新挑戰(zhàn)也讓越來(lái)越多企業(yè)意識(shí)到,在基礎(chǔ)設(shè)施的構(gòu)建過(guò)程中,每一種設(shè)備都需要具備面向未來(lái)和全新應(yīng)用的兼容能力。
而IBM在ESS 5000上所展示的技術(shù)和應(yīng)用方式正是這種未來(lái)思維模式的結(jié)晶。通過(guò)架構(gòu)簡(jiǎn)化、多方案融合、容器化以及面向應(yīng)用的細(xì)致優(yōu)化,ESS能夠讓企業(yè)數(shù)據(jù)湖應(yīng)對(duì)AI所帶來(lái)的的一系列挑戰(zhàn)。而具備這樣能力的數(shù)據(jù)湖也正是數(shù)據(jù)價(jià)值得以進(jìn)一步體現(xiàn)的前提。
IBM免費(fèi)咨詢專線400-669-2039
【IT葡萄皮】(公眾號(hào):itopics)由資深媒體人張垞運(yùn)營(yíng)。從業(yè)十二年的深度觀察,只為一篇不吐不快的科技評(píng)論。
聯(lián)系方式
電話:18612920630
電子郵件:69240891@163.com
微信:z87136954
QQ:87136954
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!