人工智能數(shù)據(jù)存儲(chǔ)需要注意哪一些問(wèn)題
掃描二維碼
隨時(shí)隨地手機(jī)看文章
企業(yè)如果采用錯(cuò)誤的存儲(chǔ)人工智能平臺(tái)可能會(huì)產(chǎn)生嚴(yán)重影響,因此需要了解可能影響產(chǎn)品選擇和策略的6個(gè)注意事項(xiàng)。
人工智能和機(jī)器學(xué)習(xí)將成為幫助企業(yè)利用其核心數(shù)字資產(chǎn)創(chuàng)造競(jìng)爭(zhēng)優(yōu)勢(shì)的兩個(gè)最重要的工具。但在采用人工智能數(shù)據(jù)存儲(chǔ)之前,企業(yè)必須考慮一系列基于機(jī)器學(xué)習(xí)平臺(tái)如何獲取、處理和保留數(shù)據(jù)的需求。
首先,企業(yè)需要檢查機(jī)器學(xué)習(xí)軟件使用的數(shù)據(jù)的生命周期,因?yàn)檫@可以幫助企業(yè)了解為人工智能選擇存儲(chǔ)時(shí)應(yīng)考慮的事項(xiàng)。最初,企業(yè)必須獲取數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)或人工智能算法。這些是處理數(shù)據(jù)以學(xué)習(xí)任務(wù)的軟件工具,例如識(shí)別對(duì)象、處理視頻和跟蹤運(yùn)動(dòng)。數(shù)據(jù)可以從多種來(lái)源產(chǎn)生,并且通常本質(zhì)上是非結(jié)構(gòu)化的,例如對(duì)象和文件。
人工智能的訓(xùn)練過(guò)程需要使用數(shù)據(jù)資產(chǎn),并使用機(jī)器學(xué)習(xí)或人工智能軟件創(chuàng)建算法,以處理未來(lái)的數(shù)據(jù)源。在訓(xùn)練或開(kāi)發(fā)算法時(shí),人工智能軟件將處理源數(shù)據(jù),以開(kāi)發(fā)一個(gè)模型,該模型可以創(chuàng)建企業(yè)需要獲得的洞察力或收益。
開(kāi)發(fā)機(jī)器學(xué)習(xí)算法很少作為一個(gè)單一的過(guò)程來(lái)完成。隨著企業(yè)積累新的數(shù)據(jù),其算法得到了改進(jìn)和完善。這意味著很少的數(shù)據(jù)被丟棄,相反,它會(huì)隨著時(shí)間的推移而增長(zhǎng)并重新處理。
購(gòu)買(mǎi)人工智能數(shù)據(jù)存儲(chǔ)的標(biāo)準(zhǔn)
在企業(yè)為人工智能平臺(tái)選擇存儲(chǔ)之前,必須首先考慮以下注意事項(xiàng):
1.成本。人工智能數(shù)據(jù)存儲(chǔ)的成本是企業(yè)考慮的關(guān)鍵因素。顯然,企業(yè)管理層和參與采購(gòu)決策的管理人員都希望其存儲(chǔ)盡可能具有成本效益,并且在許多情況下,這將影響企業(yè)的產(chǎn)品選擇和策略。
2.可擴(kuò)展性。在此需要強(qiáng)調(diào)收集、存儲(chǔ)和處理大量數(shù)據(jù)以創(chuàng)建機(jī)器學(xué)習(xí)或人工智能模型的必要性。機(jī)器學(xué)習(xí)算法要求源數(shù)據(jù)呈指數(shù)增長(zhǎng),以實(shí)現(xiàn)精度的線性提高。創(chuàng)建可靠和準(zhǔn)確的機(jī)器學(xué)習(xí)模型可能需要數(shù)百TB甚至PB的數(shù)據(jù),而且這只會(huì)隨著時(shí)間的推移而增加。
構(gòu)建PB級(jí)存儲(chǔ)系統(tǒng)通常意味著使用對(duì)象存儲(chǔ)或橫向擴(kuò)展文件系統(tǒng)?,F(xiàn)代對(duì)象存儲(chǔ)當(dāng)然可以解決人工智能工作負(fù)載的容量需求,但是它們可能無(wú)法滿足其他標(biāo)準(zhǔn),例如高性能。橫向擴(kuò)展文件系統(tǒng)可以提供高性能和良好的可擴(kuò)展性,但是將整個(gè)數(shù)據(jù)集存儲(chǔ)在單個(gè)平臺(tái)上可能會(huì)很昂貴。由于可擴(kuò)展性要求和大容量產(chǎn)品的成本,塊存儲(chǔ)通常不是機(jī)器學(xué)習(xí)或人工智能的正確選擇,因?yàn)楦呷萘慨a(chǎn)品的可擴(kuò)展性要求和成本。這里唯一的例外是在公共云中。
存儲(chǔ)成本的變化引入了分層或使用多種存儲(chǔ)類(lèi)型來(lái)存儲(chǔ)數(shù)據(jù)的思想。例如,對(duì)象存儲(chǔ)是存儲(chǔ)大量非活動(dòng)人工智能數(shù)據(jù)的良好目標(biāo)。當(dāng)需要處理數(shù)據(jù)時(shí),可以將其移動(dòng)到高性能文件存儲(chǔ)集群或?yàn)楦咝阅芏O(shè)計(jì)的對(duì)象存儲(chǔ)中的節(jié)點(diǎn),并且在處理完成后可以將數(shù)據(jù)移回。
3.性能。人工智能數(shù)據(jù)的存儲(chǔ)性能包括三個(gè)方面。首先可能也是最重要的是延遲。這定義了軟件發(fā)出的每個(gè)I/O請(qǐng)求的處理速度。低延遲很重要,因?yàn)楦纳蒲舆t會(huì)直接影響創(chuàng)建機(jī)器學(xué)習(xí)或人工智能模型所需的時(shí)間。復(fù)雜的模型開(kāi)發(fā)可能需要數(shù)周或數(shù)月的時(shí)間才能運(yùn)行。通過(guò)縮短此開(kāi)發(fā)周期,企業(yè)可以更快地創(chuàng)建和完善模型。在檢查延遲功能時(shí),由于對(duì)象訪問(wèn)的數(shù)據(jù)流特性,對(duì)象將引用時(shí)間存儲(chǔ)到第一個(gè)字節(jié),而不是單個(gè)I/O請(qǐng)求的延遲。
存儲(chǔ)性能的另一個(gè)方面是吞吐量,這是可以將數(shù)據(jù)寫(xiě)入存儲(chǔ)平臺(tái)或從存儲(chǔ)平臺(tái)讀取數(shù)據(jù)的速度。系統(tǒng)吞吐量很重要,因?yàn)槿斯ぶ悄芘嘤?xùn)會(huì)處理大量數(shù)據(jù)集,通常會(huì)反復(fù)讀取和重新讀取相同的數(shù)據(jù)以準(zhǔn)確地開(kāi)發(fā)模型。機(jī)器學(xué)習(xí)和人工智能數(shù)據(jù)的來(lái)源(例如自動(dòng)駕駛汽車(chē)上的傳感器)每天可以產(chǎn)生數(shù)TB的新數(shù)據(jù)。所有這些信息都必須添加到現(xiàn)有數(shù)據(jù)存儲(chǔ)中,并且對(duì)任何現(xiàn)有處理的影響最小。
正確設(shè)置存儲(chǔ)平臺(tái)至關(guān)重要,因?yàn)樯婕暗臄?shù)據(jù)量非常大。
存儲(chǔ)性能的最后一個(gè)方面是并行訪問(wèn)。機(jī)器學(xué)習(xí)和人工智能算法并行處理數(shù)據(jù),運(yùn)行多個(gè)任務(wù),這些任務(wù)可以多次讀取同一數(shù)據(jù),并跨越多個(gè)并行任務(wù)。對(duì)象存儲(chǔ)擅長(zhǎng)并行讀取I/O處理,因?yàn)闆](méi)有對(duì)象鎖定或?qū)傩钥晒芾?。文件服?wù)器跟蹤內(nèi)存中打開(kāi)的I/O請(qǐng)求或文件句柄。因此,I/O請(qǐng)求的數(shù)量取決于平臺(tái)上可用的內(nèi)存。
機(jī)器學(xué)習(xí)的數(shù)據(jù)可以由大量的小文件組成。在這個(gè)領(lǐng)域,文件服務(wù)器可以提供比對(duì)象存儲(chǔ)更好的性能。向人工智能存儲(chǔ)供應(yīng)商提出的一個(gè)關(guān)鍵問(wèn)題是,其產(chǎn)品的性能特征將如何在大文件類(lèi)型和小文件類(lèi)型之間發(fā)生變化。
4.可用性和耐用性。機(jī)器學(xué)習(xí)和人工智能學(xué)習(xí)模型可以長(zhǎng)期連續(xù)運(yùn)行。通過(guò)訓(xùn)練開(kāi)發(fā)算法可能需要幾天或幾周的時(shí)間。在此期間,存儲(chǔ)系統(tǒng)必須啟動(dòng)并持續(xù)可用。這意味著任何升級(jí)、技術(shù)更換或系統(tǒng)擴(kuò)展都需要在不停機(jī)的情況下進(jìn)行。
在大型系統(tǒng)中,部件故障是正常的,必須按此處理。這意味著用于人工智能工作的任何平臺(tái)都應(yīng)該能夠從設(shè)備(例如HDD硬盤(pán)或SSD硬盤(pán))和節(jié)點(diǎn)或服務(wù)器故障中恢復(fù)。對(duì)象存儲(chǔ)使用擦除編碼在多個(gè)節(jié)點(diǎn)上廣泛分布數(shù)據(jù),并將組件故障的影響降到最低。有擦除編碼技術(shù)可以擴(kuò)展文件系統(tǒng)以提供同等的彈性級(jí)別。擦除編碼方案的效率非常重要,因?yàn)樗苯雨P(guān)系到讀寫(xiě)I/O的性能,特別是對(duì)于小文件。
由于大多數(shù)大型對(duì)象存儲(chǔ)太大而無(wú)法定期備份,因此可靠的擦除編碼成為人工智能存儲(chǔ)平臺(tái)的基本功能。
5.公共云。開(kāi)發(fā)機(jī)器學(xué)習(xí)和人工智能算法既需要高性能的存儲(chǔ)又需要高性能的計(jì)算。許多人工智能系統(tǒng)都基于GPU(例如Nvidia DGX),可以減輕開(kāi)發(fā)精確算法所涉及的許多復(fù)雜數(shù)學(xué)計(jì)算的負(fù)擔(dān)。
公共云服務(wù)提供商已開(kāi)始提供可用于機(jī)器學(xué)習(xí)的GPU加速虛擬實(shí)例。在公共云中運(yùn)行機(jī)器學(xué)習(xí)工具可以降低構(gòu)建機(jī)器學(xué)習(xí)開(kāi)發(fā)基礎(chǔ)設(shè)施的投資和成本,同時(shí)提供擴(kuò)展開(kāi)發(fā)機(jī)器學(xué)習(xí)模型所需基礎(chǔ)設(shè)施的能力。
使用公共云計(jì)算面臨的挑戰(zhàn)是如何以經(jīng)濟(jì)高效和實(shí)用的方式將數(shù)據(jù)導(dǎo)入公共云?;谠朴?jì)算的對(duì)象存儲(chǔ)速度太慢,無(wú)法滿足機(jī)器學(xué)習(xí)的I/O需求;因此,必須使用本地塊存儲(chǔ)。每延遲一分鐘傳輸數(shù)據(jù)以及執(zhí)行機(jī)器學(xué)習(xí)的延遲,就意味著增加運(yùn)行基礎(chǔ)設(shè)施的成本。
公共云的另一個(gè)問(wèn)題是數(shù)據(jù)出口的成本。盡管云計(jì)算服務(wù)提供商不收取將數(shù)據(jù)移動(dòng)到其平臺(tái)的費(fèi)用,但他們確實(shí)會(huì)收取從其平臺(tái)之外的公共網(wǎng)絡(luò)訪問(wèn)的任何數(shù)據(jù)的費(fèi)用。因此,盡管公共云在計(jì)算方面提供了靈活性,但以一種及時(shí)且經(jīng)濟(jì)高效的方式在云中進(jìn)出數(shù)據(jù)并不總是那么簡(jiǎn)單。
供應(yīng)商正在開(kāi)發(fā)存儲(chǔ)產(chǎn)品,以在其內(nèi)部部署和公共云中運(yùn)行其產(chǎn)品。這些產(chǎn)品可以有效地復(fù)制數(shù)據(jù)或?qū)?shù)據(jù)移至云中,并且只在完成后才將結(jié)果移回。這些復(fù)制技術(shù)具有高帶寬效率,使在本地存儲(chǔ)數(shù)據(jù)并導(dǎo)入到云中進(jìn)行分析工作變得切實(shí)可行。
6. 整合。在本文中,將機(jī)器學(xué)習(xí)和人工智能的存儲(chǔ)方面與計(jì)算隔離開(kāi)來(lái)。構(gòu)建人工智能數(shù)據(jù)存儲(chǔ)可能很困難,因?yàn)榇鎯?chǔ)網(wǎng)絡(luò)和調(diào)整存儲(chǔ)必須考慮其他因素才能與機(jī)器學(xué)習(xí)應(yīng)用程序一起工作。
產(chǎn)品的預(yù)包裝使供應(yīng)商能夠在將產(chǎn)品交付給客戶之前對(duì)其產(chǎn)品進(jìn)行測(cè)試和優(yōu)化。如今,有一些存儲(chǔ)產(chǎn)品將流行的人工智能軟件、通用CPU和GPU等計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)設(shè)備結(jié)合在一起,以提供支持人工智能的平臺(tái)。在部署這些系統(tǒng)之前,許多詳細(xì)的調(diào)整工作已完成。盡管成本可能是一個(gè)問(wèn)題,但對(duì)于許多客戶而言,預(yù)包裝的系統(tǒng)可以減少采用人工智能存儲(chǔ)的障礙。
顯然,選擇合適的人工智能數(shù)據(jù)存儲(chǔ)平臺(tái)是性能、可擴(kuò)展性和成本等指標(biāo)的平衡。正確使用存儲(chǔ)平臺(tái)至關(guān)重要,因?yàn)樯婕暗臄?shù)據(jù)量很大。選擇錯(cuò)誤的產(chǎn)品可能是一個(gè)代價(jià)高昂的錯(cuò)誤。與任何存儲(chǔ)產(chǎn)品決策一樣,重要的是與供應(yīng)商溝通,以準(zhǔn)確了解他們的產(chǎn)品如何滿足人工智能和機(jī)器學(xué)習(xí)的需要。該參與過(guò)程應(yīng)該包括演示和評(píng)估,并作為企業(yè)采購(gòu)決策的前奏。