大數(shù)據(jù)時(shí)代必有分層存儲(chǔ)
分層存儲(chǔ)講述UDSAFE在“信息生命周期管理”的基礎(chǔ)上,對(duì)數(shù)據(jù)信息的存放提出了更為科學(xué)的概念,那就是對(duì)在線數(shù)據(jù)進(jìn)一步分層。之所以提出這種概念,是因?yàn)榧词故窃诰€數(shù)據(jù),不同類型數(shù)據(jù)的數(shù)據(jù)量,訪問(wèn)頻率也截然不同。如今,分層存儲(chǔ)已成為了一種常見(jiàn)的存儲(chǔ)方法,它將數(shù)據(jù)存儲(chǔ)在具有不同特性(如性能、成本和容量)的不同存儲(chǔ)介質(zhì)上。不同的存儲(chǔ)媒介被分配到不同的層次結(jié)構(gòu)中,其中最高性能的存儲(chǔ)媒介被認(rèn)為是第0層或第1層,然后是第2層、第3層等等。
0層或1層通常是由閃存或基于3D Xpoint技術(shù)的固態(tài)硬盤(SSD)組成,以此往下的存儲(chǔ)層可能涉及高性能光纖通道或SAS驅(qū)動(dòng)器(或RAID陣列),較低性能的SATA驅(qū)動(dòng)器、光盤、磁帶存儲(chǔ)系統(tǒng)和基于云的近線(nearline)或離線存儲(chǔ)系統(tǒng)。
在SSD和云存儲(chǔ)普及之前,使用磁盤和磁帶來(lái)提供第1層、第2層和第3層存儲(chǔ)的3層存儲(chǔ)模型可能是最流行的分層存儲(chǔ)模型。但是現(xiàn)在使用包含5個(gè)或更多級(jí)別的分層存儲(chǔ)模型也并不少見(jiàn)了。每一個(gè)層都有細(xì)微的差別,從而產(chǎn)生三個(gè)關(guān)鍵存儲(chǔ)屬性的不同組合:成本、性能和容量。
分層存儲(chǔ)的目標(biāo)
如果費(fèi)用不成問(wèn)題,企業(yè)就可以使用SSD滿足所有存儲(chǔ)需求,因?yàn)樗鼈兲峁┝朔浅8叩男阅芎涂煽啃?。但是在現(xiàn)實(shí)中,存儲(chǔ)成本是非常重要的,因?yàn)镮T部門需要保證在預(yù)算范圍內(nèi)運(yùn)行,而組織作為一個(gè)整體必然要尋求最小化成本和最大化效率。不幸的是,與硬盤驅(qū)動(dòng)器相比,SSD存儲(chǔ)更貴,而且比磁帶存儲(chǔ)貴得多。
這代表我們需要明智地使用SSD,并且只用于存儲(chǔ)需要高性能系統(tǒng)使用的數(shù)據(jù)。不太重要的數(shù)據(jù)可以存儲(chǔ)在更低的成本、更低的性能系統(tǒng)(如HDD)上,很少訪問(wèn)或僅為合規(guī)性目的保留的數(shù)據(jù)可以轉(zhuǎn)移到成本非常低的離線存儲(chǔ)系統(tǒng)
因此,分層存儲(chǔ)并不是由IT部門的運(yùn)營(yíng)需求驅(qū)動(dòng)的,而純粹是出于財(cái)務(wù)原因。分層存儲(chǔ)系統(tǒng)的目標(biāo)是通過(guò)使用提供最低性能要求的最便宜的存儲(chǔ)來(lái)最小化存儲(chǔ)成本。
分層存儲(chǔ)是如何工作的?
只有兩個(gè)存儲(chǔ)層的分層存儲(chǔ)系統(tǒng)為存儲(chǔ)管理員提供了一個(gè)非常有限的選擇,即給定數(shù)據(jù)應(yīng)該存儲(chǔ)在什么地方。如果第2層可以提供這些數(shù)據(jù)所需要的存儲(chǔ)性能,那么可以將其存儲(chǔ)在第2層,如果沒(méi)有,就將其存儲(chǔ)在更昂貴的第1層。
分級(jí)存儲(chǔ)系統(tǒng)有三個(gè)層可能會(huì)更有效率,因?yàn)橄嗤臄?shù)據(jù)可以存儲(chǔ)在第3層如果性能水平足夠的話,如果不是那么它可以存儲(chǔ)在第2層,再然后是更昂貴的第1層,也就是說(shuō)有了更多的選擇。
實(shí)際上,可用的存儲(chǔ)層越多,數(shù)據(jù)塊就可以更有效地存儲(chǔ)在滿足其性能需求的適當(dāng)存儲(chǔ)層中,而不是以不必要的高成本提供不必要的高性能??梢允褂弥T如創(chuàng)建RAID陣列的技術(shù),用一組不同類型的存儲(chǔ)媒介創(chuàng)建新的層。分層存儲(chǔ)系統(tǒng)面臨的最大挑戰(zhàn)是將數(shù)據(jù)分類為多個(gè)類,這需要確定哪個(gè)存儲(chǔ)層最適合給定的數(shù)據(jù)類型,并在數(shù)據(jù)老化時(shí)定期對(duì)數(shù)據(jù)進(jìn)行重新分類。
這里的關(guān)鍵是,任何給定的數(shù)據(jù)存儲(chǔ)需求可能隨時(shí)間變化,因此數(shù)據(jù)存儲(chǔ)在分層存儲(chǔ)系統(tǒng)中時(shí),數(shù)據(jù)必須被長(zhǎng)期監(jiān)控,一旦它不再需要當(dāng)前的高性能,就可以轉(zhuǎn)移到較低成本的存儲(chǔ)層。
典型的分層存儲(chǔ)數(shù)據(jù)類型包括:
關(guān)鍵業(yè)務(wù)數(shù)據(jù)。這類數(shù)據(jù)總是需要存儲(chǔ)在最高層的存儲(chǔ)中,因?yàn)樗枰С指咚賾?yīng)用程序——可能支持客戶事務(wù)。訪問(wèn)數(shù)據(jù)的延遲可能會(huì)導(dǎo)致組織失去某些業(yè)務(wù),或?qū)τ芰Ξa(chǎn)生負(fù)面影響。對(duì)于此類數(shù)據(jù)來(lái)說(shuō),性能是最重要的。
熱數(shù)據(jù)。這類數(shù)據(jù)需要較高級(jí)別的分層存儲(chǔ),因?yàn)樗?jīng)常用于CRM、ERP甚至電子郵件等應(yīng)用,并且需要用于企業(yè)的日常運(yùn)行。在此類存儲(chǔ)層中,性能很重要,但是成本也是一個(gè)考慮因素。
溫?cái)?shù)據(jù)。此類包括較早的數(shù)據(jù),如超過(guò)幾天的電子郵件或已完成事務(wù)的數(shù)據(jù)。這類數(shù)據(jù)的訪問(wèn)頻率相對(duì)較低,但仍然要保證在需要時(shí)可以訪問(wèn)。在這個(gè)存儲(chǔ)層中,最重要的考慮因素是成本,但是受制于最低的性能閾值。
冷數(shù)據(jù)。這類數(shù)據(jù)可能永遠(yuǎn)不會(huì)再被訪問(wèn),但需要將其存檔并保留,以符合監(jiān)管或其他法律要求,或者只是因?yàn)樗赡茉谖磥?lái)某個(gè)不確定的時(shí)間具有某種價(jià)值——可能用于大數(shù)據(jù)分析。理想情況下,冷數(shù)據(jù)適合于可接受分鐘或小時(shí)訪問(wèn)時(shí)間的最低層次的分層存儲(chǔ),而低成本是最重要的考慮因素。
顯然,手動(dòng)的存儲(chǔ)分層方法可能過(guò)于耗時(shí)和繁瑣,難以成功。因此,大多數(shù)分層存儲(chǔ)系統(tǒng)依賴于使用層管理系統(tǒng)的自動(dòng)分層,層管理系統(tǒng)在整個(gè)生命周期中監(jiān)視數(shù)據(jù),并在數(shù)據(jù)冷卻時(shí)自動(dòng)將其向下移動(dòng)。
此軟件可能與單個(gè)存儲(chǔ)系統(tǒng)一起提供并在其上運(yùn)行,也可能是一個(gè)獨(dú)立的解決方案,它可以直接跨組織的存儲(chǔ)基礎(chǔ)設(shè)施工作,在某些情況下還可以通過(guò)云存儲(chǔ)網(wǎng)關(guān)進(jìn)入云。
分層存儲(chǔ)的主要優(yōu)勢(shì)
分層存儲(chǔ)帶來(lái)了許多好處,其中最重要的是:
·降低存儲(chǔ)成本:通過(guò)將每個(gè)數(shù)據(jù)類存儲(chǔ)在成本最低的存儲(chǔ)系統(tǒng)上,并提供其所需的最低性能,企業(yè)可以避免為不需要的高性能買單。存儲(chǔ)成本的降低是采用分層存儲(chǔ)系統(tǒng)的主要原因。
·更高的存儲(chǔ)效率:依賴RAID陣列的存儲(chǔ)系統(tǒng)的效率很低,因?yàn)榭梢源鎯?chǔ)在這些系統(tǒng)上的數(shù)據(jù)量比提供的總存儲(chǔ)容量要少——甚至在某些情況下要少得多。由于分層存儲(chǔ)系統(tǒng)可以緩解RAID的需求(通過(guò)將不需要如此高性能的數(shù)據(jù)轉(zhuǎn)移到較低的存儲(chǔ)層),因此存儲(chǔ)效率將會(huì)提高。
·能夠重用舊的存儲(chǔ)設(shè)備: 分層存儲(chǔ)可以為舊的存儲(chǔ)系統(tǒng)帶來(lái)新的生命,它們可以用于較低的存儲(chǔ)層,否則這些系統(tǒng)可能會(huì)因?yàn)闊o(wú)法為上層數(shù)據(jù)提供足夠的性能而被廢棄。
分層存儲(chǔ)等級(jí)
在一些已經(jīng)使用存儲(chǔ)分層一段時(shí)間的組織中,可能會(huì)將新的、比現(xiàn)有的第1層更快的存儲(chǔ)層視為第0層。但就本文而言,第1層被假定為性能最高的存儲(chǔ)層。
第1層
此存儲(chǔ)層用于存儲(chǔ)高度易失性和時(shí)間敏感的數(shù)據(jù),這些數(shù)據(jù)需要在盡可能短的時(shí)間內(nèi)可用。通常用于金融交易環(huán)境或其他業(yè)務(wù)領(lǐng)域,在這些領(lǐng)域中,可能在幾分之一秒內(nèi)生成或丟失比存儲(chǔ)成本大得多的資金,存儲(chǔ)速度需要盡可能快。因此,不管總體存儲(chǔ)效率如何,通常都需要為實(shí)現(xiàn)最高性能配置非??斓墓虘B(tài)存儲(chǔ)介質(zhì)來(lái)搭建第1層存儲(chǔ)。
第2層
此存儲(chǔ)層用于存儲(chǔ)事務(wù)性數(shù)據(jù),以支持高性能應(yīng)用程序、面向客戶的系統(tǒng)(如零售應(yīng)用程序)和其他系統(tǒng),在這些系統(tǒng)中,只能接受極短的延遲。由于所需的性能級(jí)別不像1層那么高,因此通常使用更低的成本和更高效的固態(tài)存儲(chǔ)系統(tǒng)來(lái)提供2層存儲(chǔ)解決方案。
第3層
第3層用于存儲(chǔ)“熱”數(shù)據(jù),如CRM和ERP數(shù)據(jù),甚至是最近的電子郵件,這些數(shù)據(jù)需要頻繁訪問(wèn),不能出現(xiàn)不必要的延遲。這意味著它需要存儲(chǔ)在如中到高性能硬盤驅(qū)動(dòng)器的介質(zhì)上,與固態(tài)存儲(chǔ)介質(zhì)相比,這些介質(zhì)的成本相對(duì)較低。在許多組織中,第3層的數(shù)據(jù)要比第2層或第1層的數(shù)據(jù)多得多,所以高容量的硬盤驅(qū)動(dòng)器提供了一個(gè)理想的解決方案,它提供了低成本的每GB存儲(chǔ)空間。
第4層
這個(gè)存儲(chǔ)層用于“溫”數(shù)據(jù),比如最近完成的事務(wù)的數(shù)據(jù)、幾天前的電子郵件以及其他不經(jīng)常訪問(wèn)的數(shù)據(jù)。它還可以用來(lái)存儲(chǔ)可能用于業(yè)務(wù)信息和數(shù)據(jù)可視化系統(tǒng)的數(shù)據(jù),或者用于創(chuàng)建月度、季度或年度報(bào)告所需的財(cái)務(wù)數(shù)據(jù)。但是無(wú)論何時(shí)需要,都需要相對(duì)快速的訪問(wèn)。第4層存儲(chǔ)需求可能非常大,由于成本是主要考慮因素,因此第4層存儲(chǔ)的典型解決方案是大容量硬盤驅(qū)動(dòng)器存儲(chǔ)。與配置用于性能需求的高性能SAS磁盤或RAID陣列不同,第4層存儲(chǔ)更可能使用低成本、相對(duì)低性能的SATA驅(qū)動(dòng)器。
第5層
最低的存儲(chǔ)層通常用于存檔可能永遠(yuǎn)不會(huì)再次訪問(wèn)的“冷”數(shù)據(jù),但仍然有一些價(jià)值(可能將來(lái)用于數(shù)據(jù)挖掘),因此值得保留。它還用于存儲(chǔ)必須為合規(guī)性目的而保留的數(shù)據(jù),這些數(shù)據(jù)只需要在幾天或幾周內(nèi)訪問(wèn),而不需要在幾分鐘或幾秒內(nèi)訪問(wèn)。
光介質(zhì)或磁帶存儲(chǔ)系統(tǒng)通常用于這一存儲(chǔ)層,它們的存儲(chǔ)成本很低,但性能很差。在過(guò)去的幾年里,基于云的存儲(chǔ)已經(jīng)成為常見(jiàn)的選擇,企業(yè)可以將大量的數(shù)據(jù)以低成本的方式存儲(chǔ),或者在需要的時(shí)候在幾小時(shí)內(nèi)相對(duì)容易地獲取數(shù)據(jù)。