www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 廠商動態(tài) > 亞馬遜云科技
[導讀]PB級云數據倉庫服務Amazon Redshift發(fā)布近十年之際,Amazon Science采訪了亞馬遜云科技數據分析副總裁Rahul Pathak和亞馬遜云科技高級首席工程師Ippokratis Pandis,他們分享了Amazon Redshift的起源、過去近十年的成長及其未來展望。


PB級云數據倉庫服務Amazon Redshift發(fā)布近十年之際,Amazon Science采訪了亞馬遜云科技數據分析副總裁Rahul Pathak和亞馬遜云科技高級首席工程師IppokratisPandis,他們分享了Amazon Redshift的起源、過去近十年的成長及其未來展望。

十年前,時任亞馬遜云科技高級副總裁的Andy Jassy(現任Amazon CEO)在首屆亞馬遜云科技re:Invent大會上宣布推出Amazon Redshift預覽版。與昂貴、缺乏彈性并需要投入大量的運營人力和資金的傳統本地數據倉庫解決方案相比,Amazon Redshift有了質的飛躍。

亞馬遜首席技術官Werner Vogels在2012年11月28日的博文里表示:“我們很高興推出了Amazon Redshift預覽版,這是一個高性能、全托管的PB級云數倉服務。該服務的性能將顯著提升客戶的數據分析效率。Amazon.com的數據倉庫團隊一直在試用Amazon Redshift,他們對規(guī)模高達20億行的數據集進行了一系列的典型查詢,并將Amazon Redshift與本地數據倉庫進行比較,結果顯示Amazon Redshift將速度提高了10-150倍!”

這也是為何當時還是高級產品經理的Rahul Pathak以及整個Amazon Redshift團隊,在該服務宣布推出之日充滿信心。Rahul Pathak現任亞馬遜云科技數據分析副總裁,他回憶:“我們沒料到的是它會這么受客戶歡迎。在提供預覽版時,我們先讓客戶注冊,了解他們的數據量和工作負載。約三天左右,我們就發(fā)現客戶對Amazon Redshift的需求量比原先預計的整年需求量還多10倍。于是,我們在re:Invent一結束就迅速增加硬件訂單,以確保在2013年初Amazon Redshift正式可用時能有充足的數據中心硬件支持。還好提前提供了預覽版,否則我們將應接不暇。”

從那時起,Amazon Redshift團隊一直加緊創(chuàng)新,滿足客戶不斷增長的各種需求。如今,數以萬計的客戶每天使用Amazon Redshift處理EB級的數據,為高性能商業(yè)智能(BI)報告、儀表板應用程序、數據探索和實時分析等分析工作負載提供支持。

關于Redshift的起源

Rahul:在Amazon Redshift推出的前幾年,我們的很多客戶就已經把除了數據倉庫之外的所有工作負載遷移到了云端。數據倉庫常常是客戶在企業(yè)本地運行的最后一個應用,而且他們仍面臨如成本高昂、帶有懲罰性質的許可費、難以擴展,并且無法分析所有數據等重重挑戰(zhàn)??蛻舻脑V求之一便是希望在云中大規(guī)模地運行具備足夠性價比的數據倉庫來分析所有數據,同時兼顧性能。

隨后,我們開始著手構建、運營一個代號為Cookie Monster的全新項目。當時,客戶數據量正在爆炸式增長,這些數據不僅來自關系型數據庫,還包括各種各樣的數據源??蛻粼囉昧薘edshift的一個早期測試版,發(fā)現結果返回速度快得驚人,比他們之前使用的系統快了10到20倍,以至于他們還以為系統出現了問題。當然,我們也收到一些客戶對某些早期功能不滿意的反饋。我們及時與這些客戶取得聯系,了解他們面臨的挑戰(zhàn)、反饋,并在2013年2月該服務正式上線之前進行了調整。

當我們推出Amazon Redshift,并宣布定價為每年1000美元/TB時,人們簡直不敢相信我們推出了一個性價比如此之高的服務。我們在幾分鐘內而不是幾個月就能為客戶提供一個數據倉庫,這吸引了所有人的關注,被業(yè)界稱為一個真正的游戲規(guī)則改變者。

Ippokratis:當時,我在IBM研究院從事數據庫技術工作,我們意識到,以云服務的方式提供數據倉庫將顛覆游戲規(guī)則。使用客戶的本地系統通常需要幾天或幾周時間才能解決的問題,使用像Redshift這樣的云數據倉庫則只需要幾分鐘,應用云服務明顯加快了創(chuàng)新的速度。

就傳統的本地數據倉庫而言,通常需要花費幾個月甚至幾年時間才能將新功能更新到最新的軟件版本中;而在云端,新功能可以在幾周內推出,客戶無需改變其應用程序中的任何一行代碼。Amazon Redshift的發(fā)布是一個拐點,讓我對云和云數據倉庫產生了真正的興趣,并選擇加入了亞馬遜云科技。[Ippokratis于2015年10月作為首席工程師加入Amazon Redshift團隊]。

關于Amazon Redshift在過去的十年中的發(fā)展

Ippokratis:為了滿足客戶的需求,Amazon Redshift已進入快速迭代過程。我們主要聚焦四個維度:1)滿足客戶高效處理日益復雜的分析查詢的需求;2)客戶需要處理更多數據,需要從數據中獲得洞察的用戶數量也大幅增長;3)客戶需要更易于操作的系統;4)客戶希望將Amazon Redshift與亞馬遜云科技其他服務進行集成。

Amazon Redshift從誕生之日起,我們就致力于讓它能為客戶提供卓越的的高性價比。團隊從一開始,就專注于盡最大可能降低核心查詢執(zhí)行延遲,以便系統能夠響應更多作業(yè)請求,客戶能夠運行更多工作負載,并支持日常分析。為此,Amazon Redshift生成高度優(yōu)化的C++代碼,然后將其發(fā)送到并行數據庫中的分發(fā)器,并執(zhí)行這些高度優(yōu)化的代碼。這種方法讓Amazon Redshift在查詢執(zhí)行方式上獨樹一幟,也使它一直成為服務的核心。

我們從來沒有停止過創(chuàng)新,一直竭力為客戶提更好的性能。另一個讓我感興趣的點是,客戶在傳統商業(yè)智能中,通常會為需要長時間運行的作業(yè)進行系統優(yōu)化。但當我們從深入分析客戶行為時,我們發(fā)現在每天運行的數十億次查詢中,90%的查詢執(zhí)行時間不到一秒。這一驚人發(fā)現打破了人們對數據倉庫期望的傳統認知,同時也改變了我們著力優(yōu)化的代碼方向。

Rahul:正如Ippokratis提到的,客戶需要處理更多的數據,并使用這些數據為整個組織挖掘數據價值,這是我們重點關注的第二個方向。數據分析一直非常重要,但在八或十年前,卻不一定是客戶的關鍵任務應用?,F在,這種情況已經改變,企業(yè)核心業(yè)務流程依賴于Amazon Redshift的高可用性和高性能。過去十年中,為支持這一目標,Amazon Redshift在架構上最大的變化是引入Redshift Managed Storage (RMS),將計算和存儲分離,并聚焦各自領域,大舉創(chuàng)新。

RMS支持跨多個可用區(qū),具有99.999999999%的耐久性和99.99%的可用性。RMS既管理用戶數據,也管理交易元數據。

另一個重大趨勢是客戶希望在不同的數據集之間進行查詢和整合。我們在2017年推出了Redshift Spectrum,讓Amazon Redshift成為云中第一個支持查詢Amazon S3數據的數據倉庫。之后Amazon Redshift運行查詢的能力也得到進一步證實,該服務能夠掃描Amazon S3以及集群中EB級的數據進行查詢。這是另一個改變游戲規(guī)則的重要時刻。

像納斯達克這樣的客戶已經廣泛使用這種方式來查詢本地磁盤上的數據,獲得最高的性能,同時利用Amazon Redshift與數據湖的完美集成,實現對整個歷史數據的高性能查詢。除了查詢數據湖,Amazon Redshift還支持對Amazon Aurora和Amazon RDS等交易型數據存儲的綜合查詢,這也是一大創(chuàng)新??蛻粽嬲饬x上擁有一個高性能的分析系統,能夠查詢所有重要數據,無需像其他系統那樣管理復雜的集成過程。

Ippokratis: 易用性是我們關注的第三個方向。傳統本地數據倉庫需要企業(yè)IT部門配備專門的數據庫管理員。過去十年中,客戶期望已經發(fā)生了變化。現在,如果把數據倉庫作為一種服務來提供,系統必須能夠自動調整、修復和優(yōu)化。這已經成為我們關注的一個重要領域,通過將機器學習和自動化納入系統,增強易用性,減少管理員的工作量。

Rahul:在易用性方面,我想到了三個創(chuàng)新。第一是并發(fā)擴展。與工作負載管理類似,客戶以前必須手動調整并發(fā),或重置手動分割的工作負載集群。現在,系統會自動部署新的資源,自動伸縮,客戶無需采取任何行動。

第二是自動表優(yōu)化功能。系統能夠通過查看工作負載和數據布局,并自動建議數據應該如何在集群節(jié)點中排序和分布。這個優(yōu)化是一個不斷學習的過程,它能夠持續(xù)根據工作負載的變化進行調整,這是一個非常厲害的功能。

客戶總是在增加更多數據集和更多用戶,昨天的最優(yōu)選到明天可能就不復存在了。Amazon Redshift可以自動識別,并根據數據存儲進行調優(yōu)。關于如何分析數據在多節(jié)點并行處理系統中的最佳分布鍵,這是個非常有趣的話題,我們在幾年前發(fā)布的一篇圖優(yōu)化論文中專門進行了分析。我們對最佳分布鍵進行了自動優(yōu)化,并加入了對數據壓縮編碼的處理。在一個分析系統中,如何壓縮數據對結果有很大影響,因為掃描的數據越少,查詢就越快。過去,客戶必須自己決定選擇什么樣的壓縮編碼格式?,F在,Amazon Redshift可以自動確定如何正確編碼數據,為數據和工作負載提供盡可能高的性能。

第三個創(chuàng)新是去年re:Invent上推出的Amazon Redshift Serverless。Redshift Serverless可在幾秒鐘內自動設置和擴展資源,讓客戶無需管理數據倉庫集群,即可以為PB級數據規(guī)模運行高性能分析工作負載,更輕松地從數據中快速獲取洞察。通過Redshift Serverless,客戶只需要配置一個endpoint即可與他們的數據進行互動,Redshift Serverless將自動擴展并自動管理系統,從根本上消除了復雜性。

客戶可以只關注他們的數據,設置限制參數來管理預算,我們可在設定好的限制條件之下提供最佳性能。這是在易用性方面取得的另一個巨大進步,因為它無需客戶進行任何操作。就目前客戶對Redshift Serverless預覽版的反饋來看,客戶對該服務的表現非常滿意。我們也很高興推出了Amazon Redshift Serverless正式可用版本。

Ippokratis: 第四個重點是與其他亞馬遜云科技服務的集成。集成是客戶的使用行為從傳統BI向前進化的重要方向。如今,云數據倉庫是一個中心樞紐,與廣泛的亞馬遜云科技服務緊密集成。首先,我們?yōu)榭蛻籼峁┝藢祿}庫中的數據與數據湖連接起來的能力。之后,客戶表示需要訪問Amazon Aurora和Amazon RDS等運營數據庫中的高速業(yè)務數據,于是,Amazon Redshift增加了對OLTP交易數據庫的訪問支持。然后,我們增加了對流數據的支持,以及與Amazon SageMaker和Amazon Lambda的集成,客戶就可以在不移動數據的情況下運行機器學習訓練和推理,并進行通用計算。很明顯,我們已經從傳統BI系統轉化成為深度集成的一組亞馬遜云科技服務。

Rahul:集成的另一個重要方面是與機器學習服務。通過Redshift ML,數據分析師和數據庫開發(fā)人員可以在Amazon Redshift中使用熟悉的 SQL 命令輕松創(chuàng)建、訓練和應用機器學習模型。我們構建了從SQL語言創(chuàng)建模型的能力,它將數據攝取到Amazon S3并調用Amazon SageMaker,使用自動機器學習建立最合適的模型,并基于數據提供預測。

模型經高效編譯并返回數據倉庫,讓客戶無需額外的計算和成本,即可運行高性能推理。這種集成的優(yōu)勢在于,Amazon SageMaker中的每一次創(chuàng)新也就意味著Redshift ML變得更好。這是客戶可以從我們的服務集成中受益的另一種方式。

集成的另一個重要的方向是Data Sharing。一旦使用 RA3 實例,將計算和存儲層分離,就可以打開Data Sharing,讓客戶有能力與同一賬戶、其他賬戶、或者跨區(qū)域的集群共享數據。這意味著可以將數據消費者和生產者分開,實現現代化的數據網格等等架構上的創(chuàng)新。客戶可以在不復制數據的情況下分享數據,從而達成不同賬戶間的數據一致性。

例如,數據科學家組別的用戶可以安全地在共享數據中工作,報表或營銷組的用戶也可以。我們還將Data Sharing與AmazonData Exchange整合在一起,客戶可以搜索并訂閱最新的第三方數據集,并在Amazon Redshift中立即進行查詢。從釋放數據潛能的角度來看,這種整合再次改變了游戲規(guī)則,幫助第三方供應商數據變現,更為用戶提供安全、實時的數據訪問和許可,方便在內部和跨組織進行高性能分析。Amazon Redshift是一個極其豐富的數據生態(tài)系統的一部分,這是一個巨大的優(yōu)勢,能滿足客戶在公司的各個組織之間更方便的提供/獲取數據的需求。

展望Redshift及云數據倉庫的發(fā)展前景

Rahul:未來,客戶將產生越來越多的數據,他們希望更經濟高效地分析這些數據。雖然數據量呈現指數級增長,但很顯然,客戶并不希望他們的成本也以指數級增長。這就要求我們繼續(xù)創(chuàng)新,進一步提升性能以確保單位數據處理成本持續(xù)下降。

我們將繼續(xù)在軟件、硬件、芯片和機器學習應用等方面進行創(chuàng)新。在過去的10年中,我們已經兌現了這一承諾,今后亦將如此。

我非常自豪于我們團隊目前取得的諸多成就,同時,我也同樣對我們正在執(zhí)著努力的事業(yè)而熱血沸騰。

客戶總是希望擁有更好的可用性,希望他們的數據是安全的以及與更多數據源整合的可能性,我們也計劃繼續(xù)圍繞這些方向優(yōu)化服務體驗??梢源_定的是,我們有能力提供極具高性價比、深度集成和安全可靠的服務,幫助客戶創(chuàng)造更多價值。

Ippokratis: 這是一段不可思議的旅程。我們一直在與客戶一路前行,不斷重構。這背后離不開亞馬遜云科技領導團隊的支持,但更重要的是團隊中出色的工程師、經理和產品團隊,他們讓一切成為可能。


本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯系該專欄作者,如若文章內容侵犯您的權益,請及時聯系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯合牽頭組建的NVI技術創(chuàng)新聯盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯...

關鍵字: VI 傳輸協議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉