騰訊:中國實時數(shù)據(jù)計算量最大公司
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分模谝栽朴嬎銥榇淼募夹g(shù)創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。11月6日,在Techo開發(fā)者大會上,騰訊云副總裁、騰訊數(shù)據(jù)平臺部總經(jīng)理蔣杰表示,經(jīng)過10年的積累,騰訊大數(shù)據(jù)平臺的算力資源池目前已有超過20萬臺的規(guī)模,每天實時數(shù)據(jù)計算量超過30萬億條,騰訊已經(jīng)成為中國實時數(shù)據(jù)計算量最大的公司。
上述數(shù)據(jù)背后是騰訊大數(shù)據(jù)平臺技術(shù)過去10年的不斷演進。據(jù)蔣杰介紹,騰訊的數(shù)據(jù)量在短短5、6年時間增長了幾千倍,目前每天產(chǎn)生的數(shù)據(jù)量超過幾十萬億條數(shù)據(jù)在產(chǎn)生。為了應對這種爆炸式增長,騰訊走出了一條技術(shù)引進+改造+自研的道路,在過去10年間,騰訊大數(shù)據(jù)平臺已經(jīng)經(jīng)歷了四代演進。
從以Hadoop為核心的離線計算時代到以Spark、Storm、Flink為核心的實時計算時代,再到如今的機器學習和深度學習時代,騰訊從無到有研發(fā)了分布式的機器學習引擎Angel,以及一站式AI開發(fā)平臺智能鈦TI,用來解決數(shù)據(jù)訓練和算法的問題。目前,騰訊正在研究以批流融合、ABC融合、以及數(shù)據(jù)湖和聯(lián)邦學習為方向的下一代大數(shù)據(jù)平臺的研究,該平臺將具備混合部署、跨域數(shù)據(jù)共享和邊緣計算等能力。
蔣杰表示,從開始的技術(shù)引進、局部優(yōu)化到如今的自主創(chuàng)新,騰訊的大數(shù)據(jù)技術(shù)也在實踐中不斷完善和創(chuàng)新。“十年前,騰訊管理幾百個節(jié)點都很困難,調(diào)度性能差,規(guī)模上不去。后來為了有效解決計算能力和大規(guī)模集群問題,騰訊自研調(diào)度器,相對原生調(diào)度器性能提升150倍,大大提升了集群可擴展性。現(xiàn)在,騰訊大數(shù)據(jù)平臺每天有1500萬個分析任務,每天數(shù)據(jù)接入條數(shù)達35萬億條數(shù)據(jù)。”
2個月前,騰訊在ApacheCon 2019上,面向全球開發(fā)者正式宣布開源自身核心平臺——實時數(shù)據(jù)采集平臺TubeMQ,并捐獻給Apache社區(qū)。此次在Techo大會現(xiàn)場,再次重磅宣布正式開源資源管理平臺核心TKE和分布式數(shù)據(jù)庫TBase,隨著在大數(shù)據(jù)開源領域的開源逐步加速,騰訊正在成為中國大數(shù)據(jù)領域開源最全面的廠商。“目前,已經(jīng)有數(shù)百萬的開發(fā)者在騰訊云上構(gòu)建應用,相信后面會有越來越多開發(fā)者加入,我們將和所有開發(fā)者一起,共建云上的應用生態(tài)”,蔣杰表示。