今日頭條與英特爾合作,瞄準(zhǔn)AI與大數(shù)據(jù)
數(shù)據(jù)是人工智能(以下簡(jiǎn)稱AI)技術(shù)的燃料,也被比喻為數(shù)據(jù)經(jīng)濟(jì)中的石油。在AI時(shí)代,數(shù)據(jù)的采集、存儲(chǔ)、傳輸和處理需要強(qiáng)大的基礎(chǔ)設(shè)施作為支撐。數(shù)據(jù)中心和數(shù)萬(wàn)臺(tái)服務(wù)器成為互聯(lián)網(wǎng)巨頭的標(biāo)配。
8月22日,今日頭條與英特爾舉辦主題為“數(shù)據(jù)賦能,AI正當(dāng)時(shí)”的戰(zhàn)略合作發(fā)布會(huì),會(huì)上,今日頭條介紹與英特爾合作的超10萬(wàn)臺(tái)服務(wù)器的大規(guī)模數(shù)據(jù)中心,同時(shí)雙方宣布成立技術(shù)創(chuàng)新實(shí)驗(yàn)室,在大數(shù)據(jù)和AI方面進(jìn)行更長(zhǎng)遠(yuǎn)戰(zhàn)略合作。
今日頭條建大規(guī)模數(shù)據(jù)中心
這兩年,頭條系產(chǎn)品用戶量增長(zhǎng)迅猛,要處理的數(shù)據(jù)也是呈指數(shù)級(jí)增長(zhǎng)。
近日頭條技術(shù)副總裁楊震原介紹,目前,今日頭條每日數(shù)據(jù)處理量超過(guò)50PB、存儲(chǔ)數(shù)據(jù)超過(guò)1500PB、評(píng)論系統(tǒng)每天的評(píng)論數(shù)大概有1億條,需要大量的服務(wù)器來(lái)處理這些內(nèi)容。
2013年3月字節(jié)跳動(dòng)的服務(wù)器數(shù)量只有幾十臺(tái),到年底增至一千臺(tái),此后便是上萬(wàn)臺(tái)的增長(zhǎng)。在2017年年初的時(shí)候,公司大概有2-3萬(wàn)臺(tái)服務(wù)器,現(xiàn)在大概有17萬(wàn)臺(tái)服務(wù)器。
今日頭條對(duì)大型數(shù)據(jù)中心的需求是急迫的。楊震原介紹道,字節(jié)跳動(dòng)花費(fèi)了不到九個(gè)月的時(shí)間在懷來(lái)創(chuàng)建起了超大規(guī)模的數(shù)據(jù)中心。數(shù)據(jù)中心投入運(yùn)營(yíng)創(chuàng)立了國(guó)內(nèi)多個(gè)第一,包括國(guó)內(nèi)首個(gè)大平層預(yù)制數(shù)據(jù)中心,首個(gè)整體電源模塊預(yù)制數(shù)據(jù)中心,首個(gè)大規(guī)模分布式數(shù)據(jù)中心,首個(gè)間接蒸發(fā)冷卻模塊數(shù)據(jù)中心。
曾報(bào)道,今日頭條在懷來(lái)的數(shù)據(jù)中心是第三方廠商秦淮數(shù)據(jù)定制的,投資60億元,主要承載數(shù)據(jù)存儲(chǔ)、挖掘分析、應(yīng)用等數(shù)據(jù)交易生態(tài)體系和云服務(wù)生態(tài)體系,定位為國(guó)家級(jí)新媒體企業(yè)提供高可靠性的云計(jì)算服務(wù)。
字節(jié)跳動(dòng)2016年初開始有新建數(shù)據(jù)中心的計(jì)劃,懷來(lái)的基礎(chǔ)設(shè)施相對(duì)不完善,但是潛力巨大。2017年12月字節(jié)跳動(dòng)開始在懷來(lái)數(shù)據(jù)中心放置服務(wù)器,目前一期園區(qū)約5萬(wàn)臺(tái)服務(wù)器已經(jīng)投入使用,正在緊鄰一期園區(qū)建設(shè)二期,規(guī)模增加一半但預(yù)計(jì)工期相同,大概能容納9萬(wàn)臺(tái)服務(wù)器。
今日頭條的服務(wù)器100%采用最新的英特爾至強(qiáng)可擴(kuò)展處理器(Purley)平臺(tái),基于Purley平臺(tái)去架構(gòu)的大數(shù)據(jù)分析、精準(zhǔn)廣告的推放、個(gè)人用戶行為的分析,在今日頭條和抖音很多應(yīng)用當(dāng)中都已經(jīng)有出色的使用。
數(shù)據(jù)中心是互聯(lián)網(wǎng)巨頭的標(biāo)配,但是也不是一勞永逸的方法。楊震原談到,“懷來(lái)數(shù)據(jù)中心已經(jīng)滿載運(yùn)行了,下一步我們還要建設(shè)更大規(guī)模的數(shù)據(jù)中心。但是,更大規(guī)模的數(shù)據(jù)中心實(shí)際上只是解決擴(kuò)展性的問(wèn)題,我們有資源的情況下可以迅速的擴(kuò)充資源,支撐我們的業(yè)務(wù)發(fā)展。但未來(lái)的挑戰(zhàn)也非常大,我們也不可能完全靠堆資源的方式解決我們的問(wèn)題。
舉一些我們未來(lái)的挑戰(zhàn),比如全球化運(yùn)營(yíng),字節(jié)跳動(dòng)在歐洲、北美、南美、東南亞都有很多產(chǎn)品和用戶。全球化運(yùn)營(yíng)過(guò)程中我們會(huì)面臨海外IDC的建設(shè)還有長(zhǎng)距離傳輸?shù)奶魬?zhàn),尤其是我們的推薦系統(tǒng)是一個(gè)非常緊耦合的結(jié)構(gòu),這個(gè)對(duì)我們的挑戰(zhàn)非常大。再比如,數(shù)據(jù)規(guī)模會(huì)進(jìn)一步的擴(kuò)大,會(huì)帶來(lái)一些計(jì)算模式的演進(jìn),還有算法沉淀、商業(yè)模式帶來(lái)的一些問(wèn)題。
另外,新硬件的變化,手機(jī)移動(dòng)端和5G網(wǎng)絡(luò)這些新的變化可能會(huì)帶來(lái)未來(lái)計(jì)算模式到底是什么樣的變化,是不是有更多的計(jì)算offload在外面,我們的傳輸是不是有新的模式去運(yùn)作,這些問(wèn)題對(duì)我們都有很大的挑戰(zhàn),而且我們不能都僅僅通過(guò)加資源去解決,這就是我們?yōu)槭裁慈ジ⑻貭柛泳o密的合作,我們希望不僅僅在資源的累積上,而是做更多的創(chuàng)新,更多的算法,我們能夠給英特爾提出更多的問(wèn)題,我們一起去合作,這些東西是為了解決我們的挑戰(zhàn),而且我希望這些東西能夠輸出給行業(yè),能夠帶動(dòng)市場(chǎng)的發(fā)展,所以這是共贏一個(gè)事情?!?/p>
AI驅(qū)動(dòng)的全球內(nèi)容平臺(tái)
這幾年,AI風(fēng)口正盛,而今日頭條正是依靠算法、AI技術(shù)快速崛起的新銳AI公司代表。在2016年,今日頭條創(chuàng)辦人工智能實(shí)驗(yàn)室,旨在推動(dòng)人工智能前沿技術(shù)研究,讓機(jī)器深入理解文字、圖片、視頻、環(huán)境場(chǎng)景和用戶興趣,從而促進(jìn)人類信息與知識(shí)交流的效率和深度。主要研究機(jī)器學(xué)習(xí)、圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等AI技術(shù)。
據(jù)今日頭條算法架構(gòu)師曹歡歡介紹,今日頭條在目前在多方面運(yùn)用AI技術(shù):第一方面是做內(nèi)容推薦的算法,目前頭條、抖音、火山、西瓜都在大量地使用這方面的技術(shù);第二是自然語(yǔ)言處理,主要用來(lái)分析文章內(nèi)容、用戶評(píng)論等,對(duì)內(nèi)容推薦是很重要的支撐。此外,我們也在用NLP技術(shù)做寫稿機(jī)器人“Xiaomingbot”;另外是計(jì)算機(jī)視覺(jué),我們?cè)诙兑?、火山、FaceU激萌等短視頻App上用到了很多的CV技術(shù),例如人臉特效、背景分割、“尬舞機(jī)”、內(nèi)容審核、封面選擇、AI剪輯等;最后是語(yǔ)音識(shí)別,這個(gè)方面應(yīng)用還不多,目前是用在抖音、火山、西瓜里的內(nèi)容審方面,將視頻的語(yǔ)音內(nèi)容識(shí)別成文字,然后利用NLP技術(shù)去發(fā)現(xiàn)不良內(nèi)容、惡意營(yíng)銷等。
了解到,今日頭條這些AI技術(shù)研發(fā)和落地應(yīng)用都需要底層力量支持,英特爾為今日頭條提供基礎(chǔ)架構(gòu)平臺(tái)支撐,包括CDN、智能運(yùn)維數(shù)據(jù)系統(tǒng)、計(jì)算、存儲(chǔ)。在計(jì)算方面,今日頭條現(xiàn)在已經(jīng)全面使用新一代至強(qiáng)可擴(kuò)展平臺(tái),網(wǎng)絡(luò)傳輸方面采用英特爾新一代高速網(wǎng)卡,存儲(chǔ)方面也大量用到SSD,在底層的開源軟件上也有合作。
英特爾助力企業(yè)級(jí)計(jì)算
隨著企業(yè)級(jí)的計(jì)算市場(chǎng)在不斷的發(fā)展,云計(jì)算、大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)技術(shù)也在不斷的創(chuàng)新,英特爾正在從以個(gè)人電腦為中心變成以數(shù)據(jù)為中心的公司。
英特爾公司市場(chǎng)營(yíng)銷集團(tuán)行業(yè)解決方案部中國(guó)區(qū)總經(jīng)理梁雅莉介紹到,英特爾是業(yè)界現(xiàn)在唯一一家能夠提供從數(shù)據(jù)中心、從云到端的端到端解決方案的公司,英特爾既能夠通過(guò)最新的至強(qiáng)可擴(kuò)展處理器以及開發(fā)當(dāng)中的神經(jīng)網(wǎng)絡(luò)處理器來(lái)滿足數(shù)據(jù)中心當(dāng)中海量的數(shù)據(jù)處理,也可以在汽車、無(wú)人機(jī)等對(duì)能耗以及對(duì)運(yùn)行環(huán)境特別有嚴(yán)苛要求的到端的場(chǎng)合提供Movidius這種低功耗、高性能的人工智能處理芯片,當(dāng)然我們還會(huì)通過(guò)創(chuàng)新的劃時(shí)代的存儲(chǔ)技術(shù)和連接技術(shù)、通訊技術(shù)來(lái)賦能各行各業(yè)數(shù)字化的創(chuàng)新和轉(zhuǎn)型。
據(jù)了解,在硬件方案之上,英特爾也在積極推動(dòng)人工智能領(lǐng)域高性能軟件工具的開源,目前所有的主流人工智能軟件的框架TensorFlow、Caffe,已經(jīng)在英特爾的至強(qiáng)平臺(tái)、英特爾的Nervana神經(jīng)網(wǎng)絡(luò)平臺(tái)上得到非常好的性能的優(yōu)化,而且英特爾也將把優(yōu)化所有這些框架使用的工具,MKL-DNN都開源開放給所有的開發(fā)者,能夠推動(dòng)更多、更好的人工智能的軟件充分發(fā)揮英特爾Nervana平臺(tái)的性能。
今日頭條是英特爾助力企業(yè)級(jí)計(jì)算的一個(gè)例子。從2013年起,今日頭條就與英特爾展開了合作。2018年,雙方在年初簽訂了創(chuàng)新基金,然后共同成立了創(chuàng)新實(shí)驗(yàn)室,今天一起簽訂戰(zhàn)略合作備忘錄,利用雙方的資源優(yōu)勢(shì)來(lái)引領(lǐng)行業(yè)技術(shù)發(fā)展的趨勢(shì)。
英特爾與今日頭條的戰(zhàn)略合作涵蓋數(shù)據(jù)中心和底層基礎(chǔ)架構(gòu)的硬件和軟件優(yōu)化、市場(chǎng)合作以及成功案例推廣等,包括大數(shù)據(jù)分析、人工智能等領(lǐng)域。合作內(nèi)容具體包括以英特爾至強(qiáng)可擴(kuò)展處理器的計(jì)算、基于英特爾3D XPoint技術(shù)的存儲(chǔ)產(chǎn)品和網(wǎng)絡(luò),為今日頭條構(gòu)建和優(yōu)化數(shù)據(jù)中心基礎(chǔ)設(shè)施;并通過(guò)AVX2/AVX-512等指令集與軟件層的優(yōu)化,為今日頭條的數(shù)據(jù)分析及人工智能應(yīng)用賦能,打造全方位的解決方案。
技術(shù)創(chuàng)新合作實(shí)驗(yàn)室主要是圍繞平臺(tái)架構(gòu)、技術(shù)架構(gòu)、應(yīng)用業(yè)務(wù)架構(gòu)和技術(shù)趨勢(shì)等方面進(jìn)行深度合作,希望能夠引領(lǐng)行業(yè)應(yīng)用趨勢(shì),樹立行業(yè)技術(shù)的典范,希望通過(guò)技術(shù)實(shí)驗(yàn)室將平臺(tái)架構(gòu)與技術(shù)架構(gòu)靈活結(jié)合起來(lái),并轉(zhuǎn)化為生產(chǎn)力,更好的支撐和應(yīng)用到整個(gè)業(yè)務(wù)架構(gòu)當(dāng)中,將最前沿的技術(shù)落地,落地到具體的項(xiàng)目和業(yè)務(wù)當(dāng)中。
相關(guān)文章:
英特爾重申IoT三大戰(zhàn)略,邊緣側(cè)布局初見(jiàn)成效
搭建新零售基礎(chǔ)設(shè)施,英特爾聯(lián)手京東做了這些
原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。