AI開發(fā)的最新技術(shù);彭博讓你節(jié)省不必要的時(shí)間
與大多數(shù)人的想象不同,在機(jī)器學(xué)習(xí)領(lǐng)域里,處理數(shù)據(jù)所耗費(fèi)的精力占據(jù)著最多比例。通常情況下,每購(gòu)買 1 美元的數(shù)據(jù),我們需要花費(fèi) 5-7 美元來(lái)清理,才能讓它用于機(jī)器學(xué)習(xí)模型的訓(xùn)練與推理。在這個(gè)過(guò)程中,數(shù)據(jù)科學(xué)家要耗費(fèi)整個(gè)開發(fā)流程 80-90% 的時(shí)間。
如果可供使用的數(shù)據(jù)標(biāo)準(zhǔn)化且直接可用,成本和效率的提升就會(huì)讓科技公司獲得前所未有的優(yōu)勢(shì)。在這一方面,彭博是業(yè)內(nèi)領(lǐng)先的數(shù)據(jù)服務(wù)提供商。
數(shù)據(jù)服務(wù)并不止于交易數(shù)據(jù),今年 2 月 21 日,彭博宣布推出“另類數(shù)據(jù)”服務(wù),其中包括 20 余種新類型數(shù)據(jù),如基于人工智能和大數(shù)據(jù)處理得到的人流、社交媒體情緒數(shù)據(jù),它們可以幫助投資者在瞬息萬(wàn)變的市場(chǎng)中帶來(lái)先機(jī)。今天,作為人工智能大潮的一部分,數(shù)據(jù)服務(wù)正在邁向全新的階段。
彭博為眾多金融機(jī)構(gòu)提供多種數(shù)據(jù)類別及服務(wù),涵蓋實(shí)時(shí)數(shù)據(jù)、參考數(shù)據(jù)、定價(jià)數(shù)據(jù)和監(jiān)管數(shù)據(jù)等。近日,我們與彭博企業(yè)數(shù)據(jù)全球負(fù)責(zé)人 Gerard Francis 進(jìn)行了一番交流,他向我們介紹了彭博數(shù)據(jù)業(yè)務(wù)的發(fā)展,以及他對(duì)于在投資領(lǐng)域應(yīng)用 AI 的看法。
Gerard Francis
“在金融領(lǐng)域里,我們是全球最大的數(shù)據(jù)供應(yīng)商?!盙erard Francis 表示。彭博現(xiàn)在的數(shù)據(jù)提供平臺(tái)中已擁有實(shí)時(shí)數(shù)據(jù)、參考數(shù)據(jù)、另類數(shù)據(jù)、衍生數(shù)據(jù)等種類的數(shù)據(jù)集,且提供數(shù)據(jù)的方式多種多樣:從 API 到數(shù)據(jù)接入網(wǎng)站皆可以獲齲用戶可以在數(shù)據(jù)的基礎(chǔ)上使用自己的程序進(jìn)行處理。
彭博企業(yè)級(jí)數(shù)據(jù)業(yè)務(wù)始于 1997 年,至今已有 22 年歷史了。目前,全球最大的金融機(jī)構(gòu)都在依賴彭博的數(shù)據(jù)開展自己的業(yè)務(wù)。
彭博最近的方向是提供各種類型的“另類數(shù)據(jù)”:從衛(wèi)星圖像到博客內(nèi)容中收集的情緒信息,再到 APP 的下載趨勢(shì)。在彭博數(shù)據(jù)接入網(wǎng)站 Bloomberg Enterprise Access Point 上,我們可以找到很多不同類型的數(shù)據(jù)。彭博稱,目前該網(wǎng)站可提供 2700 余種參考數(shù)據(jù)集,200 余種估值數(shù)據(jù)集,400 余種另類數(shù)據(jù)集以及近 600 余種監(jiān)管數(shù)據(jù)集等。
比起技術(shù)人員常使用的 GitHub,使用這個(gè)平臺(tái)更像是在瀏覽亞馬遜購(gòu)物網(wǎng)站——你可以在其上瀏覽各種產(chǎn)品,并購(gòu)買其中想要的。
Gerard Francis 以北美股票參考數(shù)據(jù)為例進(jìn)行了演示。數(shù)據(jù)集下載完成后可以看到是 CSV 文件,可用 Excel 直接打開,其中的數(shù)據(jù)非常干凈整潔,無(wú)需進(jìn)行任何其他處理就可以直接使用了。對(duì)于彭博的所有數(shù)據(jù)集,人們都可以直接下載使用。
價(jià)格之外的另類數(shù)據(jù)
Bloomberg Enterprise Access Point(BEAP)是彭博企業(yè)數(shù)據(jù)業(yè)務(wù)新近推出的一項(xiàng)服務(wù),于 2018 年 9 月推出。這是一個(gè)在線數(shù)據(jù)平臺(tái),為 Bloomberg Data License 客戶提供標(biāo)準(zhǔn)化的參考、定價(jià)、監(jiān)管,以及另類數(shù)據(jù)集。彭博今年 2 月剛推出的“另類數(shù)據(jù)(Alternative data)”收集了很多前所未有的內(nèi)容,可以幫助投資者在交易中奪取先機(jī)。
另類數(shù)據(jù)是彭博最近提出的新數(shù)據(jù)類型。在這一分類中,我們可以找到來(lái)自很多不同類型數(shù)據(jù)公司提供的內(nèi)容。目前,BEAP 擁有 20 多套另類數(shù)據(jù)集,其中包括對(duì)金屬庫(kù)存、股票博客情緒、藥品審批、消費(fèi)者客流量和停車場(chǎng)活動(dòng)、建筑許可、地緣政治風(fēng)險(xiǎn)和應(yīng)用利用率的洞察。彭博計(jì)劃在未來(lái)每個(gè)月都會(huì)加入更多的數(shù)據(jù)類型。
“另類數(shù)據(jù)正在變得越來(lái)越重要,”Francis 介紹道,“其中主要有兩個(gè)原因。其一是我們的客戶正在尋找提高 Alpha(超額收益)的方法。其二是另類數(shù)據(jù)通常難以使用。它數(shù)量巨大、笨重而難以處理,人們很難找到它的價(jià)值。但這卻是機(jī)器學(xué)習(xí)和 AI 可以發(fā)揮作用的地方,通過(guò)應(yīng)用這些技術(shù)幫助我們找到價(jià)值?!?/p>
彭博通過(guò) BEAP 網(wǎng)站提供另類數(shù)據(jù)業(yè)務(wù)可以一站式解決金融行業(yè)數(shù)據(jù)科學(xué)家對(duì)于內(nèi)容的需求,無(wú)需面對(duì)多個(gè)合同和供應(yīng)商。另一方面,彭博的數(shù)據(jù)提供使用了標(biāo)準(zhǔn)化的 API,從而節(jié)省了技術(shù)人員的使用步驟。
為了保證另類數(shù)據(jù)的準(zhǔn)確性,彭博的數(shù)據(jù)團(tuán)隊(duì)中有很多技術(shù)人員專注于數(shù)據(jù)處理。這家公司也在使用很多各類先進(jìn)的技術(shù)來(lái)處理數(shù)據(jù)。據(jù)介紹,彭博的數(shù)據(jù)部門非常龐大,目前約有包括正式員工和供應(yīng)商在內(nèi) 5000 多人專注于數(shù)據(jù)。