金融人工智能侵入及占領(lǐng)華爾街的分析
人工智能的發(fā)展出現(xiàn)了一些“AI威脅論”觀點(diǎn),有些人大膽預(yù)測“人工智能將侵入及占領(lǐng)華爾街”,認(rèn)為在未來的世界里計算機(jī)將全面取代人類投資者。而基金管理公司Man Group PLC的首席執(zhí)行官Luke Ellis說,“如果計算力和數(shù)據(jù)生成以目前的速度持續(xù)增長,那么,25年后99%的投資管理將涉及機(jī)器學(xué)習(xí)。”
盡管他的樂觀,但人工智能方面所取得的重要成果目前尚未能轉(zhuǎn)化為卓越的回報。據(jù)Wired稱,過去幾年里定量基金的平均表現(xiàn)未能超過對沖基金(而對沖基金的表現(xiàn)則未能超過股市)。
大多數(shù)人都不知道人工智能——特別是金融領(lǐng)域用的人工智能——在深入主題專業(yè)知識方面缺乏應(yīng)用,因而不能創(chuàng)建干凈的數(shù)據(jù)及與之相應(yīng)的關(guān)系,而這卻正好是任何成功的投資戰(zhàn)略或人工智能的基礎(chǔ)。在圍棋比賽里勝出固然有其意義,但現(xiàn)實(shí)世界并非是在嚴(yán)格定義空間里的一場棋賽。在現(xiàn)實(shí)世界中,人類改變規(guī)則、違反規(guī)則,有時候甚至不存在規(guī)則。目前的人工智能在沒有大量人為干預(yù)的情況下是無法處理真實(shí)世界里各種狀況的。
人工智能被過度炒作及誤讀:系統(tǒng)資金表現(xiàn)不佳(紅線:系統(tǒng)基金;藍(lán)線:對沖基金)資料來源:Preqin/Wired
尋找人才時下人工智能最大的問題之一是,具有足夠主題專業(yè)知識的人員與建立人工智能的程序員之間缺乏交流興趣或不知道如何交流。程序員對那些自己提交給AI的數(shù)據(jù)并不理解,而分析師則缺乏對AI技術(shù)的了解,因而無法知道程序員需要了解哪些源數(shù)據(jù)及如何解釋所得到的結(jié)果。
這種脫節(jié)造成了人工智能在金融和投資應(yīng)用里眾多的公開問題:
· 大多數(shù)AI公司做的是將大部分資源用于數(shù)據(jù)管理和數(shù)據(jù)清理而不是用在技術(shù)上。
· 機(jī)器每每找出一些無效的虛假相關(guān)性,或是找到的相關(guān)性僅在過去有效,但不適用于將來。
· 許多人工智能系統(tǒng)成了“黑匣子”,只是給出投資建議,卻并不說明機(jī)理或策略是什么。如果人工智能不能向人類表達(dá)其“思考”方式,那么投資者怎么會將大筆資金交給它處理呢?
金融界非常缺乏具備彌合該鴻溝的技能和知識的人,他們是金融界的寶貴人才。90%的金融服務(wù)公司都開始做人工智能技術(shù)的研究工作,這些公司都在這個稀缺勞動力市場里找人才。
筆者曾在題為 “大銀行將在金融科技革命里勝出”的博文里提出過,大金融公司將成為技術(shù)進(jìn)步的最大受益者,皆因規(guī)模和資源所致。大銀行對AI人才支出的承擔(dān)力最大,而且,他們擁有最大的財務(wù)數(shù)據(jù)庫,可以幫助他們的新程序員。
一些銀行已經(jīng)在收羅必要的人才方面做出了認(rèn)真的努力。瑞銀(UBS)剛推出一波AI招聘,摩根士丹利(MS)的程序員和財務(wù)顧問則聯(lián)手打造了“下一步最佳行動”( “Next Best AcTIon”)平臺,該平臺提供的機(jī)器學(xué)習(xí)可以幫助財務(wù)顧問為客戶提供個性化建議。
這些努力將會得到很好的長期回報,但現(xiàn)在卻仍處于初期階段。一眾金融機(jī)構(gòu)要真正以有效的方式用上人工智能還有很長的路要走。
人工智能的大(數(shù)據(jù))問題全球的數(shù)字?jǐn)?shù)據(jù)總量每兩年翻一番。數(shù)據(jù)量呈指數(shù)增長,但大多數(shù)數(shù)據(jù)缺乏機(jī)器做分析時所需的結(jié)構(gòu)。因此,AI項(xiàng)目收集、清理和格式化數(shù)據(jù)輸入需要無數(shù)的人力工時,而AI項(xiàng)目卻又是為了減少人力需求。
Virtova公司創(chuàng)始人Sultan Meghji指出,許多AI初創(chuàng)公司至少將一半資金花在數(shù)據(jù)清理和管理上。每個人都在講如何教計算機(jī)思考,但如何策劃用于機(jī)器學(xué)習(xí)的數(shù)據(jù)集卻沒有捷徑或替代品。
訓(xùn)練人工智能系統(tǒng)需要一套訓(xùn)練數(shù)據(jù)集作為學(xué)習(xí)用。訓(xùn)練數(shù)據(jù)集大致有兩種。第一種數(shù)據(jù)集是相對較小而精確的數(shù)據(jù)集,但數(shù)據(jù)集不包含足夠多的不同種類的例子,因而有效性不太足。用這樣的數(shù)據(jù)集訓(xùn)練的人工智能在解釋訓(xùn)練數(shù)據(jù)方面非常棒,但卻無法處理真實(shí)世界的多樣化和變幻莫測。
另一種訓(xùn)練數(shù)據(jù)集很大但不很準(zhǔn)確。在這種情況下,人工智能見過大量的例子,不過有時候的數(shù)據(jù)并不正確,而且人工智能并未得到清晰一致的指令說應(yīng)該如何回應(yīng)。用這些較大、但不準(zhǔn)確的數(shù)據(jù)集訓(xùn)練出來的人工智能通常從數(shù)據(jù)中學(xué)到的一致性東西很少,并且能夠自主做的事情也很少。
要成功地進(jìn)行機(jī)器學(xué)習(xí),訓(xùn)練數(shù)據(jù)集務(wù)必既準(zhǔn)確又具有廣泛的代表性。換句話說,訓(xùn)練數(shù)據(jù)需要盡可能多地準(zhǔn)確表達(dá)現(xiàn)實(shí)世界中發(fā)生的事情。否則我們怎么能指望機(jī)器去學(xué)習(xí)有用的一致性東西呢?
人工智能的挑戰(zhàn)如下:在沒有好的訓(xùn)練數(shù)據(jù)集的情況下,機(jī)器無法學(xué)習(xí),同時,創(chuàng)建好的訓(xùn)練數(shù)據(jù)集所需的時間需要大量的時間,大多數(shù)具有深入主題專業(yè)知識的人往往低估了這個時間。策劃好的訓(xùn)練數(shù)據(jù)集靠這些人,但他們對這種平凡的工作卻不感興趣。另一個方法就是找許多專業(yè)知識有限的人員去完成這個工作,但這種方法到目前為止并不成功。
大(數(shù)據(jù))問題在金融和投資世界更糟糕從理論上講,策劃訓(xùn)練數(shù)據(jù)集在金融領(lǐng)域不應(yīng)該太具挑戰(zhàn)性。畢竟,財務(wù)數(shù)據(jù)報表格式要遵從提交給美國證券交易委員會的官方文件。但任何外行人都很快能看出來,這些提交的文件并沒有太多的所謂結(jié)構(gòu)可言(人類往往不遵守規(guī)則)。另外,即便存在的結(jié)構(gòu)對于人工智能來說也并沒那么有用。事實(shí)上,這東西可能還真是有害。
想象一下這個場景,一臺計算機(jī)想比較可口可樂(KO)和百事可樂(PEP)公司的財務(wù)狀況。計算機(jī)讀入可口可樂和百事可樂的財務(wù)報表,它怎么能知道可口可樂的“權(quán)益法投資”和百事可樂的“非控制性聯(lián)營的投資”是一回事呢?“留存收益”與“再投資收益”是不是一回事?業(yè)界團(tuán)體為了解決這個問題多年來一直在試圖建立一套標(biāo)準(zhǔn)化金融詞匯系統(tǒng)。
理論上,XBRL的發(fā)展可以解決這個問題。但實(shí)際上,XBRL仍然包含太多的錯誤和自定義標(biāo)簽,未能達(dá)到完全自動讀取財務(wù)報表的目的。即使是最聰明的機(jī)器也需要先由具深度主題專業(yè)知識的人類進(jìn)行廣泛的訓(xùn)練后才能讀懂財務(wù)報告。
如果成熟的技術(shù)和專家分析師不能完成上述的配對,人工智能在金融方面的任何努力都注定以失敗告終。俗話說,“種瓜得瓜種豆得豆”。簡單地將一堆非結(jié)構(gòu)化的、未經(jīng)驗(yàn)證的數(shù)據(jù)塞到計算機(jī)里,然后指望這東西能提供投資策略,無異于將食品儲藏室的食品倒進(jìn)烤箱里然后指望烤箱會烤出一個餡餅一樣。機(jī)器再好也沒有用,沒有正確的準(zhǔn)備機(jī)器就無法運(yùn)作。
誤報問題即便財務(wù)數(shù)據(jù)是經(jīng)過結(jié)構(gòu)化及驗(yàn)證過的,對于一臺機(jī)器來說可能仍然沒有用處,而且人工智能在分辨哪些數(shù)據(jù)是有用哪些數(shù)據(jù)沒有用時存在困難。大量的財務(wù)數(shù)據(jù)意味著可能出現(xiàn)以下的情況:大量的表象模式實(shí)際上只是純隨機(jī)性結(jié)果。這一現(xiàn)象名叫 “過度擬合”(OverfitTIng),是個公認(rèn)的問題,斯坦福大學(xué)的機(jī)器學(xué)習(xí)在線課程有一堂課講到過度擬合。
過度擬合不僅僅是個人工智能問題。人類偏向于看到其實(shí)并不存在的模式(啟發(fā)式),算是人類很難改掉的毛病。但人類至少自己意識到有這個毛病,可以去試圖克服它。而精密電腦的意識水平卻還沒到這一步。程序員將機(jī)器設(shè)計成怎么尋找模式,機(jī)器就怎么尋找模式。
人工智能日趨復(fù)雜,過度擬合問題也變得越來越糟。Man Group的定量基金首席數(shù)據(jù)科學(xué)家Anthony Ledford最近告訴記者:
“模型越復(fù)雜,解釋訓(xùn)練數(shù)據(jù)時的能力就越強(qiáng),而將來解釋數(shù)據(jù)的能力就越差。”
許多定量基金現(xiàn)在只是從過去的數(shù)據(jù)中挖掘模式,然后希望這些模式能延續(xù)到未來。而實(shí)際上,大部分這些模式都是隨機(jī)結(jié)果或者相應(yīng)的條件已不復(fù)存在。
我們又一次看到人工智能與人類智能配對的必要性。機(jī)器比任何人類都可以更快速和更有效地處理數(shù)據(jù)和查找模式,但機(jī)器現(xiàn)在仍缺乏審核模式的智能及缺乏理解模式是否可以用于預(yù)測未來結(jié)果的智能。
人工智能黑盒當(dāng)然,人類在審核人工智能結(jié)果時需要理解人工智能是如何思考的。人類需要對機(jī)器用到的流程以及發(fā)現(xiàn)的模式有一定程度的了解。
目前,大多數(shù)人工智能對于潛在用戶而言不夠透明。人工智能算法通常是一個黑盒子,人工智能接收數(shù)據(jù),吐出結(jié)果,底層的機(jī)理不透明。
一部分原因是,如果我們希望機(jī)器能夠按照他們所需的規(guī)模進(jìn)行運(yùn)作,這個問題就是不可避免的。人工智能代碼非常復(fù)雜,很少有人能完全理解人工智能的內(nèi)部運(yùn)作。
事實(shí)上,一些復(fù)雜度低于人工智能的軟件也存在這些問題。10年前,豐田凱美瑞備受意外加速問題的困擾。太多程序員曾為引擎控制軟件寫過代碼,引擎控制軟件成了“意大利面條代碼”,即是說一大堆晦澀且往往自相矛盾的代碼,沒有人看得懂,最后出錯造成很大的損失。
支持人類的汽車剎車和加速軟件都可以如此復(fù)雜,那想象一下,諸如財務(wù)建模等更復(fù)雜的活動會有多么的混亂及多容易出錯。