數(shù)據(jù)在推動機器學習和人工智能解決方案中的重要作用
現(xiàn)在的社會是一個高速發(fā)展的社會,科技發(fā)達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。 阿里巴巴創(chuàng)辦人馬云來臺演講中就提到,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology數(shù)據(jù)科技,顯示大數(shù)據(jù)對于阿里巴巴集團來說舉足輕重。
在當今的數(shù)字經(jīng)濟中,沒有什么資產(chǎn)比數(shù)據(jù)更有價值。將數(shù)據(jù)稱為“新石油”已經(jīng)到了陳詞濫調(diào)的地步。正如最近的《經(jīng)濟學家》雜志標題所說,數(shù)據(jù)是“世界上最有價值的資源”。由于數(shù)據(jù)在推動機器學習和人工智能解決方案中發(fā)揮著至關重要的作用,因此今天的數(shù)據(jù)如此受到高度重視。從Netflix的推薦引擎到Google的無人駕駛汽車,要訓練一個有效運行的AI系統(tǒng),需要大量的數(shù)據(jù)。
結(jié)果就是對越來越大的數(shù)據(jù)產(chǎn)生了迷戀。根據(jù)流行的智慧,擁有最多數(shù)據(jù)的他可以構(gòu)建最好的AI。從IBM到通用電氣的老牌公司都在爭相將自己重新命名為“數(shù)據(jù)公司”。軟銀的愿景基金(Vision Fund)是世界上最大和最具影響力的技術投資者,這毫不掩飾事實,即尋找初創(chuàng)公司支持的重點是數(shù)據(jù)資產(chǎn)。用軟銀領導人孫正義(Masayoshi Son)的話說,“那些統(tǒng)治數(shù)據(jù)的人將統(tǒng)治世界”。
領先的技術公司(從Nvidia等知名競爭對手到Applied Intuition等初創(chuàng)企業(yè))正在開發(fā)方法,以幾乎完全免費的方式完全數(shù)字化地制作高保真數(shù)據(jù)。這些人為創(chuàng)建的數(shù)據(jù)集可以根據(jù)研究人員的確切需求進行定制,并且可以包含數(shù)十億種替代方案。Nvidia仿真技術主管Mike Skolones說:“出去改變現(xiàn)實世界中的照明非常昂貴,而且您無法在室外場景中改變照明。”但是您可以使用綜合數(shù)據(jù)。
隨著合成數(shù)據(jù)準確地逼近現(xiàn)實世界數(shù)據(jù),它將使人工智能民主化,削弱專有數(shù)據(jù)資產(chǎn)的競爭優(yōu)勢。如果一家公司可以通過仿真快速生成數(shù)十億英里的真實駕駛數(shù)據(jù),那么Waymo投資十年收集的幾百萬英里的真實世界駕駛數(shù)據(jù)有多有價值?在可以按需廉價地生成數(shù)據(jù)的世界中,跨行業(yè)的競爭動態(tài)將被顛覆。
隨著商業(yè)和技術界越來越多地將數(shù)據(jù)定位為最終的制勝者,人們對這一重要現(xiàn)實的關注卻越來越少:人工智能的未來可能會大大減少數(shù)據(jù)密集性。在人工智能的前沿,正在進行各種努力來開發(fā)不需要大量標記數(shù)據(jù)集的改進形式的AI。這些技術將重塑我們對AI的理解,并以深刻的方式破壞業(yè)務格局。行業(yè)領導者最好注意。
今天,為了訓練深度學習模型,從業(yè)人員必須收集成千上萬,數(shù)百萬甚至數(shù)十億的數(shù)據(jù)點。然后,他們必須在每個數(shù)據(jù)點上粘貼標簽,這是一個昂貴且通常是手動的過程。如果研究人員不需要費力地收集和標記現(xiàn)實世界中的數(shù)據(jù),而是可以從頭開始創(chuàng)建他們需要的確切數(shù)據(jù)集怎么辦?