淺談大數(shù)據(jù)時(shí)代聊聊小數(shù)據(jù)
現(xiàn)在好像人人都愛說“大數(shù)據(jù)”,就像平時(shí)我去開會(huì),不是用大數(shù)據(jù)分析這個(gè),就是用大數(shù)據(jù)建構(gòu)那個(gè)??墒俏易罱础睹绹?jì)算機(jī)學(xué)會(huì)通訊》(CACM)上面提到了幾次小數(shù)據(jù),我覺得大家也有必要了解一下這個(gè)有趣的概念。
大數(shù)據(jù)其實(shí)就是一個(gè)特別大的數(shù)據(jù)庫,大到用現(xiàn)有的技術(shù)無法處理,因此計(jì)算機(jī)行業(yè)的人談大數(shù)據(jù),指的是“大數(shù)據(jù)技術(shù)”。而生命科學(xué)領(lǐng)域的人談大數(shù)據(jù)是指該領(lǐng)域的“大數(shù)據(jù)分析”,搞大數(shù)據(jù)設(shè)備和管理的人不見得會(huì)分析,因?yàn)檫@需要專業(yè)。
還有一股力量也將改變我們關(guān)于健康的想法和實(shí)踐,那就是由個(gè)人數(shù)字跟蹤驅(qū)動(dòng)的小數(shù)據(jù)?;谀撤N云應(yīng)用,隨時(shí)間連續(xù)地、安全地、私人地分析你工作、購物、睡覺、吃飯、鍛煉和通訊的數(shù)字追蹤,而得到關(guān)于你的健康的畫面。這里需要私人的裝置和網(wǎng)絡(luò)服務(wù),特別是自跟蹤。譬如昨天我有點(diǎn)胃痛,于是想:前天和大前天有何不同呢??。∶靼琢?,我每天喝一兩酒,前天喝的酒不同,換了一個(gè)牌子,可能就是這個(gè)新牌子的酒引起我胃痛。這個(gè)小數(shù)據(jù)提供了分析我健康情況的依據(jù)。
大數(shù)據(jù)開啟了一個(gè)時(shí)代的轉(zhuǎn)型,給人們帶來一場(chǎng)生活、工作與思維的大變革。時(shí)代的變革需要以大數(shù)據(jù)為視角理解數(shù)據(jù)與信息。
什么是小數(shù)據(jù)?小數(shù)據(jù)就是個(gè)體化的數(shù)據(jù),是我們每個(gè)個(gè)體的數(shù)字化信息。比如我天天都喝一兩酒,突然有天喝完酒了胃疼,我就想了,這天和之前有何不同?原來,這天喝的酒是個(gè)新牌子,可能就是喝了這個(gè)新牌子的酒讓我胃疼。這就是我生活中的“小數(shù)據(jù)”,它不比大數(shù)據(jù)那樣浩瀚繁雜,卻對(duì)我自己至關(guān)重要。
第一個(gè)意識(shí)到“小數(shù)據(jù)”重要性的是美國康奈爾大學(xué)教授德波哈爾·艾斯汀。艾斯汀的父親去年去世了,而早在父親去世之前幾個(gè)月,這位計(jì)算機(jī)科學(xué)教授就注意到老人在數(shù)字社會(huì)脈動(dòng)中的些許不同——他不再發(fā)送電子郵件,不去超級(jí)市場(chǎng)買菜,到附近散步的距離也越來越短。
然而,這種逐漸衰弱的狀態(tài),真到醫(yī)院去檢查心電圖,卻不一定能看出來。到急診室檢查的時(shí)候,不管是測(cè)脈搏還是查病歷,這個(gè)90歲的老人都沒有表現(xiàn)出特別明顯的異常??墒聦?shí)上,追蹤他每時(shí)每刻的個(gè)體化數(shù)據(jù),他的生活其實(shí)已經(jīng)明顯與之前不同。這種日常小數(shù)據(jù)帶來的生命訊息的警示和洞察,啟發(fā)了這位計(jì)算機(jī)科學(xué)教授——小數(shù)據(jù)可以看作是一種新的醫(yī)學(xué)證據(jù),它是“your row of their data”(他們數(shù)據(jù)中屬于你的那行數(shù)據(jù))。
人們愛說,大數(shù)據(jù)將改變當(dāng)代醫(yī)學(xué),譬如基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等等,不過由個(gè)人數(shù)字跟蹤驅(qū)動(dòng)的小數(shù)據(jù),也將有可能會(huì)對(duì)個(gè)人醫(yī)療帶來變革,特別是當(dāng)可穿戴設(shè)備更成熟后,移動(dòng)技術(shù)將可以連續(xù)、安全、私人地收集并分析你的數(shù)據(jù),這可能包括你的工作、購物、睡覺、吃飯、鍛煉和通訊,這些數(shù)字追蹤將得到一幅只屬于你的健康自畫像。
擁有了這幅專屬于自己的數(shù)字自畫像,有什么好處呢?假設(shè)你是一名患者,這樣精確個(gè)體化的小數(shù)據(jù)也許可以幫助你回答:我每次服藥應(yīng)該用怎樣的劑量?當(dāng)然了,藥物說明書上會(huì)有一個(gè)用藥指導(dǎo),但那個(gè)數(shù)值是基于大量病人海量數(shù)據(jù)統(tǒng)計(jì)分析得來的,但它適不適合此時(shí)此刻的你呢?于是,你就需要了解關(guān)于你自己的“小數(shù)據(jù)”。對(duì)于慢性病、抑郁癥、記憶力衰退和克羅恩病,很需要日常活動(dòng)變化的數(shù)據(jù)。大數(shù)據(jù)一般是從一個(gè)大N的種群里面取得的,而小數(shù)據(jù)n=me。我們需要數(shù)據(jù)解放,把移動(dòng)和網(wǎng)絡(luò)服務(wù)的數(shù)據(jù)解放到你我自己。
這樣一來,小數(shù)據(jù)也許可以為我們提供更多研究的可能性:能不能通過分析年老父母的集成數(shù)據(jù),進(jìn)而獲得他們的健康信息?能不能通過這些集成數(shù)據(jù),比較不同的醫(yī)學(xué)治療方案?譬如數(shù)據(jù)跟蹤能說明你散步可以走多遠(yuǎn),你多早離開家,那就可以表明關(guān)節(jié)炎藥物治療效果如何。
更令人期待的是,小數(shù)據(jù)或許還將成為人類攻克癌癥的一個(gè)好幫手。現(xiàn)在許多人認(rèn)識(shí)到需要用患者的數(shù)據(jù)進(jìn)行個(gè)性化的癌癥治療。我們要特征化所有患者。腫瘤細(xì)胞的DNA引起不同的癌癥病人非常不同的變化。譬如,大致相同的基因變異或刪除只占患者的10%。即使是同一個(gè)腫瘤,其細(xì)胞的變異也不同?;蛑g的相互作用可能引起二次變異,對(duì)患者的治療影響很大。所以,對(duì)許多患者用同一個(gè)治療方法是不可能成功的。個(gè)性化或者說層次式的藥物治療是要按照特定患者的條件開出藥方——不是“對(duì)癥下藥”,而是“對(duì)人下藥”。這些個(gè)性化的治療都需要記錄和分析個(gè)人行為隨時(shí)間變化的規(guī)律,這就是小數(shù)據(jù)。
當(dāng)然,這并不是說大數(shù)據(jù)就不重要。在醫(yī)學(xué)上發(fā)現(xiàn)治療的一般規(guī)律需要大數(shù)據(jù)。歐美各國都在計(jì)劃編制患者信息的數(shù)據(jù)庫,不但為了癌癥治療,也為開發(fā)新的治療方法。集成大量在線數(shù)據(jù)庫可以推動(dòng)個(gè)性化用藥,減輕他們的痛苦。從大數(shù)據(jù)得到規(guī)律,用小數(shù)據(jù)去匹配個(gè)人。
大數(shù)據(jù)流行,大家就“言必稱大數(shù)據(jù)”,可這并不是做學(xué)問的態(tài)度,不要碰到大量的數(shù)據(jù),就給它戴上一頂帽子“大數(shù)據(jù)”。就像20年前,系統(tǒng)工程也很時(shí)髦。哪怕是做報(bào)告談到一個(gè)比較大的工程,都說那是系統(tǒng)工程??上到y(tǒng)工程又怎么樣呢?“那是很難的”,就沒有下文了。我們應(yīng)該敞開思想,研究實(shí)際問題,切忌空談。