人工智能和數(shù)據(jù)管理
騰訊醫(yī)療大數(shù)據(jù)實(shí)驗(yàn)室主任Chenzhig Chen在接受我們的采訪時(shí)說,在醫(yī)療行業(yè)應(yīng)用機(jī)器學(xué)習(xí)時(shí)處理數(shù)據(jù)(并將其數(shù)字化)的重要性:如果您查看該行業(yè),你會(huì)發(fā)現(xiàn)數(shù)據(jù)還不存在,數(shù)字化還沒有準(zhǔn)備好。因此,對(duì)于AI來說,要使真正的大數(shù)據(jù)真正騰飛,這個(gè)基礎(chǔ)必須要有所準(zhǔn)備。在大數(shù)據(jù)領(lǐng)域,我們通常會(huì)說您80%的時(shí)間或研究花費(fèi)在數(shù)據(jù)上,然后20%的時(shí)間實(shí)際上在模型,算法上。沒有數(shù)據(jù)和數(shù)字化的基礎(chǔ),這很難,或者幾乎不可能從中獲得真正的模型……如果沒有數(shù)字化,而沒有整個(gè)過程在線和數(shù)字化,您將如何實(shí)現(xiàn)或?qū)⑷绾螌?shí)現(xiàn)?人工智能帶回企業(yè)的價(jià)值?在此報(bào)告中,我們討論了制藥公司如何能夠匯總和清除其大量數(shù)據(jù),以便它們可以利用它來解決業(yè)務(wù)問題并通過AI改善運(yùn)營,包括:將數(shù)據(jù)集中到數(shù)據(jù)科學(xué)項(xiàng)目和機(jī)器學(xué)習(xí)培訓(xùn)中;預(yù)處理非結(jié)構(gòu)化數(shù)據(jù),以便機(jī)器學(xué)習(xí)模型可以識(shí)別和“學(xué)習(xí)”數(shù)據(jù);在數(shù)據(jù)科學(xué)和預(yù)測(cè)分析中利用集中化和重組的數(shù)據(jù)進(jìn)行營銷;我們從數(shù)據(jù)集中開始我們的報(bào)告。
在過去的五年中,我們已經(jīng)與醫(yī)療保健和制藥業(yè)的許多領(lǐng)導(dǎo)者進(jìn)行了交談,而對(duì)于AI而言,醫(yī)療保健和制藥業(yè)領(lǐng)導(dǎo)者報(bào)告的最緊迫的挑戰(zhàn)是他們不確定如何簡(jiǎn)化和構(gòu)建數(shù)據(jù)結(jié)構(gòu)。一種讓他們建立機(jī)器學(xué)習(xí)模型的方式。醫(yī)療保健公司陷入了其潛在的AI計(jì)劃的數(shù)據(jù)整合階段,而一個(gè)又一個(gè)的供應(yīng)商試圖將其出售給該公司可能還沒有準(zhǔn)備就緒的新應(yīng)用程序。
人工智能和機(jī)器學(xué)習(xí)項(xiàng)目可能需要幾個(gè)月的時(shí)間才能啟動(dòng)。如果有的話,許多制藥公司在發(fā)布AI產(chǎn)品后半年或更長的時(shí)間內(nèi)就不會(huì)看到投資回報(bào)率。因此,對(duì)于制藥公司而言,重要的是清理并存儲(chǔ)其數(shù)據(jù),以使其“可機(jī)讀”,并隨時(shí)準(zhǔn)備將其輸入到機(jī)器學(xué)習(xí)算法中。無論公司內(nèi)部生產(chǎn)還是從AI供應(yīng)商處購買產(chǎn)品,這都可能為他們節(jié)省時(shí)間和金錢(甚至數(shù)千美元)。
數(shù)據(jù)集中化
制藥公司的結(jié)構(gòu)化大數(shù)據(jù)可能存儲(chǔ)在某種數(shù)據(jù)倉庫中。制藥公司還可以在許多地方存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),本質(zhì)上是本質(zhì)上不是機(jī)器可讀的數(shù)據(jù),例如匿名電子病歷(EMR)記錄和醫(yī)學(xué)掃描數(shù)據(jù)庫。許多軟件供應(yīng)商提供服務(wù)來幫助制藥公司以一種允許將其饋送到機(jī)器學(xué)習(xí)算法的方式來理解其所有傳入數(shù)據(jù)流。通常,進(jìn)入制藥行業(yè)的公司似乎也提供API或類似的集成,從而允許客戶在云或公司計(jì)算機(jī)上運(yùn)行機(jī)器學(xué)習(xí)模型。
提供大數(shù)據(jù)集中化解決方案的供應(yīng)商通常也在AI和數(shù)據(jù)分析市場(chǎng)中。他們傾向于提供與數(shù)據(jù)集中化分開的數(shù)據(jù)分析解決方案(例如預(yù)測(cè)分析),但是某些產(chǎn)品可能包括兩者。在制藥行業(yè)中,這些供應(yīng)商最常要求解決的業(yè)務(wù)問題是臨床試驗(yàn)優(yōu)化和藥物發(fā)現(xiàn)。
向藥品公司提供數(shù)據(jù)集中化解決方案的一家供應(yīng)商是GrayMatter。他們還提供了一個(gè)平臺(tái),用戶可以在該平臺(tái)上可視化商業(yè)智能分析。GrayMatter沒有提供任何案例研究來顯示制藥公司通過其軟件獲得的成功, 但該公司將輝瑞和Strides Arcolab列為過去的客戶。我們選擇在此報(bào)告中討論GrayMatter,因?yàn)樗麄兊膱F(tuán)隊(duì)似乎很有可能具有AI和機(jī)器學(xué)習(xí)方面的經(jīng)驗(yàn),這對(duì)于希望使用GrayMatter解決方案來集中其數(shù)據(jù)以供機(jī)器學(xué)習(xí)使用的制藥公司來說是個(gè)好兆頭。例如,在GrayMatter平臺(tái)上集中和結(jié)構(gòu)化數(shù)據(jù)可能有助于制藥公司更有效地分析匿名的EMR記錄,從而縮小可能的患者范圍,以進(jìn)行臨床試驗(yàn)。諸如此類的數(shù)據(jù)集成咨詢和服務(wù)適用于需要集中其數(shù)據(jù)以便為他們可能要使用的任何類型的AI解決方案做好準(zhǔn)備的公司。在下一部分中,我們將討論制藥公司大數(shù)據(jù)的預(yù)處理以及如何為特定的機(jī)器學(xué)習(xí)用例準(zhǔn)備數(shù)據(jù)。
數(shù)據(jù)預(yù)處理
在將所有必要數(shù)據(jù)集中之后,制藥公司可能需要準(zhǔn)備某些數(shù)據(jù)集以用于AI和機(jī)器學(xué)習(xí)計(jì)劃。制藥公司的非結(jié)構(gòu)化數(shù)據(jù)可能包括藥物分子成像或EMR數(shù)據(jù)。例如,此類數(shù)據(jù)需要先進(jìn)行標(biāo)記,然后再輸入到深度學(xué)習(xí)算法中,以尋求“學(xué)習(xí)”以對(duì)未標(biāo)記圖像進(jìn)行分類或填寫空白EMR表單。
對(duì)于來自MRI或高級(jí)顯微鏡的成像數(shù)據(jù),必須根據(jù)機(jī)器學(xué)習(xí)模型要檢測(cè)的對(duì)象和實(shí)體對(duì)每個(gè)圖像進(jìn)行電子標(biāo)記。例如,將需要訓(xùn)練顯微血液成像軟件以辨別不同類型的血細(xì)胞以及每個(gè)圖像中存在多少個(gè)血細(xì)胞。還可以訓(xùn)練用于血液成像的機(jī)器學(xué)習(xí)模型,以檢測(cè)血液中某些藥物或治療的不良反應(yīng)和不良反應(yīng)。EMR數(shù)據(jù)通常由醫(yī)師書寫或指示。記錄包括有關(guān)患者及其患病經(jīng)歷的詳細(xì)信息,以及這些疾病的過去用藥和治療方法以及患者對(duì)這些疾病的反應(yīng)方式。定位與臨床試驗(yàn)資格相關(guān)的患者信息的自然語言處理應(yīng)用程序是目前制藥業(yè)AI的重要解決方案之一。
如果公司想要構(gòu)建或購買自然語言處理應(yīng)用程序以篩選IDC-10代碼的匿名EMR記錄,以查找可能適合臨床試驗(yàn)的患者,則EMR記錄需要標(biāo)記為包含特定IDC-例如10個(gè)代碼或其他代碼。BioSymetrics是一家提供數(shù)據(jù)組織和標(biāo)簽,清潔以及來自不同來源的生物醫(yī)學(xué)和醫(yī)療數(shù)據(jù)分析的供應(yīng)商。他們的Augusta應(yīng)用程序使用機(jī)器學(xué)習(xí)來加快在諸如藥物發(fā)現(xiàn),臨床試驗(yàn)優(yōu)化和精密醫(yī)學(xué)等業(yè)務(wù)領(lǐng)域中部署AI應(yīng)用程序的過程。
據(jù)稱,BioSymetrics的SymetryML機(jī)器學(xué)習(xí)引擎可以評(píng)估原始數(shù)據(jù)的必要處理方法,以便在進(jìn)一步的機(jī)器學(xué)習(xí)開發(fā)和AI應(yīng)用中使用??梢詫⒃紨?shù)據(jù)格式化為圖像,基因組統(tǒng)計(jì)數(shù)據(jù),流數(shù)據(jù)和觀察到的化合物。SymetryML可以處理來自MRI和fMRI的醫(yī)學(xué)成像數(shù)據(jù)。它還可以處理來自EKG的數(shù)字?jǐn)?shù)據(jù),遺傳學(xué),蛋白質(zhì)組學(xué)和來自FitBit或智能手表等可穿戴設(shè)備的IoT數(shù)據(jù)。機(jī)器學(xué)習(xí)模型還能夠處理EMR格式的信息,從而使其能夠組合來自各種非結(jié)構(gòu)化來源的數(shù)據(jù)以開發(fā)更好的產(chǎn)品和處理方法。將化合物數(shù)字化表示為數(shù)據(jù)時(shí),將用字母數(shù)字字符串表示該文本,可以將其保存以備將來識(shí)別并用于機(jī)器學(xué)習(xí)模型訓(xùn)練。這些文本鏈?zhǔn)峭ㄟ^數(shù)學(xué)公式找到的,該數(shù)學(xué)公式可以拍攝分子的圖像和圖形表示并將其轉(zhuǎn)變?yōu)槲ㄒ坏拇a行。這些代碼被稱為IUPAC化學(xué)標(biāo)識(shí)符(IChIs)。
BioSymetrics在其網(wǎng)站上沒有任何演示或案例研究,但提供了有關(guān)其軟件如何幫助制藥和生命科學(xué)公司的示例。這些例子之一突出了奧古斯塔(Augusta)如何在12分鐘內(nèi)分析155名患者中與某種疾病相關(guān)的120萬患者變異。然后,該公司能夠比較其遺傳變異的醫(yī)學(xué)圖像屬性。 圖2突出顯示了大腦的不同區(qū)域,這些區(qū)域受個(gè)體是否具有遺傳變異的影響更大。該示例指出,在分析中發(fā)現(xiàn)其中一種遺傳變異與自閉癥有顯著關(guān)聯(lián)。然后,該公司據(jù)稱可以根據(jù)大腦各個(gè)區(qū)域內(nèi)的偏差,確定與給定疾病相關(guān)的不同病癥之間的差異,以及誰擁有和沒有該變異。
藥品營銷大數(shù)據(jù)
大數(shù)據(jù)在制藥行業(yè)中發(fā)揮特別重要作用的領(lǐng)域是向醫(yī)療保健網(wǎng)絡(luò),零售商和客戶銷售其產(chǎn)品和治療方法。開展新的營銷活動(dòng),跟蹤ROI和銷售統(tǒng)計(jì)數(shù)據(jù)以及管理銷售團(tuán)隊(duì),都是可以利用利用大數(shù)據(jù)的AI解決方案解決的所有業(yè)務(wù)問題。
與藥品營銷中的數(shù)據(jù)科學(xué)計(jì)劃最相關(guān)的數(shù)據(jù)源如下:
近期和歷史市場(chǎng)情況,例如某一區(qū)域?qū)σ环N產(chǎn)品的需求增加而對(duì)其他產(chǎn)品的需求下降。過去營銷活動(dòng),項(xiàng)目和實(shí)驗(yàn)的數(shù)據(jù),以及這些活動(dòng)所產(chǎn)生的投資回報(bào)率。銷售團(tuán)隊(duì)績效數(shù)據(jù)按員工個(gè)人及其相關(guān)經(jīng)驗(yàn)逐項(xiàng)列出基于客戶的數(shù)據(jù)分為人口統(tǒng)計(jì)數(shù)據(jù),并按每個(gè)客戶的期望持續(xù)價(jià)值進(jìn)行細(xì)分。
這些不同類型的數(shù)據(jù)可能需要使用大型數(shù)據(jù)存儲(chǔ)設(shè)備以及可能的機(jī)器學(xué)習(xí)解決方案(例如GrayMatter的解決方案)進(jìn)行集中化。另外,可能需要對(duì)來自過去營銷活動(dòng)的書面信息和歷史市場(chǎng)狀況信息進(jìn)行預(yù)處理,以便機(jī)器學(xué)習(xí)模型能夠識(shí)別它。尚不清楚以前提到的BioSymetrics解決方案是否能夠處理這些特定類型的營銷數(shù)據(jù)。
Complexica是一家澳大利亞軟件供應(yīng)商,提供稱為Larry the Digital Analyst的預(yù)測(cè)分析解決方案。據(jù)稱該軟件能夠?yàn)殇N售率,市場(chǎng)投資和市場(chǎng)狀況(例如季節(jié)性需求的上升和下降)創(chuàng)建預(yù)測(cè)模型。還要進(jìn)行廣告宣傳,以根據(jù)區(qū)域的大小,將哪些銷售代表分配給哪個(gè)區(qū)域以及每個(gè)區(qū)域的地理位置來優(yōu)化銷售區(qū)域映射。
盡管該公司沒有任何案例研究,但他們與輝瑞公司合作以幫助他們對(duì)銷售,營銷投資和營銷條件進(jìn)行建模,在AI領(lǐng)域引起了極大關(guān)注。輝瑞選擇了Complexica的假設(shè)仿真器和優(yōu)化器作為他們的分析解決方案,這使他們能夠利用其營銷和銷售數(shù)據(jù)來告知他們的業(yè)務(wù)決策。顯然,制藥公司擁有的大數(shù)據(jù)存儲(chǔ)可用于開發(fā)有用的機(jī)器學(xué)習(xí)模型,以改善制藥業(yè)務(wù)運(yùn)營。盡管營銷是利用企業(yè)數(shù)據(jù)的最清晰的業(yè)務(wù)領(lǐng)域,但制藥公司也可以將其精細(xì)的醫(yī)學(xué)數(shù)據(jù)用于臨床試驗(yàn)和藥物發(fā)現(xiàn)。
數(shù)字分析師Larry充當(dāng)Complexica的AI平臺(tái),因?yàn)樗撬麄兠總€(gè)商業(yè)智能解決方案的AI部分。左圖詳細(xì)說明了Complexica軟件解決方案中的哪些軟件利用了數(shù)字分析師Larry背后的機(jī)器學(xué)習(xí)模型。尚不清楚Complexica的電子商務(wù)推薦引擎產(chǎn)品是否也利用了實(shí)際的AI推薦引擎,該引擎需要與數(shù)字分析師Larry的預(yù)測(cè)分析能力分開存在。