人工智能拿癌癥有辦法嗎
人工智能是計算機科學(xué)的一個分支,其致力于執(zhí)行通常需要人腦才能完成的任務(wù)。人工智能領(lǐng)域的一個主要分支是機器學(xué)習(xí),計算機通過分析數(shù)據(jù)來學(xué)習(xí)并執(zhí)行任務(wù),而不需要來自人類的特定編程指令——也就是說,計算機生成自己的決策算法。機器學(xué)習(xí)技術(shù)的優(yōu)點在于能夠獨立地識別數(shù)百萬數(shù)據(jù)點中的模式,以便進行分類和預(yù)測。
機器學(xué)習(xí)在醫(yī)學(xué)上有極大潛力,特別是在醫(yī)學(xué)圖像的解讀方面。它的一個重要優(yōu)點是速度:機器學(xué)習(xí)算法可以比放射科醫(yī)師更快地解釋急性神經(jīng)損傷后的CT掃描,從而減少診斷延誤 [1]。另一個好處是將繁瑣和重復(fù)的工作自動化,例如檢查多個淋巴結(jié)是否有轉(zhuǎn)移性疾病的組織學(xué)證據(jù) [1]。機器學(xué)習(xí)的實施還可以擴大某些通常需要專門技能服務(wù)的可及性,例如對糖尿病視網(wǎng)膜病變的視網(wǎng)膜掃描篩查 [1]。機器學(xué)習(xí)算法有望提供比人類更快、更一致的診斷,并最終改善患者治療。
雖然機器學(xué)習(xí)有很大的前景,但也有固有的局限性,尤其是在診斷早期癌癥方面。要理解其中的原因,重要的是應(yīng)了解機器學(xué)習(xí)的工作方式。在醫(yī)學(xué)中使用的大多數(shù)機器學(xué)習(xí)算法都是通過監(jiān)督學(xué)習(xí)來訓(xùn)練的。在這個過程中,研究者會向計算機提供一些已經(jīng)用外部標(biāo)準(zhǔn)標(biāo)記過的圖像,作為 “基礎(chǔ)事實”。
基于機器學(xué)習(xí)的癌癥診斷需要依賴外部標(biāo)準(zhǔn)。
上圖顯示了利用組織病理學(xué)切片進行監(jiān)督學(xué)習(xí)從而診斷癌癥的簡化版本。這個過程始于一組數(shù)字病理圖像被病理學(xué)家標(biāo)記為 “癌癥” 或 “非癌癥”,隨后將這些圖像分成訓(xùn)練集和測試集。計算機利用訓(xùn)練集開發(fā)能夠在沒有明確的說明或編程的情況下,根據(jù)模式(例如顏色、形狀和邊緣)最好地鑒別癌癥或非癌癥的算法。使用測試集來評估算法性能,測試集由計算機之前從未見過的圖像組成。如果有必要,可以使用其他圖像對算法進行微調(diào)。在這一過程的每一步,計算機系統(tǒng)都是通過判斷其診斷是否合乎病理解讀的外部標(biāo)準(zhǔn)來不斷學(xué)習(xí)的。
然而,依賴這種外部標(biāo)準(zhǔn)是有問題的,因為機器學(xué)習(xí)并不能解決與癌癥診斷相關(guān)的核心問題:缺乏組織病理學(xué)的 “金標(biāo)準(zhǔn)”。 “什么構(gòu)成癌癥?” 這個問題沒有單一的正確答案。癌癥的臨床意義處于一個動態(tài)過程中:癌癥是一種肯定會引起癥狀的腫瘤(通過局部浸潤或遠(yuǎn)端轉(zhuǎn)移),如果不治療就會導(dǎo)致死亡。另一方面,病理解讀是建立在靜態(tài)觀察的基礎(chǔ)上的:癌癥是根據(jù)單個細(xì)胞的外觀、周圍的組織結(jié)構(gòu)以及這些特征與各種生物標(biāo)志物之間的關(guān)系來定義的。
在病理學(xué)家中進行的觀察一致性的研究中,缺乏金標(biāo)準(zhǔn)的問題很明顯。譬如,關(guān)于前列腺、甲狀腺、乳腺病變和疑似黑色素瘤的組織病理學(xué)診斷存在爭議 [2-5]。很明顯,病理學(xué)家對同一個病理切片可能有不一致的判斷(特別是關(guān)于早期病變的診斷);目前尚不清楚的是,哪些病理學(xué)家正確地識別了具有臨床意義的癌癥。
在過去,當(dāng)病理學(xué)家檢查可以用手感覺得到的腫瘤時,缺乏標(biāo)準(zhǔn)的問題較小。根據(jù)病理解讀診斷出的癌癥是那些已經(jīng)引起癥狀和死亡的癌癥,或者是注定要引起癥狀和死亡的癌癥。病理學(xué)家之間的不一致可能較少見。然而,現(xiàn)在病理學(xué)家被越來越多地要求對細(xì)微的、顯微鏡下才能看見的細(xì)胞異常做出判斷。其中一些異常可能符合癌癥的病理定義,但不一定會導(dǎo)致癥狀或死亡——換句話說,癌癥可能被過度診斷。
使用機器學(xué)習(xí)算法進行的早期癌癥診斷,無疑將比基于人類解釋的診斷更一致、更可重復(fù)。但它們不一定更接近事實——也就是說,在確定哪些腫瘤注定會引起癥狀或死亡方面,算法可能并不比人類好多少。正如病理學(xué)家的共識不能解決過度診斷的問題,機器學(xué)習(xí)也不能。
事實上,我們有理由擔(dān)心機器學(xué)習(xí)將加劇過度診斷的問題。配備了機器學(xué)習(xí)算法的設(shè)備可以在幾秒鐘內(nèi)閱讀切片,比任何病理學(xué)家都快幾個數(shù)量級 [1]。使用這樣的設(shè)備可能會比靠人來解讀切片更便宜。這種組合將能夠檢查更多的組織切片,并可能鼓勵臨床醫(yī)師對更多的患者進行活檢。更高的通量——更多的組織,更多的患者——只會增加發(fā)生過度診斷的機會。
雖然可重復(fù)性有一定的價值,但醫(yī)師不想冒自動過度診斷的風(fēng)險。減輕這一問題的一種方法是利用醫(yī)師關(guān)于病理診斷的分歧所顯示的信息。換句話說,使用一個基于不同病理學(xué)家小組判斷的外部標(biāo)準(zhǔn),訓(xùn)練算法鑒別以下三種類型:一致認(rèn)為癌癥存在,一致認(rèn)為癌癥不存在,以及對癌癥是否存在存在分歧。 我們認(rèn)為,這一中間類別包含關(guān)于處于 “癌癥” 和 “非癌癥” 之間灰色地帶的病變的重要信息。
讓機器學(xué)習(xí)算法區(qū)分這三種類型有幾個原因。首先,這樣的分類方法將是高效的。通過機器快速分類切片,病理學(xué)家可以將精力和專業(yè)技術(shù)集中在組織學(xué)特征不明確的切片上,并且機器可以提醒他們診斷的不確定性,可能需要與同事會診這些不確定的診斷。其次,這樣的分類方法將是誠實的。在癌癥診斷中強調(diào)灰色地帶可以鼓勵臨床醫(yī)師和患者在面對意義不確定的病變時考慮較保守的干預(yù)措施。最后,這種分類方法將是明智的。它應(yīng)該促進對中間類型病變的自然史進行進一步研究,并促進更多的期待治療研究。
在某些臨床情況下,機器學(xué)習(xí)的分類將比 “癌癥” 和 “非癌癥” 這種分類更為復(fù)雜,例如前列腺癌的格里森(Gleason)評分:將世界衛(wèi)生組織使用的5個格里森評分等級分組納入機器學(xué)習(xí)算法,將需要15個類別來說明兩個病理學(xué)家之間的一致和不一致??紤]到這種復(fù)雜性,研究者可能會質(zhì)疑傳統(tǒng)分級的細(xì)節(jié)是否與臨床相關(guān),或者是否應(yīng)該將重點放在簡化診斷分類上——例如,將前列腺癌分為低風(fēng)險、中等風(fēng)險或高風(fēng)險。
與所有醫(yī)療干預(yù)措施一樣,對癌癥診斷采用機器學(xué)習(xí)既有好處,也有壞處。機器可以提高診斷的速度和一致性,但也可能加劇過度診斷。機器學(xué)習(xí)不能解決金標(biāo)準(zhǔn)問題,但可以進一步暴露這個問題。 最終,對患者和臨床醫(yī)師來說,重要的是癌癥診斷是否與生命的長短或質(zhì)量有關(guān)。我們認(rèn)為,在這種技術(shù)被廣泛采用之前,應(yīng)該認(rèn)真考慮訓(xùn)練機器學(xué)習(xí)算法來識別 “癌癥” 和 “非癌癥” 之間的中間類別的可能性。強調(diào)灰色區(qū)域的存在可能為病理學(xué)家提供一個重要的機會來討論什么構(gòu)成了癌癥。