2025 AI 展望：Scaling Law新敘事加速 AI 變革

時間：2025-01-21 17:11:36

關鍵字： ChatGPT AI 大模型

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]我們正身處一場技術革命的歷史開端，以 ChatGPT 為標志的這輪 AI 科技浪潮是算法和軟件誕生以來人類科技最重要的技術變革，由此開啟了以智能為核心的第四次工業(yè)革命。這次 AI 變革是由以 Scaling Law 為底層邏輯的基礎模型驅(qū)動，其整體的發(fā)展脈絡由基礎模型的技術邏輯主導。

我們正身處一場技術革命的歷史開端，以 ChatGPT 為標志的這輪 AI 科技浪潮是算法和軟件誕生以來人類科技最重要的技術變革，由此開啟了以智能為核心的第四次工業(yè)革命。這次 AI 變革是由以 Scaling Law 為底層邏輯的基礎模型驅(qū)動，其整體的發(fā)展脈絡由基礎模型的技術邏輯主導。

進入 2025 年，我們清晰地看到，Scaling Law本身仍然成立，但以堆算力以及一味追求擴大模型尺寸的迭代路徑已經(jīng)被打破。同時，基礎模型本身的迭代趨于階段性收斂，Transformer-like逐漸成為統(tǒng)一的底層架構。此外，生成模型的潛力遠遠還沒有得到釋放，其將快速深入科學研究在內(nèi)的多個領域，或大放異彩…...

本文以“ DAMO 開發(fā)者矩陣”2025開篇為契機，對當前 AI 的發(fā)展邏輯進行梳理，展望2025年的 AI 趨勢，初探未來的景象。限于篇幅，僅對于部分方向加以討論闡述。

通用人工智能(AGI)的四種路徑

目視遠方，才能更好理解我們身處的當下。實現(xiàn)通用人工智能(AGI，這里也包含常說的超級人工智能)是 AI 的發(fā)展目標，利用 AI 算法達到甚至超過人類的智能水平。在進入具體的討論之前，我們先從宏觀邏輯分析 AGI 的可能實現(xiàn)路徑。

第一條路徑是大模型。

目前 AI 算法還是圍繞著人類智能的逼近和模仿來開展。大模型就是利用復雜的深度神經(jīng)網(wǎng)絡對知識的壓縮來逼近人類智能的隱函數(shù)，進而利用思維推理來挖掘智能本身，所以接下來基于基礎模型的自學習算法和模型自迭代進化將是通過大模型實現(xiàn) AGI 路徑的核心。

從這個角度來說，大模型的 AGI 迭代在2024年剛?cè)胝}，但是發(fā)展很快。

第二條路徑是智能機器人。

人類和動物等生物智能體是在開放式環(huán)境中與周遭事物以及環(huán)境中的智能體交互反饋來學習智能。最接近這種智能學習的模式是在開放式環(huán)境中活動的智能機器人，特別是和人交互的機器人。

所以消費級機器人的落地將是這種 AGI 模式的開啟，機器人的自我學習和迭代算法也將是核心。

第三條路徑是腦機。

根據(jù)第一性原理，直接獲取人類思維模式的方式是讀取大腦信號，人類目前的科技水平通過腦機接口來實現(xiàn)。目前腦機還處在非常早期，但是腦機接口將是人機協(xié)同非常重要的路徑。

第四條路徑是數(shù)字生命。

通過算法實現(xiàn)從微觀尺度到宏觀尺度生命過程機理的仿真，就可以直接解鎖智能的奧秘，從而能創(chuàng)造出真正的超級智能。目前這個方向還在萌芽階段。

2024的 4 個關鍵進展

讓我們先回望2024，從年初的 Sora 開始，幾乎每個月都有 AI 熱點新聞出現(xiàn)，長文本、多模態(tài)、具身智能、編程助手、思維推理、Agentic System、大模型訓練優(yōu)化等，讓人目不暇接。

相比 2023 年 AI 進展集中在大語言模型上，2024年可謂是百花齊放，無論是深度和廣度都出現(xiàn)了飛躍。顯然，即使沒有 GPT-5 的發(fā)布，這仍然是 AI技術大爆發(fā)的一年。而在這么多進展里，有四項進展值得重點關注。

視頻生成

Sora的出現(xiàn)意義重大，是視頻生成領域的一個重要轉(zhuǎn)折點。在 Sora 之前，行業(yè)對視頻生成已多有研究，但只停留在學術研究層面，效果差強人意，沒法達到商業(yè)化服務的水準。Sora展示了利用 DiT 可擴展架構的有效性，吸引了全球同行們快速跟進，推動視頻生成從學術研究到工業(yè)級應用的重大跨越，國內(nèi)也出現(xiàn)了可靈、海螺、通義萬相、混元、豆包等優(yōu)秀的視頻生成模型。

視頻生成模型的突破意義不僅在于推動內(nèi)容生產(chǎn)方式的變革，也在于展現(xiàn)了可擴展架構的生成模型在視覺方向的巨大潛力。自然語言數(shù)據(jù)是人類知識以文字形式的數(shù)字化記錄，所以自然語言大模型是知識的壓縮，可以通過大語言模型來逼近從而超越人類的智能。

同樣，圖像/視頻是對環(huán)境和物體的數(shù)字化，也包含知識本身的展現(xiàn)。例如，球體的下落是物理規(guī)律的呈現(xiàn)、投籃是人類操作技能的展現(xiàn)等。所以不僅僅大語言模型，視頻大模型也是通往 AGI 的重要組成要素。隨著圖像/視頻基礎模型的性能提升，特別是 SOTA 級別開源模型的豐富，常見視覺任務大都會圍繞生成式基礎模型重新構建，大一統(tǒng)的視覺任務架構也會出現(xiàn)。

另外，傳統(tǒng)視覺相關的仿真也逐步會和視頻生成模型深入融合，從而重塑新一代的仿真鏈路，例如世界模型可以看做是其中一個方向。而基于仿真和模擬的技術方向，例如機器人，也會因為視頻生成模型的成熟發(fā)展速度大大加快。在一些垂直領域，例如醫(yī)療和微觀組織研究等，數(shù)據(jù)缺乏的問題也會因為視頻生成模型找到新的解決途徑，從而加快相關領域的突破。

視頻生成技術的快速迭代促進各類內(nèi)容工具的涌現(xiàn)，例如達摩院推出尋光 AI視頻創(chuàng)作平臺，用 AI 重塑視頻工作流，釋放行業(yè)創(chuàng)造力。

智能體(Agent)和系統(tǒng)

在 2023 年 AutoGPT 出現(xiàn)時，行業(yè)從業(yè)者就意識到基于大模型構建 Agent應用的巨大潛力。進入2024年，Agent相關的落地應用初步展現(xiàn)，如Anthropic發(fā)布了Computer use讓 AI 可以控制電腦操作，智譜發(fā)布了AutoGLM 來重塑手機應用的使用方式。

“一句話下單 2000 杯咖啡”，依托思維推理和自我改進機制，Agent得以執(zhí)行實現(xiàn)類似的自動化任務。為此，Anthropic發(fā)布了 MCP 協(xié)議(Model Context Protocol)，方便大模型連接數(shù)據(jù)和應用等局部和在線資源，從而可以構建起以大模型為核心、Agent為應用的生態(tài)系統(tǒng)，人工智能操作系統(tǒng)的雛形也已經(jīng)顯現(xiàn)。阿里巴巴通義大模型也在此深耕，通義完整的基礎模型系列、一站式大模型服務平臺百煉、模型開源平臺 ModelScope 和互聯(lián)協(xié)議等構成新一代人工智能系統(tǒng)架構的基礎設施。

Agent的重要性在于，它依托基礎模型和軟硬件互聯(lián)協(xié)議，會給人機交互方式和系統(tǒng)架構帶來根本性的變革。歷史上每一次人機交互的變化都帶來了系統(tǒng)級的變革，就像鍵盤鼠標之于 PC 互聯(lián)網(wǎng)、手機觸屏之于移動互聯(lián)網(wǎng)。

目前我們的系統(tǒng)設計還是基于鼠標點擊或者手指觸控交互的嵌套式圖形界面系統(tǒng)。這一次 AI 的突破帶來語言/語音/視覺等多模態(tài)信息為交互媒介的人機交互變革。Agent不僅會大大豐富系統(tǒng)和應用的廣度，也將會在多模態(tài)交互邏輯下大大縮短應用使用的鏈路和構造邏輯，從而引發(fā)系統(tǒng)在 AI 時代的重構。

這將是個人電腦和智能手機視窗系統(tǒng)誕生以來最大的一次實質(zhì)性變革。傳統(tǒng)操作系統(tǒng)將在人工智能操作系統(tǒng)的牽引下和 AI 深度融合，從而誕生在AI時代更加扁平、更加連接開放、更加自動化的新型操作系統(tǒng)和應用范式。

編程助手

從人機交互的角度去看，AI大模型帶來了基于語言輸入的全新交互方式。例如，可以通過語言提示輸入到大模型，調(diào)用大模型的功能來得到結(jié)果，包括回答語言相關的問題、生成代碼、生成網(wǎng)站、生成圖像視頻等。

語言不僅僅是人類日常交流的媒介，也成了大模型時代的編程語言本身，這對于軟件來說是個突破性的進步。從機器語言、匯編語言、C/C++、Java、Python等到現(xiàn)在自然語言，計算機語言經(jīng)歷著由繁到簡的發(fā)展過程。但是在大模型以前，計算機編程都是需要專業(yè)學習、長期練習才能掌握。

自從自然語言成為計算機編程語言本身，軟件從專業(yè)技能就變成了大眾化的工具，人人都可以成為高級程序員，這對于使用軟件是巨大的飛躍。人類利用軟件工具來提升社會生產(chǎn)力和效率從來都沒有像今天這么便捷。所以基于大語言模型的編程助手的價值顯著，將成為大模型時代不可或缺的基礎工具。

過去一年編程助手發(fā)展迅速，國外像Github Copilot、Cursor、Windsurf、Bolt，國內(nèi)如阿里巴巴的通義靈碼以及字節(jié)的豆包 MarsCode 等相繼涌現(xiàn)?？梢灶A料編程助手在新的一年里將會取得實質(zhì)性進展，并成為最快成功商業(yè)化的 AI 產(chǎn)品之一。

具身智能

我們可以粗略將研究機器人智能的 AI 技術稱之為具身智能。多模態(tài)大模型可以視為是機器人的知識技能，具身智能大模型(目前還沒有共識的范圍定義)可以看作是機器人的操作和移動技能。

AI驅(qū)動的機器人是物理智能體，既可以決定人類利用工具的生產(chǎn)力水平，又可以直接決定社會生產(chǎn)效率和國民生產(chǎn)總值，所以至關重要。特別是人形機器人，可以看作是人的物理化，他可以超越工具屬性本身，作為人類社會智能體的一員發(fā)揮作用，所以人形機器人可以拓展社會的運作模式和維度。

具身算法上，谷歌、UC Berkeley、清華、字節(jié)等機構都發(fā)表了不同架構的具身智能大模型，初步驗證了Scaling law在機器人方向上的有效性。并為其引入多模態(tài)融合等新維度，讓業(yè)界看到了機器人技術突破的希望。

仿真上，英偉達正在推動機器人仿真系統(tǒng)的工業(yè)化落地應用，開源仿真系統(tǒng)也在快速迭代，為機器人的仿真和批量數(shù)據(jù)生產(chǎn)打下基礎。

數(shù)據(jù)上，行業(yè)內(nèi)的數(shù)據(jù)生產(chǎn)標準和基礎設施也在發(fā)展中，智元開源的真機數(shù)據(jù)集也已經(jīng)達到百萬級別的體量。

計算芯片上，英偉達也會在 2025 年量產(chǎn)針對人形機器人的端側(cè)芯片和開發(fā)板，使AI在機器人的端側(cè)開發(fā)更加便利和高效。

硬件上，特斯拉正在推動人形機器人的量產(chǎn)，這將促使機器人本體供應鏈走向成熟，從而也會使硬件本體成本大幅下降。

所以綜合這幾個維度來看，具身智能已站在新一輪爆發(fā)周期的起點上。但是機器人商業(yè)化的路徑存在較大不確定性，和機器人形態(tài)以及對應的技術成熟度都有直接關系。

除了作為工具屬性，智能機器人以下特點值得突出：

一是數(shù)據(jù)采集端口。數(shù)據(jù)是模型的基礎，機器人將會是增量數(shù)據(jù)采集的端口。誰有消費級機器人數(shù)據(jù)，誰有條件做出最好的AI。

二是應用服務新入口。和人交互場景的消費級機器人，會是繼個人電腦、手機之后的第三智能硬件形態(tài)，是各類應用服務的入口。

三是 AGI 路徑。如開篇所述，在開放式環(huán)境中自我學習和進化的智能機器人是實現(xiàn) AGI 的路徑，將會使智能算法得到質(zhì)的飛躍。由于機器人本身是可編程物理智能體，所以自我進化也將會帶來人類對于智能本身理解的升華，會大大拓展人類本身智能的邊界。

所以從 AI 的視角去觀察，用在固定工業(yè)產(chǎn)線和不與人交互場景的機器人和與人交互的消費級機器人是完全兩種機器人。消費級人形機器人是 AI 時代最重要的智能體，人類可以借助人形機器人進入一個全新的人機協(xié)作的智能時代，從而開啟人類使用工具的新紀元。

AI突破的三個底層邏輯

回顧了 2024 年 AI 幾個方面的進展，我們再討論下 AI 發(fā)展的三個基本邏輯，即Scaling Law、Transformer架構(泛指 Transformer-like 的架構)和生成模型。這三個方面相互交織，我們逐項討論下內(nèi)在的原理和邏輯，便于把握 AI 發(fā)展的底層規(guī)律。

Scaling Law邁向縱深

Scaling Law是 GPT 等大語言模型快速發(fā)展的底層邏輯，更多的數(shù)據(jù)、更多的算力、更大的模型，得到更好的效果。Scaling Law也是 2024 年推動了Sora等視頻生成模型的技術突破的邏輯遵循，利用更有利于規(guī)?；瘮U展的算法架構。

雖然 Sora 并未開源或公開算法細節(jié)，但其技術報告公開了算法架構和技術路線，這使得領域內(nèi)可以快速跟進，例如可靈。他們甚至實現(xiàn)比 Sora 更好的效果、更快的線上服務，再次在視頻生成上驗證了 Scaling Law 的有效性。

Scaling Law也在具身智能大模型上面初步得到驗證，讓大家看到了具身智能GPT時刻出現(xiàn)的希望。在醫(yī)療方向，Nature剛剛發(fā)表了三篇和醫(yī)療基礎模型相關的論文，標志著醫(yī)療 AI 在快速邁向基礎模型驅(qū)動的 2.0 時代，也是Scaling Law規(guī)律的體現(xiàn)。所以，Scaling Law不僅是大模型發(fā)展的底層規(guī)律，也是通向 AGI 的可靠路徑之一。

過去一年關于 Scaling Law 是否遇到天花板的討論比較多，但其實，目前能夠有足夠多的資源和數(shù)據(jù)去觸摸 Scaling Law 天花板的公司，全世界沒幾家。

因為首先需要足夠強大的基礎設施和計算資源，其次還需要足夠多的訓練數(shù)據(jù)。關于數(shù)據(jù)，一方面是現(xiàn)有的互聯(lián)網(wǎng)相關數(shù)據(jù)，另一方面是合成數(shù)據(jù)——合成數(shù)據(jù)非常重要，但是合成數(shù)據(jù)的質(zhì)量能否用于有效訓練，取決于基礎模型的生成能力和合成數(shù)據(jù)的方法，截止到 2024 年，可能只有 GPT-4 等極少數(shù)模型能達到這個水平。所以，目前還不能給 Scaling Law 下個遇到天花板的結(jié)論。

Scaling Law固定路徑被打破

隨著 Scaling Law 的縱深發(fā)展，其發(fā)展的固定路徑已經(jīng)被打破!進入了新的Scaling Law 2.0階段。

DeepSeek-V3的發(fā)布在領域內(nèi)引起廣泛討論，他們用正常十分之一的算力達到目前大語言模型的 SOTA 性能。我們認為這個工作的出現(xiàn)標志著 GPT-1 以來基于 Scaling Law 的固定迭代路徑已經(jīng)被打破了，是個模型架構和工程優(yōu)化結(jié)合的突破性成果。由此也讓領域內(nèi)看到模型工程優(yōu)化的高度，所以模型架構在芯片計算層的優(yōu)化將會是大模型訓練和推理的研發(fā)重點方向。

由此路徑深入迭代，將會把模型工程引向模型架構和芯片架構深度融合的類腦芯片方向，從而突破 Scaling Law 的限制，把模型訓練和推理帶入下一個階段。當然，這個方向需要時間探索。國內(nèi)剛剛發(fā)布的 MiniMax-01 模型也是這類不錯的工作。

除此之外，OpenAI o1開啟 Test/inference-timescaling law 的階段。語言大模型可以看成是知識的壓縮，那怎么利用知識產(chǎn)生更好的智能就是基于基礎模型的思維推理必然發(fā)展的方向。思維推理的發(fā)展也從一維單鏈路 CoT 模式到基于像蒙特卡洛樹搜索 MCTS 的系統(tǒng)化多維推理演化，從而構建更智能更體系化的思維模型。

推理算法的發(fā)展也反過來影響基礎模型的 Scaling Law 路徑，例如微軟rStar-Math 算法無需從大模型蒸餾也能用 60 塊 A100 訓練的 7B 模型在數(shù)學推理上媲美達到OpenAI o1性能。上海AI實驗室的書生·浦語 3.0 的InternLM3-8B-Instruct 模型通過提升數(shù)據(jù)質(zhì)量和數(shù)據(jù)工程，只用 15 %的算力達到 SOTA 性能。過去半年這類工作有不少，就不一一列舉。

總結(jié)來說，無論數(shù)據(jù)維度、模型尺寸維度、還是算力維度，Scaling Law在模型上的體現(xiàn)已經(jīng)過了粗狂式的發(fā)展階段，進入追求更有效的數(shù)據(jù)使用方式、更合理的架構設計、更極致的工程優(yōu)化、更體系化的思維推理的 2.0 階段。

底層架構趨向統(tǒng)一

這里所說的架構可以分為兩個層面，一個是指生成架構，例如自回歸模型、擴散模型、流模型、生成對抗網(wǎng)絡等;另外一個層面就是逼近函數(shù)通用的網(wǎng)絡結(jié)構，例如卷積神經(jīng)網(wǎng)絡、LSTM、U-Net、Transformer等。

Transformer架構因其對 Scaling Law 的優(yōu)良適配性，正在成為多種算法統(tǒng)一的底層架構。自然語言處理領域的自回歸模型、擅長視覺任務的擴散模型和常用于AI for Science方向的圖神經(jīng)網(wǎng)絡模型，都呈現(xiàn)了逐步收斂到 Transformer 架構之上的發(fā)展趨勢。

在過去的一年，Sora的出現(xiàn)不僅僅是視頻生成的突破，也改變了視覺方向的底層架構設計，DiT(Diffusion Transformer)迅速成為視覺方向業(yè)界公認的基礎架構，算法的設計都往這種架構收斂，這就是算法發(fā)展的不可預料性和強大活力。

Transformer問世于2017年，當時在 NLP 領域只用了兩三年時間迅速替代當時的主流框架LSTM。在 Transformer 沒有誕生之前，LSTM在 NLP 領域占有絕對的主導地位，無人能預料到這么快會被邊緣化——但就是這么發(fā)生了，這種不可預料性也是算法研究的樂趣所在。

在多模態(tài)方向上，理解、生成、理解和生成的統(tǒng)一等任務和模態(tài)的統(tǒng)一架構研究也非?；钴S。業(yè)內(nèi)期待能有一個大一統(tǒng)的架構可以把不同模態(tài)和任務統(tǒng)一，有代表性的例如智源研究院基于自回歸架構的 Emu3 和 Meta 的 MetaMorph模型。

架構趨于統(tǒng)一對于 AI 發(fā)展來說很有意義。首先，統(tǒng)一的架構可以顯著地增強AI系統(tǒng)的互操作性，深度探索不同模態(tài)、不同語義、不同尺度數(shù)據(jù)的深層次關聯(lián)性，這對人類通過 AI 認知和理解世界有決定性意義。

達摩院在這個方向有跨領域跨學科的項目在開展中。另外，統(tǒng)一的架構也將大幅提升研發(fā)和部署效率，不僅使 AI 底層基礎設施的模型系統(tǒng)架構更加簡潔，也使推理的軟硬件架構可以在不同領域快速泛化使用，這將大大加速 AI 研發(fā)效率、產(chǎn)品的落地速度、和普惠化程度。

自回歸模型會是生成模型的最終答案嗎?目前只能說，可能性是存在的。但是同時我們也要看到擴散模型除了在視覺方向的廣泛應用以外，在AI for Science方向也正在被普遍使用。

Transformer會是 AI 的終極底層架構嗎?終極答案是否定的，但在一定時間內(nèi) Transformer 還會是大多數(shù) AI 算法設計的最優(yōu)選擇。尤其是隨著AI的廣泛應用，深入千行百業(yè)，會強化 Transformer 的主導地位，因為無論工程和系統(tǒng)方面，還是芯片等硬件層面，目前都是圍繞 Transformer 架構進行的。除非有一個突破性的新架構出現(xiàn)，否則 Transformer 很難在短期內(nèi)被顛覆。

生成模型是 AI 算法的第一性原理

深度學習解決了復雜函數(shù)的通用逼近問題，而生成模型解決了概率論里的古老問題——高維數(shù)據(jù)分布(或是非線性結(jié)構)的擬合。我們上大學時學習概率論，核心就是估計概率密度函數(shù)、擬合數(shù)據(jù)分布。

為什么擬合數(shù)據(jù)分布重要?因為 AI 處理的就是數(shù)據(jù)，一旦擬合了數(shù)據(jù)分布，尋找到數(shù)據(jù)結(jié)構的機理，就能通過直接采樣生成新的數(shù)據(jù)。因此，絕大多數(shù)AI要解決的任務，本質(zhì)上都可以簡化成對數(shù)據(jù)分布的擬合和對數(shù)據(jù)分布的修正這兩個很基礎的問題。所以生成模型是非常本質(zhì)的，它成為 AI 的基礎模型是符合第一性原理的。

生成模型一定程度上可以突破互聯(lián)網(wǎng)數(shù)據(jù)階段性見頂和各個領域內(nèi)數(shù)據(jù)缺乏的困境，對推動 AI 發(fā)展的作用遠超作為算法應用本身。例如基礎模型性能發(fā)展最成熟的 NLP 領域，生成數(shù)據(jù)用于訓練模型已經(jīng)是常態(tài)，是解決 NLP 數(shù)據(jù)困境的有效途徑。

除了視頻方向的Sora，自動駕駛領域也在用生成數(shù)據(jù)來解決 corner case 的問題。Tripo和 Rodin 三維生成模型也展現(xiàn)了令人鼓舞的前景。科學方向基于擴散模型的 RFDiffusion 和 Chroma 算法可以用于蛋白質(zhì)設計。

微軟發(fā)布了可以快速生成不同類型無機材料的基礎模型 MatterGen。醫(yī)療方向也在用生成模型解決醫(yī)療數(shù)據(jù)稀缺的問題。隨著各個模態(tài)生成基礎模型性能的成熟，其它方向也會如此。

更重要的是，基于生成模型的思維推理是構建智能的關鍵。目前生成模型的發(fā)展和使用還在初期階段。基于生成模型對于知識的建模、結(jié)構的擬合、智能的構建才剛剛開始，新的思維范式也將會在未來幾年里出現(xiàn)。

從點線的低維度推理模式到高維度體系化思維能力的演化，不僅會促使模型能力的極大提升，也會讓研究員重新審視模型架構的設計本身，從而加速 AGI 時代的到來。

AI產(chǎn)業(yè)進入百花齊放階段

前面重點討論了技術方向，接下來，讓我們展望 AI 的產(chǎn)業(yè)影響。人類有幾個基本的特點：血肉之軀的能力限制，所以物理工具是必需品，而最極致的工具是物理化的人——機器人;知識無法遺傳，所以教育不可或缺;肉體衰老死亡，所以醫(yī)療是人類社會的剛需服務;活動受到物理環(huán)境的限制，所以數(shù)字仿真必將成為 AI 的基礎設施。我們就聚焦在硬件、教育、醫(yī)療、和數(shù)字仿真這幾個題目進行簡要討論。

智能硬件具備爆發(fā)條件

2024年像谷歌的Gemini、OpenAI的 GPT 系列、阿里巴巴的通義 Qwen-VL、智譜的GLM-Realtimes、和面壁智能的“小鋼炮” MiniCPM-o 2.6 端側(cè)模型都在多模態(tài)和視覺理解能力上取得了顯著進步。人類本來就是利用視覺、語言、聽覺、觸覺等不同模態(tài)的信息來進行和環(huán)境感知和交互的，所以多模態(tài)是人機交互的關鍵。多模態(tài)基礎模型能力的成熟會促使兩個方向的進步：一個就是數(shù)字智能體，也就是現(xiàn)在說的Agent;一個是物理智能體，也就是包括機器人在內(nèi)的智能硬件。所以按照技術演化的邏輯，2025年智能硬件會迎來高速發(fā)展期。

在人機交互的信息媒介中，語言和語音是其中兩個最重要的兩個基礎模態(tài)。對于語音，除了智能手機之外，智能耳機會是自然的人機交互的指令入口，所以會在 AI 驅(qū)動的智能硬件中占有核心的地位。國內(nèi)字節(jié)和訊飛都在消費級智能耳機方向上率先發(fā)力。另外，輕量級的腦機接口設備也在 CES 2025 上出現(xiàn)，例如美國初創(chuàng)公司發(fā)布的 Omi 的 AI 可穿戴設備。這種類似的智能硬件雖然輕量，但是都是不同模態(tài)人機交互入口級別的智能硬件，值得關注。

另外一個大的方向就是機器人，剛才在具身智能章節(jié)中從技術的角度闡述了關于機器人的看法。但是從產(chǎn)業(yè)落地的角度去觀察，是不同的路徑。目前業(yè)內(nèi)認為率先落地的是工業(yè)場景，如汽車總裝線，這個場景下機器人的目標是替換高級技工并帶來產(chǎn)能的提升。另外一個就是家庭智能玩具，它基于輕機器人本體路線，但帶來多模態(tài)的人機交互。

和主流看法有點差異，我們認為對于未來機會的把握這兩個都不是當下落地的理想路徑。而二者的結(jié)合：一個低自由度，結(jié)構簡單穩(wěn)定，能夠帶來“輕、靜、快”的物理交互，又能結(jié)合AI提供多模態(tài)感知交互的機器人，很可能會更早地形成可以持續(xù)的商業(yè)生態(tài)。在 2025 年，除了大家都熟知的人形機器人，我們更期待一款可落地的消費級機器人新品類出現(xiàn)。

醫(yī)療 2.0 時代開啟

在 AlphaFold 榮獲 2024 年諾貝爾獎后，幾乎所有人都意識到了AI解決基礎科學問題的巨大力量，AI for Science已成為毋庸置疑的重要趨勢。其中，生命科學和醫(yī)療是關乎人類福祉的方向。AlphaFold發(fā)明人之一、DeepMind CEO Demis Hassabis 也預測人類有可能在未來十年內(nèi)治愈大部分疾病。這一預測如果成為現(xiàn)實，那將是醫(yī)藥誕生以來的歷史性進步。

在過去幾個月里，Nature正刊上接連發(fā)表了病理學基礎模型CHIEF、精準腫瘤學多模態(tài)基礎模型MUSK、人類細胞類型的轉(zhuǎn)錄基礎模型GET，還有 Nature Medicine 上解決醫(yī)療圖像合成的生成基礎模型MINIM，多模態(tài)醫(yī)療基礎模型 BioMedGPT 等。這些基礎模型工作的接連出現(xiàn)，標志著醫(yī)療技術 2.0 時代的到來。醫(yī)療方向正在從針對單病種單類型的技術時代快速向基于基礎模型加具體任務微調(diào)的大模型范式轉(zhuǎn)換。

另外，完整周期的大隊列數(shù)據(jù)對于疾病治療至關重要，但是獲取完整隊列數(shù)據(jù)非常困難而且周期很長。借助生成模型，有望解決醫(yī)療周期數(shù)據(jù)缺失的問題，這對醫(yī)療領域取得實質(zhì)性進步意義重大。

達摩院在醫(yī)療 AI 方向成果顯著，在 Nature Medicine 上發(fā)表了基于平掃 CT 影像的胰腺癌檢測算法DAMO PANDA，是業(yè)內(nèi)首次借助平掃 CT 進行胰腺癌篩查的方法，為大規(guī)模低代價進行胰腺癌篩查開辟了新的路徑。這項工作被斯坦福大學發(fā)布的 2024 年 AI 指數(shù)報告列為“年度亮點研究”，是國內(nèi)唯一入選的工作。目前達摩院正在進行中的多病種統(tǒng)一算法架構、醫(yī)療多模態(tài)基礎模型和腫瘤動力學等相關研究，也有望在今年取得重要進展。

AI驅(qū)動的教育

無論孔子時代的問答式教學、還是柏拉圖時代開啟的思辯，教育至今都延續(xù)老師和學生物理互動的模式。學生學業(yè)的高度很大程度上取決于老師水平的高低和資源的多少，因此，受限于不同地域和文明發(fā)達程度的不一，人類離教育普惠一直遙不可及。令人欣喜的是，這種狀況要在 AI 時代終結(jié)了。

在谷歌的 Gemini 多模態(tài)模型和 OpenAI 的多模態(tài)模型發(fā)布會上，都不約而同地展示了多模態(tài)大模型在教育場景的應用示例，這足以說明 AI 公司對于利用 AI 技術解決教育問題的期待和重視程度。

AI將人類沉淀的知識壓縮到模型中，從而利用記憶和組合生成可以創(chuàng)造出比人類更加智慧聰明的數(shù)字智能體。所以在不遠的將來，利用多模態(tài)大模型的能力，虛擬老師的水平將會超過幾乎所有的真實老師的水平，從而使教育提高到一個全新的高度。只要有可以運行AI軟件的硬件終端，人人都可以獲取最好的教育。這會在未來五年內(nèi)發(fā)生，將是人類教育事業(yè)全新的開始。

但是教育本身也包含物理互動的過程，而且這是數(shù)字智能體沒法完全取代的，所以教育方向?qū)⒂羞m應AI時代的各種智能硬件出現(xiàn)。

數(shù)字仿真2.0

2024年對于 AI 發(fā)生的其中有一個轉(zhuǎn)折就是算法到物理世界的轉(zhuǎn)場。AI為了更好地適配物理世界并實現(xiàn)落地，各類數(shù)字化仿真將會成為不可或缺的基礎設施。世界模型就是其中一個備受關注的方向，還有現(xiàn)象級討論的 Genesis 物理仿真平臺等。但是這里談到的數(shù)字仿真遠不止現(xiàn)在學術界研究的世界模型覆蓋的范疇，這是一個涵蓋從微觀尺度到宏觀尺度的數(shù)字技術和物理世界映射的范式變化。

英偉達在數(shù)字仿真領域上進行了系統(tǒng)化的深入布局。NVIDIA Isaac、Omniverse和 Cosmos 等平臺正構建一個完整的仿真生態(tài)系統(tǒng)，重塑工業(yè)研發(fā)鏈路和范式。在 CES 2025 上，英偉達演示了在自動駕駛仿真、飛機制造、機器人研發(fā)以及工業(yè)場景的數(shù)字孿生等方面的應用，展現(xiàn)了廣闊的前景。

不僅在工業(yè)場景，數(shù)字仿真在生命科學上也展現(xiàn)了巨大的潛力。2024年 DeepMind 和哈佛大學在 Nature 上發(fā)表了由AI生成的數(shù)字生命體——虛擬老鼠，使用命名為 MIMIC 的算法能夠模擬嚙齒動物的大腦活動和行為表現(xiàn)，在生物動力學方向取得重要突破。國內(nèi)智源研究院提出了 BAAIWorm 天寶，實現(xiàn)了秀麗隱桿線蟲的神經(jīng)系統(tǒng)、身體和環(huán)境的交互仿真?；谡鎸嵨锢硎澜鐧C理的生物動力學仿真，將會開啟一個全新的生命科學研究范式，有著深遠的意義。

在數(shù)字化時代，原則上幾乎每個物理世界的場景都可以進行仿真。從核聚變研究到細胞活動模擬，從機器人研發(fā)到數(shù)字生命體建模，從機械動力學到生物動力學，從微觀到宏觀的自然界都將會在仿真系統(tǒng)中被重建。

結(jié)語

這輪 AI 浪潮會把人類社會帶入全新的智能時代，人類認知世界、改造世界的能力將得到空前的提高。可以預料到的是，三十年后我們將身處一個與現(xiàn)在完全不同的嶄新世界。

作為 AI 從業(yè)人員，我們非常榮幸可以參與這一歷史進程，也希望本文能夠為 AI 同仁探索未來提供一些啟發(fā)。未盡之處，歡迎關注“ DAMO 開發(fā)者矩陣”，我們將在后續(xù)文章中持續(xù)探討 AI 的前沿趨勢與應用展望。