通義Qwen3新推理模型發(fā)布:思考、數(shù)學(xué)代碼能力大幅提升
7月31日消息,據(jù)媒體報道,阿里通義千問重磅推出推理模型升級版Qwen3-30B-A3B-Thinking-2507,在數(shù)學(xué)與代碼兩大核心能力上實現(xiàn)突破性進展。
該模型在數(shù)學(xué)推理評測AIME25中獲得85.0分,在代碼能力測試LiveCodeBench v6中取得66.0分,全面超越Gemini2.5-Flash(thinking)及自家前代旗艦Qwen3-235B等競品。
新模型在知識水平評測(GPQA、MMLU-Pro)中較前代顯著提升,同時在寫作(WritingBench)、Agent能力(BFCL-v3)以及多輪對話、多語言指令(MultiIF)等通用能力維度均展現(xiàn)出優(yōu)勢。測試數(shù)據(jù)證實,其綜合性能已形成對同類標(biāo)桿模型的全面超越。
此次升級特別拓展了模型的思考長度,使其在處理高度復(fù)雜任務(wù)時具備更強潛力。開發(fā)者可通過設(shè)置更長思考時間,充分激發(fā)模型在邏輯推演、多步驟問題解決等方面的能力邊界。
目前該模型已在魔搭社區(qū)和HuggingFace開源,同步上線的Qwen Chat智能對話平臺將為用戶提供更高效的交互體驗。此次升級標(biāo)志著通義千問在專用推理模型領(lǐng)域的技術(shù)突破,為開發(fā)者社區(qū)提供更強大的AI基礎(chǔ)設(shè)施。