新京報貝殼財經(jīng)訊（記者羅亦丹）1月26日晚間，阿里正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking，在多項關(guān)鍵性能基準(zhǔn)測試中，千問表現(xiàn)超過了GPT-5.2、Claude Opus 4.5 和Gemini 3 Pro等頂尖模型，刷新全球紀(jì)錄，進(jìn)一步拓展了人工智能系統(tǒng)的推理性能邊界。

通過總參數(shù)、強(qiáng)化學(xué)習(xí)、推理計算的極致規(guī)模擴(kuò)展，千問新模型實現(xiàn)了性能的大幅飛躍，刷新科學(xué)知識（GPQA Diamond）、數(shù)學(xué)推理（IMO-AnswerBench）、代碼編程（LiveCodeBench）等多項關(guān)鍵性能基準(zhǔn)測試的全球紀(jì)錄。

具體來看，在關(guān)鍵的模型推理能力提升中，千問新模型采用了一種全新的測試時擴(kuò)展（Test-time Scaling）機(jī)制，推理性能提升的同時還更經(jīng)濟(jì)。業(yè)界普遍的推理時計算，只會簡單增加并行推理路徑，重復(fù)推導(dǎo)已知結(jié)論，造成冗余推理效率低下；而千問采用的這一新機(jī)制，可對此前推理的結(jié)果進(jìn)行“經(jīng)驗提取”式的提煉，并據(jù)此進(jìn)行多輪自我迭代，在相同的上下文中實現(xiàn)更高效的推理計算，獲得更智能的推理結(jié)果?；谶@一推理技術(shù)創(chuàng)新，千問推理性能和推理效率大為提升，比如在啟用工具的“人類最后的測試”HLE中，千問得分58.3，大幅超過GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8，錄得當(dāng)前所有模型的最高分。

阿里方面表示，Qwen3-Max-Thinking總參數(shù)超萬億，進(jìn)行了更大規(guī)模的強(qiáng)化學(xué)習(xí)后訓(xùn)練，并通過推理技術(shù)的系列創(chuàng)新，最終完成模型性能的大幅飛躍。其還大幅增強(qiáng)了自主調(diào)用工具的原生Agent能力，模型可像專業(yè)人士一樣邊用工具邊思考。同時，模型幻覺也大為降低，為解決真實復(fù)雜任務(wù)打下基礎(chǔ)。目前，普通用戶可通過千問PC端和網(wǎng)頁端試用新模型，千問APP也即將接入，所有用戶都可免費體驗。

編輯陳莉校對楊利

9 +1

微博

微信

福利午夜国产无码自拍_欧美精品黑人粗大美另类_在线精品亚洲字幕无码AV_日韩自慰精品一区二区三区

阿里千問最新推理模型亮相，多項性能破紀(jì)錄

我要評論

熱點

最新

熱議

福利午夜国产无码自拍_欧美精品黑人粗大美另类_在线精品亚洲字幕无码AV_日韩自慰精品一区二区三区

阿里千問最新推理模型亮相，多項性能破紀(jì)錄

我要評論

熱點

最新

熱議

阿里千問最新推理模型亮相，多項性能破紀(jì)錄