6月30日,華為宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型,以及基于昇騰的模型推理技術(shù)。

華為方面表示,此舉是華為踐行昇騰生態(tài)戰(zhàn)略的又一關(guān)鍵舉措,推動(dòng)大模型技術(shù)的研究與創(chuàng)新發(fā)展,加速推進(jìn)人工智能在千行百業(yè)的應(yīng)用與價(jià)值創(chuàng)造。


目前,盤古Pro MoE 72B模型權(quán)重、基礎(chǔ)推理代碼,已正式上線開源平臺(tái)。基于昇騰的超大規(guī)模MoE模型推理代碼,已正式上線開源平臺(tái)。盤古7B相關(guān)模型權(quán)重與推理代碼將于近期上線開源平臺(tái)。


華為開源兩款模型。GitCode網(wǎng)站截圖

在針對盤古Pro MoE的報(bào)告中,華為盤古團(tuán)隊(duì)指出,混合專家模型(MoE)在大語言模型(LLMs)中興起,然而在實(shí)際部署中,不同專家的激活頻率存在嚴(yán)重的不均衡問題,一部分專家被過度調(diào)用,而其他專家則長期閑置,導(dǎo)致系統(tǒng)效率低下。

為此,華為盤古團(tuán)隊(duì)提出了新型的分組混合專家模型(Mixture of Grouped Experts, MoGE),該模型在專家選擇階段對專家進(jìn)行分組,并約束token在每個(gè)組內(nèi)激活等量專家,從而實(shí)現(xiàn)專家負(fù)載均衡,顯著提升模型在昇騰平臺(tái)的部署效率?;贛oGE架構(gòu),團(tuán)隊(duì)構(gòu)建了總參數(shù)量720億、激活參數(shù)量160億的盤古Pro MoE模型,并針對昇騰300I Duo和800I A2平臺(tái)進(jìn)行系統(tǒng)優(yōu)化。

從效果來看,盤古Pro MoE在昇騰800I A2上實(shí)現(xiàn)了單卡1148 tokens/s的推理吞吐性能,并可進(jìn)一步通過投機(jī)加速等技術(shù)提升至1528 tokens/s,顯著優(yōu)于同等規(guī)模的320億和720億參數(shù)的稠密模型;在昇騰300I Duo推理服務(wù)器上,也實(shí)現(xiàn)了極具性價(jià)比的模型推理方案。

技術(shù)報(bào)告指出,經(jīng)研究表明,昇騰NPU能夠支持盤古Pro MoE的大規(guī)模并行訓(xùn)練。多項(xiàng)公開基準(zhǔn)測試結(jié)果表明,盤古Pro MoE在千億內(nèi)總參數(shù)模型中處于領(lǐng)先地位。

對于盤古70億參數(shù)的稠密模型,華為研究團(tuán)隊(duì)指出,大語言模型(LLM)普遍面臨著巨大的計(jì)算成本和推理延遲挑戰(zhàn),這限制了它們的實(shí)際應(yīng)用與部署。

為此,團(tuán)隊(duì)提出了盤古Embedded,一個(gè)在昇騰(Ascend)NPU上開發(fā)的高效大語言模型推理器。其核心是一個(gè)具備“快思慢想”(fast and slow thinking)能力的雙系統(tǒng)框架。該框架通過一個(gè)用于常規(guī)請求的“快思考”模式和一個(gè)用于復(fù)雜推理的“慢思考”模式,在延遲和推理深度之間實(shí)現(xiàn)了平衡。

從效果上看,70億參數(shù)的盤古Embedded在多個(gè)權(quán)威的復(fù)雜推理基準(zhǔn)測試中(如AIME、 GPQA等),其表現(xiàn)優(yōu)于Qwen3-8B和GLM4-9B等規(guī)模相近的業(yè)界領(lǐng)先模型。

華為在大模型領(lǐng)域進(jìn)展加速。除了上述兩款模型,今年5月底,華為還推出了參數(shù)規(guī)模達(dá)7180億新模型——盤古Ultra MoE,全流程在昇騰AI計(jì)算平臺(tái)上訓(xùn)練。華為同時(shí)發(fā)布盤古Ultra MoE模型架構(gòu)和訓(xùn)練方法的技術(shù)報(bào)告,披露眾多技術(shù)細(xì)節(jié)。

在6月20日舉辦的華為開發(fā)者大會(huì)2025上,華為云正式發(fā)布盤古大模型5.5,自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)、多模態(tài)、預(yù)測、科學(xué)計(jì)算五大基礎(chǔ)模型全面升級(jí)。


新京報(bào)貝殼財(cái)經(jīng)記者 韋博雅

編輯 楊娟娟

校對 劉軍