1月12日晚間,DeepSeek發(fā)布梁文鋒署名的新論文,主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直譯為基于可擴(kuò)展查找的條件記憶:大語(yǔ)言模型稀疏性的新維度),這也是2026開(kāi)年至今,DeepSeek團(tuán)隊(duì)的第二篇重磅論文。
此前,在1月1日發(fā)布的論文中,DeepSeek提出一種名為“mHC”(直譯為“流形約束超連接”)的框架,可以有效解決大模型訓(xùn)練中的穩(wěn)定性問(wèn)題。而在本次發(fā)布的論文中,DeepSeek聯(lián)合北京大學(xué)提出了“條件記憶”這一概念,直指當(dāng)前大語(yǔ)言模型基礎(chǔ)架構(gòu)Transformer在知識(shí)檢索方面存在的低效和算力消耗問(wèn)題。
在這篇論文里,DeepSeek通過(guò)創(chuàng)新的Engram(直譯為:記憶痕跡)架構(gòu)為模型規(guī)?;瘮U(kuò)展提供了新的技術(shù)路徑,若以簡(jiǎn)單的比喻來(lái)理解,就是DeepSeek設(shè)計(jì)了一種新架構(gòu),將大模型的“條件記憶”和“計(jì)算”分開(kāi),最終達(dá)到了降低錯(cuò)誤、節(jié)省算力的目的。

預(yù)印本網(wǎng)站上DeepSeek的論文頁(yè)面截圖,紅框?yàn)榱何匿h名字。
大模型“痛點(diǎn)”:簡(jiǎn)單問(wèn)題需要復(fù)雜推理,容易“遺忘”
許多AI大模型用戶(hù)均曾在使用過(guò)程中發(fā)現(xiàn)過(guò)一個(gè)現(xiàn)象:AI會(huì)偶爾“忘記”自己曾經(jīng)說(shuō)過(guò)的話。對(duì)于這一問(wèn)題,有AI聊天重度用戶(hù)曾對(duì)記者表示,可以通過(guò)再次“提醒”的方式來(lái)讓AI重復(fù)記起,ChatGPT等應(yīng)用也對(duì)此進(jìn)行過(guò)設(shè)置,讓用戶(hù)可以保存一些較為重要的信息到“長(zhǎng)期記憶”中。
然而,這一切只能“治標(biāo)”不能“治本”。究其原因,根據(jù)美國(guó)約翰斯·霍普金斯大學(xué)和中國(guó)人民大學(xué)的研究團(tuán)隊(duì)2025年3月發(fā)布的論文《大型語(yǔ)言模型不具備類(lèi)人工作記憶》(LLMs Do Not Have Human-Like Working Memory),大語(yǔ)言模型所依賴(lài)的“上下文窗口”與工作記憶存在本質(zhì)區(qū)別。
根據(jù)研究人員測(cè)試,模型在處理超過(guò)5輪的多步驟邏輯推理任務(wù)時(shí),會(huì)出現(xiàn)關(guān)鍵信息丟失的現(xiàn)象,在長(zhǎng)文本生成場(chǎng)景下,前文設(shè)定的人物關(guān)系、情節(jié)線索極易發(fā)生偏差。
在實(shí)際應(yīng)用中,這一缺陷有可能被無(wú)限放大。如在企業(yè)客服場(chǎng)景,模型無(wú)法長(zhǎng)期記住用戶(hù)的個(gè)性化需求;在醫(yī)療問(wèn)診場(chǎng)景,患者此前提及的病史、用藥禁忌可能被忽略;在代碼生成場(chǎng)景,跨文件的函數(shù)調(diào)用邏輯易出現(xiàn)混亂??梢哉f(shuō),記憶短板已成為大模型從 “通用工具” 邁向 “垂直領(lǐng)域?qū)S孟到y(tǒng)” 的最大障礙。
究其原因,在多輪對(duì)話中,早期輸入的關(guān)鍵信息會(huì)隨著對(duì)話輪次增加而逐漸衰減,最終被新信息覆蓋。這種 “答后忘前”的現(xiàn)象,本質(zhì)是模型的短時(shí)記憶無(wú)法有效轉(zhuǎn)化為長(zhǎng)期可用的知識(shí)。另一方面,密集型注意力計(jì)算模式下,記憶存儲(chǔ)與邏輯推理共享算力資源,二者存在天然的資源競(jìng)爭(zhēng)關(guān)系 —— 模型難以同時(shí)兼顧 “記住更多信息” 與 “精準(zhǔn)完成推理”。
這一背景下,DeepSeek則保持了一貫的“省錢(qián)”作風(fēng),看到了這之中存在的算力消耗問(wèn)題。梁文鋒署名的新論文表示,語(yǔ)言建模本質(zhì)上包含兩類(lèi)子任務(wù):一類(lèi)是組合式推理,需要依賴(lài)深層、動(dòng)態(tài)計(jì)算完成;另一類(lèi)是知識(shí)檢索,面向命名實(shí)體等相對(duì)靜態(tài)的內(nèi)容,理論上可以通過(guò)簡(jiǎn)單查找更高效地處理。然而,現(xiàn)有Transformer架構(gòu)缺乏原生的查找組件,遇到這類(lèi)靜態(tài)信息時(shí)往往仍要反復(fù)調(diào)用深層網(wǎng)絡(luò)進(jìn)行重建,從而加劇算力浪費(fèi)并推高推理成本。
DeepSeek在論文中指出,當(dāng)前主流模型在內(nèi)部運(yùn)行方式上仍存在明顯低效。大量固定知識(shí)和常見(jiàn)語(yǔ)言模式并不需要復(fù)雜推理,但模型在推理時(shí)往往仍要通過(guò)多層計(jì)算重新構(gòu)建相關(guān)信息,導(dǎo)致算力被大量消耗在記憶相關(guān)操作上。在長(zhǎng)文本和知識(shí)密集型任務(wù)中,這一問(wèn)題更為突出,重復(fù)靜態(tài)信息的重建會(huì)增加額外的推理開(kāi)銷(xiāo)并拉長(zhǎng)推理鏈路。
首創(chuàng)MoE+Engram雙稀疏軸架構(gòu),實(shí)現(xiàn)“推理+檢索”分工協(xié)作
那么,如何解決上述問(wèn)題呢?
根據(jù)DeepSeek的論文,研究人員首次將條件記憶(Conditional Memory)作為混合專(zhuān)家模型(MoE)條件計(jì)算的互補(bǔ)維度,提出計(jì)算與記憶雙稀疏軸的設(shè)計(jì)思路,這也是此次研究的核心創(chuàng)新點(diǎn)。
所謂“條件記憶”,是指模型能夠基于輸入中的局部上下文模式,以常數(shù)時(shí)間從大規(guī)模參數(shù)化記憶中檢索并融合靜態(tài)知識(shí)表示,從而避免在推理過(guò)程中反復(fù)通過(guò)深層計(jì)算重建高頻、模板化信息,類(lèi)似于人類(lèi)在面對(duì)熟悉知識(shí)時(shí)直接調(diào)用既有記憶,而非重新推導(dǎo)。

Engram架構(gòu)示意圖 來(lái)源:DeepSeek論文截圖
具體而言,條件記憶通過(guò)Engram模塊(記憶痕跡)實(shí)現(xiàn)靜態(tài)知識(shí)存儲(chǔ)與動(dòng)態(tài)計(jì)算的分離,達(dá)成靜態(tài)模式的常數(shù)時(shí)間O(1)查找。其核心邏輯是為語(yǔ)言建模的兩類(lèi)子任務(wù)進(jìn)行分工:MoE專(zhuān)注處理需要深層思考的組合式推理任務(wù),Engram則依托條件記憶機(jī)制負(fù)責(zé)靜態(tài)知識(shí)的快速檢索,從架構(gòu)上優(yōu)化了算力資源分配,改變了傳統(tǒng)模型用計(jì)算模擬記憶的低效模式。當(dāng)大約20%至25%的稀疏參數(shù)預(yù)算分配給Engram,剩余部分留給MoE時(shí)(75% -80%),模型性能達(dá)到最佳。
這種稀疏性設(shè)計(jì)帶來(lái)兩大優(yōu)勢(shì):一是大幅降低算力消耗,靜默狀態(tài)的記憶資源不占用計(jì)算資源,提升模型運(yùn)行效率;二是拓展記憶容量,稀疏存儲(chǔ)模式可支持更大規(guī)模的知識(shí)存入,突破傳統(tǒng)注意力窗口的物理限制。
論文給出了這一新方案在準(zhǔn)確性上所得到的提升:在長(zhǎng)上下文檢索方面,研究人員采用業(yè)內(nèi)公認(rèn)的兩個(gè)長(zhǎng)上下文評(píng)測(cè)基準(zhǔn)。實(shí)驗(yàn)結(jié)果顯示,在32k上下文長(zhǎng)度下,Engram-27B 在多項(xiàng) Needle-in-a-Haystack(NIAH)任務(wù)中顯著優(yōu)于MoE基線模型,Multi-Query NIAH的準(zhǔn)確率從 84.2%提升至97.0%,Variable Tracking從77.0%提升至89.0%。
目前,該研究的代碼已開(kāi)源,DeepSeek團(tuán)隊(duì)在論文最后表示,“我們認(rèn)為條件記憶函數(shù)是下一代稀疏模型中不可或缺的建?;!边@一表述的背后,是行業(yè)對(duì)大模型技術(shù)演進(jìn)方向的共識(shí)——當(dāng)參數(shù)競(jìng)賽進(jìn)入瓶頸期,稀疏性設(shè)計(jì)將成為提升模型效率與能力的核心路徑,而條件記憶或許可以成為稀疏模型在記憶領(lǐng)域的關(guān)鍵突破。
在業(yè)界猜測(cè)DeepSeek下一代模型將于春節(jié)前發(fā)布的背景下,這篇論文的出現(xiàn)頗具風(fēng)向標(biāo)意義,論文提出的技術(shù)范式也為大模型的底層架構(gòu)創(chuàng)新提供了新的思路。
新京報(bào)貝殼財(cái)經(jīng)記者 羅亦丹 實(shí)習(xí)生 郭雯華
編輯 岳彩周
校對(duì) 付春愔
