新京報貝殼財經訊(記者羅亦丹)1月12日晚間,DeepSeek發(fā)布了一篇新論文,主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直譯為基于可擴展查找的條件記憶:大語言模型稀疏性的新維度),梁文鋒再度出現(xiàn)在了作者名單最后。這篇論文為北京大學和DeepSeek共同完成。
新京報貝殼財經記者瀏覽發(fā)現(xiàn),這篇論文的核心直指當前大語言模型存在的記憶力“短板”,提出了“條件記憶”這一概念。
為了實現(xiàn)“條件記憶”,DeepSeek提出的解決方案是一個名為Engram(直譯為:記憶痕跡)的模塊,它將語言建模任務拆解為“靜態(tài)模式檢索”與“動態(tài)組合推理”兩大分支:前者負責實體、固定短語等確定性知識的快速調取,后者則交由Transformer架構專注完成復雜邏輯運算。
論文最后表示,“我們將條件記憶視為下一代稀疏模型不可或缺的建模原語?!?/p>
當前,有不少聲音猜測DeepSeek的下一代模型將于春節(jié)前發(fā)布,復現(xiàn)2025年春節(jié)期間盛況。這一背景下,此篇論文或為模型的“廬山真面目”提供了方向。
編輯 楊娟娟
校對 楊利
