2026開年未滿一個月，DeepSeek就發(fā)布了兩篇創(chuàng)始人梁文鋒署名的論文——元旦拋出mHC架構(gòu)論文破解模型穩(wěn)定性難題，月中又靠Engram論文提出 “靜態(tài)知識存為可檢索記憶表”的新思路。

1月27日，DeepSeek開源模型DeepSeek-OCR 2（其核心定位為處理靜態(tài)圖像）并同步發(fā)布論文《DeepSeek-OCR 2: Visual Causal Flow（直譯為“視覺因果流”）》。新京報貝殼財經(jīng)記者瀏覽論文發(fā)現(xiàn)，視覺因果流機(jī)制可使模型不再像掃描儀一樣按像素順序“掃圖”，而是能夠像人類閱讀一樣，依據(jù)語義和邏輯關(guān)系理解圖像內(nèi)容，從而顯著提升其在表格、文檔和公式等復(fù)雜結(jié)構(gòu)場景中的識別與理解效果。

DeepSeek最新論文在github平臺上的截圖

不是模型不夠強(qiáng)，而是看圖的順序不對

長期以來，主流視覺語言模型在處理圖像時，普遍采用固定的像素掃描順序。將圖像切分為若干視覺單元后，按照從左到右、從上到下的方式輸入模型。這種方式在自然圖片中尚能發(fā)揮作用，但在表格、多欄文檔、技術(shù)資料和數(shù)學(xué)公式等結(jié)構(gòu)化內(nèi)容中，卻暴露出明顯局限。

在這些場景下，信息之間往往存在清晰的語義層級和邏輯依賴，例如標(biāo)題與正文、行名與數(shù)值、主公式與注釋等。然而，固定的空間順序無法反映這些關(guān)系，導(dǎo)致模型雖然能夠識別局部文字，卻難以還原整體結(jié)構(gòu)，從而影響后續(xù)理解與推理效果。

隨著模型規(guī)模不斷擴(kuò)大，這一問題并未得到根本解決。研究者逐漸意識到，性能瓶頸并不完全源于參數(shù)數(shù)量或算力不足，而在于視覺信息被組織和輸入模型的方式本身。換言之，模型“看得見”，但“怎么看”才是關(guān)鍵。DeepSeek-OCR 2 正是在這一背景下提出，它嘗試從根本上調(diào)整模型對圖像的理解路徑，而不是繼續(xù)依賴更大的模型規(guī)模來彌補結(jié)構(gòu)理解的不足。

先理清關(guān)系，再讓模型去“理解”

在此背景下，DeepSeek-OCR 2的核心創(chuàng)新在于提出“視覺因果流”機(jī)制，使模型不再機(jī)械地按像素順序處理圖像，而是根據(jù)語義和邏輯關(guān)系動態(tài)組織視覺信息。在具體實現(xiàn)上，模型在視覺編碼階段引入語義與因果感知能力，通過改進(jìn)的視覺編碼器，對不同視覺單元之間的依賴關(guān)系進(jìn)行建模，判斷哪些信息在理解上具有先行性，哪些內(nèi)容是對前者的補充或延展。

基于這種判斷，模型會對視覺token進(jìn)行動態(tài)重排，并結(jié)合可重組的位置編碼，將結(jié)構(gòu)更加清晰的序列輸入語言模型。這樣，語言模型在生成和推理階段接收到的，不再是雜亂無序的像素序列，而是一條更接近人類閱讀習(xí)慣的“理解路徑”。研究團(tuán)隊將這一過程概括為“視覺因果流”，即圖像中隱含的語義理解順序。

實驗結(jié)果表明，該機(jī)制在表格解析、多欄文檔理解和公式識別等任務(wù)中表現(xiàn)突出，相較于前代 DeepSeek-OCR，整體性能提升 3.73%，閱讀順序（R-order）的編輯距離（ED）也顯著降低（從0.085降至0.057），這表明新的DeepEncoder V2能夠根據(jù)圖像信息有效地選擇和排列初始視覺標(biāo)記。

論文最后表示，盡管光學(xué)字符識別，尤其是文檔解析，是大模型時代最具實用價值的視覺任務(wù)之一，但它只是更廣泛視覺理解版圖中的一部分。未來，相關(guān)架構(gòu)還將持續(xù)優(yōu)化并拓展至更多復(fù)雜場景，進(jìn)一步探索多模態(tài)智能在更深層次視覺理解中的潛力。

新京報貝殼財經(jīng)記者羅亦丹實習(xí)生郭雯華

編輯王進(jìn)雨

校對薛京寧

10 +1

微博

微信

我要評論

直播

直播中

直播丨第十一屆“尋找北京最美慈善義工”致敬盛典
116950人參與
預(yù) 告走近一線法官丨法潤邊疆幸福臨滄
2026-02-09 15:00

福利午夜国产无码自拍_欧美精品黑人粗大美另类_在线精品亚洲字幕无码AV_日韩自慰精品一区二区三区

DeepSeek又發(fā)新論文：讓AI用“人類思維”理解圖像

我要評論

直播

熱點

最新

熱議