2026開年未滿一個月,DeepSeek就發(fā)布了兩篇創(chuàng)始人梁文鋒署名的論文——元旦拋出mHC架構(gòu)論文破解模型穩(wěn)定性難題,月中又靠Engram論文提出 “靜態(tài)知識存為可檢索記憶表”的新思路。
1月27日,DeepSeek開源模型DeepSeek-OCR 2(其核心定位為處理靜態(tài)圖像)并同步發(fā)布論文《DeepSeek-OCR 2: Visual Causal Flow(直譯為“視覺因果流”)》。新京報貝殼財經(jīng)記者瀏覽論文發(fā)現(xiàn),視覺因果流機(jī)制可使模型不再像掃描儀一樣按像素順序“掃圖”,而是能夠像人類閱讀一樣,依據(jù)語義和邏輯關(guān)系理解圖像內(nèi)容,從而顯著提升其在表格、文檔和公式等復(fù)雜結(jié)構(gòu)場景中的識別與理解效果。

DeepSeek最新論文在github平臺上的截圖
不是模型不夠強(qiáng),而是看圖的順序不對
長期以來,主流視覺語言模型在處理圖像時,普遍采用固定的像素掃描順序。將圖像切分為若干視覺單元后,按照從左到右、從上到下的方式輸入模型。這種方式在自然圖片中尚能發(fā)揮作用,但在表格、多欄文檔、技術(shù)資料和數(shù)學(xué)公式等結(jié)構(gòu)化內(nèi)容中,卻暴露出明顯局限。
在這些場景下,信息之間往往存在清晰的語義層級和邏輯依賴,例如標(biāo)題與正文、行名與數(shù)值、主公式與注釋等。然而,固定的空間順序無法反映這些關(guān)系,導(dǎo)致模型雖然能夠識別局部文字,卻難以還原整體結(jié)構(gòu),從而影響后續(xù)理解與推理效果。
隨著模型規(guī)模不斷擴(kuò)大,這一問題并未得到根本解決。研究者逐漸意識到,性能瓶頸并不完全源于參數(shù)數(shù)量或算力不足,而在于視覺信息被組織和輸入模型的方式本身。換言之,模型“看得見”,但“怎么看”才是關(guān)鍵。DeepSeek-OCR 2 正是在這一背景下提出,它嘗試從根本上調(diào)整模型對圖像的理解路徑,而不是繼續(xù)依賴更大的模型規(guī)模來彌補結(jié)構(gòu)理解的不足。
先理清關(guān)系,再讓模型去“理解”
在此背景下,DeepSeek-OCR 2的核心創(chuàng)新在于提出“視覺因果流”機(jī)制,使模型不再機(jī)械地按像素順序處理圖像,而是根據(jù)語義和邏輯關(guān)系動態(tài)組織視覺信息。在具體實現(xiàn)上,模型在視覺編碼階段引入語義與因果感知能力,通過改進(jìn)的視覺編碼器,對不同視覺單元之間的依賴關(guān)系進(jìn)行建模,判斷哪些信息在理解上具有先行性,哪些內(nèi)容是對前者的補充或延展。
基于這種判斷,模型會對視覺token進(jìn)行動態(tài)重排,并結(jié)合可重組的位置編碼,將結(jié)構(gòu)更加清晰的序列輸入語言模型。這樣,語言模型在生成和推理階段接收到的,不再是雜亂無序的像素序列,而是一條更接近人類閱讀習(xí)慣的“理解路徑”。研究團(tuán)隊將這一過程概括為“視覺因果流”,即圖像中隱含的語義理解順序。
實驗結(jié)果表明,該機(jī)制在表格解析、多欄文檔理解和公式識別等任務(wù)中表現(xiàn)突出,相較于前代 DeepSeek-OCR,整體性能提升 3.73%,閱讀順序(R-order)的編輯距離(ED)也顯著降低(從0.085降至0.057),這表明新的DeepEncoder V2能夠根據(jù)圖像信息有效地選擇和排列初始視覺標(biāo)記。
論文最后表示,盡管光學(xué)字符識別,尤其是文檔解析,是大模型時代最具實用價值的視覺任務(wù)之一,但它只是更廣泛視覺理解版圖中的一部分。未來,相關(guān)架構(gòu)還將持續(xù)優(yōu)化并拓展至更多復(fù)雜場景,進(jìn)一步探索多模態(tài)智能在更深層次視覺理解中的潛力。
新京報貝殼財經(jīng)記者 羅亦丹 實習(xí)生 郭雯華
編輯 王進(jìn)雨
校對 薛京寧
