中國(guó)信息通信研究院組織召開(kāi)的“存力中國(guó)行”北京站活動(dòng)于11月4日舉行，吸引了來(lái)自中國(guó)移動(dòng)、華為、硅基流動(dòng)等近20家產(chǎn)業(yè)代表齊聚一堂。隨著AI產(chǎn)業(yè)發(fā)展重心從“追求模型能力極限”轉(zhuǎn)向“追求推理體驗(yàn)最優(yōu)化”，先進(jìn)存力如何為AI推理“降本增效”，成為全場(chǎng)關(guān)注焦點(diǎn)。

“當(dāng)前，AI推理面臨KVCache存儲(chǔ)需求升級(jí)、多模態(tài)數(shù)據(jù)協(xié)同、存算協(xié)同帶寬不足、負(fù)載潮汐性及成本控制等挑戰(zhàn)。”中國(guó)移動(dòng)云能力中心項(xiàng)目總師周宇在座談會(huì)上直言。華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁王旭東則用三個(gè)“不”點(diǎn)明了行業(yè)痛點(diǎn)：“管不好”的數(shù)據(jù)、“喂不飽”的算力和“降不下”的成本。

在此背景下，華為開(kāi)源的UCM（UnifiedCacheManager）推理記憶數(shù)據(jù)管理技術(shù)被視為破局的關(guān)鍵方案之一。該技術(shù)以KVCache多級(jí)緩存和推理記憶管理為中心，通過(guò)推理框架、算力、存儲(chǔ)的三層協(xié)同，融合了多類(lèi)型緩存加速算法工具，可分級(jí)管理在推理過(guò)程中產(chǎn)生的KVCache記憶數(shù)據(jù)，有效破解長(zhǎng)序列推理效率與成本瓶頸。

據(jù)悉，UCM技術(shù)已于近日在魔擎社區(qū)開(kāi)源，開(kāi)源內(nèi)容包含稀疏注意力、前綴緩存、預(yù)填充卸載、異構(gòu)PD解耦四大關(guān)鍵能力，可使首輪Token時(shí)延最高降低90%，系統(tǒng)吞吐最大提升22倍，并達(dá)到10倍級(jí)上下文窗口擴(kuò)展，顯著提升AI推理性能。同時(shí)，其基礎(chǔ)框架與工具鏈已在ModelEngine社區(qū)開(kāi)放，開(kāi)發(fā)者可通過(guò)社區(qū)獲取源代碼與技術(shù)文檔，共同完善技術(shù)架構(gòu)與產(chǎn)業(yè)生態(tài)。

業(yè)界普遍認(rèn)為，UCM開(kāi)源超越了單純的技術(shù)共享，能讓廣大開(kāi)發(fā)者和企業(yè)以更低的成本、更便捷的方式，獲取業(yè)界領(lǐng)先的AI推理加速能力，推動(dòng)AI推理技術(shù)走向規(guī)模化、普惠化落地。