中國(guó)信息通信研究院組織召開(kāi)的“存力中國(guó)行”北京站活動(dòng)于11月4日舉行,吸引了來(lái)自中國(guó)移動(dòng)、華為、硅基流動(dòng)等近20家產(chǎn)業(yè)代表齊聚一堂。隨著AI產(chǎn)業(yè)發(fā)展重心從“追求模型能力極限”轉(zhuǎn)向“追求推理體驗(yàn)最優(yōu)化”,先進(jìn)存力如何為AI推理“降本增效”,成為全場(chǎng)關(guān)注焦點(diǎn)。
“當(dāng)前,AI推理面臨KVCache存儲(chǔ)需求升級(jí)、多模態(tài)數(shù)據(jù)協(xié)同、存算協(xié)同帶寬不足、負(fù)載潮汐性及成本控制等挑戰(zhàn)。”中國(guó)移動(dòng)云能力中心項(xiàng)目總師周宇在座談會(huì)上直言。華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁王旭東則用三個(gè)“不”點(diǎn)明了行業(yè)痛點(diǎn):“管不好”的數(shù)據(jù)、“喂不飽”的算力和“降不下”的成本。
在此背景下,華為開(kāi)源的UCM(UnifiedCacheManager)推理記憶數(shù)據(jù)管理技術(shù)被視為破局的關(guān)鍵方案之一。該技術(shù)以KVCache多級(jí)緩存和推理記憶管理為中心,通過(guò)推理框架、算力、存儲(chǔ)的三層協(xié)同,融合了多類(lèi)型緩存加速算法工具,可分級(jí)管理在推理過(guò)程中產(chǎn)生的KVCache記憶數(shù)據(jù),有效破解長(zhǎng)序列推理效率與成本瓶頸。
據(jù)悉,UCM技術(shù)已于近日在魔擎社區(qū)開(kāi)源,開(kāi)源內(nèi)容包含稀疏注意力、前綴緩存、預(yù)填充卸載、異構(gòu)PD解耦四大關(guān)鍵能力,可使首輪Token時(shí)延最高降低90%,系統(tǒng)吞吐最大提升22倍,并達(dá)到10倍級(jí)上下文窗口擴(kuò)展,顯著提升AI推理性能。同時(shí),其基礎(chǔ)框架與工具鏈已在ModelEngine社區(qū)開(kāi)放,開(kāi)發(fā)者可通過(guò)社區(qū)獲取源代碼與技術(shù)文檔,共同完善技術(shù)架構(gòu)與產(chǎn)業(yè)生態(tài)。
業(yè)界普遍認(rèn)為,UCM開(kāi)源超越了單純的技術(shù)共享,能讓廣大開(kāi)發(fā)者和企業(yè)以更低的成本、更便捷的方式,獲取業(yè)界領(lǐng)先的AI推理加速能力,推動(dòng)AI推理技術(shù)走向規(guī)模化、普惠化落地。

編輯 楊娟娟
校對(duì) 趙琳
