當(dāng)前,人工智能正邁向場(chǎng)景落地的關(guān)鍵階段。隨著大模型數(shù)量逐漸收斂、推理應(yīng)用爆發(fā)式增長,以Token數(shù)為量綱的AI推理成本與效率問題日益凸顯。在這一背景下,先進(jìn)存力作為數(shù)據(jù)要素的核心載體,成為提升AI推理效能、控制成本的關(guān)鍵。

11月4日,在中國信息通信研究院組織的“存力中國行”北京站活動(dòng)上,來自信通院、中國移動(dòng)云、華為、硅基流動(dòng)等機(jī)構(gòu)與企業(yè)的嘉賓,深入探討了AI時(shí)代下先進(jìn)存力對(duì)AI大模型發(fā)展的支撐作用和未來發(fā)展趨勢(shì)。

AI推理面臨成本與效率之困

“大模型落地元年”中,各行各業(yè)不再滿足于擁有龐大的模型,而是迫切希望將模型能力無縫融入實(shí)際業(yè)務(wù)場(chǎng)景。從投研分析、卷宗分析到智能客服、醫(yī)療影像輔助診斷等,AI推理正深入千行百業(yè)發(fā)揮作用。然而,隨著Token調(diào)用量爆發(fā)式增長,推理成本持續(xù)攀升,“推不動(dòng)、推得慢、推得貴”成為行業(yè)共性難題。

與會(huì)專家指出,當(dāng)前,AI推理已不再是簡單的單次問答,而是處理海量、多模態(tài)、動(dòng)態(tài)增長數(shù)據(jù)的持續(xù)過程。數(shù)據(jù)類型的多樣性要求存儲(chǔ)系統(tǒng)能同時(shí)高效處理文、圖、音、視頻乃至傳感器數(shù)據(jù)。同時(shí),構(gòu)建高質(zhì)量數(shù)據(jù)集也成為關(guān)鍵。

“AI時(shí)代,IT基礎(chǔ)設(shè)施能力面臨‘管不好’的數(shù)據(jù)、‘喂不飽’的算力、‘降不下’的成本三大挑戰(zhàn)?!痹谌A為數(shù)據(jù)存儲(chǔ)產(chǎn)品線戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁王旭東看來,推理數(shù)據(jù)來源多樣難以形成高質(zhì)量、可持續(xù)供應(yīng)的數(shù)據(jù)集,存儲(chǔ)系統(tǒng)的帶寬和IOPS(每秒讀寫次數(shù))不足,導(dǎo)致GPU等昂貴算力資源長時(shí)間空閑。傳統(tǒng)存儲(chǔ)架構(gòu)難以兼顧高吞吐、低時(shí)延及異構(gòu)數(shù)據(jù)融合的需求,造成業(yè)務(wù)發(fā)展瓶頸,阻礙AI應(yīng)用落地。

要打破推理困境,還需突破“內(nèi)存墻”與“容量墻”兩道技術(shù)關(guān)卡。與會(huì)專家介紹,昂貴的HBM(高帶寬內(nèi)存)雖然性能強(qiáng)悍,但價(jià)格極高,無法無節(jié)制擴(kuò)展,這限制了模型的理解長度,也推高了硬件成本,可以通過高性能的AI SSD,對(duì)HBM進(jìn)行更好的擴(kuò)展,同時(shí),用大容量AI SSD替代HDD。

除此之外,綠色、可靠、安全的數(shù)據(jù)存儲(chǔ)解決方案,也成為企業(yè)的剛性需求。

先進(jìn)存力成破局關(guān)鍵

新京報(bào)貝殼財(cái)經(jīng)記者從會(huì)上了解到,在AI場(chǎng)景中,我國存儲(chǔ)技術(shù)取得技術(shù)突破,并具備全球領(lǐng)先的實(shí)力。通過技術(shù)創(chuàng)新和生態(tài)協(xié)同的模式,加速在千行百業(yè)的落地應(yīng)用。

中國移動(dòng)云能力中心項(xiàng)目總師周宇表示,移動(dòng)云針對(duì)性采用分層緩存調(diào)度、高速數(shù)據(jù)互聯(lián)技術(shù)提升帶寬、多模數(shù)據(jù)專屬存儲(chǔ)與標(biāo)準(zhǔn)化、架構(gòu)池化重組等技術(shù)破局,還通過高密全閃存儲(chǔ)、數(shù)據(jù)縮減、自研SPU高密服務(wù)器提高存儲(chǔ)效能和降低成本。未來趨勢(shì)上,移動(dòng)云推動(dòng)存儲(chǔ)從被動(dòng)存儲(chǔ)轉(zhuǎn)向智算協(xié)同,分階段落地高密全閃存儲(chǔ)、數(shù)據(jù)高速互聯(lián)、存算一體等技術(shù),長遠(yuǎn)構(gòu)建池化多體存儲(chǔ)體系,同時(shí)強(qiáng)調(diào)技術(shù)整合與生態(tài)協(xié)同。

王旭東介紹,華為發(fā)布了針對(duì)AI推理的UCM推理記憶數(shù)據(jù)管理技術(shù),通過“集中高質(zhì)數(shù)據(jù)、提速AI訓(xùn)練、優(yōu)化推理效能”三個(gè)角度,打造AI推理加速解決方案。據(jù)悉,UCM可將首Token時(shí)延最高降低90%,系統(tǒng)吞吐率最高可提升22倍,上下文推理的窗口擴(kuò)展10倍以上。

北京硅基流動(dòng)科技有限公司解決方案總監(jiān)唐安波表示,硅基流動(dòng)構(gòu)建的AI infra工具鏈,核心推理框架適配多模態(tài)模型與國內(nèi)外算力,適配昇騰并優(yōu)化DeepSeek模型實(shí)現(xiàn)性價(jià)比提升。從推理框架延伸至MaaS服務(wù)平臺(tái),部署主流開源模型,通過推理加速和API向開發(fā)者提供服務(wù),聚焦提升算力利用率。解決方案上,結(jié)合UCM技術(shù)卸載KVCache釋放顯存、提升性能,還通過智能網(wǎng)關(guān)優(yōu)化調(diào)度、彈性擴(kuò)縮容應(yīng)對(duì)長上下文等痛點(diǎn),基于存儲(chǔ)的KVCache方案可大幅提升系統(tǒng)吞吐。

中國信息通信研究院首席專家石友康表示,信通院在政策研究、標(biāo)準(zhǔn)制定、測(cè)試服務(wù)等方面開展多項(xiàng)工作,并聯(lián)合產(chǎn)業(yè)鏈企業(yè)成立“算力產(chǎn)業(yè)發(fā)展方陣先進(jìn)存力AI推理工作組”。同時(shí),他提出了三點(diǎn)建議:鼓勵(lì)前沿存儲(chǔ)技術(shù)研發(fā)創(chuàng)新,推動(dòng)存算運(yùn)深度融合,加強(qiáng)存算協(xié)同產(chǎn)業(yè)生態(tài)建設(shè)。其呼吁業(yè)界同仁凝聚共識(shí),共同推動(dòng)我國存算協(xié)同發(fā)展。

新京報(bào)貝殼財(cái)經(jīng)記者 韋博雅

編輯 楊娟娟

校對(duì) 穆祥桐