據(jù)新華社消息，中文數(shù)據(jù)在國內(nèi)AI大模型的訓(xùn)練性能提升方面發(fā)揮著重要作用。國家數(shù)據(jù)局近日發(fā)布的數(shù)據(jù)顯示，目前國內(nèi)多數(shù)AI模型訓(xùn)練使用的中文數(shù)據(jù)占比已經(jīng)超過60%，有的模型達(dá)到80%。中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力持續(xù)增強(qiáng)，推動我國人工智能模型性能快速提升。

國家數(shù)據(jù)局局長劉烈宏表示，我國人工智能的快速發(fā)展，與我國高度重視數(shù)據(jù)工作是密不可分的。作為人工智能發(fā)展的核心要素之一，數(shù)據(jù)在推動“人工智能+”過程中發(fā)揮著關(guān)鍵作用，高質(zhì)量數(shù)據(jù)集的建設(shè)至關(guān)重要。

“在人工智能時代，Token，也就是大家通常所說的詞元，是處理文本的最小數(shù)據(jù)單元，如同互聯(lián)網(wǎng)時代大家所說的‘流量’?！眲⒘液杲榻B，2024年初，我國日均Token的消耗量為1000億，到今年6月底，日均Token消耗量已經(jīng)突破30萬億，一年半時間增長了300多倍，反映了我國人工智能應(yīng)用規(guī)模的快速增長。

據(jù)介紹，截至今年6月底，我國已經(jīng)建設(shè)高質(zhì)量數(shù)據(jù)集超過3.5萬個，總體量超過了400PB（1PB可存儲約5億張2MB大小的高清照片），400PB的總量相當(dāng)于中國國家圖書館數(shù)字資源總量的140倍左右。

人工智能模型的訓(xùn)練也推動了數(shù)據(jù)交易需求的攀升。截至今年6月底，各地高質(zhì)量數(shù)據(jù)集累計交易額近40億元，數(shù)據(jù)交易機(jī)構(gòu)掛牌的高質(zhì)量數(shù)據(jù)集總規(guī)模達(dá)到了246PB。

下一步，國家數(shù)據(jù)局將通過體系化布局持續(xù)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)，加快打造具身智能、低空經(jīng)濟(jì)、生物制造等重點(diǎn)領(lǐng)域數(shù)據(jù)高地，推動全社會強(qiáng)化數(shù)據(jù)要素價值認(rèn)同，加快推進(jìn)數(shù)據(jù)要素價值共創(chuàng)，培育“為優(yōu)質(zhì)數(shù)據(jù)買單”的市場共識。

編輯劉佳妮

來源：新華社

11 +1

微博

微信

我要評論

直播

預(yù)告

直播丨國新辦舉行“高質(zhì)量完成‘十四五’規(guī)劃”系列主題發(fā)布會
2025-08-22 10:00
預(yù) 告直播丨數(shù)獨(dú)世青賽點(diǎn)燃智慧星火青春少年郎競逐最強(qiáng)大腦
2025-08-21 19:00

福利午夜国产无码自拍_欧美精品黑人粗大美另类_在线精品亚洲字幕无码AV_日韩自慰精品一区二区三区

國內(nèi)多數(shù)AI模型訓(xùn)練使用的中文數(shù)據(jù)占比已超60%

我要評論

直播

熱點(diǎn)

最新

熱議