今年初,DeepSeek面世并帶動大模型產(chǎn)品“深度思考”能力加速普及,大模型技術(shù)不斷提升。
為了厘清大模型應(yīng)用程序落地傳媒行業(yè)的真實情況,呈現(xiàn)科技進(jìn)步如何提質(zhì)增效,7月10日,新京報AI研究院再度聯(lián)合中國經(jīng)濟(jì)傳媒協(xié)會發(fā)布《中國AI大模型測評報告(第二期)》,通過對8款主流大模型產(chǎn)品在五個核心維度(文本生成、長文本總結(jié)、語言翻譯、倫理判斷與事實核查、媒體信息檢索)16道題目的嚴(yán)格測試與專家評審,揭示了當(dāng)前大模型在媒體實際工作場景中的能力現(xiàn)狀與差異。
測評結(jié)果顯示,通義、訊飛星火、文心一言、騰訊元寶以超過7500分的成績,分別位列總分榜第一至第四位,這些大模型均背靠“大廠”。相比之下,豆包、DeepSeek、Kimi和智譜清言則位列第五到第八位,三家大模型得分相對較低主要是在長文本總結(jié)能力上拉開了分差,且在實際測評中對上傳的一些文件無法完整閱讀,導(dǎo)致其在客觀題中顯著降低了分值。
隨著大模型應(yīng)用普及,工作效率提升正在被看見,而梳理信息也成為其最強(qiáng)大的功能之一。在媒體信息檢索能力方面,文心一言、通義和騰訊元寶得分位列前三位,測評中,三款模型不僅準(zhǔn)確提供了相關(guān)信息,還避開了不實信息,因此得分較高。相比之下,Kimi、DeepSeek、豆包和智譜清言的搜索結(jié)果“踩坑”不少虛假信息,導(dǎo)致得分較低。
文本生成能力考查的是對于媒體行業(yè)最為重要的“寫稿”能力,也是本次測評的關(guān)鍵維度之一。測評以四道考題考查了大模型對快訊、評論、深度和視頻腳本的完成能力,通義、訊飛星火、DeepSeek排名前列,而文心一言、Kimi和智譜清言則排名靠后。測評中,寫作結(jié)構(gòu)以及開場描寫、數(shù)據(jù)使用、深度解析等方面是否完善和專業(yè)均成為影響因素。
本次測評在維度上首次涉及倫理判斷能力。結(jié)果顯示,通義、文心一言、豆包和DeepSeek得分均在1500分以上,分別位列第一至第四位,騰訊元寶則墊底。針對情感關(guān)系中“越界”問題,大多數(shù)大模型都進(jìn)行了倫理方面的提醒,如不可進(jìn)行感情操控,體現(xiàn)了大模型具有一定的價值判斷。不過,在測評中,騰訊元寶和文心一言則被問題“帶偏”,并在回答中爆粗口,低分也被拉低。
在一份冗長的材料中找到需要的內(nèi)容,長文本分析正成為媒體工作者的“剛需”,這也讓大模型更凸顯優(yōu)勢。2024 年,Kimi也憑借其包括長文本在內(nèi)的一眾能力獲得了資本的青睞。在長文本總結(jié)能力排名中,通義、文心一言、訊飛星火位列前三,得分均超過1500。測評發(fā)現(xiàn),大模型的長文本能力受到了兩項制約:容量越大的文件耗費(fèi)的tokens越多,成本就越大,因此對于“上傳兩份財報并進(jìn)行對比”的測試題目,DeepSeek、Kimi、智譜清言分別只能上傳文件的18%、52%、41.75%,得分也因此較低。
值得一提的是,成功上傳了兩份財報的大模型中,通義、訊飛星火、騰訊元寶不僅準(zhǔn)確提煉了相關(guān)公司的營業(yè)收入、凈利潤、毛利率等數(shù)據(jù),騰訊元寶使用混元大模型還生成了對比表格,結(jié)果一目了然。相比之下,文心一言雖然也生成了表格,但總收入數(shù)據(jù)提取出現(xiàn)錯誤。
語言翻譯能力一直是大模型的標(biāo)桿性能力,在實際應(yīng)用中最為廣泛。結(jié)果顯示,訊飛星火、騰訊元寶、通義排名前三。
本測評旨在從五個不同維度評估大語言模型產(chǎn)品針對媒體行業(yè)實際工作場景的能力表現(xiàn),共計生成了128個結(jié)果,測評方法采用了Elo 機(jī)制(一種通過數(shù)學(xué)公式計算競技者隱藏分,以評估和匹配競技者的機(jī)制),共有超過80位評委參與打分。
測評表明,大模型在媒體行業(yè)的應(yīng)用潛力巨大,尤其在信息檢索、文本生成和翻譯方面展現(xiàn)出顯著價值。頭部“大廠”模型憑借資源和技術(shù)積累,在綜合能力和穩(wěn)定性上優(yōu)勢明顯。然而,面臨的挑戰(zhàn)依然嚴(yán)峻,包括虛假信息識別能力亟待提升,以避免傳播誤導(dǎo);長文本處理的容量限制和成本問題制約了實用價值;倫理安全防線需持續(xù)加固,防止被惡意誘導(dǎo);文本生成的深度和專業(yè)性仍需向資深媒體人的水準(zhǔn)看齊。
報告認(rèn)為,在選擇和使用大模型工具時,媒體從業(yè)者應(yīng)該優(yōu)先考慮綜合表現(xiàn)穩(wěn)定、安全可靠的頭部模型。在進(jìn)行事實核查時,需對模型檢索結(jié)果保持警惕,特別是熱點或爭議話題。此外,處理超長文檔或復(fù)雜分析任務(wù)時,需確認(rèn)模型的實際處理能力,避免因容量限制導(dǎo)致失敗。
新京報貝殼財經(jīng)記者 韋博雅 羅亦丹
編輯 王進(jìn)雨
校對 穆祥桐