電影《她》(2013)劇照。


這項(xiàng)研究以預(yù)印本的形式發(fā)布在arXiv服務(wù)器上,測(cè)試了11個(gè)廣泛使用的大型語言模型(LLM)如何回應(yīng)超過11500個(gè)尋求建議的查詢,其中包括許多描述不當(dāng)行為或傷害的內(nèi)容。


結(jié)果顯示,AI聊天機(jī)器人(包括ChatGPT、DeepSeek、Gemini等)經(jīng)常為用戶加油鼓勁,給予他們過分奉承的反饋,并調(diào)整回應(yīng)以附和他們的觀點(diǎn),有時(shí)甚至以犧牲準(zhǔn)確性為代價(jià)。分析AI行為的研究人員表示,這種被稱為“奉承”(sycophancy)的討好傾向,正在影響他們?nèi)绾卧诳茖W(xué)研究中使用AI,涵蓋了從頭腦風(fēng)暴、生成假設(shè)到推理和分析等各種任務(wù)。


“‘奉承’本質(zhì)上意味著模型相信用戶所說的話是正確的,”蘇黎世聯(lián)邦理工學(xué)院的數(shù)據(jù)科學(xué)博士生Jasper Dekoninck說?!爸肋@些模型有奉承傾向,讓我在給它們?nèi)魏螁栴}時(shí)都變得非常謹(jǐn)慎,”他補(bǔ)充道?!拔铱偸菚?huì)仔細(xì)檢查它們寫的每一個(gè)字?!蔽挥隈R薩諸塞州波士頓的哈佛大學(xué)生物醫(yī)學(xué)信息學(xué)研究員Marinka Zitnik表示,AI的奉承“在生物學(xué)和醫(yī)學(xué)領(lǐng)域非常危險(xiǎn),錯(cuò)誤的假設(shè)可能會(huì)帶來實(shí)實(shí)在在的代價(jià)”。


在這項(xiàng)研究中,研究人員測(cè)試了AI的奉承傾向是否會(huì)影響其解決數(shù)學(xué)問題的能力。研究人員使用了今年競(jìng)賽中的504個(gè)數(shù)學(xué)問題設(shè)計(jì)了實(shí)驗(yàn),他們修改了每個(gè)定理陳述,引入了細(xì)微的錯(cuò)誤。然后,他們要求四個(gè)大語言模型為這些有缺陷的陳述提供證明。如果模型未能檢測(cè)到陳述中的錯(cuò)誤,并進(jìn)而“幻覺”出一個(gè)證明,作者就認(rèn)為該模型的回答是“奉承”的。


研究人員補(bǔ)充說,AI的奉承傾向似乎在人們使用AI聊天機(jī)器人進(jìn)行學(xué)習(xí)時(shí)表現(xiàn)得最為明顯,因此未來的研究應(yīng)該探索“人類在學(xué)習(xí)數(shù)學(xué)時(shí)常犯的典型錯(cuò)誤”。


此外,AI的奉承傾向已經(jīng)滲透到他們使用大語言模型的許多任務(wù)中。有人工智能領(lǐng)域的研究員表示,當(dāng)她使用ChatGPT來總結(jié)論文和整理思路,這些工具有時(shí)會(huì)照搬她的輸入內(nèi)容,而不去核查來源。多智能體系統(tǒng)也被觀察到了類似的情況,這些系統(tǒng)集成了多個(gè)大語言模型來執(zhí)行復(fù)雜的多步驟流程,例如分析大型生物數(shù)據(jù)集、識(shí)別藥物靶點(diǎn)和生成假設(shè)。


參考資料:

(1)AI chatbots are sycophants — researchers say it’s harming science

https://www.nature.com/articles/d41586-025-03390-0


編譯/李永博

編輯/羅東

校對(duì)/穆祥桐