訓練中加入一條真實數(shù)據(jù)就可能阻止AI“胡言亂語”

2026-05-16 19:12:22: 來源：科技日報　作者：張佳欣
分享到：

當AI不斷用自己生成的數(shù)據(jù)“喂養(yǎng)”自己，它就可能逐漸失去準確性，最終輸出越來越多錯誤信息，甚至“胡言亂語”。英國倫敦國王學院領(lǐng)導的研究團隊發(fā)現(xiàn)，只需在訓練過程中加入哪怕一條來自真實世界的數(shù)據(jù)，就可能有效阻止這種被稱為“模型崩塌”的現(xiàn)象。相關(guān)成果發(fā)表于新一期《物理評論快報》。

“模型崩塌”這一概念于2024年提出，指的是AI模型如果長期依賴自身生成的數(shù)據(jù)進行訓練，模型性能會不斷退化，最終輸出失真內(nèi)容。隨著高質(zhì)量人類文本數(shù)據(jù)逐漸接近枯竭，越來越多AI系統(tǒng)開始使用合成數(shù)據(jù)訓練，這讓模型崩塌風險進一步上升。

此次，團隊通過分析一類被稱為“指數(shù)族”的統(tǒng)計模型發(fā)現(xiàn)，在封閉循環(huán)訓練（模型完全依賴自身生成數(shù)據(jù)學習）中，模型崩塌幾乎不可避免。

研究顯示，解決方法異常簡單：只需在訓練過程中加入一條來自外部世界的真實數(shù)據(jù)，哪怕其數(shù)量遠遠少于AI生成數(shù)據(jù)，也足以阻止模型性能持續(xù)退化，這種作用即使在機器生成數(shù)據(jù)數(shù)量無限增加時依然有效。

過去關(guān)于模型崩塌的研究多集中在大語言模型等復雜系統(tǒng)，由于其內(nèi)部機制難以解釋，錯誤來源也難以追蹤，這也成為AI產(chǎn)生“幻覺”的原因之一。通過研究更簡單的統(tǒng)計模型，科學家能夠從數(shù)學上解釋為何少量真實數(shù)據(jù)就能打破模型崩塌，從而為未來更復雜AI系統(tǒng)提供設(shè)計原則。

類似現(xiàn)象也存在于另一類名為“受限玻爾茲曼機”的機器學習模型中，表明這一規(guī)律可能具有更廣泛適用性。下一步，他們計劃將這一理論擴展到神經(jīng)網(wǎng)絡(luò)等更復雜的系統(tǒng)，以驗證其在大語言模型中的實際效果。

編輯：韓夢晨

相關(guān)閱讀：

版權(quán)與免責聲明:
①凡本站注明稿件來源為：中國高新技術(shù)產(chǎn)業(yè)導報、中國高新網(wǎng)、中高新傳媒的所有文字、圖片和音視頻稿件，版權(quán)均屬本網(wǎng)所有，任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復制發(fā)表。已經(jīng)本網(wǎng)授權(quán)使用作品的，被授權(quán)人應在授權(quán)范圍內(nèi)使用，并注明“來源：中國高新網(wǎng)、中高新傳媒或者中國高新技術(shù)產(chǎn)業(yè)導報”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責任。
② 任何單位或個人認為本網(wǎng)站或本網(wǎng)站鏈接內(nèi)容可能涉嫌侵犯其合法權(quán)益，應該及時向本網(wǎng)站書面反饋，并提供身份證明，權(quán)屬證明及詳細侵權(quán)情況證明，本網(wǎng)站在收到上述文件后，將會盡快移除被控侵權(quán)的內(nèi)容或鏈接。
③如因作品內(nèi)容、版權(quán)和其他問題需要與本網(wǎng)聯(lián)系的，請在該事由發(fā)生之日起30日內(nèi)進行。電話：010-68667266 電子郵件：zhangj#stdaily.com　(請將“#”換為“@”)

av国产japan在线播放|av人人干|黄网站国产|日韩日韩日韩日韩日韩日韩日韩,先锋资源在线播放,嗯嗯啊啊网站,尤物一区