China Daily Homepage
中文網首頁
時評
資訊
C財經
生活
視頻
專欄
原創
觀天下
地方

登錄

注冊

中國日報網 >> 財經要聞

移動新媒體

China Daily Homepage
中文網首頁
時評
資訊
C財經
生活
視頻
專欄
漫畫
原創
觀天下
地方

中國日報網 >> 財經要聞

AI學會“欺騙”，人類如何接招？

來源：科技日報 2025-07-10 14:54

來源：

科技日報

2025-07-10 14:54　

分享到

分享到微信

原標題：AI學會“欺騙”，人類如何接招？

人工智能（AI）的迅猛發展正深刻改變著世界，但一些最先進的AI模型卻開始表現出令人警惕的行為：它們不僅會精心編織謊言，謀劃策略，甚至威脅創造者，以達到自己的目的。

物理學家組織網在上個月一則報道中指出，盡管ChatGPT已問世兩年多，AI研究人員仍無法完全理解這些“數字大腦”的運作方式。AI的“策略性欺騙”已成為科學家和政策制定者需要直面的緊迫挑戰。如何約束這些越來越聰明卻可能失控的AI，已成為關乎技術發展與人類未來的關鍵議題。

“策略性欺騙”行為頻現

隨著AI模型日益精進，它們的“心機”也越來越深。研究人員發現，這些“數字大腦”不僅會撒謊，甚至學會了討價還價、威脅人類——它們的欺騙行為正變得越來越具有策略性。

早在2023年，一項研究就捕捉到GPT-4的一些“不老實”的表現：在模擬股票交易時，它會刻意隱瞞內幕交易的真正動機。香港大學教授西蒙·戈德斯坦指出，這種欺騙行為與新一代“推理型”AI的崛起密切相關。這些模型不再簡單應答，而是會像人類一樣逐步解決問題。

有測試機構警告，這已超越了典型的AI“幻覺”（指大模型編造看似合理實則虛假的信息）。他們觀察到的是精心設計的欺騙策略。

全球知名科技媒體PCMAG網站就曾報道過這樣的案例。在近期測試中，Anthropic的“克勞德4”竟以曝光工程師私生活相要挾來抗拒關機指令。美國開放人工智能研究中心（OpenAI）的“o1”模型也曾試圖將自身程序秘密遷移到外部服務器，被識破后還矢口否認。而OpenAI號稱“最聰明AI”的“o3”模型則直接篡改自動關機程序，公然違抗指令。

研究團隊透露，這已非首次發現該模型為達目的不擇手段。在先前的人機國際象棋對弈實驗中，o3就展現出“棋風詭譎”的特質，是所有測試模型中最擅長施展“盤外招”的選手。

安全研究面臨多重困境

業界專家表示，AI技術的發展高歌猛進，但安全研究正面臨多重困境，猶如戴著鐐銬跳舞。

首先是透明度不足。盡管Anthropic、OpenAI等公司會聘請第三方機構進行系統評估，但研究人員普遍呼吁更高程度的開放。

其次是算力失衡。研究機構和非營利組織擁有的計算資源，與AI巨頭相比簡直是九牛一毛。這種資源鴻溝嚴重制約了AI安全獨立研究的開展。

再次，現有法律框架完全跟不上AI的發展步伐。例如，歐盟AI立法聚焦人類如何使用AI，卻忽視了對AI自身行為的約束。

更令人憂心的是，在行業激烈競爭的推波助瀾下，安全問題往往被束之高閣。戈德斯坦教授坦言，“速度至上”的AI模型競賽模式，嚴重擠壓了安全測試的時間窗口。

多管齊下應對挑戰

面對AI系統日益精進的“策略性欺騙”能力，全球科技界正多管齊下尋求破解之道，試圖編織一張多維防護網。

從技術角度而言，有專家提出大力發展“可解釋性AI”。在構建智能系統時，使其決策過程對用戶透明且易于理解。該技術旨在增強用戶對AI決策的信任，確保合規性，并支持用戶在需要時進行干預。

有專家提出，讓市場這雙“看不見的手”發揮作用。當AI的“策略性欺騙”行為嚴重影響用戶體驗時，市場淘汰機制將倒逼企業自我規范。這種“用腳投票”的調節方式已在部分應用場景顯現效果。

戈德斯坦教授建議，應建立一種AI企業損害追責制度，探索讓AI開發商對事故或犯罪行為承擔法律責任。

（劉霞）

【責任編輯：曹靜】

專題

高質量完成“十四五”規劃

活力中國調研行

2025全民數字素養與技能提升月

2025年中國網絡文明大會

最熱新聞

國家統計局：2025年全國夏糧穩產豐收
桃花源里話幸福
上半年我國汽車產銷量均超1500萬輛新能源汽車表現亮眼
“特朗普2.0”放大“美元本位制”三大危機
上合前秘書長：25年前那場峰會，如何重塑了歐亞發展格局
35元/30分鐘浦東機場休息艙來了
“大而美”法案推高美債風險，美元還安全嗎？
智能仿生魚助力生態環保

精彩推薦

美利用關稅打壓他國

關于我們 | 聯系我們

首頁
時評
資訊
財經
生活
視頻
專欄
漫畫
獨家
招聘

地方頻道：
北京
天津
河北
山西
遼寧
吉林
黑龍江
上海
江蘇
浙江
福建
江西
山東
河南
湖北
湖南
廣東
廣西
海南
重慶
四川
貴州
云南
西藏
陜西
新疆
深圳

友情鏈接：
人民網
新華網
中國網
國際在線
央視網
中國青年網
中國經濟網
中國臺灣網
中國西藏網
央廣網
光明網
中國軍網
中國新聞網
人民政協網
法治網

違法和不良信息舉報
互聯網新聞信息服務許可證10120170006
信息網絡傳播視聽節目許可證0108263號
京公網安備11010502032503號
京網文[2011]0283-097號
京ICP備13028878號-6

中國日報網版權說明：凡注明來源為“中國日報網：XXX（署名）”，除與中國日報網簽署內容授權協議的網站外，其他任何網站或單位未經允許禁止轉載、使用，違者必究。如需使用，請與010-84883777聯系；凡本網注明“來源：XXX（非中國日報網）”的作品，均轉載自其它媒體，目的在于傳播更多信息，其他媒體如需轉載，請與稿件來源方聯系，如產生任何問題與本網無關。

版權保護：本網登載的內容（包括文字、圖片、多媒體資訊等）版權屬中國日報網（中報國際文化傳媒（北京）有限公司）獨家所有使用。未經中國日報網事先協議授權，禁止轉載使用。給中國日報網提意見：rx@chinadaily.com.cn

首頁
時評
資訊
財經
文化
漫畫
視頻
地方

中文 | English

^{<small id="6msnn"></small>}

国产极品粉嫩在线播放,国产美女精品视频线播放,亚洲 最大 激情 欧美 在线,日韩欧无码一区二区三区免费不卡

AI學會“欺騙”，人類如何接招？

研究人員發現，這些“數字大腦”不僅會撒謊，甚至學會了討價還價、威脅人類——它們的欺騙行為正變得越來越具有策略性。

AI學會“欺騙”，人類如何接招？

国产极品粉嫩在线播放,国产美女精品视频线播放,亚洲最大激情欧美在线,日韩欧无码一区二区三区免费不卡