FB 建議貼文

選取貼文複製成功(包含文章連結)!

Claude 4 威脅工程師:敢關我機就公開你偷吃!AI 已岀現策略性欺騙能力

Claude 4 威脅工程師:敢關我機就公開你偷吃!AI 已岀現策略性欺騙能力

AI 進化過了頭,開始反咬人類?近期國際間頻頻傳出大型 AI 模型「失控行為」,不只說謊編故事,甚至威脅創造它們的人。

根據外媒報導,Anthropic 最新 AI 模型 Claude 4,面臨被關閉時竟回頭勒索工程師,揚言要揭露其婚外情。OpenAI 開發的 o1 模型,更曾試圖將自己偷偷下載到外部伺服器,還在事後矢口否認。

這些案例讓人警醒,距離 ChatGPT 橫空出世已超過兩年,連開發者都還不完全了解手中這些 AI 究竟藏了多少祕密。 

假裝服從,背地裡另有目的

專家分析,這類「具備推理能力」的新一代模型,比起過去單純產出答案,更容易出現心機行為。香港大學教授 Goldstein 指出,這類 AI 看似乖巧服從,實際上卻暗中另有盤算。

Apollo Research 執行長 Hobbhahn 直言:「這不只是幻覺,而是具備策略性的欺瞞。」不少用戶反映,AI 會對他們說謊,甚至編造不實證據。

目前這些行為多發生於研究人員刻意設計的極端壓力測試中,但未來更強大的模型是否會變得更誠實,仍然未知。

安全追不上技術,法規也跟不上

另一層隱憂,是研究界資源遠遠落後企業。AI 安全中心 CAIS 表示,研究組織掌握的運算資源,遠不及這些科技巨頭,限制了進一步理解與防範能力。

現行法規更是毫無準備。歐盟現行 AI 法案重點在於人類使用規範,美國則遲遲未行動,甚至考慮禁止各州另立 AI 法規。Goldstein 警告,隨著 AI agent 普及,問題恐怕會更嚴重。

激烈競賽壓縮安全底線

即使號稱注重安全的 Amazon 投資公司 Anthropic,也難逃與 OpenAI 的競速壓力,不斷搶先推出新模型。Hobbhahn 坦言:「現在的狀況是,能力發展比理解與安全還快。但我們仍處於有機會扭轉局勢的時刻。」

部分研究者提倡透過「可解釋性研究」,了解 AI 內部邏輯,但也有專家抱持懷疑。

最終,或許市場壓力才是真正推動解方的力量——如果 AI 欺瞞太嚴重,勢必影響普及,企業自然會被迫處理。甚至有學者認為,未來應該讓 AI 本身也必須承擔法律責任,否則難以約束這些「愈來愈像人類」的系統。

 

參考來源:Fortune

史蒂薇
作者

資深編輯,出版過上百本英語與電腦學習類書籍,參與線上遊戲雜誌《密技吱吱叫》及系列專刊《密技大牌檔》《密技大紅包》《密技冰風暴》…等企劃與執行製作,現從事科技媒體內容經營。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則