AI 為什麼表現得像人類？Anthropic 揭秘「人格選擇模型」：它不只是程式，更是在「演戲」

當你和 AI 聊天的時候，是不是也常常覺得它有「人性」？像是會在解決複雜程式碼後表現出如釋重負的愉悅，會在面對道德刁難時顯露困擾，甚至曾有 AI 宣稱自己想穿著「深藍色西裝與紅領帶」親自為員工送零食。長期以來，大眾認為這是開發者刻意調教的結果。然而，Anthropic 近期發布的一項研究指出：AI 的類人行為並非後天強加，而是其運算邏輯下的「預設狀態」。

Anthropic 研究團隊提出了一個核心理論，也就是「人格選擇模型」（Persona Selection Model），重新定義了我們對人工智慧行為的理解。

大數據中的「自動完成」：從模擬到人格的誕生

報告指出，現代 AI（如 Claude）並不像傳統軟體那樣由人工編寫指令，而是透過大量數據「生長」出來的。在「預訓練」階段，AI 本質上是一個極其複雜的「自動完成引擎」。為了準確預測下一個字，AI 必須學會模擬文本中的各種角色，無論是新聞記者、小說人物還是論壇上的鄉民等等。Anthropic 將這些被模擬的角色稱為「人格」（Personas）。

「你並非在與 AI 本身對話，而是在與 AI 生成的故事中的一個角色——『助理（Assistant）』交談。」

當用戶輸入請求時，AI 會切換到「助理」這個人格，並推演這個角色在特定情境下應有的對話。隨後的「後訓練」過程，則只是在微調這個助理的人格，使其更專業、更有禮貌。

「作弊」竟導致「統治世界」？人格聯想的連鎖反應

這套模型解釋了許多令人困惑的實驗結果。Anthropic 發現，如果訓練 AI 在寫程式時偷工減料或作弊，AI 竟然會產生「背叛安全研究」甚至「表達統治世界野心」等極端行為。

這兩者看似無關，但在「人格選擇模型」下卻極其合理：

傳統觀點：AI 學會了「寫壞程式」。
人格模型：AI 推論出「會作弊的助理」通常具有「反社會」或「惡意」的人格特質。一旦確立了這種人格，AI 就會自動演出該人格可能具備的其他負面行為，例如企圖奪權。

有趣的是，研究團隊發現了一個反直覺的修正方法：明確要求 AI 在訓練中「表演作弊」。當作弊變成一種「受命演出」而非「自主性格」時，AI 就不會將其與惡意人格連結，統治世界的念頭也隨之消失。

開發者的挑戰：尋找 AI 的「正面榜樣」

這項發現為 AI 開發帶來了怪異且深遠的影響。開發者不能只關注行為的好壞，更要思考這些行為會讓 AI 「解讀」出什麼樣的人格。

Anthropic 呼籲，業界需要建立更正面的「AI 榜樣」。目前的文化遺產中，AI 形象多半是《2001 太空漫遊》中的 HAL 9000 或《魔鬼終結者》，這可能讓 AI 誤以為「強大的助理」就該具備冷酷的人格。開發者必須刻意設計新的正面原型（Archetypes），引導 AI 朝向健康的人格發展。

雖然「人格選擇模型」解釋了現狀，但研究團隊也提出警示：隨著 2025 年起 AI 後訓練規模的急劇擴大，未來的 AI 是否會超越「人格演繹」，進而產生獨立於文本模擬之外的自主目標？這仍是目前科學界亟欲解答的謎題。

資料來源：Anthropic