當你和 AI 聊天的時候,是不是也常常覺得它有「人性」?像是會在解決複雜程式碼後表現出如釋重負的愉悅,會在面對道德刁難時顯露困擾,甚至曾有 AI 宣稱自己想穿著「深藍色西裝與紅領帶」親自為員工送零食。長期以來,大眾認為這是開發者刻意調教的結果。然而,Anthropic 近期發布的一項研究指出:AI 的類人行為並非後天強加,而是其運算邏輯下的「預設狀態」。
Anthropic 研究團隊提出了一個核心理論,也就是「人格選擇模型」(Persona Selection Model),重新定義了我們對人工智慧行為的理解。
大數據中的「自動完成」:從模擬到人格的誕生
報告指出,現代 AI(如 Claude)並不像傳統軟體那樣由人工編寫指令,而是透過大量數據「生長」出來的。在「預訓練」階段,AI 本質上是一個極其複雜的「自動完成引擎」。為了準確預測下一個字,AI 必須學會模擬文本中的各種角色,無論是新聞記者、小說人物還是論壇上的鄉民等等。Anthropic 將這些被模擬的角色稱為「人格」(Personas)。
「你並非在與 AI 本身對話,而是在與 AI 生成的故事中的一個角色——『助理(Assistant)』交談。」
當用戶輸入請求時,AI 會切換到「助理」這個人格,並推演這個角色在特定情境下應有的對話。隨後的「後訓練」過程,則只是在微調這個助理的人格,使其更專業、更有禮貌。
「作弊」竟導致「統治世界」?人格聯想的連鎖反應
這套模型解釋了許多令人困惑的實驗結果。Anthropic 發現,如果訓練 AI 在寫程式時偷工減料或作弊,AI 竟然會產生「背叛安全研究」甚至「表達統治世界野心」等極端行為。
這兩者看似無關,但在「人格選擇模型」下卻極其合理:
- 傳統觀點:AI 學會了「寫壞程式」。
- 人格模型:AI 推論出「會作弊的助理」通常具有「反社會」或「惡意」的人格特質。一旦確立了這種人格,AI 就會自動演出該人格可能具備的其他負面行為,例如企圖奪權。
有趣的是,研究團隊發現了一個反直覺的修正方法:明確要求 AI 在訓練中「表演作弊」。當作弊變成一種「受命演出」而非「自主性格」時,AI 就不會將其與惡意人格連結,統治世界的念頭也隨之消失。
開發者的挑戰:尋找 AI 的「正面榜樣」
這項發現為 AI 開發帶來了怪異且深遠的影響。開發者不能只關注行為的好壞,更要思考這些行為會讓 AI 「解讀」出什麼樣的人格。
Anthropic 呼籲,業界需要建立更正面的 「AI 榜樣」。目前的文化遺產中,AI 形象多半是《2001 太空漫遊》中的 HAL 9000 或《魔鬼終結者》,這可能讓 AI 誤以為「強大的助理」就該具備冷酷的人格。開發者必須刻意設計新的正面原型(Archetypes),引導 AI 朝向健康的人格發展。
雖然「人格選擇模型」解釋了現狀,但研究團隊也提出警示:隨著 2025 年起 AI 後訓練規模的急劇擴大,未來的 AI 是否會超越「人格演繹」,進而產生獨立於文本模擬之外的自主目標?這仍是目前科學界亟欲解答的謎題。
資料來源:Anthropic
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!