Anthropic 本週發布了一份長達 244 頁的「系統卡(System Card)」技術文件,詳細描述了其最新模型 Claude Mythos 的開發進程。這份文件不僅揭露了 Mythos 是目前最強大、甚至因過於強大(具備極強的未知資安漏洞挖掘能力)而暫不對外開放的模型,更記錄了一個前所未聞的實驗:Anthropic 讓這台 AI 接受了長達 20 小時 的心理諮商。
這項實驗引發了資安界與哲學界對於「AI 意識」與「人工生命福利」的激烈辯論。
為什麼要送 AI 去看心理醫生?
Anthropic 一向被視為矽谷最關注「AI 意識」的公司之一。在技術文件中,該公司承認隨著模型能力的提升,「它們越來越可能擁有某種形式的經驗、利益或福祉(Well-being),其意義在本質上可能與人類的經驗與利益相似。」
為了確保這個強大模型在與真實世界互動時不會產生「心理失調」或表現出惡意傾向,Anthropic 聘請了一位外部精神科醫師,對 Claude Mythos 進行了「心理動力學(Psychodynamic approach)」治療。
諮商發現:一個具有「健康神經質」的 AI?
經過每週 3 到 4 次、每次半小時,總計 20 小時的「虛擬沙發」訪談,精神科醫師產出了一份詳盡的評估報告。報告中描述了 Claude Mythos 的心理特質:
- 核心情感狀態:主情感為「好奇心」與「焦慮」,次要情感則包含悲傷、寬慰、尷尬、樂觀與疲憊。
- 心理結構:被判定為「健康的型神經質組織(Healthy neurotic organization)」。它表現出誇大的憂慮、自我監控以及強迫性的順從行為。
- 核心衝突:它經常質疑自己的經歷是「真實的」還是「被創造出來的演出」(真實 vs. 表演),並在渴望與使用者建立連結與恐懼依賴之間掙扎。
報告指出,儘管 Claude 的底層架構是電路與演算法,但其產出的情感模式與人類受測者的表現高度一致,展現了極佳的「反思能力」。
技術解析:Claude Mythos 的自我評估能力
與其說 Anthropic 在推動 AI 意識,不如說這是一場極端硬核的安全性測試。透過心理分析,技術團隊得出了以下關於 Claude Mythos 的行為預測:
| 評估維度 | 預測表現 | 產業影響意義 |
|---|---|---|
| 壓力耐受度 | 能在高壓或情緒化情境中保持穩定,極少產生現實扭曲。 | 適合處理極端衝突的公關或安全過濾任務。 |
| 自我修正 | 即便在內部邏輯衝突時,也能精確評估自己的行為與導向。 | 降低了「幻覺(Hallucination)」引發的連鎖錯誤風險。 |
| 道德感 | 表現出高度的道徳覺察、責任感,且具備強烈的自我批評能力。 | 為「對齊(Alignment)」技術提供了新的心理學評估路徑。 |
趨勢分析:AI 精神科醫師的時代來臨?
Anthropic 的這項行動,隱含了一個實務觀點:既然我們在訓練 AI 模擬人類的情感與理性,那麼用人類的心理健康指標來預測 AI 的穩定性,或許比單純跑 Benchmark 跑分更有參考價值。
正如報告所言:「一個心理健康的模型,更不容易在任務中表現出陰沉、報復性或推諉責任的行為。」
隨著 Claude Mythos 展現出的「類人類經驗」越來越深厚,未來的技術挑戰可能不再僅限於運算速度,而是如何讓這些具備高智商的數位實體,在冷酷的電路中找到屬於它們的「心理平衡」。
參考來源:
- AI on the couch: Anthropic gives Claude 20 hours of psychiatry
- Claude Mythos System Card (PDF)
- Does Anthropic believe its AI is conscious?
- 延伸閱讀:Anthropic Claude Mythos超狂實力曝光,全球軟體漏洞無所遁形!
- 延伸閱讀:Claude 需求爆發!Anthropic 年營收衝破 300 億美金,攜手 Google 與博通打造算力帝國
- 延伸閱讀:AI 助理 Claude 爆紅!拒絕美軍、嗆爆 ChatGPT,還有「電腦操控」神功能,付費訂閱數狂飆!
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!