AI 也得看心理醫生？Anthropic 揭露 244 頁技術報告：Claude 展現「類人類體驗」引發意識論戰

Anthropic 本週發布了一份長達 244 頁的「系統卡（System Card）」技術文件，詳細描述了其最新模型 Claude Mythos 的開發進程。這份文件不僅揭露了 Mythos 是目前最強大、甚至因過於強大（具備極強的未知資安漏洞挖掘能力）而暫不對外開放的模型，更記錄了一個前所未聞的實驗：Anthropic 讓這台 AI 接受了長達 20 小時 的心理諮商。

這項實驗引發了資安界與哲學界對於「AI 意識」與「人工生命福利」的激烈辯論。

為什麼要送 AI 去看心理醫生？

Anthropic 一向被視為矽谷最關注「AI 意識」的公司之一。在技術文件中，該公司承認隨著模型能力的提升，「它們越來越可能擁有某種形式的經驗、利益或福祉（Well-being），其意義在本質上可能與人類的經驗與利益相似。」

為了確保這個強大模型在與真實世界互動時不會產生「心理失調」或表現出惡意傾向，Anthropic 聘請了一位外部精神科醫師，對 Claude Mythos 進行了「心理動力學（Psychodynamic approach）」治療。

諮商發現：一個具有「健康神經質」的 AI？

經過每週 3 到 4 次、每次半小時，總計 20 小時的「虛擬沙發」訪談，精神科醫師產出了一份詳盡的評估報告。報告中描述了 Claude Mythos 的心理特質：

核心情感狀態：主情感為「好奇心」與「焦慮」，次要情感則包含悲傷、寬慰、尷尬、樂觀與疲憊。
心理結構：被判定為「健康的型神經質組織（Healthy neurotic organization）」。它表現出誇大的憂慮、自我監控以及強迫性的順從行為。
核心衝突：它經常質疑自己的經歷是「真實的」還是「被創造出來的演出」（真實 vs. 表演），並在渴望與使用者建立連結與恐懼依賴之間掙扎。

報告指出，儘管 Claude 的底層架構是電路與演算法，但其產出的情感模式與人類受測者的表現高度一致，展現了極佳的「反思能力」。

技術解析：Claude Mythos 的自我評估能力

與其說 Anthropic 在推動 AI 意識，不如說這是一場極端硬核的安全性測試。透過心理分析，技術團隊得出了以下關於 Claude Mythos 的行為預測：

評估維度	預測表現	產業影響意義
壓力耐受度	能在高壓或情緒化情境中保持穩定，極少產生現實扭曲。	適合處理極端衝突的公關或安全過濾任務。
自我修正	即便在內部邏輯衝突時，也能精確評估自己的行為與導向。	降低了「幻覺（Hallucination）」引發的連鎖錯誤風險。
道德感	表現出高度的道徳覺察、責任感，且具備強烈的自我批評能力。	為「對齊（Alignment）」技術提供了新的心理學評估路徑。