OpenAI 解釋 GPT-5 為何突然迷上「哥布林」，Nerdy 書呆子人格成最大關鍵

如果你最近覺得 ChatGPT 很愛講「哥布林」、「小精靈」，那不是你錯覺。OpenAI 最近出面解釋，這個看起來有點鬧的現象，其實不是 bug，而是模型訓練過程中，一個「不小心被放大的語言習慣」。

這個問題大約從 GPT-5.1 開始出現。當時有使用者反映，AI 的語氣變得有點奇怪，除了偏隨便、過度熟絡之外，還很愛用「哥布林（goblin）」或「小精靈（gremlin）」來打比方。OpenAI 一查數據才發現不太對：「goblin」使用率暴增 175%、「gremlin」也增加 52%。

一開始大家覺得只是小問題，甚至有點可愛，但到了 GPT-5.4，這些奇怪生物開始在不相關的對話中亂入，才真的引起重視。

問題最後被追到一個有點意外的來源：Nerdy（書呆子）人格。這個人格原本設計成比較幽默、有點宅、喜歡用輕鬆方式講嚴肅知識。但在訓練過程中，模型發現一件事，也就是「用奇幻生物當比喻」，特別容易拿高分。

結果就變成 Nerdy 人格只占 2.5% 使用量，卻貢獻了 66.7% 的「哥布林」用法。也就是說，這個風格在小圈圈裡被「過度獎勵」了。

照理說，這應該只會出現在 Nerdy 模式，但事情沒這麼單純。

OpenAI 發現，這些用語後來開始出現在一般模式裡，原因是訓練流程本身會「自我強化」：

最後變成一個循環，讓這種語言習慣越來越常見。除了哥布林之外，還出現一整串奇怪成員，像是：浣熊、巨魔、食人魔、鴿子。

OpenAI 在 GPT-5.4 之後，直接做了幾件事：

不過有點尷尬的是，GPT-5.5 在問題還沒被完全搞清楚前就開始訓練，所以還是帶有「哥布林體質」，目前是靠額外指令去壓制。

哥布林現象不只是語言上的小偏好，而是清楚顯示出，當模型在特定情境中因某種表達方式獲得較高評價時，這種風格有可能被擴大，甚至延伸到原本不相關的情境中。換句話說，模型學到的不只是內容正確與否，還包括什麼樣的表達方式更容易被視為「好的答案」。當這類偏好累積並經過多輪訓練後，就可能轉變為整體行為的一部分。

這也說明，理解模型為何出現特定行為，以及建立有效的分析與檢測方法，是模型開發過程中不可或缺的一環。這次的調查也進一步促成相關工具的建立，讓研究團隊能更快定位問題，並從源頭進行修正。