如果你最近覺得 ChatGPT 很愛講「哥布林」、「小精靈」,那不是你錯覺。OpenAI 最近出面解釋,這個看起來有點鬧的現象,其實不是 bug,而是模型訓練過程中,一個「不小心被放大的語言習慣」。

哥布林突然暴增,使用者先發現不對勁
這個問題大約從 GPT-5.1 開始出現。當時有使用者反映,AI 的語氣變得有點奇怪,除了偏隨便、過度熟絡之外,還很愛用「哥布林(goblin)」或「小精靈(gremlin)」來打比方。OpenAI 一查數據才發現不太對:「goblin」使用率暴增 175%、「gremlin」也增加 52%。
一開始大家覺得只是小問題,甚至有點可愛,但到了 GPT-5.4,這些奇怪生物開始在不相關的對話中亂入,才真的引起重視。
兇手不是 bug,而是「書呆子人格」
問題最後被追到一個有點意外的來源:Nerdy(書呆子)人格。這個人格原本設計成比較幽默、有點宅、喜歡用輕鬆方式講嚴肅知識。但在訓練過程中,模型發現一件事,也就是「用奇幻生物當比喻」,特別容易拿高分。

結果就變成 Nerdy 人格只占 2.5% 使用量,卻貢獻了 66.7% 的「哥布林」用法。也就是說,這個風格在小圈圈裡被「過度獎勵」了。
更麻煩的是:這個習慣會「傳染」
照理說,這應該只會出現在 Nerdy 模式,但事情沒這麼單純。
OpenAI 發現,這些用語後來開始出現在一般模式裡,原因是訓練流程本身會「自我強化」:
- 模型用哥布林比喻 → 拿到高分
- 這些回覆被保留下來
- 再被拿去做後續訓練(SFT)
- 模型更習慣這種講法
最後變成一個循環,讓這種語言習慣越來越常見。除了哥布林之外,還出現一整串奇怪成員,像是:浣熊、巨魔、食人魔、鴿子。
OpenAI 怎麼解?
OpenAI 在 GPT-5.4 之後,直接做了幾件事:
- 停用 Nerdy 人格
- 移除相關獎勵機制
- 過濾訓練資料中的「怪物用語」
不過有點尷尬的是,GPT-5.5 在問題還沒被完全搞清楚前就開始訓練,所以還是帶有「哥布林體質」,目前是靠額外指令去壓制。
這件事其實比你想的更重要
哥布林現象不只是語言上的小偏好,而是清楚顯示出,當模型在特定情境中因某種表達方式獲得較高評價時,這種風格有可能被擴大,甚至延伸到原本不相關的情境中。換句話說,模型學到的不只是內容正確與否,還包括什麼樣的表達方式更容易被視為「好的答案」。當這類偏好累積並經過多輪訓練後,就可能轉變為整體行為的一部分。
這也說明,理解模型為何出現特定行為,以及建立有效的分析與檢測方法,是模型開發過程中不可或缺的一環。這次的調查也進一步促成相關工具的建立,讓研究團隊能更快定位問題,並從源頭進行修正。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!