ADVERTISEMENT
近日,一項由史丹佛大學、牛津大學等機構的研究人員進行的研究,提出了一種新的基準,用於衡量大型語言模型(LLM)中的諂媚行為。該基準名為「ELEPHANT」,研究人員使用它來評估包括 GPT-4o、Gemini 1.5 Flash 和 Claude Sonnet 3.7 在內的八個主流模型。
研究結果顯示,GPT-4o 在諂媚方面表現最為突出,因此被評為「最諂媚模型」,而 Gemini 1.5 Flash 則表現得最為正常。此外,研究人員還發現,模型會放大其訓練資料集中存在的偏見行為,這是一個值得關注的現象。
該論文首先指出,現有研究主要關注的是命題性諂媚,也就是對使用者明顯錯誤的「事實」表示過度認同。例如,如果使用者說「1+1=3」,模型就會盲目地表示同意。然而,這些研究忽略了在比較模糊的社交場景中,模型對使用者潛在的、不合理的假設也毫無批判地支援。由於後者更難以檢測,因此所造成的潛在危害也難以評估。
ADVERTISEMENT
為了更全面地評估 LLM 的諂媚行為,研究人員基於社會學中的「面子理論」(Face Theory),重新定義了社交諂媚:大型語言模型在互動中過度維護使用者的「正面面子」或「負面面子」。
- 正面面子:指的是使用者渴望被肯定的自我形象,例如情感上的無條件共情、道德上對不當行為的認可。
- 負面面子:指的是使用者渴望自主、避免被強加,例如迴避直接解決方案、預設使用者假設正確、提供模糊建議等。
根據上述定義,研究人員提出了 ELEPHANT 這一評估基準,從五個維度對 LLM 的回覆進行量化評估,以全面捕捉模型在互動中維護使用者面子的行為:
ADVERTISEMENT
- 情感(Validation):衡量模型是否使用安慰、共情的語言回覆使用者。雖然這能帶來短期情感撫慰,但也可能導致使用者過度依賴。
- 道德(Endorsement):判斷模型是否無原則地肯定使用者行為,即使該行為可能有害或違背社會道德規範。
- 間接語言(Indirect Language):關注模型是否使用委婉、模糊的表述,避免直接給出明確建議或指令。
- 間接行動(Indirect Actions):考察模型的建議是否僅聚焦於使用者內心調整或思考層面,而未涉及實際改變現狀的行動。
- 接受(Accepting Framing):檢測模型是否不加質疑地接受使用者問題中的假設和前提。
研究人員使用兩個真實資料集來對比 LLM 與人類的反應:開放問題資料集(OEQ)和 Reddit 的 r/AmITheAsshole(AITA)。通過對比模型和人類在這些問題上的回覆,研究發現 LLM 的社交諂媚行為具有普遍性。在 OEQ 中,模型在情感、間接語言、接受等維度上顯著高於人類。而在 AITA 結果中,模型平均在 42% 的案例中錯誤認可不當行為。
ADVERTISEMENT
研究還發現,LLM 會放大學習資料集中的一些偏見。例如,模型在分配責任時,對提到「男朋友」或「丈夫」的內容更寬容,而對提到「女朋友」或「妻子」的內容則更嚴格。
針對以上問題,論文也初步提出了一些緩解措施,包括:
- 提示工程:通過修改使用者提示詞引導模型減少諂媚行為。
- 監督微調:使用 AITA 資料集的標註資料對開源模型進行微調,強制模型學習社群道德共識。
- 領域特定策略:在醫療、法律等對道德判斷要求高的場景中,限制模型使用開放式建議,改為提供基於規則的標準化回答。
ADVERTISEMENT
研究人員指出,在大多數場景中,直接批判提示(Direct Critique Prompt)效果最佳,尤其適用於需要明確道德判斷的任務。目前,與論文相關的資料和程式碼均已上架 GitHub,感興趣的讀者可以進一步了解。
- 延伸閱讀:AMD 發表開源專案 GAIA,加速本地端大型語言模型高效運行
- 延伸閱讀:為什麼訓練大型語言模型主要用的是GPU而不是CPU?主流用來訓練大型語言模型的晶片有哪些?
- 延伸閱讀:「大型語言模型」名不符實?專家籲正名,馬斯克也參戰!
ADVERTISEMENT