Anthropic 推出資安模型 Fable 卻遭研究人員吐槽：限制太多超難用，提關鍵字還會被降級

Anthropic 近日正式向大眾發布其最新模型 Fable，將其定位為內部高階網路安全模型 Mythos 的「大眾受限版」。然而，這款新產品推出後，迅速在網路安全圈內引發激烈爭議。

多名安全研究人員與從業者紛紛在社群平台與專業社群中抱怨，指出 Fable 內建的安全防護機制過於嚴格，導致其幾乎無法應用於任何實際的網路安全相關工作，實用性大打折扣。

根據研究人員的實際測試回饋，Fable 甚至會拒絕任何「稍微沾邊網路安全」的請求，即便是看似無害的日常任務，例如協助閱讀一篇技術部落格文章。目前任職於 IBM X-Force 的研究人員 Valentina “Chompie” Palmiotti 表示，Fable 在面對這類請求時會直接中斷對話，並提示其安全機制已將該訊息標記為涉及網路安全或生物學主題。

官方設計這些防護機制的初衷，是為了防止模型被惡意利用於開發惡意軟體、攻擊軟體系統，或是輔助研發生化武器，但現階段的限制顯然過於敏感。

關鍵詞攔截機制生硬，程式碼審查等專業任務屢遭拒絕

長期從事網路安全工作的 Matt Suiche 指出，Fable 在判斷使用者的請求是否與網路安全相關時，表現得非常生硬且缺乏彈性。

他舉例說明，如果使用者提出「編寫安全程式碼」的需求，Fable 往往會將其視為網路安全工作，而不是軟體工程的最佳實踐指導，進而直接觸發降級機制。一旦觸發防護網，Fable 會自動退回至能力較弱的 Claude Opus 4.8 版本來繼續對話，這種高度依賴關鍵詞的判斷邏輯，使得落在「網路安全」語義場內的詞彙極易被攔截。

對 Fable 表現感到不滿的並非個案。

另一位研究人員也在社群平台上無奈表示，就連單純請求模型進行「程式碼審查」，也會觸發安全防護機制。在 Reddit 的 Claude 相關社群中，有使用者分享經驗指出，Fable 在面對安全稽核、漏洞分析等專業請求時幾乎是「清一色拒絕」，這嚴重影響了它在專業工作環境中的實用價值。

截至目前，Anthropic 尚未對這些大量湧入的負面回饋作出公開回應。

Anthropic 對 Fable 施加如此嚴苛的安全閾值，反映出人工智慧公司在下放高階能力時的極度謹慎。在模型剛推向大眾的早期階段，先「多攔一些」以確保風險控制，隨後再根據實際回饋進行逐步優化與微調，確實是更為穩妥的策略。

畢竟，相比於一開始放得太鬆導致潛在濫用風險徹底失控，保守的防護機制更能保護關鍵軟體與基礎設施的安全。