AI 訓練資料合法性再掀波瀾，美國作家集體提告 Anthropic 訴訟成指標

美國加州一名聯邦法官於本週正式裁定，三位作家針對 AI 公司 Anthropic 所提出的版權侵權訴訟，符合集體訴訟資格，意味著未來這起案件將不僅由個人名義追訴，而是代表所有受影響的美國作家進行全面性求償。此案被視為近年 AI 訓練資料風暴中的指標性案件，預計將對產業生態產生深遠影響。

這場官司的對象是由亞馬遜投資支持、同時也是 OpenAI 競爭對手的 AI 新創公司 Anthropic。該公司旗下推出的語言模型 Claude 是目前全球熱門的生成式 AI 工具之一。然而根據起訴文件指出，Anthropic 在訓練過程中「透過類似 Napster 下載盜版音樂的方式，擅自存取高達 700 萬本電子書」，其中多數為尚受著作權保護的作品，涉嫌嚴重違反《美國版權法》。

三位作家出面提告　爭議成為集體訴訟

此次提告的三位作家分別為安德莉亞・巴茨（Andrea Bartz）、查爾斯・格雷伯（Charles Graeber）與柯克・華萊士・強森（Kirk Wallace Johnson），三人皆為美國具代表性的非虛構作家。他們主張，Anthropic「從盜版書庫擷取數十萬本書作為模型訓練資料，等於靠著剽竊他人心血建構數十億美元的 AI 商業模式」。

而根據法官最新裁定，他們可代表所有作品曾遭非法下載的美國作家進行集體訴訟。這項裁決可能使 Anthropic 面臨高額賠償壓力，且訴訟規模將擴大數倍。

合理使用與侵權界線　法院已做初步切割

事實上，在上月底的初步裁決中，法院一度部分支持 Anthropic 主張，指出若其訓練資料來自「合法購買之書籍」，可視為合理使用（Fair Use）的一種。但針對「是否擅用來自盜版電子書庫的大量內容」，則將另案審理，法院也強調此部分涉及的爭議極為關鍵，恐將牽動 AI 業界整體資料來源的法律邊界。

Reddit、環球音樂也出手　AI訓練資料成訴訟熱區

值得注意的是，Anthropic 遭控未經授權存取資料的爭議並非個案。Reddit 上月也對 Anthropic 提起訴訟，指控該公司自 2023 年 7 月起，派出大量機器人抓取 Reddit 網站內容超過 10 萬次，違反雙方協議。Reddit 強調，Anthropic 曾承諾禁止爬蟲行為，但最終仍私自擷取內容，構成違約。

此外，環球音樂集團（UMG）去年也針對 Anthropic 提告，指其模型系統性抓取歌詞並進行再生成，違反音樂產業版權。這些案件顯示，AI 公司與內容創作者間的拉鋸戰已從商業談判走向司法攻防。