法官判決：AI 公司使用合法取得書籍訓練Claude模型屬合理使用，無需經作者許可

近期，關於 AI 聊天機器人「Claude」開發公司 Anthropic 被三位美國作家以侵犯版權為由起訴一案，在加州北區聯邦地方法院有了重大進展。根據外媒報導，法官威廉·阿爾薩普（William Alsup）裁定，未經作者許可，以合法購買的書籍訓練 AI 屬於合理使用，不構成侵犯版權。然而，Anthropic 因使用盜版網站數據一事，仍將面臨進一步的審判。

案件背景

作家安德烈亞·巴茨（Andrea Bartz）、查爾斯·格雷伯（Charles Graeber）和柯克·詹森（Kirk Johnson）於 2024 年 8 月起訴 Anthropic，指控其使用 LibGen 和 Books3 等盜版網站的數據以及實體書籍的掃描數據來訓練 Claude，構成侵犯版權。Anthropic 承認為了訓練 Claude，使用了來自盜版網站的數據，並購買了數百萬本書籍，將其裁切、掃描並數位化後用於訓練。在此基礎上，Anthropic 主張這些行為屬於版權法允許的「合理使用」。

法院的三項主要判斷

阿爾薩普法官針對 Anthropic 的主張，主要提出了三項判斷：

使用實體書籍的掃描數據訓練 AI：法官指出，AI 學習書籍內容並非單純為了複製，而是為了學習產生全新文章的統計關係。AI 的生成物並未向用戶提供原始書籍的副本或剽竊內容。此外，法官認為，訓練 AI 並不會大量產生與原告作品競爭的作品，因此不構成版權法所擔心的競爭性替代。
掃描並數位化購買的書籍：法院認為，Anthropic 將合法購買的實體書籍裁切、掃描並數位化的行為也屬於合理使用，因為其目的和準確性被判斷為具有「轉變性」。數位化的目的是為了節省儲存空間並方便搜尋，數據被儲存在 Anthropic 內部的研究圖書館中，並非為了向外部發布或銷售副本。
使用盜版網站訓練 AI：Anthropic 承認從 Books3 和 LibGen 等盜版網站下載了數百萬份書籍數據。法官明確判斷，Anthropic 從盜版網站下載超過 700 萬本書籍並建立中央圖書館的行為，不屬於合理使用。他表示，用盜版網站數據構建的圖書館起到了「付費副本的替代品」的作用，不具有轉變性。