科技巨頭使用 YouTube 影片訓練 AI 的爭議持續延燒。三個 YouTube 頻道日前聯手提起集體訴訟,指控 Apple 繞過 YouTube 的反爬蟲保護機制,大量下載影片用於訓練 AI 模型,Amazon 與 OpenAI 也在同一波訴訟之列。
一篇研究論文,扯出爬取百萬影片的指控
據科技媒體 MacRumors 整理,Ted Entertainment、Matt Fisher 和 Golfholics 三個 YouTube 頻道共同提起這起集體訴訟,矛頭直指 Apple 研究團隊曾發表的一篇論文——《STIV:可擴展文字與圖像條件影片生成》。論文中明確提及,研究人員使用了名為 Panda-70M 的資料集訓練影片生成模型。
Panda-70M 的結構相當於一份索引檔案,透過網址、影片識別碼和時間戳定位特定的 YouTube 影片與片段。單一 YouTube 影片可被拆分為多個片段,每段作為獨立訓練樣本。原告方主張,每提取一個片段就需單獨存取 YouTube 原始影片並截取指定段落,這個過程中的每一次存取,都構成一次獨立的規避行為。
原告方表示,他們的內容在 Panda-70M 資料集中出現超過 500 次,並希望代表所有遭遇相同處境的權利人發起集體訴訟。
規避版權保護機制,而非只是「用連結」
訴訟的核心論點在於:即便 Panda-70M 資料集本身僅提供影片連結,Apple 仍被指控實際繞過 YouTube 的反爬蟲保護措施,下載並使用了影片的原始內容訓練 AI 模型——這與「只是索引連結」有本質差異。
原告方的訴求包括:要求陪審團審理全部訴求、認定被告故意規避版權保護系統、依據美國著作權法申請法定賠償(按法律上限計算)與禁令救濟,並要求被告立即停止相關侵權行為。
除 Apple 外,Amazon 與 OpenAI 也因同樣在 AI 訓練過程中使用 Panda-70M 資料集,而面臨另起的集體訴訟。
AI 訓練資料爭議浪潮,科技巨頭一個都跑不掉
這並非 AI 訓練資料版權糾紛的首例,也肯定不是最後一例。過去幾年,《紐約時報》、Getty Images、音樂版權組織等相繼對 AI 公司提起類似訴訟,主張其創作內容在未獲授權的情況下被用於模型訓練。Panda-70M 這類公開資料集因為來源廣泛、使用門檻低,已成為訴訟的高頻靶心。
值得注意的是,這起訴訟同時點名 Apple、Amazon、OpenAI 三家公司,顯示原告方有意將戰線拉寬,迫使整個業界正視共用訓練資料集的法律風險。
AI 訓練資料的版權問題,正在從「灰色地帶」快速走向「正面交鋒」。科技巨頭過去習慣以「公開資料即可使用」作為護身符,但這起訴訟的關鍵在於「規避反爬蟲機制」這個額外行為,讓整個法律論述更具殺傷力。對創作者而言,這些訴訟是否能真正確立保護機制,或者最終只是和解了事,將深刻影響未來 AI 訓練資料的取得規則。若法院認定每次繞過保護機制的存取都構成獨立侵權,光是賠償金額的計算方式就足以讓任何一家 AI 公司頭皮發麻。
- 延伸閱讀:Meta 雖勝訴,卻揭示未來 AI 著作權戰的「致勝關鍵」
- 延伸閱讀:AI 訓練資料侵權?美國聯邦法院首例著作權判決解析:科技巨頭敗訴
- 延伸閱讀:美國著作權局定調:光靠提示詞的純AI生成圖片無法享有著作權保護,無論你下多複雜的提示詞都沒有
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!