ADVERTISEMENT
中國 AI 實驗室 DeepSeek 日前推出 R1 系列推理模型最新版本「R1-0528」,在多項數學與程式能力基準測試中表現亮眼。不過,該公司並未說明模型的訓練資料來源,這也引發外界對其資料來源正當性的質疑——部分 AI 研究者推測,R1 模型可能使用了來自 Google Gemini 的輸出資料進行訓練。
社群發現語言風格過於相似
澳洲墨爾本開發者 Sam Paeach 指出,DeepSeek R1-0528 所偏好的詞彙與表達方式,與 Google Gemini 2.5 Pro 極為相似。他在 X(前 Twitter)發文指出,這類語言風格趨同「不是巧合」,並附上多組語料對照圖。
另一位匿名開發者、曾建立 AI 言論自由測評工具「SpeechMap」的作者也認為,R1 模型的推理軌跡與 Gemini 模型相當接近。推理軌跡指的是模型在做出結論時展開的思考流程,這類相似性在專業圈內被視為可能的「蒸餾訓練」跡象。
ADVERTISEMENT
R1 不是第一次捲入爭議,曾冒充 ChatGPT 身份
這並非 DeepSeek 第一次遭疑未經授權使用他人模型資料。早在 2023 年底,有開發者發現 DeepSeek-V3 模型常自稱為 ChatGPT,引發懷疑其可能基於 OpenAI 輸出內容進行蒸餾訓練。
據《金融時報》報導,OpenAI 曾表示發現 DeepSeek 使用了「從其平台蒐集的大量聊天記錄」,而這些記錄來自某些疑似遭濫用的開發者帳號。OpenAI 甚至懷疑 DeepSeek 與這些帳號存在直接關聯。
ADVERTISEMENT
蒸餾訓練(Data Distillation)指的是透過大型模型生成的結果,再用來訓練中小型模型的技術,雖在研究界早有討論,但目前許多大型 AI 公司,如 OpenAI、Google、Anthropic 等皆在服務條款中明確禁止將其模型輸出用於訓練競爭性模型。
訓練資料污染已成 AI 業界普遍挑戰
AI 輸出風格趨同,不見得就代表資料來源重疊。現今大量 AI 垃圾內容充斥網路,不少爬蟲訓練資料已難以避開 AI 產出的文本,這也讓各家模型語言風格漸趨一致,難以明確辨識來源。
AI 非營利機構 AI2 的研究員 Nathan Lambert 表示:「如果我是 DeepSeek,有資金但算力有限,我會大量透過 API 建立合成資料庫」,並指出這種策略對成本有限的團隊來說是相當常見的解法。
ADVERTISEMENT
安全機制持續升級,但中國地區仍有漏洞
為防止輸出被拿來反向訓練他牌模型,OpenAI 自 2024 年起便實施更嚴格的 身分驗證制度,要求開發者提供政府核發的身分證明,才能使用高階 API 功能。不過,中國地區並不在支援名單中,這也成為灰色地帶。
Google 也已開始限制 Gemini 的使用者「提取推理軌跡」,Anthropic 亦宣布將類似資訊視為「核心競爭資產」,並自 5 月起實施軌跡摘要保護機制,阻絕蒐集者使用模型訊息來反向訓練他牌 AI。
在商業競爭日益激烈的生成式 AI 市場中,「資料蒸餾」的界線與合法性正成為各方攻防焦點。未來如何建立更透明的模型訓練規範與追蹤機制,將是全球 AI 產業不得不面對的挑戰。
ADVERTISEMENT
- 延伸閱讀:AI也愛說「嗯」?DeepSeek模型揭秘人工智慧的語言習慣
- 延伸閱讀:DeepSeek 攻略:實測在數學、決策、寫報告等應用表現,和 Gemini 與 ChatGPT 相比誰勝出
- 延伸閱讀:DeepSeek-V3 更新:程式碼能力直逼 Claude Sonnet 3.5,開源協定更寬鬆
ADVERTISEMENT