阿里巴巴達摩院AI模型打破圖像問答世界紀錄，首次超越人類基準

由阿里巴巴達摩院機器智慧技術實驗室打造的深度語言模型體系 AliceMind，最近在110萬條讀圖會意的問題中，憑藉超高答題準確率而傲視全球，準確率甚至高於人類基準，歷來首見。根據國際機器視覺問答平台 VQA 挑戰賽的測試，由 AliceMind 團隊組成的 AI 模型在測試中以81.26%的準確率，刷新讀圖會意領域的全球紀錄，準確率超越人類基準線80.83%。

達摩院語言技術實驗室負責人司羅曾表示，人工智慧分為運算智慧、感知智慧、認知智慧及創造智慧4個層次。VQA 的測試內容屬於認知智慧部份，其應用場景廣泛，包括圖片及文字閱讀、視障人士問答、醫療問診、智慧駕駛及虛擬主播等領域，而 AliceMind 在視覺與文本的「多模態」理解及推理上，測試分數媲美人類認知水平，也意味著達摩院的人工智慧技術邁出關鍵一步。

事實上，VQA 技術已經在阿里巴巴生態體系中應用，例如商品的圖文資訊理解、直播影音互動、智慧客服等場景。目前數以萬計的淘寶天貓商家已經開通「店小蜜」客服的視覺問答功能，用戶輸入問題後，模型會結合商品詳情頁視覺特徵和用戶問題來給出答案。另一方面，VQA 技術也協助解決直播中的「多模態」語義問答疑難。除了淘寶天貓，盒馬鮮生與考拉海購的客服場景、閑魚的圖文同款匹配場景、阿里速賣通（AliExpress）的圖文理解場景也已經導入 VQA 能力。

上圖這些問題看似簡單，由左至右的答案分別為暹羅貓、紐約洋基隊、婚禮。讀圖會意是人類生活及溝通的基本條件，對AI卻是一項高難度的認知任務。但當我們回答1,000條同類問題時，或因眼花撩亂和認知失誤而答錯數十題甚至更多。

為鼓勵各地科研團隊攻克 AI「多模態」理解的難題，全球計算機視覺頂會 CVPR 從2015年起連續6年舉辦 VQA 挑戰賽，吸引來自各地的互聯網企業、高等學府及科研單位參與，合力打造國際上規模最大、認可度最高的 VQA 資料集，每年挑戰賽包含超過20萬張真實照片，共110萬條題目。

今年6月，阿里巴巴達摩院先在2021年度的 VQA 挑戰賽的55隊申請隊伍中奪冠，其後在8月更新測試成績後，達摩院再以81.26%的準確率刷新 VQA 排行榜的全球紀錄，高於80.83%的人類基準線。優秀成績的背後，達摩院的自然語言處理（NLP）及視覺團隊有系統地設計 AI 視覺與文本推理體系，融合大量算法創新，包括多樣性的視覺特徵表示、「多模態」預訓練模型、「跨模態」語義融合和對齊技術、知識驅動的多技能 AI 整合等，讓 AI 的讀圖會意更上一層樓。

FB 建議貼文

阿里巴巴達摩院AI模型打破圖像問答世界紀錄，首次超越人類基準

2026 COMPUTEX AI Together