蘋果研究人員開發出可「看」到並理解螢幕內容的AI

蘋果研究人員開發出可「看」到並理解螢幕內容的AI

ADVERTISEMENT

根據週五發表的一篇論文,蘋果研究人員已開發出一種新的人工智慧系統,可以理解對螢幕上實體的模糊參考,以及對話和背景上下文,進而實現與語音助手更自然的互動。

該系統名為ReALM(Reference Resolution As Language Modeling,基於語言模式的螢幕參考解析),利用大型語言模型參考解析的複雜任務(包括理解對螢幕上視覺元素的參考)轉換為純語言建模問題。這使得ReALM在參考解析任務上比現有方法取得了顯著的性能提升。

「能夠理解上下文,包括參考,對於對話助手來說是必不可少的,」蘋果研究團隊寫道。「讓使用者能夠發出關於他們在螢幕上所看到內容的查詢,是確保語音助手真正無需手動操作體驗的關鍵一步。」

增強對話助理

為了處理基於螢幕的參考,ReALM的一項關鍵創新是透過解析螢幕上的實體及其位置,重建螢幕並生成捕捉視覺佈局的文字表示。研究人員證明,結合特別為參考解析微調語言模型,可以在這項任務上超越GPT-4。

研究人員寫道:「我們展示了在不同類型的參考上,與具有類似功能的現有系統相比,可以獲得大幅改進,我們最小的模型在螢幕參考上獲得了超過5%的絕對增益。我們較大的模型顯著優於GPT-4。」

Apple 的 AI 系統 ReALM 可以參考螢幕上的資料並理解,例如在這個範例中顯示的「260 個樣品銷售」列表,進而實現與語音助理的更自然的互動。 (圖片來源:arxiv.org)

 

實際應用和限制

這項研究凸顯了專門的語言模型在生產系統中處理參考解析等任務的潛力,因為由於延遲或運算限制,無法使用大型端到端模型。透過發表這項研究,蘋果暗示了其將繼續投資這項研究,使Siri和其他產品更加善於對話和理解上下文。

不過,研究人員警告,僅依賴於自動解析螢幕存在局限性。處理更複雜的視覺參考,如區分多個圖像,可能需要結合電腦視覺和多模態技術。

蘋果在AI領域奮起直追

儘管蘋果在快速發展的 AI 領域落後於競爭對手,但它正悄悄地在人工智慧研究方面取得重大進展。

從融合視覺和語言的多模態模型,到人工智慧動畫工具,再到使用低成本構建高性能專用 AI 的技術,蘋果研究實驗室的穩步突破表明,其 AI 雄心正在迅速擴大。

但這個以保密著稱的科技巨頭正面臨著來自Google、微軟、亞馬遜和 OpenAI 等公司的激烈競爭,這些公司已經在搜尋、辦公軟體、雲端服務等領域積極將生成式人工智慧產品化。

蘋果長期以來一直是快速跟隨者而非先行者,現在它正面臨著一個由人工智慧以前所未有的速度改變的市場。該公司備受關注的全球開發者大會將在 6 月舉行,預計屆時將推出新的大型語言模型框架、「Apple GPT」聊天機器人以及其生態系統中其他的人工智慧功能。

「我們很高興能在今年晚些時候分享我們在人工智慧方面正在進行的工作細節,」首席執行長提姆·庫克最近在一次財務電話會議上暗示。儘管蘋果很少正面回答任何問題,但很明顯,其在人工智慧的努力範圍很廣。

然而,隨著人工智慧主導權爭奪戰的升溫,這家 iPhone 製造商的姍姍來遲使其處於一種非同尋常的弱勢地位。雄厚的資金、品牌忠誠度、頂尖的工程技術和緊密整合的產品組合使其有機會獲勝,但是在這場高風險的競爭中,沒有什麼東西是可以確定的。

一個普遍存在、真正智慧計算的新時代即將到來。到了6月,我們將看到蘋果是否已做好足夠準備,確保能在塑造這個新時代中扮演一個角色。

 

資料來源:

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則