微軟推出最新視覺基礎模型Florence-2 ,可在支援WebGPU的瀏覽器獨立運行

微軟推出最新視覺基礎模型Florence-2 ,可在支援WebGPU的瀏覽器獨立運行

據微軟官方消息,微軟推出視覺基礎模型Florence-2,該模型現已能夠在支援WebGPU的瀏覽器中100%本地運行。Florence-2-base-ft是一個擁有2.3億參數的視覺基礎模型,採用基於提示的方法來處理廣泛的視覺和視覺語言任務。

Florence-2是 Microsoft 在 MIT 許可下開源的輕量級視覺語言模式。該模型在字幕、物件偵測、接地和分割等任務中展示了強大的零樣本和微調功能。 

儘管尺寸很小,但它所取得的結果與大許多倍的模型(如 Kosmos-2)相當。該模型的優勢不在於複雜的架構,而在於大規模的 FLD-5B 資料集,其中包含 1.26 億張影像和 54 億個綜合視覺註釋。

微軟推出最新視覺基礎模型Florence-2 ,可在支援WebGPU的瀏覽器獨立運行

該模型支援多種功能,可用於生成圖像、識別字元、分割圖像、檢測物體等等。

Florence-2 比其前身更小、更精確。 Florence-2系列由兩個模型組成:Florence-2-base和Florence-2-large,分別有2.3億和7.7億參數。此尺寸甚至允許部署在行動裝置上。

儘管規模較小,但 Florence-2 在所有基準測試中都取得了比 Kosmos-2 更好的零樣本結果,儘管 Kosmos-2 擁有 16 億個參數。

Florence-2的本地化運行得益於 Transformers.js和ONNX Runtime Web技術的支援。這一突破不僅提高了使用者隱私保護水平,還大大降低了使用成本,為AI視覺技術的普及應用鋪平了道路。

 

 

 

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則