輸入文字即可生成360度8K全景影像,Intel展示AI擴散模型LDM3D

輸入文字即可生成360度8K全景影像,Intel展示AI擴散模型LDM3D

ADVERTISEMENT

英特爾實驗室與 Blockade Labs 合作,推出 Latent Diffusion Model for 3D(LDM3D),這是一款新穎的擴散模型,使用生成式 AI 創造栩栩如生的 3D 視覺內容。

Intel 表示,LDM3D 為業界首款使用擴散過程產生深度圖的模型,建立可 360 度觀看的生動、沉浸式 3D 影像。從娛樂、遊戲再到建築、設計等方面,LDM3D 具備為內容創作、元宇宙應用和數位體驗帶來革命性變化的潛力。

近年來在電腦視覺領域,特別是生成式 AI 取得顯著進展,然而,今日許多先進的生成式 AI 模型僅限於產生 2D 影像。

LDM3D 與通常僅能從文字提示,產生 2D RGB 影像的現有擴散模型不同,它讓使用者能夠從給定的文字提示中,同時產生影像和深度圖,LDM3D 在使用與潛在擴散模型,幾乎相同的參數數量情況下,相較標準的深度估測後處理法,為每個像素提供更為精確的相對深度。

由 LDM3D 所產生的影像和深度圖,讓使用者能夠把靜謐的熱帶海灘、科幻宇宙中的未來世界,透過文字敘述轉換成精細的 360 度全景圖。這種捕捉深度資訊的能力,可以立即強化整體的真實感和沉浸感,為娛樂、遊戲、室內設計、房地產銷售,以及虛擬博物館和沉浸式虛擬實境(VR)體驗等,各式各樣的行業開啟創新應用。

大型深度估測模型(DPT)

LDM3D 由 LAION-400M 資料庫中的 10,000 個樣本進行訓練,該資料庫內含超過 4 億個影像與文字標註。團隊使用先前由英特爾實驗室所開發的 Dense Prediction Transformer(DPT)大型深度估測模型,對訓練語料庫進行標註。

DPT 大型模型為影像中的每個像素提供高度精確的相對深度,而 LAION-400M 資料集專為研究目的而打造,讓廣大的研究人員和其它有興趣的社群,以更大的規模進行模型訓練測試。LDM3D 模型在搭載 Intel Xeon 處理器和 Intel Habana Gaudi AI 加速器的 Intel AI 超級電腦上進行訓練。

輸入文字即可生成360度8K全景影像,Intel展示AI擴散模型LDM3D

LDM3D 也在電腦視覺與圖型辨識會議(CVPR)的 3DMV 工作坊上,獲得最佳海報獎(Best Poster Award)殊榮,為證明 LDM3D 的潛力,英特爾和 Blockade 的研究人員也開發出一款利用標準 2D RGB 照片和深度圖,創造沉浸式、可互動 360 度視角體驗的應用程式 DepthFusion。

DepthFusion 使用以節點為基礎的可視化程式設計語言 TouchDesigner,該語言應用於即時互動多媒體內容,能將文字提示轉換為可互動和沉浸式的數位體驗。LDM3D 模型為可同時建立 RGB 影像及其深度圖的單一模型,可節省記憶體耗用量並改善延遲。

LDM3D 和 DepthFusion 的推出,為多視角生成式 AI 和電腦視覺的進一步發展鋪路。英特爾表示目前正透過 HuggingFace 進行 LDM3D 開源工作,將讓 AI 研究人員和從業人員能夠進一步改善系統,並為客製化應用進行微調。

MikaBrea
作者

曾任PC home雜誌硬體編輯,負責軟體教學以及產品評測,專注於遊戲/電競與其它有趣的一切

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則