一句話產生 AI 繪畫落伍了！現在 NVIDIA 的 Magic3D 讓你一句話產生 3D 模型

Nvidia進入 AI 生成模型領域的研究，直接比別人多一個次元：一句描述生成 3D 模型。

我們生活在3D的世界裡，儘管目前大多數應用程式是 2D 的，但人們一直對 3D 數位內容有很高的需求，包括遊戲、娛樂、建築和機器人模擬等應用。

然而，創建專業的 3D 內容需要很高的藝術與審美素養和大量 3D 建模專業知識。人工完成這項工作需要花費大量時間和精力來培養這些技能。

需求大又是「勞動密集型行業」，那麼有沒有可能交給 AI 來做？上週五，Nvidia提交到預印版論文平臺 arXiv 的論文引起了人們的關注。

和現在流行的 NovelAI 差不多，人們只需要輸入一段文字比如「一隻坐在睡蓮上的藍色箭毒蛙」，AI 就能為你產生個紋理造型俱全的 3D 模型出來。

Magic3D 還可以執行基於提示的 3D 網格編輯：給定低解析度 3D 模型和基本提示，可以更改文本進而修改產生的模型內容。此外，作者還展示了保持畫風，以及將 2D 圖像樣式應用於 3D 模型的能力。

Stable Diffusion 的論文在 2022 年 8 月才首次提交，幾個月就已經進化到這樣的程度，不禁讓人感歎科技發展的速度。

Nvidia表示，你只需要在這個基礎上稍作修改，產生的模型就可以當做遊戲或 CGI 藝術場景的素材了。

3D 生成模型的方向並不神秘，其實在 9 月 29 日，Google曾經發布過一款文本到 3D 的產生模型 DreamFusion，Nvidia在 Magic3D 的研究目標直接就是以該方法為對象。

類似於 DreamFusion 用文本產生 2D 圖像，再將其最佳為體積 NeRF（神經輻射場）資料的流程，Magic3D 使用兩階段生成法，用低解析度生成的粗略模型再最佳到更高的解析度。

Nvidia的方法首先使用低解析度擴散先驗獲得粗糙模型，並使用稀疏 3D 雜湊網格結構進行加速。用粗略表示作為初始，再進一步最佳了帶紋理的 3D 網格模型，該模型具有與高解析度潛在擴散模型交互的高效可微分算繪器。

Magic3D 可以在 40 分鐘內創建高品質的 3D 網格模型，比 DreamFusion 快 2 倍（後者平均需要 1.5 小時），同時還做到了更高的解析度。統計表明相比 DreamFusion，61.7% 的人更喜歡Nvidia的新方法。

連同圖像調節產生功能，新技術為各種創意應用開闢了新途徑。

技術細節

Magic3D 可以在較短的計算時間內根據文本 prompt 合成高度詳細的 3D 模型。Magic3D 透過改進 DreamFusion 中的幾個主要設計選擇來使用文本 prompt 合成高品質的 3D 內容。

具體來說，Magic3D 是一種從粗到精的最佳方法，其中使用不同解析度下的多個擴散先驗來最佳 3D 表徵，進而產生視圖一致的幾何形狀以及高解析度細節。Magic3D 使用監督方法合成 8 倍高解析度的 3D 內容，速度也比 DreamFusion 快 2 倍。

Magic3D 的整個工作流程分為兩個階段：在第一階段，該研究最佳了類似於 DreamFusion 的粗略神經場表徵，以實現具有基於雜湊網格（hash grid）的記憶體和計算的高效場景表徵。

在第二階段該方法切換到最佳網格表徵。這個步驟很關鍵，它允許該方法在高達 512 × 512 的解析度下利用擴散先驗。由於 3D 網格適用於快速圖形算繪，可以即時算繪高解析度圖像，因此該研究利用基於光柵化的高效微分算繪器和相機特寫來恢復幾何紋理中的高頻細節。

基於上述兩個階段，該方法可以產生高仿真的 3D 內容，並且很容易在標準圖形軟體中導入和視覺化。

此外，該研究展示了用文本 prompt 對 3D 合成過程的創造性控制能力，如下圖 1 所示。

為了對比實際應用效果，Nvidia的研究人員把 Magic3D 和 DreamFusion 在 397 個文本提示生成的內容上進行了比較。平均的粗略模型生成階段花費 15 分鐘，精細階段訓練了 25 分鐘，所有執行時間均在 8 塊Nvidia A100 GPU 上測得。

雖然論文和 demo 只是第一步，但Nvidia已經為 Magic3D 想好了未來的應用方向：為遊戲和元宇宙世界提供製作海量 3D 模型的工具，而且讓所有人都可以上手使用。

當然，最早上線這項功能的可能會是Nvidia自己的 Omniverse。

資料來源：