一鍵把《鐵達尼號》電影變成漫畫！全自動漫畫產生系統能讓任何電影及影集變漫畫

近年來，隨著電腦科學得到飛速發展，科學家們不斷取得新的技術突破，尤其是隨著機器學習的迅猛發展，各種各樣的運算模型被創造出來，比如可以自動產生文本、圖像和其他類型數據的運算模型。這些模型相較於傳統運算模型，在創建對人類手工製作要求高、耗時長的數據或創意作品時，表現出了很大的優勢。

例如，在人工智慧領域不斷湧現出一批具有超凡本領的創作機器人，有自動創作水墨畫的「藝術家」，自動寫作詩歌的「文學作家」，自動產生聯考作文的「考試小能手」，經過大量的經驗訓練，這些運算模型甚至擁有了過人的創作力。

而今，來自大連理工大學和香港城市大學的研究人員在自動創作領域又做出了新成果，該團隊聯合創建出了一個可以自動產生漫畫書的新型系統，該系統透過從電視劇、電影、動畫或其他影片中提取數據，進而創作漫畫書。

▲ arXiv網頁。相關研究以「Automatic Comic Generation with Stylistic Multi-page Layouts and Emotion-driven Text Balloon Generation」為題，發表在 arXiv 預印本平台上。

研究人員在論文中寫道：「我們提出一個全自動系統，從任意類型的影片（電視連續劇、電影、卡通劇）產生漫畫書。我們的系統不需要使用者的任何手動輸入，可以產生高品質的漫畫頁面，具有豐富的視覺效果和富有表現力的故事。」

全自動漫畫產生系統

漫畫是一種藝術形式，一種用簡單而誇張的手法來描繪生活或時事的圖畫。漫畫的創作過程往往需要經歷選題、蒐集素材、繪製分鏡草稿和編輯調整溝通等一系列過程，漫畫書的創作不僅需要精湛的專業技術，更需要豐富的內容素材和大量的創作精力，通常非專業人士很難製作出自己的漫畫書。

在網路如此發展迅速的當今，網上每天有成千上萬的短片發布出來，結合漫畫便捷的閱讀形式和出色的故事描述技術，人們不禁會想像是否可以將這些影片自動轉換為具有豐富的視覺效果和出色的敘事能力的高品質漫畫書？

近年來，由影片產生漫畫的相關技術取得了一定的進展，但所創建的模型大多不是全自動的，產生的漫畫作品要嘛需要額外的使用者輸入，要嘛使用簡化的表示形式或方法進行漫畫頁布局，進而導致整個漫畫效果缺乏視覺多樣性和表現力。

該最新研究解決了透過演算法在頁面之間分配所選關鍵影格，然後在每個頁面漫畫風格的布局上組織關鍵影格的問題。研究人員採用一種數據驅動的布局方法，從漫畫數據中學習布局樣式，透過自動從關鍵影格中提取系統的輸入來擴展他們的方法，因此無需任何形式的使用者輸入，即可實現布局框架的完全自動化。

▲ 該系統的整體設計流程。（a）關鍵影格提取和風格化；（b）自動多頁布局框架（紅色、紫色和綠色虛線框表示不同的組）；（c）對話氣球的產生和放置。圖片來源：論文

研究人員還設計了一種數據驅動的情緒感知氣球產生模型，該模型可以產生不同的氣球形狀，並根據字幕和音訊的情感動態調整字體大小。然後，透過檢測誰在講話以及講話者嘴巴的位置，將產生的氣球放置在正確的位置。

該研究所創建的框架並不像大多數漫畫產生框架那樣，總是使用同一種類型的語音氣球，而是產生不同類型的氣球，以反映人物話語所傳達的情感。為了做到這一點，對於給定一個輸入影片片段，研究人員首先嘗試透過分析影片獲得對應的音訊和相應的字幕，然後對字幕和音訊進行情感分析，來把握不同的對話台詞所傳達的情感。

之後，模型根據人物所傳達的情感，創造出形狀和文字大小各異的對話氣球。這極大地改善了整體漫畫閱讀體驗，產生了更吸引人的布局，也反映了不同角色之間的對話內容。

▲ 不同情感的對話氣球產生過程（Emotion-aware Balloon Generation）圖片來源：論文為了實現系統產生的語音氣球可以被放置在正在說話的角色附近，該模型首先檢測影片中不同的說話者，然後在他們的附近放置與他們所表達的情緒一致的語音氣球。

▲ 對話者檢測流程。圖片來源：論文

為了允許使用者對產生的結果進行某種程度的控制，研究人員構建了一個使用者友好的介面，來向使用者施加約束，以構建更多個性化的設計，並優化結果。研究表明，該使用者介面可以節省使用者時間，同時提供更多的創建自由。

在從影片中提取關鍵影格並將其轉化為漫畫風格的圖像後，研究人員設計的系統使用多頁布局框架將圖像分佈在多個頁面上，並創建出具有視覺吸引力的布局，以反映圖像之間的關係。

研究人員表示：「該系統在無需任何人工干預的前提下，給定一個輸入影片及其字幕，首先透過分析字幕提取訊息關鍵影格，然後將關鍵影格圖像轉化為漫畫風格的圖像。」

使用者體驗如何？

研究人員透過一系列實驗，評估了他們所設計的系統及各個模組，並選擇四部電影《鐵達尼號》（Titanic）、《風聲》、《六人行》（Friends）和《型男飛行日誌》（Up in the Air）和系列片中提取的 16 個長短為 2 至 6 分鐘不等的影片片段，使用該系統與當前最先進的漫畫產生系統「Content-Aware Video2Comics」分別產生漫畫，並就漫畫品質進行對比分析。

▲ 該系統與一個名為「Content-Aware Video2Comics」的系統在漫畫產生效果上的比較。（a）圖-（d）圖是該研究的產生效果；（e）圖-（h）圖為「Content-Aware Video2Comics」系統的產生效果。圖片來源：論文對比發現，該系統的漫畫產生效果要優於其他系統，不僅能夠產生更豐富的氣球形狀，還可以利用文本摘要來合併一些相關的字幕，以確保單詞氣球句子長度適中，關鍵是可以實現全自動多頁布局，其布局效果合理、豐富。

該研究團隊還招募了 40 位使用者，讓他們觀看影片後閱讀系統產生的漫畫，並圍繞漫畫的整體效果、對話氣球品質、布局品質、故事講述效果、閱讀體驗等指標，對系統所產生的漫畫與另一種漫畫產生系統所製作的漫畫進行了對比評價。絕大多數參與這項研究的使用者表示，與之前開發的系統相比，他們更喜歡研究人員的模型所製作的版面。

▲ 使用者評估結果圖，縱軸表示每個問題的平均評分，橫軸表示影片編號（圖中藍色條形柱表示「Content-Aware Video2Comics」系統的評分，橙色表示該系統的評分）。圖片來源：論文研究人員表示：「我們的實驗表明，與最先進的漫畫產生系統相比，我們的系統可以合成更具表現力和吸引力的漫畫。」

不過，雖然該系統已經被證明取得了可喜的結果，但它仍存在一定的侷限。

例如，關鍵影格的選擇不夠準確，在某些情況下，所選擇的關鍵影格彼此相似，無疑會給產生的漫畫帶來多餘訊息。

研究人員表示，一旦系統後續被更加完善，該漫畫產生系統即可用來自動創建基於電影、電視劇或其他影片內容的漫畫書。在後續的研究中，研究人員還計畫開發一種可替代的關鍵影格選擇模組，以此來提高系統產生的漫畫布局品質，減少關鍵影格的冗餘。

「更重要的是，受到許多現有方法的啟發，這些方法可以根據所給定的含有多個句子的故事來產生圖像序列，有可能從文本故事中產生漫畫書，我們有興趣將我們的方法擴展到利用文本訊息來幫助產生漫畫。」研究人員在論文中總結道。

資料來源：