Microsoft的AI為古騰堡計畫錄製 5,000 本有聲書！書籍是免費的，程式是開源的 | T客邦

Microsoft的AI為古騰堡計畫錄製 5,000 本有聲書！書籍是免費的，程式是開源的

ADVERTISEMENT

10月是美國國家讀書月，在這個萬聖節將會有些新奇的事情。古騰堡計畫（Project Gutenberg）這個免費電子書網站取得了進化的大躍進，讀者現在可以聽到由21世紀的AI所合成的聲音神奇地大聲朗讀愛倫·坡的故事，或是《科學怪人》、莎士比亞的《馬克白》或其他神秘巫婆的故事。

來自微軟、Google 和 MIT 的研究人員與古騰堡計畫的執行長葛雷格·紐比（Greg Newby）合作，製作了5,000本開放授權的有聲書 — 大約35,000小時的音訊，而這些聲音都是由讓人驚訝，類似人聲的朗讀。

這是一個龐大而多樣的典藏，包含了小說和非小說 — 經典文學、戲劇，甚至傳記。每個人都能找到他們喜愛的 — 從亞瑟·柯南·道爾的《福爾摩斯歸來記》到愛德加·萊斯·巴勒斯的《泰山的回歸》，每個人都能找到適合自己的內容。

「我們希望這個貢獻可以為學術界和更廣泛的有聲書聽眾提供價值，」研究人員在 arXiv.org 的預印本論文中寫道。該論文題目是「大規模自動製作有聲書」，認為有聲書可以為為視障者、幼兒，甚至是學語言的新手「可以大大提高文學作品的可理解性」。

古騰堡計畫的執行董事葛雷格·紐比在一封訪談電子郵件中說：「反應整體上是正面的」。「有聲書非常受歡迎，即使是我們2004年的推出舊的，品質較差的有聲書也是如此。人們很喜歡有各種文學作品的有聲書，當然，微軟從古騰堡計畫文本製作的新有聲書中，有許多作品以前從來沒有以有聲書的形式出現，因為這些作品在主流平台來說不夠受歡迎。」

紐比記得有一個負面回饋，有人稱這整個作為是「不適當的」 — 把人類的文學作品餵給一台沒有感情的機器，而唯一的目的是讓機器模擬人類的聲音和語調。「這似乎是普遍的反應」紐比說，但這些意見都來自「不是來自那些真正會去聽有聲書或對古騰堡計畫有了解的人。」

「從我的角度來看，他們完成的工作是優秀的，古騰堡計畫支持任何能夠使文學更廣泛、低成本或無成本地流通到更多受眾的活動。

「微軟的努力無疑符合這些條件。」

延伸閱讀：「古騰堡計畫」利用文字轉語音技術發布5000本免費有聲讀物

對技術慈善事業感到興奮

他們的論文指出，製作和出版一本電子書可能需要數小時的工作。演員史蒂芬·弗萊（Stephen Fry）曾講述他精確錄製《哈利波特》系列文本的困難。

這個過程也是昂貴的。但更重要的是，該論文指出，使用合成聲音的有聲書「歷來都受到文字轉語音系統機械化本質的困擾」。在微軟 Cloud 的一個解釋性影片中，紐比表示，對有聲書需求一直都很高，但是「我們發現，儘管如此，我們並不真正擅長製作有聲書，所以我們最終放棄了有聲書。

「直到微軟說，『嘿，我們有一些自動把文字轉成語音的新技術。』」

在微軟 Developer YouTube的官方頻道中的影片，布蘭登·沃許（Brendan Walsh）總結了他們為這個雄心勃勃的專案所使用的技術。「幸運的是，我們開發了一些工具，並使用了一些網路開源工具，使它變得容易得多...具體來說，我們使用Azure Synapse Analytics上的Synapse ML與Apache Spark來生成一系列有聲書。」

最終結果是「古騰堡計畫開放有聲書典藏」，這些內容可以在主要的PODCAST平台和串流平台上獲得，也提供單一的.zip檔案供研究人員使用。

在影片中，沃許說自己「對從事技術慈善工作感到興奮。」

首席研究員馬克·漢彌爾頓（Mark Hamilton）很高興能說，他們的技術會「讓這些有聲書真正聽起來像是真人在朗讀，而不是機器人！」

延伸閱讀：英國演員也針對「AI孫燕姿」問題提出警告：「誰擁有我們的聲音？」

聽起來效果如何？

這些電子書在 Spotify、Apple podcasts、Google Podcasts 和 Internet Archive 上都有自己的頁面。每段錄音開始都會說：「感謝您收聽這本由古騰堡計畫和微軟 AI 製作的免費有聲書。」

是的，雖然缺乏史蒂芬·弗萊那種熱情洋溢的人味，但這些聲音仍然很容易被當成是人的聲音。不過這些AI還不夠完美。AI 知道如何閱讀羅馬數字 — 但對像「I」和「V」這樣的單獨字母感到困惑。（所以當閱讀莎士比亞的《馬克白》時，它把第一幕的標題 — Scene I — 讀作「scene eye」，而第五幕變成「scene vee」。）而當《馬克白》中的一名女巫談到折磨名為「Tiger」的船長（ master o' th' Tiger）（可能是一艘名為 Tiger 的船）時，AI 直接放棄並拼出字母，說「master O T H Tiger。」

或許更令人失望的是它用完全相同的聲音讀每個部分。馬克白和馬克白夫人是同一個男性旁白，三個女巫、班柯和鄧肯王也是如此。紐比說他也聽到了這樣的回饋。「有人評論說似乎沒有任何女性聲音，並問為什麼。我已經把這個意見轉給了微軟，我也覺得應該要有各種聲音。」

研究人員的論文還談到了他們在「自動發音和情感推測系統」上的工作，該系統會掃描文字段落的上下文，然後「動態改變朗讀聲音和語氣」，讓對話「更加生動和引人入勝」，甚至預測對話中應使用的適當情緒。（2020 年，一些相同的研究人員曾致力於一種聽起來更自然的文字轉語音系統，首先得構建一個「自發對話語音語料庫」進行訓練，然後為系統配上一個具有「對話上下文編碼器」來選擇適當的回應語氣。）

展望未來，紐比說：「最終如果人們能選擇自己喜歡的聲音、語速等，並得到一本專門為他們製作的有聲書，那就太好了！」紐比說他看過微軟的技術展示，該技術會為不同的角色更換不同的聲音，但不幸的是這個功能「目前還沒有應用在當前的書籍中。」

This is the first time I've heard AI audio narration referred to as synthetic speech...

Project Gutenberg puts 5,000 audiobooks online for free using synthetic speech | TechCrunch https://t.co/mGEtTUfZgG pic.twitter.com/8VeENWotgc
— Terri Nakamura (@terrinakamura) September 22, 2023

延伸閱讀：只要3秒語音合成模型VALL‧E就能完美的模仿任何人的聲音，連環境背景音也能模仿

未來的形勢

該專案的首席研究員說他們希望為古騰堡計畫上所有的60,000 本電子書製作免費的有聲書，甚至將它們翻譯成不同的語言。漢彌爾頓在微軟Developer的YouTube頻道中說：「我們看看能否擴大這個專案的規模。」

他們的論文還談到了一個展示的應用程式，該應用程式「允許與會者用自己的聲音，建立幾秒鐘的有聲書。」實質上，該系統使用被稱為「零樣本文字轉語音」的快速技術「複製」每個與會者的聲音。（儘管與會者也可以選擇選擇另一個預先合成的聲音。）毫無疑問，與會者也會對有聲書在短短幾秒鐘內就製作完成感到驚訝。在 YouTube 上的一段影片中，首席研究員馬克·漢彌爾頓在 15 秒內就做完了一本《愛麗絲夢遊仙境》的有聲書。

然後，使用者甚至可以客製化自己的書籍獻辭，AI 將會用他們的聲音在電子書正式開始之前朗讀獻辭。「一旦完成，我們將透過電子郵件向使用者發送一個連結，他們就可以下載他們客製化的有聲書。」

紐比認為最重要的是：所有的東西都是開源的。程式碼可以在微軟的Synapse ML網站上找到。

紐比說：「微軟這個工作昏偉大之處在於，書籍是完全免費的，軟體也是完全免費。你可以直接使用現在的軟體功能，也可以自己外掛其他的功能上去。」

謹慎發言，尊重彼此。按此展開留言規則