英國演員也針對「AI孫燕姿」問題提出警告:「誰擁有我們的聲音?」

英國演員也針對「AI孫燕姿」問題提出警告:「誰擁有我們的聲音?」

ADVERTISEMENT

英國演員也針對「AI孫燕姿」問題提出警告:「誰擁有我們的聲音?」

史蒂芬·弗萊(Stephen Fry)(英國演員、喜劇演員、作家和電視主持人)在倫敦的 CogX 科技展會上發表演講。在那次演講中,他播放了一段由他的聲音所旁白的第二次世界大戰紀錄片的影片片段。影片中的聲音事實上不是他的——而是由他的聲音所訓練出來的複製品,訓練的資料來自於他過去耐心、煞費苦心所講述的的7本哈利·波特有聲書。在弗萊的不知情也沒有許可的情況下,這個複製出來的的聲音被用來為這部紀錄片配音。

英國演員也針對「AI孫燕姿」問題提出警告:「誰擁有我們的聲音?」

這個聲音做得實在太出色了,你根本無法區分出有什麼不同;即使是德文單詞如 Hauptsturmführer 和荷蘭地名也被發音得完美無瑕。弗萊在他的講話中解釋:

「這不是混搭的結果;混搭有很多,它們都是顯而易見的。這來自一個靈活的人工聲音,其中的單詞被調整到可以獨特地適應每個句子的意義。因此,它可能讓我在不知情的情況下,用我的聲音呼籲衝撞國會,或是詳細性行為的色情內容,或為產品代言的任何內容。」

他當然是對的,所有這些都是由於語音合成領域的重大突破而成為可能。ElevenLabs, Speechify 和 Resemble.ai 等公司正在開發和商業化的新技術,允許你用幾分鐘的聲音資料複製一個聲音。

這既是一個深刻的,也是一個超越恐怖的發展。如果任何人都可以創建我們聲音的拷貝,只需花費幾美元,讓它說出他們想要的任何話,那麼,誰擁有我們的聲音呢?如果我們不能區分真實和假冒的聲音,我們還會失去什麼?

他們怎麼變得這麼好、這麼快? 

電腦生成的聲音已經存在了一段時間,但之前的表現非常糟糕。使用的技術是將預先錄製的單詞和短語切割開來,再拼湊黏合在一起,以符合期望的輸出。

深度學習徹底顛覆了這一切。機器學習算法從預錄的聲音中學習,捕捉到使聲音獨特的語音模式,例如節奏、速度、語調和發音。到目前為止,合成聲音已經達到了前所未有的精細度:它們能在正確的時刻停頓,模仿「嗯」和「啊」的聲音,甚至掌握了呵欠、嘆息和笑聲等非語言聲音。

這些是對人耳來說,是無法區分的逼真聲音。這是快速、隨時可用且相對便宜的技術——而且未來只會變得更便宜,因為與摩爾定律一致,運算的成本每年都在持續下降。

當然,還有大量的一般實用性的場景可以開發。想想有聲書、語音配音、語音助手、社群媒體內容、podcast和電玩。上週,我製作了了一個YouTube Short(作為一個小實驗和促銷新聞稿),並使用了一個預製的合成聲音來閱讀我寫的劇本;語音配音在幾秒鐘內就生成了。

然而,這一切都有一個陰暗面,這與它的實用性密不可分。通常情況下,強大的工具可以成為世界上行善的力量,讓繁重的工作變得輕鬆,但在居心不良的人手中,同樣的工具可以變成武器,造成的破壞比我們預想的還要多。

在許多方面,我們的聲音就是代表我們自己

首先我要說的是,失去聲音就像失去肢體一樣。我們將其視為個人身分不可分割的一部分,並且擁有巨大的力量。

我們可以在神話和民間傳說中找到這方面的證據,從《小美人魚》中,愛麗兒把她的聲音交給邪惡的烏蘇拉,再到希臘神話中,當赫拉得知仙女艾科為宙斯的不忠行為提供掩護時,她懲罰艾科,奪走了對她最寶貴的東西,她的聲音。從那時起,艾科只能重複周圍其他人所說的話。

聲音可以魅力、引誘並喚起權威感。我們用聲音來交流想法、詢問我們想要什麼並表達我們的感受。因此,能夠竊取某人的聲音並按自己的方式操縱它,賦予了我們一種我們之前未曾擁有的、對彼此獨特而親近的權力。而這影響在現實世界中也正在顯現。

三月時,FTC發出警告,敦促人們提防詐騙者使用所愛之人的複製聲音來詐騙。他們所需的只是一段短音訊剪輯。他們所需要的只是一個簡短的音訊片段。現在,假設你接到遇到麻煩的家人打來的電話,你如何判斷是你的孫子在電話那頭還是騙子想要騙你的錢?

一位來自英國的受人尊敬的財經記者馬丁·路易斯(Martin Lewis),最近成為了一個深度造假投資騙局的目標,詐騙者使用他的臉和聲音參與一個名為量子人工智慧( Quantum AI)的不存在的投資計劃。這個騙局依賴路易斯的權威形象來誘騙觀眾相信這個虛構的計劃,以至於他有朋友走到他面前跟他說:「嘿,我剛剛投了一些錢進你宣傳的那個投資計劃」。

六月時,我寫了一篇文章,談論如何有影響力的人如何創建自己的AI分身,這樣粉絲就可以24/7與他們對話,利用那些願意花大錢與他們的偶像視訊通話的年輕和易受傷害的觀眾。

影響者與AI:助長偏執社交關係的溫床

Kaitlyn “Amouranth” Siragusa 是 Twitch 上最受歡迎的串流主之一,也是 OnlyFans 的創作者,現在,粉絲甚至可以在她不在線時與她的 AI 分身互動。AI Amouranth 不僅會為你留下文字,甚至會為你會留下個性化的語音留言。

最後一個例子並不涉及某人的聲音被奪走,但它確實表明了合成聲音對接觸它們的人的影響。

就像這些例子還不夠嚴重一樣,你可以想像出更嚴重和邪惡的用途,像是政治深度偽造、協同傳播的錯誤訊息活動和勒索計劃,其中聲音複製可以被利用為一個極其有效的工具,用來大規模地誤導和轉移。

即使是法律也救不了我們

事實證明,法律救不了我們。不過史蒂芬·弗萊可能有機會,因為紀錄片製片人未經同意就複製並使用了他的聲音。這很有可能可以根據版權法或被稱為「假冒」法進行審判,該法阻止人們「將商品或服務偽裝為另一人的商品或服務」。但從法律上講,沒有聲音所有權這回事。你並不擁有你的聲音。沒有人擁有。

歐洲法律在 GDPR 第4條中定義生物辨識資料是:

「……來自與自然人的身體、生理或行為特徵相關的特定技術處理的個人資料,這些資料允許或確認該自然人的唯一辨識,例如臉部影像或指紋資料。」

到目前為止,這一定義並未明確涵蓋我們的聲音。

近日,美國配音藝術家聯合會(UVA)和全國配音演員協會(NAVA)提交了歐盟人工智慧法案(AI法案)修正案提案。

聯合配音藝術家和全國配音演員協會呼籲歐盟的政策制定者和利益相關者仔細考慮這一建議的修正案,認識到它提升聲音演員社群的潛力,同時確立一個尊重藝術完整性和創作者權利的 AI 立法的全球標準。

總的來說,這些規定旨在確保當 AI 被使用時,其學習對象能夠得到適當的信譽和補償,這是我全力支持的。

然而,這對手頭更廣泛的問題似乎影響不大。是的,它會給創作者、演員和其他公眾人物一個公正的法庭,但它並不能阻止他們的聲音首先被盜取和濫用——或者任何聲音。 

即將來臨的浪潮

經過深思熟慮,我覺得我們無能為力,更不用說避免了。這聽起來可能有些黑暗和憤世嫉俗,但恐怕我們必須為浪潮的到來做好準備。

合成聲音將無處不在。這種技術本身只會變得更好更便宜,因為這一直是歷史的軌跡。我們需要更少的資料來產生更具說服力的聲音。而且不久之後,無法區分的聲音複製將與影片一起增強,影片和聲音一樣令人信服,成本將下降到幾乎免費的水準。我們的智慧型手機和個人設備上,僅需一下點擊。

我們將能夠創造替代歷史。沒有任何東西能阻止人們更改當前或過去的事件以適應他們的敘述或意識形態,無論是保護還是瓦解國家,提升或損害聲譽。這將對我們所有人開放——高中生、記者、政治家、有組織犯罪團體和極權政權。

我不禁想起 Mustafa Suleyman 的書《即將來臨的浪潮》,我在上一篇關於 AGI 的文章中提到過這本書,在書中他試圖將 AI 周圍的辯論轉向擴散和控制。

最終,這是一個控制問題,我相當確信,便宜且容易獲得的聲音複製技術是我們無法控制的。這是一個我們不得不學會生活並接受的顛覆性現實,無論我們喜歡與否。

 

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則