比MP3檔案還小10倍,Meta 開源全新音訊壓縮技術 EnCodec

比MP3檔案還小10倍,Meta 開源全新音訊壓縮技術 EnCodec

Meta 最近公佈了全新的開源音訊壓縮技術 EnCodec,號稱壓縮檔案大小比 MP3 格式小 10 倍。

Meta 旗下基礎人工智慧研究 (FAIR) 團隊在 AI 驅動的音訊超壓縮領域取得了成功,建構了一個由三部分組成的系統,並對其進行端到端訓練,以將音訊資料壓縮到目標大小,然後可以使用神經網路對這些資料進行解碼。

與 64 kbps 的 MP3 相比,Meta 的新技術 EnCodec 實現了大約 10 倍的壓縮率,而且沒有音質損失。

比MP3檔案還小10倍,Meta 開源全新音訊壓縮技術 EnCodec

EnCodec 的三部分包括:

  • 編碼器:獲取未壓縮的資料並將其轉換為更高維度和更低影格率的表示(representation)。

  • 量化器:將這個表示壓縮到目標大小,通過訓練量化器給想要的大小(或大小集),同時保留最重要的資訊來重建原始訊號。這種壓縮表示是儲存在磁碟上或通過網路傳送的,相當於電腦上的 .mp3 檔案。

  • 解碼器:將壓縮訊號轉換回與原始訊號儘可能相似的波形,失真壓縮的關鍵是識別人類無法感知的變化,因為在低位元率下完美的重建是不可能的。為此,EnCodec 使用鑑別器來提高生成樣本的感知品質,建立了一個類似貓捉老鼠的遊戲,其中鑑別器的工作是區分真實樣本和重建樣本。壓縮模型試圖通過推動重建的樣本在感知上與原始樣本更加相似來生成樣本來欺騙鑑別器。

比MP3檔案還小10倍,Meta 開源全新音訊壓縮技術 EnCodec

Meta 表示,該技術尚未應用在視訊上,但目前已在計畫中,其目標是改進視訊會議、串流媒體電影以及在 VR 中與朋友玩遊戲等的音訊體驗。論文網址

IFENG
作者

鳳凰網(科技),集綜合資訊、視訊分發、原創內容製作、網路廣播、網路直播、媒體電商等多領域於一身,並於2011年在紐交所上市(紐交所代碼:FENG),成為全球首個從傳統媒體分拆上市的新媒體公司。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則