Google發表了名為Audio-Visual Speech Separation的音訊分離技術，能夠透過分析影像以及聲音的特徵，將影片中各人物所說的話分離成獨立音軌，如此一來就能讓觀眾在雙人同時講話的影片中，自由選擇要聽誰的語音，此外這項技術也能用來分離背景雜音，強化視訊通話時的音質表現。

人工智慧協助分析

當人類專注於聆聽某個人說話時，頭腦會「自動調低」其他人與環境雜音的音量，讓人可以在吵雜的場合也能彼此交談。然而要透過電腦將各別人物的語音單獨抽離出來，仍然是個相當艱鉅的挑戰。

Google的軟體研發團隊在《Looking to Listen at the Cocktail Party》一文中，提出了透過深度學習與聲音-影像模型的方式分離語音的技術，能夠強化影片中特定人物的語音，並消除其他人的聲音與環境音。

這項技術最大的特色，在於它會同時分析影片中的影像與聲音，透過辨識人物表情的變化，提升辨識精準度，同時它也能應用於一般單聲道影片，系統會自動辨識影片中的人物與聲音，觀眾需要做的只要點選影片中出現的人臉，就能只聽到他的聲音。

在研發過程中，團隊引用了100,000支YouTube只有單一講者的無干擾演講影片，並將這些總時數長達2000小時的影片混入其他演講影片與背景雜音，以用於訓練多重串流卷積神經網路（Multi-Stream Convolutional Neural Network），讓人工智慧發揮分離音訊的效果。

▲ Audio-Visual Speech Separation技術可以將影片中不同人的聲音分離。（圖片來源：Looking to Listen at the Cocktail Party，下同）

▲ 該技術不但會分析聲音，也會分析影片中人物的嘴型與表情。

▲ 在人工智慧的協助下，這項技術能夠分離多個人物的語音與背景雜音。（圖片來源：Google Research Blog）

實際效果展示

開發團隊也公佈了許多Audio-Visual Speech Separation的展示影片，讀者可以從下列影片中看出這項技術的效果確實十分出色。

▲隨著影片的播放，可以看到切換到不同音軌時，就只會出現指定人物的語音。

▲原始影片為2人激烈爭論，在Audio-Visual Speech Separation的處理下，可以讓觀眾選擇只聽右方主播的聲音。

▲Audio-Visual Speech Separation也能用來消除背景雜音。

▲這項技術也可以應用於強化視訊通話的音質表現。

開發團隊表示Audio-Visual Speech Separation除了有助於讓觀眾選擇想要聆聽的人物聲音之外，也能用來消除背景雜音，強化影片與視訊通話的音質表現，此外將音訊分離後也有助於提升語音辨識系統自動產生字幕的精確度，適用範圍相當廣泛，Goolge也在研究如何應用於其他Goolge產品上，或許在不久的未來就能在更多地方看到這項技術。