線上會議自動去除背景雜音,保留乾淨人聲,還能自動產生完整的文字會議記錄

線上會議自動去除背景雜音,保留乾淨人聲,還能自動產生完整的文字會議記錄

因為疫情的關係,過去這兩年,遠距離居家辦公、線上會議或線上課程成了生活的常態,甚至有可能未來就這樣改變了工作或學習的面貌,許多企業都在評估有沒有可能減少固定辦公座位的空間,來節省租金。

但在家上班有在家上班的問題,像是開會時,有人亂入,或是家中的環境等隱私問題,不過這些都可以靠軟體用背景圖等方式解決;另一個是居家周圍充斥著各式各樣的背景噪音,隔壁工地蓋房子、小巷子裡的汽車喇叭聲,往往讓會議中的音訊吵雜不堪。這有沒有辦法用軟體解決,還是只能買更好的硬體,此外,由於會議於線上舉行,許多資訊常常以網路音訊傳播而缺少文字紀錄,造成後續容易忘記會議重點等。

在今年的通訊大賽中,有一個團隊為了解決線上會議的各種問題,提出他們的解決方案,就是我們今天的來賓,仁寶研發中心新應用發展本部人工智慧實驗室資深經理陳怡欽、仁寶新創團隊Plaiser的研發中心技行研發室主任工程師陳經宇和研發第二本部研發二處軟體二部工程師湯道文來和我們聊聊他們的作品「後疫時代 AI 遠端協作助手」。

Q:「後疫時代 AI 遠端協作助手」這個產品想要解決什麼問題?

A:最早我們都在做智慧家庭相關的語音應用,疫情發生之後,發現大家對於聲音的需求更為明顯。在線上會議需求大增後,對於聲音的品質要求更高。在這個基礎下,我們想要解決這個問題。

 

Q:疫情之後,遠距會議變多,想要有好的通訊品質除了頻寬之外,收音的設備也很重要,「後疫時代 AI 遠端協作助手」能在不提升硬體的情況下改善這個情況嗎?

A:麥克風的價格和品質差異很多,從麥克風收進來後的人聲和噪音,我們會用AI的技術先把人聲和噪音分離,把人聲保留,把噪音去除,最後輸出乾淨的人聲。

 

Q:「後疫時代 AI 遠端協作助手」的運作方式和原理是什麼?動用了哪些技術?

A:在電腦端安裝軟體、把實體麥克風收到的聲音導入軟體的虛擬麥克風中,然後用軟體裡的降噪模型來處理,再輸出去到對方的裝置中;同樣,遠端送進來的聲音,也透過這樣的處理再輸出。

 

Q:這些運作是需要在雲端處理還是本地端?

A:降噪的部分在本地端就可以,文字稿則是要到雲端處理。

 

Q:透過「後疫時代 AI 遠端協作助手」的處理,聲音可以清晰多少?

A:如果麥克風收音品質不要太差,我們可以保留80%、90%的人聲,同時去除80%、90%的雜音。裝置愈好,處理出來的結果愈好。

 

Q:想要使用「後疫時代 AI 遠端協作助手」,電腦需要達到什麼等級?

A:基本上現在一般Intel i5等級的CPU就可以跑得很順了。

 

Q:「後疫時代 AI 遠端協作助手」除了降噪還有哪些功能?

A:降噪之後可以取得乾淨的聲音,透過辨識可以得到文字檔案,再經由共同協作的AI等功能,就可以得到完整的會議記錄。整個想法以線上會議為出發點,所以先取得乾淨的聲音,然後把聲音變成文字、然後提供一個平台給參與線上會議的人可以對這些文字做修改整理。

 

Q:目前Voice to text的產品很多,「後疫時代 AI 遠端協作助手」改良了哪些部分?

A:目前的手機等裝置都是通用型的,極大化時適用每一種人每一種情境,我們可以為使用者專業領域詞彙、個人的聲音模型等等更為個人化的特性。

 

Q:疫情之後,有許多線上會議的平台和服務推出,你們的解決方案有什麼不同?

A:我們不是平台,是一個功能。所以你也可以在使用這些平台的服務時,使用我們的產品,讓通話時的聲音更清楚。

 

Q:講話本來就是最自然的輸入輸出方式,未來應用語音的場景會愈來愈多,在這種語音辨識的發展上,還有哪些可以努力的方向?

A:元宇宙。

T客播
作者

這是T客邦網站所製作的Podcast節目。我們會邀請跨領域的工作者來節目中分享跟科技有關的看法。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則