不方便開聲音也沒關係,Pixel 4 Live Caption功能把任何語音即時轉成字幕

不方便開聲音也沒關係,Pixel 4 Live Caption功能把任何語音即時轉成字幕

ADVERTISEMENT

你有沒有這種經驗?當身處公共場合的時候,收到了朋友傳來的影片,但當下實在不方便播出聲音而手上有剛好沒有耳機,就只能看著影片乾瞪眼,不知道影片中的人在說什麼。現在Google在Pixel 4智慧型手機導入Live Caption功能,可以將任何語音即時轉成字幕,解決這個尷尬的問題。

影片的語音也能用「看」的

影片或語音檔案的字幕不但對於聽障朋友來說格外重要,對於所有人來說也都有所用處,比方在公共場合、會議中、夜深人靜時,我們都常常在關閉聲音的情況下關看影片,然而並非所有影片都具備字幕,並且不同App的字幕功能也不盡相同,導致有許多短片、聲音訊息、Podcast等內容無法使用字幕。

為了解決這個問題,Google為Android推出了Live Caption功能,能在裝置上直接將影片、音訊檔案中語音轉換為字幕,更棒的是轉換過程能夠完全在裝置上完成,過程不需要網路連線,因此不但不需負擔數據資費,也可以保護隱私並降低延遲。

▲Live Caption可以解決在靜音狀況下觀看影片的字幕問題。

當我們需要在不方便播放聲音的場合觀看影片,卻又要聆聽語音內容時。(圖片來源:Google,標題圖與下同)

往往都需要注意不要讓聲音干擾到其他人。

這時候只要按下Live Caption的按鍵。

系統就能將影片中的語音即時轉成字幕。

透過AI強化翻譯

Live Caption會在運作過程中調用3個在裝置上執行的深度學習模型,其中包括用於辨識語音的遞歸神經網絡(Recurrent Neural Network,RNN)序列轉導模型(Sequence Transduction Model)、用於辨識標點符號的文字基礎遞歸神經網絡,以及用於分類語音事件的卷積神經網絡(Convolutional Neural Network,CNN),在這3種模型的協同運作下,可以提供完整的字幕,並能加註標點符號,以使用[APPLAUSE]、[MUSIC]等標籤表示鼓掌、音樂等背景音效。

有趣的是,語音事件分類模型不只用於標示背景音效,它還能分辨當下是否有語言,因此系統能在有語言出現時才進行語音辨識,如此一來就能大量降低整體運算需求,發揮降低記憶體用量與耗電量的效果。

至於辨識標點符號的模型,則是在系統將語音轉換為文字後,才開始針對文字進行分析,並切會針對最近識別的句子進行標點符號預測,如果下一個語音辨識結果沒有更改預測條件的話,就能保留先前的預測,同樣能發揮節省電力消耗,並加快辨識速度的效果。

Live Caption會使用3種不同的深度學習模型完成語音對文字的轉換。(圖片來源:Google,下同)

Live Caption屬於系統層級的功能,因此可以跨越不同的App中使用。

目前英文版的Live Caption功能已經可以在Pixel 4和Pixel 4 XL等智慧型手機使用,並會在今年下放到Pixel 3系列機型,Google也計劃將功能推廣到其他其他Android裝置,並提供更多語言的支援,讓更多人能享用這個功能。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則