不方便開聲音也沒關係，Pixel 4 Live Caption功能把任何語音即時轉成字幕

你有沒有這種經驗？當身處公共場合的時候，收到了朋友傳來的影片，但當下實在不方便播出聲音而手上有剛好沒有耳機，就只能看著影片乾瞪眼，不知道影片中的人在說什麼。現在Google在Pixel 4智慧型手機導入Live Caption功能，可以將任何語音即時轉成字幕，解決這個尷尬的問題。

影片的語音也能用「看」的

影片或語音檔案的字幕不但對於聽障朋友來說格外重要，對於所有人來說也都有所用處，比方在公共場合、會議中、夜深人靜時，我們都常常在關閉聲音的情況下關看影片，然而並非所有影片都具備字幕，並且不同App的字幕功能也不盡相同，導致有許多短片、聲音訊息、Podcast等內容無法使用字幕。

為了解決這個問題，Google為Android推出了Live Caption功能，能在裝置上直接將影片、音訊檔案中語音轉換為字幕，更棒的是轉換過程能夠完全在裝置上完成，過程不需要網路連線，因此不但不需負擔數據資費，也可以保護隱私並降低延遲。

▲Live Caption可以解決在靜音狀況下觀看影片的字幕問題。

▲ 當我們需要在不方便播放聲音的場合觀看影片，卻又要聆聽語音內容時。（圖片來源：Google，標題圖與下同）

▲ 往往都需要注意不要讓聲音干擾到其他人。

▲ 這時候只要按下Live Caption的按鍵。

▲ 系統就能將影片中的語音即時轉成字幕。

透過AI強化翻譯

Live Caption會在運作過程中調用3個在裝置上執行的深度學習模型，其中包括用於辨識語音的遞歸神經網絡（Recurrent Neural Network，RNN）序列轉導模型（Sequence Transduction Model）、用於辨識標點符號的文字基礎遞歸神經網絡，以及用於分類語音事件的卷積神經網絡（Convolutional Neural Network，CNN），在這3種模型的協同運作下，可以提供完整的字幕，並能加註標點符號，以使用[APPLAUSE]、[MUSIC]等標籤表示鼓掌、音樂等背景音效。

有趣的是，語音事件分類模型不只用於標示背景音效，它還能分辨當下是否有語言，因此系統能在有語言出現時才進行語音辨識，如此一來就能大量降低整體運算需求，發揮降低記憶體用量與耗電量的效果。

至於辨識標點符號的模型，則是在系統將語音轉換為文字後，才開始針對文字進行分析，並切會針對最近識別的句子進行標點符號預測，如果下一個語音辨識結果沒有更改預測條件的話，就能保留先前的預測，同樣能發揮節省電力消耗，並加快辨識速度的效果。

▲ Live Caption會使用3種不同的深度學習模型完成語音對文字的轉換。（圖片來源：Google，下同）

▲ Live Caption屬於系統層級的功能，因此可以跨越不同的App中使用。

目前英文版的Live Caption功能已經可以在Pixel 4和Pixel 4 XL等智慧型手機使用，並會在今年下放到Pixel 3系列機型，Google也計劃將功能推廣到其他其他Android裝置，並提供更多語言的支援，讓更多人能享用這個功能。