2014.07.05 12:00

使用者的眼神、話語透露出了更多訊息

ADVERTISEMENT

許多動作諜報片裡頭,都曾出現過各種身份辨識場景,例如指紋辨識、密碼辨識、虹膜辨識、臉形辨識、語音辨識等,其中語音辨識即辨識人的聲紋,類似潛艇下水後,推進旋葉轉動所產生的噪音,是獨一無二的,每艘都可唯一辨識(即便兩艘潛艇完全使用相同藍圖打造,聲紋也會不同)。

聲音可作為身份辨識,但感冒期間就不適用,臉形辨識也因化妝、氣色、年齡歲月等而有所偏差。聲音辨識還有其他用途,如語音輸入,用語音取代傳統鍵盤打字,此方面以IBM、Microsoft發展較早,早期的語音輸入還必須了解個人的聲音特性,也就是先依據指示,朗讀一段文字,讓軟體學習了解發音者的語調特性後,才能正常辨識成文字。

ADVERTISEMENT

▲語音辨識已成為汽車中使用電子設備的重要輸入指令介面技術(Source:)

而到了近年,如Apple Siri、Google Now等,完全不用事先朗讀,即可辨識發話者的語音,並化成文字;不僅化成文字,也能化成文字對應的命令,而能對手機、平板等裝置進行操控,如天氣查詢、音樂播放等。相同作法也積極轉移至汽車,駕駛在操控方向盤、排檔時,仍可了解車內外相關訊息。

此外,筆者上網觀看Google I/O 2014主講視訊時,遠端也是透過語音辨識方式,直接把講者的話語轉成文字,成為可選擇開啟的字幕,雖然有些辨識不太精準,但感覺仍有90%以上的正確性。

ADVERTISEMENT

聽出語音中的情緒



▲人臉及聲音都透露出一個人的情緒,若能清楚辨識,則有很大的應用空間。(Source:)

更神奇的是,日本Sgi公司的研究部門(已屬NEC)發展出語音辨識情緒,將人的情緒分成6類,每類10個刻度。情緒辨識有多種應用,例如讓客服人員了解是否安撫了來電抱怨者的情緒,以此為參考是否該繼續溝通或可以收線;餐廳的氣氛是熱鬧或冷清,而對應調整餐廳的燈光與音樂;汽車內的駕駛情緒是緊繃或放鬆,而對應調整安全氣囊、緊急煞車系統的安全靈敏度;電子寵物如Aibo電子狗也可以了解主人的情緒,而有保守或活躍的表現。

眼神中的訊息

人的話語有如此多意涵,而人的眼球也是,除了前述的虹膜獨一身份辨識外,上世紀90年代後期,即有人研發眼珠座標操控,以視訊攝影機觀看人的眼球移動,來替代滑鼠的X、Y座標游移。

ADVERTISEMENT

既可以當滑鼠,也可以當鍵盤,將座標改成鍵盤方格,以眼神的關注移動來進行輸入,電影與電視版的「一公升的眼淚」中,女主角(木藤 亞也)因罹患小腦萎縮症,身體逐漸退化而難以操控,最後只能用大紙板,上頭書寫各種日文字母,以手指方式逐一指出字母,以拼湊出她想表達的意涵。一公升的眼淚是1970-1980年代的真實故事,當時尚未有眼球追蹤技術。

▲一公升的眼淚是1970-1980年代的真實故事,當時尚未有眼球追蹤技術。()

ADVERTISEMENT

除了當鍵盤、滑鼠使用外,Google眼鏡也可運用眼球進行操控,例如眨眼拍照,雖然這項功能受人爭議(容易侵犯隱私),但Google仍未放棄眨眼功能,在Google I/O 2014相關課程中仍有提及。

最後,眼神也透露一個人的精神狀態,目前已有業者研發在車內安裝攝影機,用攝影機監視駕駛的眼球,從而辨識其精神狀態,若開始有倦容,就會拉高汽車安全系統(氣囊、煞車、防翻滾)機制靈敏度,若開始晃神打瞌睡,就會發出聲響警示,提醒當專心開車。

▲現在的視覺辨識技術可透過眼睛或臉部表情來分辨駕駛的精神狀態。

手語也能辨識

除了語音、眼神外,人們也在研發各式各樣的自然辨識技術,例如在啞胞的雙手各手指上套上指環,一旦他表現手語,指環內的加速度感測器開始傳出數值,透過電腦運算即可顯示手語的意涵,如此即便不懂閱讀手語,也能了解想表達的內容。類似的概念,有人做出拿著手機在空中以手勢簽名的辨識技術,應該也能做手語辨識;說不定日後可直接影像辨識完成,可能連套指環、手機都不需要。

Sign Language Ring可以辨識手語並轉為聲音,對啞胞很有幫助。(圖:futr.io)Sign Language Ring可以辨識手語並轉為聲音,對啞胞很有幫助。(圖:futr.io)

延伸閱讀:

ADVERTISEMENT