智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

科技產品的革新浪潮因為人工智慧、深度學習、自然語言處理等等技術而再次啟動,許多老企業新公司相繼投入進行研發或推出各種產品與應用,也為新創團隊創造許多加入市場的機會。參加競賽是新創團隊獲取曝光、資金、輔導、專業咨詢等等資源的場域,更有機會與大企業合作,做為資通訊領域新創團隊的推手之一,「Mobileheros通訊大賽」已經舉辦了15年,更以促進新創意、新技術、新應用為出發點,召募眾家好手參與競賽,今年將鼓勵團隊運用各種人工智慧技術,打造智慧家庭、智慧城市的裝置及應用,讓作品更有溫度、更加人性化、更能聰明的滿足使用者需求。

人工智慧的相關技術很多,其中智慧語音助理因為 Amazon Alexa 已為許多硬體產品所用,具有「動口不動手」極為方便的使用方式,並與使用者的需求及工作、生活情境關聯性強,因此本文以智慧語音助理為主題,從說明Amazon/Google兩強優勢開始,提供他山之石做為參考,並逐一解析硬體/軟體技術及發展趨勢,期待讓有意參加2017年通訊大賽的團隊獲得啟發,同時給任何想投入此領域的團隊做為參考。

從 Amazon Alexa 看智慧助理的應用:智慧助理高智商、數位服務一手包

亞馬遜Amazon的家用音樂播放器Echo依靠具備人工智慧的Alexa,竄起成為數位家庭中樞,2017年CES幾乎就是其主場,家電搭載Alexa瞬間智慧上身,從食衣住行到柴米油鹽醬醋茶,儼然就是全能的智慧小管家,其中核心的關鍵就在具備語意識別能力的自然語言處理技術,在使用各種數位服務時,可以動「口」不動手。

Echo 於2016年在北美家庭掀起一波熱潮,原本產品裡小小的巧思-語音助理Alexa立了大功,也造就2017年初美國消費性電子展CES,沒有參展的Amazon竟然大出風頭。家用音樂播放器根本就是老掉牙的產品、數位語音助理也不是甚麼新玩意,為什麼竟能將早就被打入冷宮的數位家庭再度炒熱?加入了人工智慧(Artificial Intelligence, AI)、深度學習(Deep Learning)、自然語言處理(Natural Language Processing, NLP)的智慧家庭助理,可能會捲起下一波科技產業革命的大浪潮。

從智慧家庭助理的功能與型態來看,碩網資訊總經理邱仁鈿指出,數位生活助理以Echo為例,可以協助人們處理所有可數位化的工作或服務,這部分裝置可再延伸到像Pepper、Zenbo、RoBoHon、Kirobo Mini等具備移動能力,除了數位服務之外還提供學習或陪伴功能的機器人。另外,提供家事服務的掃地、拖地、擦玻璃、煮飯等無法數位化的服務,目前市面上已有多種單一服務的產品,但具備更智慧化,可以處理複合式工作與突發狀況的家事機器人則還需要至少五到十年後才會看到。

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢▲碩網科技總經理邱仁鈿指出,智慧助理可協助人們處理數位化的服務,提供更便利的生活品質。

在語音辨識與人工智慧結合之後,利用語音指令操作硬體設備出現重大突破。亞馬遜在2014年底正式推出Echo聲控揚聲器,並可透過其內建的Alexa語音助理,為使用者提供查詢天氣、訂購商品、控制家中其他電器設備等種種應用服務。

Echo推出後,不僅引發話題,更在消費市場上獲得歡迎。據研究機構Consumer Intelligence Research Partners預估,自2014年底上市以來,Echo揚聲器在美國已賣出超過510萬台。由於Echo揚聲器並非個人消費性電子產品,其銷售型態比較接近一戶一台,因此510萬台這個數字已相當可觀。

有智慧的語音辨識:Amazon、Google 兩強相爭

就在Echo揚聲器取得重大成功之後,同樣在人工智慧領域有深入布局的Google,在2016年底發表Google Home,該產品同樣是搭載語音助理及人工智慧的揚聲器,與Echo在本質上並無太大差異。不過,由於Google本身已經有相當多樣化的雲端服務,因此Google Home所搭載的Google Assistant語音助理,未來很可能會與自家的其他服務進一步結合,以便滿足消費者各式各樣的需求。

但亞馬遜也不是省油的燈,或許是早已預料到其他大廠也將加入智慧揚聲器戰局,該公司早在Echo推出後半年,便宣布將開放Alexa服務給其他開發商使用,同時還提供相關硬體開發套件給其他業者,要藉由生態系的力量來拉開與其他競爭平台的差距。截至目前為止,Alexa已經有上萬項技能(Skills,類似智慧型手機上的App)可供使用者下載,涵蓋領域包含天氣預報、新聞、家庭自動化控制、教育、運動健身等。

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

▲Echo揚聲器所搭載的Alexa語音助理,已經成為一個龐大的生態系統。(資料來源:亞馬遜)

硬體面:麥克風技術、語音訊號處理器商機湧現

智慧語音助理與硬體結合成為優秀的產品或服務,關鍵包括硬體、軟體與雲端。在硬體面,收音系統的設計涉及許多聲學上的專業及複雜的演算法,例如指向性收音、回音消除、背景噪音消除等。而在軟體面,系統除了要聽得懂各種自然語言外,還得考慮各地方腔調、習慣用語等變數,才能提供精準的辨識結果,並進一步將其中的關鍵字萃取出來,轉化成系統能理解的指令。

智慧揚聲器的使用者體驗好壞,主要涉及四大環節,分別是收音麥克風、語音處理器、語音辨識引擎以及雲端上各種應用服務。其中,收音麥克風的設計,是智慧揚聲器能否精準辨識使用者指令的第一道關卡。

一般來說,駐極體麥克風(ECM)的訊噪比(SNR)是最好的,可達70dB以上。截至目前為止,專業錄音室所使用的麥克風,基本上都還是ECM的天下。不過,微機電(MEMS)麥克風的訊噪比近年來也有顯著改善,目前業界的水準可以做到64~65dB,與ECM的差距正在拉近。

不過,ECM有一個先天的缺點,就是採用陣列式設計時,ECM麥克風模組的組裝加工較為困難,MEMS則沒有這個問題,在大量生產時,加工相對簡便。不過,MEMS麥克風先天上對低頻的反應不如ECM麥克風,這也是應用開發商在選擇麥克風元件時,必須特別注意的。

因此,就智慧揚聲器應用來說,未來應該會是以MEMS麥克風為主流。畢竟,在採用陣列式架構的前提下,MEMS麥克風有很明顯的優勢。目前市面上的智慧揚聲器,絕大多數都是採用陣列式麥克風,例如中國科大訊飛和電商平台京東聯合成立的靈隆科技,便推出了採用五顆麥克風的叮咚音箱,亞馬遜的Echo則內建七顆麥克風(圖3),Google Home則只有兩顆。

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

▲Echo揚聲器頂端的周圍與正中央,一共內建了七顆MEMS麥克風。(資料來源:iFixit)

在麥克風接收到聲音訊號後,後續的噪音消除、回聲消除、音源追蹤、背景音消除等功能,原則上都是透過語音處理器搭配各種專用演算法來實現,有些則可以透過更後段的語音辨識引擎來處理。不管是微處理器(MPU)或數位訊號處理器(DSP),都可以扮演語音處理器的角色。

目前市場上最主要的語音處理器供應商,除了與亞馬遜結盟的科勝訊(Connexant)之外,台灣本土IC設計業者驊訊、瑞昱、新唐也都有晶片解決方案。樓氏電子(Knowles)則為了強化其麥克風業務布局的完整性,購併了語音處理技術業者Audience。據了解,聯發科內部也有一支研究團隊正在研究相關題目,更有意要打進亞馬遜供應鏈。

事實上,語音處理器已經是相當成熟的技術,加上半導體效能飛快成長,就硬體的層面來說,針對一般應用,目前市面上有很多平價Cortex-M微控制器(MCU)或入門級DSP,都已經能扮演語音處理器的角色,差別僅在於各家廠商所開發的獨特演算法,可能在不同的特定情境有特殊優勢;又或是某些針對高階語音設備,例如遠距會議設備所設計的專用晶片,以便執行一些非常複雜而特別的演算法。

認識語音辨識技術:動口不動手 人機互動新革命

在資訊時代,人與機器溝通不脫I.O.P.S.(Input、Output、Processing、Storage),而在WinTel主流階段,PC是最重要的資訊設備,溝通工具是鍵盤與滑鼠。進入行動通訊的時代,智慧型手機是核心資訊設備,溝通方式是觸控,原則上人機溝通革新會朝簡化與直覺的方向發展,也會帶動一波新的軟硬體商機;過去的我們就不仔細談了,接下來這波革命,看起來具備人工智慧的硬體(例如Echo)可能會是核心裝置,人們只要透過語音就可以完成心中所想的工作,人機溝通方式再簡化,而其具備的軟硬體技術與帶動的商機,正是這波浪潮的核心。

語音人機互動的方式完全沒有UI,邱仁鈿表示,Alexa的語音分成兩個部分,前段的語音辨識與後段的語意理解,真正的人工智慧是在後段。Echo唯一的關鍵字就是「Alexa」,所有的服務都由此啟動,數據決策技術長尹相志說明,智慧家庭的人機互動以語音為核心,人工智慧的語意理解在機器運算中都是用圖像加上數學邏輯,西歐語系因為邏輯較為簡單,加上由數十個字母,數百個辭彙組成,深度學習技術已經可以破解,除了語音辨識率高達95%~97%之外,解讀語意並產生正確回覆並不困難。

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢▲數據決策技術長尹相志說明,智慧家庭的人機互動以語音為核心,不過由於中文詞彙數量繁多,且中英、中日語言用法夾雜關係,故中文版語音辨識難度很高。

早期的語音控制系統其實並不好用,使用者必須記住很多指令,而且要一字不差地唸出那些指令,系統才會回應。不過,自然語言處理技術(Naturl Language Processing, NPL)取得重大進展,讓使用者不用再背誦指令,可以用很自然、口語的方式表達其意圖,辨識引擎則從中提取出幾個關鍵字,經過演算、拼湊後判斷使用者意圖,並執行相應的指令。

相較之下,中文是目前還未被人工智慧破解的語言,尹相志指出,中文字超過2萬個,辭彙超過百萬,又可以任意組詞產生新的意思,其中又有中英、中日夾雜的用法,加上網路流行的火星文,對機器來說不僅沒有邏輯,也無法回應。因此,預計中文的智慧家庭助理最快要2~3年後才可能問市。

智慧助理推動智慧家庭的發展:導入人工智慧與平台化

隨著智慧助理技術興起,平台經濟的發展變得更細緻與多元,跨邊界(雙向循環)的平台經濟將取代傳統的單向/線性產業服務。基於此,不僅智慧助理硬體設備需持續發展演進,下一步則須強化家中聯網設備與第三方服務商的連結性,以提供額外的加值服務。

舉例而言,Gartner台灣研究總裁蔡惠芬表示,2017年將會看到傳統建商為了增加其產品特性,將智慧家庭產品導入房屋設計中,尤其在中國地區,一些建商甚至會將機器人導入房屋內,其中主要的誘因不單只是為了創造噱頭,而是看中機器人背後所帶出的服務商機,包含醫療、健康、安全甚至是購物等銷售服務,而這也是建商未來可以轉型,提供一體式的產品服務契機,而非只銷售賣一棟房屋就結束。

 

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢▲Gartner台灣研究總裁蔡惠芬表示,現已有越來越多中國建商開始導入智慧家庭產品,其因在於中國建商看中智慧家庭背後的服務應用商機。

智慧家庭目前尚處於萌芽期,雖然聯網問題已被解決,而底層的硬體成本也日趨下滑,但核心發展要素的匯整分析平台依舊還在破碎階段,需歷經三至五年時間才有望趨於完整,而這部分也是人工智慧導入智慧家庭最具挑戰之處。

未來智慧家庭將朝向平台經濟發展,其中,串聯第三方服務則是必備條件,然而在此之中,由誰來劃分拆帳機制、由誰管控服務品質依舊難以界定。換言之,在服務體系與機制尚未建立的情況下,平台經濟發展備受挑戰。現階段,Amazon正積極布局第三方平台整合,故可看出Amazon平台的生態體系中,有很多家電業者、維修服務與加油站等各類業者。不過,智慧家庭在地化服務是核心要素之一,如何將智慧家庭機制與社區融合,與在地商業夥伴整合是非常重要的一環。

現在智慧家庭發展主要重點,第一個是人工智慧,以擺脫傳統監看控制的角色,未來會有更多互動出現;再來,以前可能是針對家中裝置控制為主,之後可能會朝向提供與家庭有關的各式各樣服務,以家庭為核心,將服務範圍擴散到家庭以外的地方,除了與家電的互動,還包括了各式物聯網終端。

生態體系的服務整合平台部分,都是透過智慧家庭助理的語音服務,建立的生態體系而非單一產品。未來,在智慧家庭環境中,最後賺錢的利基市場必為後端服務平台,其中包含家電與電商產業,看中的非硬體,而是最後應用服務為導向的市場。

將各式各樣的智慧應用服務帶入家庭,可說是科技產業追逐已久的大夢,但要如何讓使用者與機器設備自然地互動,卻是人因工程上的大挑戰。就人類的角度,最終極的人機介面應該是用意念來對機器下達指令,但目前相關技術還在基礎研究階段,短期內很難看到商品化的機會;動口不動手,用自然語言來傳達指令,則是次佳的解答。但這項功能在硬體和軟體方面,都有很大的技術挑戰。

有鑑於此,如何建立生態體系是很重要的,或者是在某一個生態體系中扮演關鍵角色,台灣在這個趨勢下應該思考建立自己的平台,不是要自外於國際趨勢或主流平台之外,而是避免過去電商發展的前車之鑑,將相關活動所產生的有價值的金流、資訊流等留在國內,強化台灣特色,透過整體性的思考產生靈活的策略,例如利用台灣硬體技術優勢,投入關鍵零組件研發,掌握藍海商機,此為後續布局智慧家庭所需審慎思考的問題。

他山之石:以2016年通訊大賽的得獎作品為參考對象

本文以智慧語音助理為主題,一個重要原因是其與各種硬體的整合性強,從Amazon Echo即可獲得印証,在此以2016年通訊大賽的得獎作品為例,這些作品如果加上智慧語音助理將可更加人性化,讓使用者透過類似日常聊天的方式啟動所需功能,還可因為連結雲端服務而獲得更多應用功能,就像 Amazon Alexa 的技能。這些作品提供給有意參加2017年通訊大賽的團隊參考。

一、居家照顧智慧助理系統

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

失能者和幼童需要他人幫忙照料日常生活,但我們發現居家照顧人員過勞、心理壓力大;外籍照顧人員因語言不通影響照顧品質,所以我們實作了一套「居家照顧智慧助理系統」,實驗結果顯示本系統能夠有效守護失能者和幼童,試用者的反饋意見也顯示本系統的效用顯著。 利用智慧科技協助居家監控、室內防走失、戶外防走失、尋人導航等等來減輕照顧人員的負擔,並增加其喘息機會,讓家屬更為放心的將失能者或幼童託付給照顧人員。藉由預備訊息和電腦資訊系統的輔助,讓外籍照顧人員可以緊急求救、找路人幫忙、看診掛號、喘息服務申請,解決語言不通問題。作品已解決走失警示和語言不通問題,共有三項發明專利審查或申請中,期待成為照顧者的最佳助理。

二、PARKCUL停車接龍

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

找車位利器來了!針對現有停車格之運用以及時間控管並無效率,設計出「停車接龍」概念,內涵為車位預約與停車是一個不斷循環的接龍狀態,讓車主利用APP透過物聯網搜尋附近閒置之停車格,預約車位、進行配對、設定停車時間,並利用車擋阻止其餘車輛進行停車,當車子靠近該車位時,車擋上裝設的Beacon感應到便會自動下降讓駕駛者停入,有效節省時間。一般停車位App主要為尋找車位功能,但並沒有保留車位的服務,本作品創新之處為確實幫預定車位的駕駛保留他的車位。若使用停車位的車輛超過時間,後一位預定車主可立即通報服務中心,進行拖吊,並給予違規車主不良紀錄,若超過規定次數,則禁止違規車主使用此服務。「PARKCUL停車接龍」能夠減少使用者尋找停車位所排放的廢氣,節省時間並且達到環境保護的效果。

三、TYTO Helmet

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

TYTO是一種貓頭鷹。我們打造的智慧型安全帽,能讓機車騎士擁有更全面的影像,主動避讓後方可能造成危險的行人或車輛,就像是視力很好的貓頭鷹,並延伸為無時無刻守護行車安全的個人助理。本作品針對幾個痛點做解決:(1)塞車問題:透過收集足夠數量的GPS資料,取得車輛行駛的位置及速度,並統計分析這些數據,藉以預測某些時段的路況,主動規劃出最快到達的路線。(2) 行車時必須低頭判讀車速及導航路線的危險行為:提供高速移動中駕駛所需之行車資訊。手機透過藍牙連接車上的OBD,來取得車速、油耗等資訊,並透過我們的裝置將手機導航等畫面直接投影在駕駛前方的擋風玻璃。(3)使用手機的問題:我們打造了一個TYTO 行車助理APP,支援語音、手勢操作並同步手機資訊,來協助駕駛處理更多日常生活中的事情。

四、eyeGo盲人優購

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

「eyeGo盲人優購」專為視障者而設計,經過訪談後發現,視障者希望大家不要覺得他們「不一樣」,並渴望能夠享受自主購物的樂趣。「eyeGo盲人優購」系統包含「eyeGo+」穿戴式裝置,提供以下功能:(1)靠近智能貨架時告知商品資訊。(2)主動掃描資訊給予語音回饋,讓使用者安心選取所需商品。(3)快速辨識商品,讓視障者得知商品資訊。(4) 結帳時免現金,直接由eyeGo支付系統。(5)選購完成後在一小時內送到府,省去提物重物還要步行回家的困擾。購物商場配合使用eyeGo智能物聯銷售系統,功能包括行動輔助裝置、智能貨架、金流交易、物流控管。 本作品以門牌號碼為依據的戶外導航技術,結合智慧室內導航技術,讓視障者享受到科技帶來的新體驗,我們希望讓視障者不受限於眼睛的不便,也能享受到自主購物的樂趣。

五、個人日常作息分析與家庭醫師平台

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

許多青壯年工作時間與長輩生活作息相互錯開或分開居住,長輩年紀大了,如果沒住在一起怎麼進行照顧?我們推出「個人日常作息分析與家庭醫師平台」,包含隨身裝置、感應主機與手機APP,受照顧者配戴隨身裝置,可以做到警示、離床通報、門禁通報、追蹤、用藥提醒,接下來還會整合醫師資料與送餐服務。使用者可由APP完全了解長輩的生活作息,還能知道長輩到哪裡去了,亦可聯繫周邊家庭醫師與特殊病患送餐服務(例如糖尿病患者),對於在家安養的使用者來說,可讓家庭單一照顧者變為群組照顧者,降低照顧者的壓力,也可以讓照顧者正常安心工作。對照顧機構來說,將安養院或醫院人工記錄作息改為自動化大數據智能分析,是本作品創新之處。

六、Voice-HomeAgent

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

我們發現IoT智慧家電的遙控還不夠便利,裝置眾多,整合介面繁雜,而手勢動作辨識也面臨手勢眾多不易記住的問題。我們提出的解決方案「Voice-HomeAgent」是聲控+手機+藍牙耳機,針對整個使用流程重新設計,以藍牙為整個傳輸的通訊標準,並且以手機為聲控中心透過聲音控制家電用品。以手機當成聲控中心,經藍牙連線IoT家電,當此聲控中心不在身邊之際,藍牙耳機可接收講話語音,經聲控中心辨識成指令,再發送指令聲控單一IoT家電,甚至群組化家電統一聲控。當聲控中心為接收來電狀態時,藉由藍牙耳機將來電現況由文字轉語音告知是否為詐騙電話、來電者是誰或訊息語音等附加價值。

七、智慧路邊停車格導引系統

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

駕駛人很難事先得知哪裡有空的路邊停車位,用巡繞的方式碰運氣很浪費時間。我們提出「智慧路邊停車格導引系統」來解決問題,首先在路邊停車格上安裝車輛停放感測器(地雷式),它會偵測停放狀況並透過LoRa長距通訊模組回報給基地台及雲端做處理,接著使用者藉由行動裝置上的CityPark APP做即時閒置車位查詢並導引使用者至該車位。我們以CityPark命名代表著以整個城市為使用場域,讓你不再和停車格擦肩而過。CityPark具備了以下特點:長距離、高穿透,低功耗、城市級場域、跨平台技術、高強度需求、良好UX的APP,並符合目前世界智慧城市設計應用潮流。系統會過數據分析使用率來決定收費價格,有助於舒緩交通及分散停車格的使用。

八、智慧盆栽

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

老人從不會種植到開始種植會遇到很多難題,根據與多位銀髮族的訪談,將近九成的人在第一次接觸種植之後,因為無法解決種植時的難題而放棄。我們推出實體的「智慧盆栽」,它內建螢幕,也有攝影、錄音功能,配合螢幕上的按鈕,按下我要發問即可開始錄下問題,按下相機鈕即可拍攝現在植物的狀況。讓老人在家裡透過語音方式進行植物種植的發問,透過產品的實虛整合,將語音轉成文字,以文字的形式將長者提出的問題發佈至網路上專業種植社群,由社群中的成員以文字回答,透過產品的後台技術,將網路上的文字轉成語音,藉由實體的智慧盆栽以語音的方式發佈,讓銀髮族可以藉由「聽」來獲得解答,在家就可以解決種植時的難題。

2017通訊大賽正在召募團隊

智慧語音助理讓科技產品更聰明,解析Amazon/Google兩強優勢、硬體/軟體技術及發展趨勢

2017 年通訊大賽已經開始報名,今年一樣分成四大類別,分別是「智慧城市應用服務競賽」(報名截止時間為7/25 中午12點)、「聯發科技物聯網開發競賽」(報名截止時間為7/26 中午12點)、「SDN/NFV 創新應用競賽」(報名截止時間為7/27中午12點)以及「4G/5G 多天線系統及 IoT 天線設計競賽」(報名截止時間為9/7中午12點),有興趣的團隊可以到官網報名參加。

在此整理2016年參賽得獎團隊的資料,大家可以連結到各網頁進行觀看,了解他們的作品與想法。

2016通訊大賽「智慧城市應用服務設計競賽」決賽團隊36強出爐!

2016通訊大賽「聯發科技物聯網開發競賽」決賽團隊30強出爐!

2016通訊大賽「SDN/NFV創新應用競賽」決賽團隊9強出爐!

2016通訊大賽「4G/5G智慧終端裝置天線設計競賽」決賽團隊9強出爐!

2016通訊大賽頒獎典禮暨新創成果展實況,372個團隊激烈角逐,各獎項結果出爐,物聯網應用大放異彩

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則