這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性

這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性

在本屆 I/O 上,Google 為障礙人士帶來的福利,不止前面提到的 Google Assistant 的進化這一項。關注科技進展的朋友可能都聽說過,即便是在基於神經網路的人工智慧中,也存在偏見 (bias)。這偏見可能來自於 AI 的開發者,但更多時候原因是結構化的。比方說,作為訓練資料的有色人種照片太少,訓練出的人臉識別系統對有色人種的表現就很差。

同樣,當訓練語音識別和自然語言理解系統時,我們需要使用大量中文或者英文的高準確度語料。但是,許多開發者沒有想過的是:發音障礙人士(比如聾啞人)的口頭表達能力很差,他們的發音對於普通人來說很難理解——那麼,他們就不配享受語音識別和自然語言技術進步帶來的成果嗎?

Google 顯然不這樣認為。在 I/O 2019 上,該公司宣佈了內部正在做的幾個專門解決此類問題的項目。

Project Euphonia 就是這樣一個計畫。Google AI 的研究人員和世界上致命的「漸凍人症」(ALS)救助機構合作,瞭解患者對於溝通的需求和最大的渴望是什麼。研究人員將漸凍人症患者有限的語句錄下來,轉成聲譜圖的視覺形式,將它作為訓練資料喂給神經網路。

這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性

儘管 Project Euphonia 還在研究階段,強化過的語音識別系統對發音障礙人士的魯棒性已經達到了商業化(比如 YouTube 自動生成字幕)的水準。

但是,每一位障礙人士面臨的障礙千差萬別。比如深度漸凍人症患者和高位截癱患者,往往連說話的能力都被剝奪,有些人只能發出「無意義」的聲音,有些人還能做面部表情就已經是奇蹟。在過去,這些人使用網路,只能通過眼球追蹤的滑鼠/打字板,對交流形成了巨大阻礙。

針對不同的身體和認知障礙情況,Project Euphonia 的研究人員找到一種特製化 AI 演算法的方式,對聲音、表情進行學習,現在已經能夠準確地理解並傳遞患者想要表達的內容或者情緒,並控制電腦完成對應的操作。

在一個示範影片當中,一位十三年深度 ALS 患者 Steve Saling坐在輪椅上看球賽,當他支援的隊伍進球時,系統識別到了他的表情,並播放了歡呼和喇叭的音效。

這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性

另一個名叫 Live Relay 的功能,在某種程度上和去年的 Duplex 電話機器人非常相似。它的任務是幫助聾啞人打電話。

Google 遇到的一個案例是,一位以色列聾啞人怎麼都弄不好他家中的網路,但是網路公司除了電話之外沒有其他任何客服方式——沒有電郵、簡訊和打字聊天。而透過 Live Relay,聾啞人獲得了一個能通過語音和對方正常交流的「代理人」,而他自己只需要打字或者用 AI 生成的短語控制這個代理人即可。

有了這個技術,聾啞人也能和其他人利用電話交流了。

在這個 AI 技術進步的年代,AI 應當為了所有人而開發,它帶來的進步不應該只被一小部分人所感受到。或許,如果像 Project Euphonia 這樣的技術早幾十年誕生,正好趕上霍金的輝煌年代,該有多好?

 

讓每一個人的生活更輕鬆

所有人,當然也包括大部分人。儘管對障礙人士格外看重,Google 今年也沒有忘掉一般用戶。

前面提到的 Google Assistant 改進、Duplex on the web 技術,其實對所有人的生活都能帶來改變。除此之外,橫跨 Google 整個產品陣列,在今年的 I/O 大會上都有值得一提的功能更新。

Google 在兩年前才在手機端 app 裡整合了 Google Lens 技術。不過和同類視覺搜尋產品相比,Google Lens 的進化速度未免有點快……

I/O 2019 大會上,Google Lens 獲得了一個許多用戶可能都用得上的功能:AR 點菜……

聽到名字你可能覺得無聊,點菜就點菜,搞什麼 AR?別著急,其實這個功能蠻簡單也挺有用:在餐館裡,對著一張全是文字的菜單拍照,手機會自動告訴你那幾道菜評價最好,甚至還能給你調出幾張照片,方便你點菜。

這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性

不像我們常去的餐廳菜單都會放上照片,很多歐美餐館菜單都是純文字,上面只有菜名和用料,更別提大部分人對用料的英文也一知半解,經常出現點完了還不知道自己在吃什麼的情況。

而這次 Google 推出這個功能,讓我明白了一點:原來不只是中國人,點菜對全世界人民都是個難題啊……

 

自動幫你計算拆帳:在美國吃飯大家都喜歡各付各的,但也會經常遇到餐館不收多張卡的情況,再加上小費,每個人該付多少很不好算。而 Google Lens 現在有了一個新功能,用相機拍一下收據,Lens 會自動識別金額,按照用戶希望的比例計算小費,最後再算出分單的金額——一個挺有用也挺有趣的功能。

這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性

 

Federated Learning:讓你不用擔心私人資料被上傳用來訓練AI

在AI時代,各廠商都需要用戶的資料來訓練大數據,但是用戶都擔心自己的資料被盜用。而現在, federated learning 或許可以解決這個問題。

用戶的資料不需上傳,只在本地端訓練一個簡單的獨立模型,之後再將這個模型上傳(不攜帶可識別或不可識別的用戶資料)至雲端進行計算,整合出一個AI模型,再下載到用戶的終端設備上。

這樣做,用戶即能感受到基於深度學習的人工智慧技術帶來的好處,又避免了自己的資料被上傳。Google 透露,目前 Gboard 輸入法就在採用 federated learning 技巧。

這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性
這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性

 

Android Q的重要功能搶先揭露

當大家不想自己的瀏覽記錄被追蹤和記錄,特別是瀏覽某些不可名狀網站的時候,都會打開 Chrome 瀏覽器的隱身模式 (incognito mode)。

現在,Google 計畫更多的產品支援隱身模式。比方說,你臨時需要查看一個 YouTube 影片,但是不想今後自己的推薦裡出現大量類似的影片,點一個按鈕就可以在 YouTube 裡打開隱身模式。目前 YouTube 已經支援,不久後 Google Maps 和 Google 搜尋也將引入隱身模式。

這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性

 

Live Caption:讓沒有字幕的影片也能產生字幕

在聲音嘈雜或情況複雜的環境裡用手機看影片,想要聽清楚聲音是不實際的。問題是,不是所有影片網站都有字幕功能,不是所有內容提供者都考慮到觀眾的需求添加了字幕。所以 Google 做了這個功能,基於一個幾十 kb 大小的AI模型,完全利用手機本機端的運算能力,能夠對任何手機端播放的影片媒體(Twitter、Instagram、本地影片等)生成即時字幕。

這些將用在Android Q上的新技術,讓你想起那句老話:科技始終來自於人性

Live Caption 的開關在音量調節的界面裡,按一下手機音量+或者-按鈕就可以看到。該功能將隨 Android Q 在今年夏天推出。

Focus Mode防分心模式

延續現在最新版本的Android系統,Android Q在用戶手機使用時間管理上,再新增一個新模式「Focus Mode」,讓用戶選擇幾個容易讓自己分心的App,在該模式下不能使用,這些App也不會送出提醒訊息,確保用戶能專心工作或是讀書。

科技始終來自人性

多年以來,驅動 Google 進步的技術,已經從搜尋變成了 AI,用戶群也從北美進化到全世界。與此同時,使命卻一直沒有改變:整合全球資訊,使人人都能瀏覽並從中受益。(organize the world's information and make it universally accessible and useful.) 

這意味著,Google 的產品和技術,必須可以被所有人使用,並且對所有人有用。而 Google 在 I/O 2019 上發佈的諸多功能,皆是為了兌現這一承諾。

最近兩年來,Google 將「無障礙使用」(accessiblity) 作為技術創新的重點。如果一個產品無法被所有人所使用,那麼它可能不是一個具備同理心的產品,會導致用戶的疏遠,進而導致社群的隔閡。

科技始終來自於人性,已經不只是諾基亞的口號。

 

PingWest中文網
作者

PingWest是一家全球視野的尖端科技媒體,提供關於中國與美國的最尖端科技創業資訊,致力於成為溝通這兩個全球最大互聯網/移動市場的互聯網社群。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則