麻省理工和微軟提出了全新的自動駕駛訓練方式,幫助無人車在遇到意外時做出更好的決策

為了解決這一問題,MIT和微軟的研究人員使用了一種Dawid-Skene的機器學習演算法。該演算法會為系統的行為分別打上「可接受」和「不可接受」兩種標籤,以此來判斷系統在處理每個情況時,決策策略究竟是「安全」還是出現了「盲點」,再以此最佳化標籤的可信度。

市場運力嗷嗷待哺,科技公司和汽車廠商們前赴後繼揮金如土,無人車路測也早已不是什麼新鮮事,但自動駕駛的到來卻沒有想像中那麼一蹴而就。至少這兩年,它的煩心事還挺多。

在美國無人車政策最友好的亞利桑那州,兩年間就發生了至少21起民眾騷擾自動駕駛車輛和監督人員的事件,甚至還有人持槍嚇唬監督人員,要求無人車滾出街區。

之所以犯了眾怒,根本原因還是技術性失敗太多了。資料顯示,2014-2018年,加州自動駕駛事故的發生率連年增長,GoogleWaymo、通用Cruise、蘋果、TRI(豐田研究所)、Drive.ai、UATC(Uber)等巨頭一個都沒能倖免。

麻省理工和微軟提出了全新的自動駕駛訓練方式,幫助無人車在遇到意外時做出更好的決策

縱然謹小慎微,依舊動輒得咎,無人車表示心裡很苦。

經過數年的發展,自動駕駛的感知技術已經取得了長足的發展,高精度感應器和鏡頭早就是標配。技術困境中的自動駕駛,恐怕需要一個更天秀的決策系統,來挽救自己日漸失去的人心。

而最近,這個救世英雄好像真的出現了。

防無人車甚於防川?自動駕駛的老問題與新解法

從加州機動車輛管理局(DMV)剛剛披露的《2018年自動駕駛接管報告》中,我們可以得出一個基本結論:

自動駕駛初級階段的基本矛盾,是人民日益增長的自動化期待值同落後的無人車駕駛技術之間的矛盾。

事實證明,儘管原本對無人車認路造成限制的空間感知能力已經大大增強,也沒能幫助它們很好地適應現實世界。這也就不能怪大眾對無人車上路沒啥好臉色了。

像是惡名昭著的「Uber 無人車事件」,就是在探測到行人的前提下,系統卻認為當前的位置不足以阻擋正常的駕駛行為,於是選擇了以61公里的時速繼續前進,沒能留下足夠的反應時間。

明明已經在實驗室裡接受過「遇到障礙物主動煞車」的培訓了,但真正上路時,做出準確而符合邏輯的判斷,對自動駕駛汽車來說依然是一件相當有難度的事情。

「心太大」容易釀成事故,太「肉」也有可能成為眾矢之的。鳳凰城裡,Waymo在每個有停車標誌的地方都會停車至少三秒鐘,讓排在它後面的人類司機十分抓狂,沒少受市民的吐槽。

目前看來,能為自動駕駛汽車挽回尊哭的,只有風險控制和效率的決策系統了。

但遺憾的是,很多現實中人類可以輕鬆處理的交通狀況,機器就是無法做出準確、高效迕又足夠謹慎的判斷。因此,自動駕駛在很長一段時間內,還要依靠人工操作來彌補系統智商與人類期望之間的差距了。人工接管頻率也因此成為了評價自動駕駛技術最重要的指標。

根據DMV的報告,技術最出色的Waymo,平均跑17846.8公里才需要人工接管一次;而被吊銷了路測資格證的Uber,跑0.6公里就要被接管一次,這是想累死自家的監督人員呀!

麻省理工和微軟提出了全新的自動駕駛訓練方式,幫助無人車在遇到意外時做出更好的決策

在一份Google提交的報告中,14個月的路測中自動駕駛和汽車就有272次汽車主動脫離無人駕駛狀態,還有69次監督人員決定接過控制權。Google表示,如果沒有監督人員的介入,無人車可能會發生13次交通碰撞事故。

在這種情況下,加州不得不規定,未來所有無人自動駕駛汽車公司都要設立遠端人工控制室,在意外情況時能夠接管汽車駕駛工作。

麻省理工和微軟提出了全新的自動駕駛訓練方式,幫助無人車在遇到意外時做出更好的決策

但如果以為只要有人類接管就能萬事大吉,那可就太天真了。且不論未來全靠人工來解決無人車的意外問題,需要多麼龐大的人工成本。就自動駕駛汽車現在這智商,讓它獨自上路,就算能在雲端看著也不放心啊。

治本的辦法,還是要讓無人車學會在沒有人類干預的情況下完全自動而安全地控制汽車。這可能嗎?

麻省理工和微軟最新的研究成果,就有可能讓系統在訓練過程中就認識並改正自己的錯誤操作,從而在實際駕駛中能夠處理那些現階段只能由人來判斷的意外狀況。

人類的新角色:從幫無人車收拾爛攤子,到機器智慧訓練師

在最新的研究中,麻省理工和微軟提出了一個全新的自動駕駛訓練方式,來幫助無人車在遇到意外時做出更好的決策,而不是出事了才手把手地給它收拾爛攤子。

前期工作和傳統的訓練方法一樣,研究人員對自動駕駛系統進行全方位的仿真訓練,以便為車輛上路時可能遭遇的每一件事做好準備。

不同的是,當自動駕駛汽車被部署到現實世界中運行時,新的「認知盲點訓練」才剛剛開始。在自動駕駛測試車沿著預定的路線行駛時,人類會時刻密切地監視系統的行為,但核心任務並不是幫牠救急,而是讓它觀察,在遭遇意外狀況時,人類會怎麼做。

如果汽車的行為是正確的,那人類就什麼也不做。如果汽車的行動偏離了人類行為,那麼人類就會接管過方向盤。此時,系統就會接收到一個訊號,在這種特殊情況下,哪種才是可行的方案,怎樣的操作是不能被接受的。

透過收集系統發生或即將發生任何錯誤時人類的回饋資料,系統就有了一個人類回饋行為清單。研究人員將資料結合起來生成的新模型,就可以更精確地預測出,系統最需要如何採取哪些正確的行動方式。

麻省理工和微軟提出了全新的自動駕駛訓練方式,幫助無人車在遇到意外時做出更好的決策

值得注意的是,在這個訓練過程中,系統可能會接受到很多個相互矛盾的訊號。

比如在系統眼中,和一輛大型汽車並行巡航時不減速是完全OK的,但如果對方是一輛救護車的話,不減速就並行就會被判錯誤。

高度相似的情境,人類會做出截然相反的反應。這種決策時的模糊地帶,也是目前自動駕駛系統最容易犯錯的地方,也是需要重新認知的「盲點」。

為了解決這一問題,MIT和微軟的研究人員使用了一種Dawid-Skene的機器學習演算法。該演算法會為系統的行為分別打上「可接受」和「不可接受」兩種標籤,以此來判斷系統在處理每個情況時,決策策略究竟是「安全」還是出現了「盲點」,再以此最佳化標籤的可信度。

經過反複測試,系統會記住遭遇過的模糊情境,並根據標籤推算出一個「犯錯比」概率。

舉個例子,如果系統在救護車情境中有10次執行了9次正確的操作(減速/停車),那麼就會將這種特殊狀況下的選擇標記為是安全的。

簡單來說,搭載了「犯錯比」的自動駕駛系統,在人類的幫助下建立了一個可供自己反思的「答錯題庫」,面對往常容易出錯的「認知盲點」和模糊情境時,就可以調取出可被人類所接受的行為方式,更加謹慎和明智地信息行動。

人類的一小步,自動駕駛的一大步?

從實用性來看,該研究還面臨一些現實問題。

比如說一般情況下,不可接受的行為比可接受的行為少得多,這就意味著,透過概率計算訓練出的系統,很可能在實際操作中預測所有情況都是安全的,這無疑是極其危險的。

這種新的訓練方式真正的潛力在於,憑藉符合常識的操作,讓自動駕駛有了更光明的前景。

首先,由於人類的高度參與,自動駕駛在真正上路之前,能夠很好地預測在新的情況下可能會採取不正確的行動。過去,這些只能被動地等待監督人員或雲端人員處理。

正如賓夕法尼亞大學教授Eric Eaton所說的那樣,「這項研究讓機器智慧和現實世界之間的不匹配來到了一個轉折點,直接從人類對系統行為的回饋中推動機器智慧的進步。」

麻省理工和微軟提出了全新的自動駕駛訓練方式,幫助無人車在遇到意外時做出更好的決策

另一方面,「人工」+「智慧」的解決方案,也破除了造成「AI具有超能力」這一錯覺的伊利沙效應(Eliza effect)。在一些複雜多變的現實世界中,人類處理「盲點」的能力遠比AI更出色。

這有助於將自動駕駛從過度樂觀和過度悲觀的兩種極端情緒拉回到中間狀態。

於是我們知道,自動駕駛的發展,既不像大眾期待的那種「一步跨進自動化」,也不像唱衰者眼中那麼淒風苦雨,要等數十年才能信任AI駕駛。

在振盪中前進,才是AI進入生活最真實的樣子。

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則