為確保 Bard 能給出高品質答案不再出錯,Google要員工糾正它給答案、修正訓練

為確保 Bard 能給出高品質答案不再出錯,Google要員工糾正它給答案、修正訓練

不久前,Google在內部發起了代號為「鬥狗」的活動,要求公司所有員工每週用兩到四個小時幫助測試和改進其新的人工智慧搜尋聊天機器人 Bard。

就在 Bard 發佈前不久,微軟也剛剛發佈了採用 ChatGPT 聊天機器人背後技術的新版必應搜尋引擎,它允許使用者就幾乎任何話題進行多輪對話。然而,在 Bard 被發現提供了一個錯誤的答案後,對於Google的質疑也逐漸浮現。同樣,隨著越來越多的人測試了Bing聊天機器人,他們也遇到了問題,比如其傾向於好鬥的行為。

像 Bard 和 ChatGPT 這樣的 AI 聊天機器人,可以通過接受人類編寫的文字訓練來模仿人類對話,這就解釋了為什麼必應的回覆有時候看起來有些情緒化和不可預測。畢竟,被訓練得像人一樣的機器人也很容易犯下人類的錯誤。

為確保 Bard 能給出高品質答案不再出錯,Google要員工糾正它給答案、修正訓練

這些聊天機器人最初通過攝取大量的訓練資料來完成大部分學習。此外,Bard 的產品主管傑克・克勞奇克 (Jack Krawczyk) 在一份備忘錄中告訴員工,Google的研究發現,為使用者查詢新增高品質的回應「顯著」提高了其 AI 模型的品質。

據多位 AI 專家透露,Google員工可能會為 Bard 編寫高品質的答覆以改進其模型。這些專家已經在 AI 和大型語言模型領域完成了廣泛的研究。

克勞奇克讓員工向 Bard 詢問他們自己擅長的領域,比如最喜歡的興趣愛好。然後,他們被要求評估 Bard 的答案,以確保這些答案符合人們的期望,長度和結構也都要合理。如果某個答案過於人性化、存在事實錯誤或者沒有任何意義,員工可以重寫答案並提交給 Bard 的模型訓練。

英屬哥倫比亞大學電腦科學助理教授韋德・舒瓦姿 (ved Shwartz) 表示,要想持續改進 Bard,Google可以採取監督式學習和強化學習相結合的方式。

其中,監督式學習是第一步,研究人員可以向聊天機器人輸入人類編寫的查詢和答案,直到它學會如何像人類那樣回覆。在此基礎上,Google可以建構一個強化學習模型,用Google員工寫的答案來訓練它,以幫助它理解該公司希望 Bard 的答案展現哪些價值觀,包括在結構、語氣以及其他方面加以改進。

這個強化學習模型會查看 Bard 給出的答案,剔除其中不合適的答案,並驗證合格的答案,直到聊天機器人明白它應該如何行事。基本上,來自Google員工的“正確”答案將幫助該模型改進。

強化學習模型還可以教會 Bard 在不談論情感或以其他方式假裝人類的情況下提供資訊。第一種模型主要學習基本的寫作技巧,而第二種模型將引導機器按照預期的方向回答問題。

哥倫比亞大學電腦科學教授周宇 (音譯) 說,有了足夠好的答案進行分析,強化學習模型就能知道哪些是合適的答案,哪些是不合適的答案。

確保答案正確沒那麼簡單

Google始終對推出聊天機器人持謹慎態度,可能是因為其可能對搜尋業務利潤產生短期影響,並擔心精準性。Google要求員工拒絕回答 Bard 試圖就金融或健康等敏感話題向使用者提供建議的問題,因為回答錯誤的風險很高。

AI 領域始終在努力解決事實精準性問題,OpenAI 在 1 月份發佈了更新,以提高 ChatGPT 在各種話題上對話的精準性。本月在舊金山舉行的一場關於聊天機器人和 AI 的會議上,Anthropic 首席執行長Dario Amodei表示,他相信隨著模型的改進,聊天機器人將不再編造事實。

雖然訓練有助於提高聊天機器人所生成答案的品質,但舒瓦姿表示,她不認為這能夠徹底解決事實精準性的問題。

「Bard 和 ChatGPT 都有所謂的“幻覺”傾向,這是用來形容聊天機器人編造事實的術語。它們會從網頁上提取內容,有時不可避免地會錯誤地總結這些內容。」

NetEase
作者

網易科技,有態度的科技門戶!關注微信公眾號(tech_163),看有態度的深度內容。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則