OpenAI宣布斥鉅資建立「超智慧對齊」團隊！讓AI的目標和行為符合人類的期待

自從 AlphaGo 在圍棋的對決中輕鬆擊敗人類世界冠軍李世乭以來，全球對 AI 的目光從震驚轉向了敬畏。這一歷史性的時刻，不僅徹底改變了我們對機器學習的理解，也在心中投下了一顆關於未來可能性的種子。在這場無聲的「大腦」比拼中，AlphaGo 以其無懈可擊的策略和深度預算能力，再次證明了 AI 在處理複雜問題時的獨特優勢和潛力。而在科幻電影《魔鬼終結者》中，AI 系統 Skynet 的智商遠超人類，其邏輯與思維極其縝密，但最終卻與人類利益相悖，做出摧毀世界的決定，這可能是大部分人對「超智慧」AI 的第一印象。

近日，OpenAI 也正在為 AI 未來的新發展進行著準備。他們計畫重新整編團隊，由其首席科學家和公司聯合創始人 Ilya Sutskever 帶領新團隊，探索引導和操控「超智慧」AI 系統的新方法。

▲ Introducing Superalignment

延伸閱讀：美國白宮花費1.4億成立國家人工智慧研究機構，減少人工智慧技術的潛在危害

在 OpenAI 近日發佈的一篇部落格中，Ilya Sutskever 和 OpenAI 的對齊團隊領頭人 Jan Leike 預見，未來十年內，可能會出現智商超過人類的 AI 系統。如果最終真的出現這種 AI 系統，未必與人類利益存在一致。因此，Sutskever 和 Leike 強調有必要研究如何控制和限制它。

他們在文章中寫道：「當前，我們還沒有精確的方法來引導或控制可能的超智慧AI，以防其無法控制。現有的為AI定向的技術，例如利用人類回饋的強化學習，賴以人類的監督。但是，人類可能無法有效地監督比我們聰明很多的AI系統。」

為了在「超智慧對齊」領域取得更大突破，OpenAI 的這個「Superalignment」團隊將獲得公司現今計算力的 20%。攜手 OpenAI 先前對齊部門的科學家和工程師，以及公司其他組織的研究人員，致力於在接下來的僅僅四年的時間中解決控制超智慧 AI 的核心技術挑戰。

他們的策略是構建所謂的「人類水準的自動化對齊研究者」。高層目標是利用人類回饋，訓練 AI 協助評估其他 AI 系統，進而可以應用大規模計算資源對初始工作進行擴充，並對超級智慧進行反覆運算對齊。「對齊研究」在此意味著確保 AI 系統實現預期目標，或避免目標的走偏。

OpenAI 提出的假設是 AI 可能比人類更能有效地進行對齊研究。

Leike 及其同事 John Schulman 和 Jeffrey Wu 在先前的部落格中提出，「隨著我們在這個領域的進步，我們的 AI 系統可以接手我們越來越多的對齊工作，最終構想、實施、研究和開發比現有的對齊技術更先進的對齊技術。他們將協同人類確保他們的後繼者更好地與人類對齊……人類研究者將更多地將精力集中在審查 AI 系統所做的對齊研究，而非自己去開展這些研究。」

延伸閱讀：人工智慧3次震驚世界，都由美國主導卻都和俄國人有關

方法

OpenAI在部落格中指出，對首個「自動化對齊研究者」進行對齊，我們需要：

研發可擴充的訓練方法；
有效地驗證生成的模型；
對整體的對齊流程進行嚴格壓力測試。

在處理對於人類而言難以評估的任務時，我們可以借助AI系統協助對其他AI系統進行評估（被稱為可擴充的監督），來獲得有效的訓練訊號。同時，我們也致力於研究和理解如何讓這個模型將監督應用到無法手動進行監督的任務上，以研究其泛化能力。

我們會檢測系統對齊的準確度，並自動發現任何可能出現的問題行為（這展示其強大的穩定性）以及查明任何可能的潛在內部問題（這是自動解釋能力的一部分）。

最後，我們可以有意識地訓練不對齊的模型，並通過對抗性測試來確認該技術是否能夠檢測到最嚴重的對齊失誤。以此來有效測試整個流程。

隨著對這一問題的理解深入，研究重心將可能會發生重大調整，甚至會新增研究領域。OpenAI 將計畫在未來分享更多關於這項研究的進程和計畫。

小結

當然，任何方法都不能保證完全無誤。Leike、Schulman 和 Wu 在他們的文章中也承認了 OpenAI 存在許多局限性。他們表示，使用 AI 系統進行評估可能會放大該 AI 的不一致性、偏見或漏洞。並且對齊問題最難的部分可能並不與工程技術有關，屬於多領域的問題。

但 Sutskever 和 Leike 都認為這個嘗試是值得的。

他們指出：「超智慧對齊基本上是一個機器學習問題，我們認為即使沒在對齊問題上開展研究的機器學習優秀專家，也將對其解決問題有關鍵作用。我們計畫廣泛地分享這個進程的成果，並認為向非 OpenAI 模型的對齊和安全性做出貢獻是我們工作的重要部分。」

然而，這項研究註定任重而道遠。在設計和實現 AI 系統時，工程技術固然非常重要。然而，所謂的「對齊問題」主要關注如何使 AI 的目標與人類的目標、價值觀和道德規範保持一致。這是一個主要涉及到道德、倫理、心理和社會學等領域的問題。

理解和解決這個問題的難點在於，人類的目標、價值觀和道德規範都深植在文化、歷史、經驗和思想中的。這些因素都有極大的複雜性和多樣性，因此很難被明確地定義或量化。

此外，即使我們設法定義了一個相對清晰和確定的目標，也可能遇到「漂移」問題。也就是說，隨著時間的推移和環境的變化，人類的目標和價值觀可能會發生變化，AI 系統需要有能力跟隨這種變化適應和更新。這也是個涉及機器學習、強化學習、動態系統等領域的複雜問題。

最後，即使 AI 系統經過了精心的設計和調整，也無法完全保證其行為和結果總與人類的目標和價值觀完全一致。因為在真實的世界中，常會出現意料之外的情況和結果。所以，解決對齊問題需要涉及的領域遠超工程技術，需要多學科的知識和理解，以及更深入的思考和討論。

延伸閱讀：前OpenAI安全研究員警告，AI毀滅人類的可能性為 20%