關於AI聊天機器人最可怕的事情是：沒人知道它們到底是如何運作的

像 ChatGPT、Bard 這樣的大型語言模型（LLM），與過去的革命性技術相比，至少在一個方面有顯著的不同，那就是：沒有人確切地知道前者是如何工作的，甚至連構建模型的人都不清楚。

傳統的電腦程式的編碼十分詳細，以指示電腦反復執行相同的任務。但神經網路，包括那些運行大型語言模型（LLMs）的神經網路，是以人類無法理解的方式和獨特語言進行程式設計，並進行推理的。今年 2 月份，《紐約時報》記者 Kevin Roose 在與 Bing Chat 進行的一次神奇對話中發現它擁有兩個完全不同的人格，微軟首席技術長 Kevin Scott 無法解釋為什麼聊天機器人會說出諸如「我愛你」這樣的話。

LLM 語言模型的這一「神秘又不可捉摸」的方面加劇了科學家們的擔憂，即該技術的持續開發和應用可能會產生嚴重甚至是災難性的意外結果。越來越多的科學家認為，隨著 LLM 變得越來越好、越來越聰明，它們可能會被圖謀不軌者（或國防機構）利用來傷害人類。一些人認為，由於人工智慧系統將表現出與人類相比更高的智力和更強的推理能力，因此「它們最終與人類站在對立面」是其進化過程中可預測的、自然而然形成的結果。

延伸閱讀：人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

今年 3 月，包括圖靈獎得主約書亞·班吉奧（Yoshua Bengio）、史蒂夫·沃茲尼克（Steve Wozniak）和伊隆·馬斯克（Elon Musk）在內的 1000 多名商界領袖和科學家簽署了一封公開信，呼籲暫停開發比 GPT-4 更強大的 AI 系統至少 6 個月，部分原因是他們對這些人工智慧系統的工作原理缺乏瞭解。

信中寫道：「最近幾個月，各個人工智慧實驗室陷入了一場失控又危險的競賽中，他們致力於開發和部署更強大的數位思維，但即使是研發者也無法理解、預測或可靠地控制這些數位思維。」

目前，「人工智慧教父」傑佛瑞·辛頓（Geoffrey Hinton）以更明確的態度加入了 AI 批評者的行列，公開談論了他對 AI 的擔憂。辛頓近期在麻省理工學院接受採訪時說：「我認為人類完全有可能只是數位智慧進化的一個過渡階段。」辛頓最近辭去了在Google的工作，他之所以選擇離職是想日後自己能夠完全自由地討論人工智慧的危險性，他想要成為「吹哨者」，阻止危險事件發生。

「我要拉響警報，我們必須要為此擔憂，雖然目前還不清楚是否有解決方案。」辛頓從谷歌離職時表示。他還提到，當人工智慧系統被允許設定自己的「子目標」時，它們最終會把人類視為實現這些目標的障礙。一個經典假設就是：一個負責解決氣候變化問題的人工智慧機器人可能很快就會認定，人類和人類習慣是引起氣候變化的重要因素，所以人類是實現其目標的主要障礙。這種想法認為，擁有超人類智慧的人工智慧可能很快就會學會去欺騙使用它的人類操作員。

這種危險直接關係到人類解讀神秘黑盒子運行機制的能力。OpenAI 在本月發表的一篇關於人工智慧可解釋性的研究論文中似乎承認了這一點，OpenAI 的研究人員寫道：「我們對它們內部工作原理的瞭解仍然非常有限。例如，使用者可能很難從輸出中判斷它們是使用了有偏見的啟發式方法還是在胡編亂造。」

隨著模型規模的不斷擴大和演算法不斷優化，自然語言模型處理技術取得了巨大進步，研究人員發現自己在解釋 LLMs 大型語言模型運行機制方面遠遠落後。人們投入更多的資金用於更新和優化反覆運算模型的性能，而不是用於更好地理解模型的內部運行機制。

那麼，問題是，目前開發人工智慧的利潤驅動型科技公司能否在短期內充分瞭解 LLM 並有效管理長期風險？

機械可解釋性：逆向工程神經網路

大型語言模型發展得太快了，可以說是飛速發展。這項技術目前的領先者——ChatGPT，由一種名為「radically souped-up transformer model」的技術驅動，該技術是Google在 2017 年的發明。從廣義上講，ChatGPT 作為處理序列資料的模型，其利用大量的文本語料庫和複雜的計算能力進行訓練，最終進化為一個對人類語言有著驚人敏銳直覺的巨型語言模型。

但 OpenAI 的 GPT 模型所做的不僅僅是預測句子中的單詞。隨著 ChatGPT 的更新反覆運算發展，在反復研究所有訓練資料的同時，它們獲取了關於世界運作的相關知識，擁有了複雜理性的計算能力。

但是，對人類語言的敏銳直覺是如何從模型對其訓練資料的處理中產生的呢？LLM 在哪個網路層和神經元中將這些直覺應用於其輸出的內容中呢？回答這些問題的唯一方法是對神經網路進行逆向工程，以此來對模型實現的演算法給出一個機理上的解釋。也就是說，跟蹤網路中神經元之間複雜的相互作用網路，它們對輸入（提示）做出反應，進而產生輸出（答案）。這種重組被稱為「機械可解釋性」。

LLM 開發公司 Anthropic 的可解釋性研究員約書亞·巴特森（Joshua Batson）說：「它的最小元素可能是一個單獨的小神經元，看看它會對什麼做出反應，然後會將這種反應傳遞給誰。」

支撐 ChatGPT 等工具的神經網路由一層又一層的神經元組成，這些神經元是複雜數學計算發生的連接點。當在沒有人為對單詞或短語進行標記，也沒有人為對輸出做出回饋的情況下，去處理堆積如山的文本資料時，這些神經元共同形成了一個抽象的多維矩陣，映射出單詞與單詞、單詞和短語之間的關係。該模型能夠理解單詞或短語在上下文中的含義，並能夠預測句子中接下來可能出現的單詞，或者最有可能從語言提示中出現的單詞。

神經網路架構大致是基於複雜生物體（人類）的神經系統所設計的，今天最先進的 LLM 模型有數億個這樣的神經元。經過幾十年的研究，迄今為止神經科學還沒有成功實現對生物系統的逆向工程。

LLM 開發者 Cohere 的首席執行長艾丹·戈麥斯（Aidan Gomez）表示：「神經科學試圖採取自下而上的方法，事實證明這是一種非常困難的方法，因為跟蹤整個路徑是極其困難的。」戈麥斯說，「在一個活的有機體中，這種自下而上的方法意味著研究生物體獲取感官資料的方式，並跟蹤脈衝。因為神經脈衝從一個神經元傳遞到另一個神經元，最終形成可能導致行動的高階神經元。」

在一個合成的神經網路中，跟蹤一個神經元到另一個神經元的路徑也同樣困難。這很令人遺憾，因為正是在這些路徑中，類似於 HAL 9000 的想法的起源出現了。

圖像模型的成功

機械可解釋性領域取得的突破性進展，要歸功於神經網路方面的相關研究，尤其是那些旨在識別和分類不同類型圖像的神經網路研究。在這些神經網路中，研究人員更容易確定單個神經元的具體任務，以及每個神經元的工作如何為識別圖像內容的整體目標做出貢獻。

在一個旨在識別圖像中的汽車的神經網路中，有一層神經元可能專門用於檢測表示特定形狀（例如曲線或圓形）的圖元組。這一層中的一個神經元可能會被啟動，並向網路中的另一層神經元發送一個高概率分數，以判斷這個形狀是輪胎還是方向盤。隨著這些連接的建立，智慧 AI 會越來越確定此圖形是一輛車。

因此，可解釋性導致了微調的能力。正如 Anthropic 的巴特森解釋的那樣：「如果你想知道為什麼不是汽車的東西被誤認為是汽車了，可以透過神經網路追蹤，你會發現是車輪探測器將煎鍋錯誤指認成了輪胎。」

巴特森說，團隊非常專注於研究 LLM 中的重要神經元組，而不是單個神經元。這有點像一群神經學家在人類大腦中探尋控制不同身體或心理功能的部分。

「也許我們正開始弄清楚神經網路的基本參與者是什麼，並基於此探究神經元是如何相互作用的，例如‘它是如何映射物理世界的，它是如何映射情感世界的，它是如何思考文學或個體的’。這樣，你便可以得到對於更大的神經元模組的理解。」

Anthropic 的聯合創始人傑克·克拉克（Jack Clark）補充說：「我認為，目前的情況是，我們可以將這些可解釋性技術應用於參數較小的文本模型，而無法應用於數千億參數大小的巨型文本模型。目前人們面臨的問題是，我們能以多快的速度將文本可解釋性技術應用於更大的模型。」

可解釋性和安全性

AI 公司投資解釋性研究最迫切的原因之一，或許是為了找到更好的方法來在大型語言模型周圍建立「防護欄」。如果一個模型容易輸出有害言論，研究人員通常會研究系統對各種潛在風險提示的回應，然後對模型的發言進行限制，或者完全禁止模型對某些提示進行回應。

但西雅圖艾倫人工智慧研究所（Allen Institute for AI）模型可解釋性研究員薩拉·維格萊夫（Sarah Wiegreffe）表示，這種方法確實存在局限性。她說：「這當然是有限的，因為考慮到模型可以接收的巨大輸入空間，以及它可以產生的巨大輸出空間，要合理地列舉出現實世界中可能遇到的所有可能場景是相當困難的。」

在這種情況下，機械可解釋性可能意味著在深層神經網路尋找導致不安全輸出的關鍵計算點。「例如，最近的一些研究表明，如果你能在語言模型中定位某個事實陳述，那麼就意味著你實際上可以編輯該模型的權重，並從根本上糾正它。也就是說在不需要重新訓練整個系統的情況下，你可以修正模型來改變那些不正確的參數。」維格萊夫說。

但是，凡事都有兩面性，調整一個大型語言模型對一種有害行為的傾向性可能會阻礙它對我們喜歡的其他行為的傾向性。例如，明確的「不要說……」命令可能會限制模型的創造性和即興發揮的能力。即使用侵入性較小的方式來「操縱」一個模型也會如此。

事實上，人工智慧界的許多人仍然對「用逐個神經元的機械解釋性來確保 AI 系統的近期和長期安全性」是否必要，持保留態度。

「鑒於我們的工作時限，我不認為這是研究智慧系統的最佳方式。」Cohere 的戈麥斯（Gomez）說。

事實上，隨著資本主義勢力現在推動科技公司在每個行業生產 LLM，並很快將其用於個人技術（例如 Alexa 和 Siri），人工智慧社群可能沒有那麼長的時間來加深他們對 LLM 如何工作的理解。

戈麥斯說：「最簡單的方法就是要求系統引用其來源，我相信隨著這些系統開始被用於更重要的任務，我們將不得不要求模型的輸出要以事實為基礎。」

沒有基準

雖然存在大量的基準來衡量語言模型的性能，如人工智慧的標準化測試，但還沒有一組通用的基準來衡量 LLM 的可解釋性。業界還沒有採用 OpenAI 的評分系統來解釋 LLM 中單個神經元的輸出。

有很多研究人員盡他們最大的努力在研究 LLM 背後的工作機制，他們發表論文，探索研究模型的新技術，社群中的其他研究人員則試圖在現有直覺的基礎上理解現有的進步。巴特森說：「我們還沒有一個可以達成一致並努力實現的指標或基準。目前我們已經瞭解了一些現象，現在正在把整體情況匯總起來。」

巴特森說：「當你看到它的時候，你一定知道其中的內在機制。你會說，『哦，好吧』，這是對正在發生的事情更好的描述。」

可解釋性與一致性

雖然 LLMs 的近期安全很重要，但未來的 LLMs 可能會帶來遠比輸出錯誤答案更嚴重的威脅。研究員和哲學家尤德科夫斯基（Eliezer Yudkowsky）為人們敲響警鐘，他表示隨著 LLMs 變得更好，在智力上遠遠超過人類，以及它們變得更加自主，它們很有可能會開始違背人類的利益。

這種可能性可能比你想像的更大。讓我們假設 LLM 在學習和推理方面不斷進步，並且能夠更好地捕捉資料（可能是即時視覺和音訊資料），使其在現實世界中站穩腳跟，並開始共用資料和相互訓練。讓我們假設 LLM 最終成為 AGI（人工通用智慧），並在重要方面的表現遠遠超過人類智慧。如果不完全瞭解這些強大的 LLM 的早期先例，我們能否在其發展的各個階段管理這些大型語言模型，使其與人類利益保持一致，不與我們作對，甚至不願與我們作對呢？

目前人們在這個問題上仍然存在分歧。尤德科夫斯基和辛頓對人類是否能夠管理人工智慧系統中的一致性持嚴重懷疑態度，他們都不認為在這些系統中實現機械可解釋性是一個萬能解決方案。

尤德科夫斯基說：「如果你正處在一場全球人工智慧軍備競賽中，人們會說減速沒有意義，因為他們的競爭對手不會減速。」他認為 AI 系統將透過學習隱藏其內部過程，來抵制人類的安全訓練。如果你試圖利用自己的「作惡思想檢測器」來訓練這些巨大的、不可捉摸的語言模型矩陣，讓它們不再「作惡」，你就是在訓練它們反對作惡的同時，也在訓練它們反對可見性。」

尤德科夫斯基說：「這就是為什麼即使實現『能夠在 AI 的思維中看到警示象徵』等級的可解釋性，也並不意味著每個人都是安全的。」

延伸閱讀：擔心AI殺死人類？我們先擔心壞人會利用 LLMs 做什麼壞事