AI 將自我進化？OpenAI 重金聘請「未來 AI」研究員，揭密三大防線

OpenAI 發布了一則特殊的安全研究員招聘職位，核心使命是研究「當 AI 能夠訓練出自己的更強版本時，可能出現的問題」。

這則招聘職位隸屬於 OpenAI 的 Preparedness（準備狀態）安全團隊，本月上線，年薪範圍高達 29.5 萬至 44.5 萬美元，薪資水準遠超矽谷一般科技職位，足以反映 OpenAI 對這個研究方向的緊迫程度與戰略重視。

招聘說明的目標是尋找「能夠支持遞歸式自我改進準備工作的強大技術執行者」，特別強調這是一個需要對「未來可能存在、但當前未必已經存在的問題進行推理」的工作，因此尤其需要具備「良好品味和策略性（tasteful and strategic）」的人才，這個措辭罕見地將藝術感知力與前瞻性思維列為正式的招聘要求。

這則招聘職位的出現，與 OpenAI CEO Sam Altman過去幾個月的公開表態高度吻合。

去年 10 月，他曾公開宣示，OpenAI 的目標是在 2026 年 9 月前，利用數十萬枚晶片運行「自動化 AI 研究實習生」，並在 2028 年 3 月前實現「真正的自動化 AI 研究員」，完全由 AI 驅動自身的研究工作。

他同時坦承「我們完全有可能無法實現這一目標，但考慮到潛在影響極其巨大，我們認為公開說明這些目標符合公眾利益」。在

整個 AI 產業，OpenAI 並非孤軍奮戰——Anthropic 今年 4 月發布的研究，嘗試利用 AI 模型監督比自身更強大的 AI 模型，並取得了有限但積極的初步成果；Anthropic 聯合創辦人暨政策主管傑克·克拉克（Jack Clark）更在今年 5 月提出，到 2028 年底前，AI 研發完全脫離人類參與的概率「大約為 60%」。

具體研究方向：模型解釋性與技術自動化追蹤

根據 OpenAI 的招聘說明，這個安全研究員職位預計需要從事三個核心研究方向。

第一是防禦「資料污染（Data Poisoning）」攻擊——即攻擊者透過污染訓練數據，將惡意偏見或後門植入 AI 模型的行為；這個威脅在 AI 模型規模持續擴大、訓練數據來源日益多元的背景下，已從理論風險演變為現實挑戰。

第二是開發用於「解釋模型推理過程（Interpretability）」的工具，或透過受控實驗理解模型的安全性與潛在風險；可解釋性一直是 AI 安全領域的核心命題，也是業界在「模型越來越強大但越來越難以理解」這個矛盾中尋求突破的關鍵方向。

第三是「追蹤技術崗位自動化進展」，包括系統性地衡量 AI 編程工具在真實開發環境中的使用情況，這實際上是在為「AI 何時能取代 AI 研究員本身」建立量化的監測指標。

這三個研究方向的組合揭示了 OpenAI 對「遞歸式自我改進（Recursive Self-Improvement）」風險的具體擔憂脈絡。一個能夠改進自身的 AI 系統，首先必須能夠評估自身的能力邊界與缺陷，然後生成更優的訓練方案，最終迭代出更強的版本。

這個正回饋迴圈一旦失控，資料污染可能讓更新方向偏離預期，模型的內部推理過程可能變得完全不透明，而自動化的加速更可能讓人類幾乎沒有時間介入修正。OpenAI 選擇現在就建立一個專門研究這個問題的安全團隊，本身就是在承認：這個臨界點可能比外界預期的更早到來。

在整個科技業的薪資競賽中，44.5 萬美元的年薪已屬於頂尖層級，足以與 Meta、Google DeepMind 等公司的頂級 AI 研究員相比擬。

OpenAI 願意為「研究尚未存在的問題」開出這樣的薪資，本身就是一個強烈的信號：AI 安全研究在公司的資源配置中，已不再只是公關層面的形象工程，而是真正具有最高優先級的業務方向。這對過去幾年一直批評 OpenAI「重產品輕安全」的研究社群而言，是一個值得認可的轉變。

從 Anthropic 「以 AI 監督更強 AI」的研究方向，到 OpenAI 追蹤「技術崗位自動化進展」的量化指標，整個前線 AI 實驗室正在以前所未有的認真程度，思考人類在自己所創造的技術加速中，究竟還能保持多久的有效控制。這個問題的答案，將在未來幾年內以非常具體的方式呈現在每一個人的工作與生活之中。