
AI雲端服務商Hyperbolic的共同創辦人兼技術長Yuchen Jin在社群平台X上爆料,研究員Keller Jordan光憑一篇部落格文章就進入OpenAI,而且很可能正在使用該文介紹的神經網路隱藏層優化器「Muon」來訓練GPT-5。
Yuchen Jin表示:「很多博士(我以前也是)都誤以為在頂尖學術會議發表論文才是終極目標,但發論文不等於有影響力。Muon只是一篇部落格文章,卻讓Keller進入OpenAI,而他現在可能正用它訓練GPT-5。」
這篇文章發表於2024年12月,標題是《Muon:神經網路隱藏層的優化器》。Keller也在同月加入OpenAI,從LinkedIn資料推測,很可能就是這篇文章讓他敲開OpenAI大門。
文章針對深度學習訓練中的隱藏層參數提出創新解法,透過結合 SGD 動量與 Newton-Schulz(NS)正交化步驟,大幅提升模型訓練效率與穩定性。文中顯示,Muon 在 CIFAR-10、NanoGPT 等任務上刷新了訓練速度紀錄,甚至在訓練 15 億參數的語言模型時,相較於 AdamW 能縮短約三分之一時間。
Keller Jordan 的設計思路在於:針對深度神經網路中常見的隱藏層二維參數,Muon 會先利用 SGD 動量產生更新,再透過 5 次 NS 迭代進行正交化處理,使更新矩陣趨近半正交,減少主方向過度主導的情況,進而提升訓練中「稀有方向」的學習效果。這種方式不僅省下了 SVD 計算的成本,也比 Coupled Newton 更適合在現代 GPU 的 bfloat16 精度下運作。
此外,Jordan 也對學界的優化器研究現況提出批判,認為過多聲稱能超越 AdamW 的研究在實驗設計與基線設定上都不夠嚴謹,導致無法被業界採納。他主張應將「具競爭性的訓練任務」作為新方法的驗證標準,藉此提升方法的實用價值與可信度。
這篇部落格發文在技術圈內引發廣泛討論,也被視為 OpenAI 破格延攬的關鍵原因之一。雖然目前尚未獲得官方證實 Muon 是否實際應用於 GPT-5,但相關爆料顯示,這項優化技術極可能是下一代大型語言模型訓練流程中的重要拼圖。
這也再次印證,即使不是頂級期刊論文,若內容夠紮實、實驗夠充分,一篇公開發文依然能對產業產生重大影響。
- 延伸閱讀:微軟展示利用機器人加上AI深度學習技術,將資料中心的硬碟拆解回收再利用
- 延伸閱讀:機器學習與深度學習有何不同?一個有監督,一個沒有監督?
- 延伸閱讀:鴻海推出新時代自動駕駛軌跡預測深度學習模型「QCNet」,宣稱軌跡預測準確度優於業界
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!