FB 建議貼文

選取貼文複製成功(包含文章連結)!

M4 晶片效能大解放!隱藏版 15.8 TFLOPS 算力被開發者挖出,蘋果不給的竟然被高手破解了

M4 晶片效能大解放!隱藏版 15.8 TFLOPS 算力被開發者挖出,蘋果不給的竟然被高手破解了

蘋果在設計 M4 等 Apple Silicon 晶片時,其內建的神經網路引擎(Neural Engine,簡稱 ANE)原本僅開放給「推理」(Inference)工作使用。

這意味著什麼?開發者只能拿它來跑預先訓練好的 AI 模型。

若想直接利用這股龐大算力來「訓練」全新模型?抱歉,蘋果不允許。這對於許多亟需本地端訓練資源的開發者而言,無疑是一大硬傷。

神經網路引擎遭逆向工程,M4 潛力全面大解放

然而,限制就是用來打破的。

一名技術專家 @0x0SojalSec 近日高調宣布,他已經成功繞過了蘋果針對 M4 晶片所設下的軟體限制。透過對 M4 SoC 進行深度逆向工程,這項壯舉讓原本被封印的算力徹底釋放。

根據他在 X 平台上分享的展示與 GitHub 程式碼庫,這項技術突破讓 M4 晶片不僅打破了原有的框架,更能直接投入如反向傳播(backpropagation)與 Transformer 模型訓練等複雜的機器學習任務中。

這在 AI 開發社群中,無疑投下了一顆震撼彈。

避開閃存瓶頸,高達 15.8 TFLOPS 狂暴算力

為了繞過蘋果嚴格的生態系封鎖,@0x0SojalSec 走了一條不尋常的硬核路線。

他完全捨棄了官方提供的 Core ML 或 Metal 等標準開發工具,甚至也沒有調用 GPU。取而代之的,是他從零開始自研了一套專屬的「模型中間語言」(Model Intermediate Language, MIL)。

這套自定義的 MIL 成為了與 M4 晶片底層直接通訊的橋樑。

更巧妙的是,當訓練進程遭遇硬體卡頓或需要重置時,這套系統會靈活呼叫 exec() 指令。這能讓系統在不崩潰的情況下刷新狀態,完美接續先前的訓練進度。

在資料處理的動線規劃上,@0x0SojalSec 也展現了極高的巧思。他刻意將所有運算資料強制保留在系統的 RAM 記憶體中運行。完全不寫入 NAND 閃存!

為什麼要這麼做?因為 NAND 閃存的寫入速度相對緩慢,而 RAM 的超高頻寬則能確保整體訓練運作維持在極速狀態。

在突破了這層層的軟硬體枷鎖後,搭載於 Mac 或 iPad 中的 M4 晶片,其 AI 處理效能瞬間飆升至高達 15.8 TFLOPS。這樣的數字,已經完全足以勝任繁重且要求嚴苛的本地端 AI 模型訓練工作。

逆向工程的隱憂與未來

這次 M4 晶片算力遭「解封」的事件,充分凸顯了蘋果硬體在 AI 領域深不可測的潛力。

對於急需在端側進行資料訓練的開發者來說,這項突破證明了:即使在輕薄的行動裝置上,依然能夠流暢實現以往高度依賴雲端伺服器的運算任務。

M4 晶片效能大解放!隱藏版 15.8 TFLOPS 算力被開發者挖出,蘋果不給的竟然被高手破解了

但這種非官方的逆向工程手段,未來能否完美相容於新版本的 Apple Silicon 晶片?這套底層指令調用機制,會不會在下一次的 macOS 或 iPadOS 系統更新中,被蘋果以「修復漏洞」為由無預警封殺?

這些都是未知數。但不可否認的是,這項創舉已經向世人展示了 M4 晶片的真正實力。

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

發表回應
謹慎發言,尊重彼此。按此展開留言規則