
近年來,隨著 Cursor、GitHub Copilot 等 AI 程式輔助工具問世,開發者的工作流程正悄悄改變。這些工具可協助自動生成程式碼、修復錯誤甚至執行測試,背後則仰賴來自 OpenAI、Google DeepMind、Anthropic、xAI 等團隊訓練的大型語言模型(LLM)。儘管它們在多項人工測試中展現出色表現,但一項新研究顯示,對資深工程師來說,使用這類工具未必真的能「加快效率」。
新研究:資深開發者使用 AI 工具反而變慢
非營利 AI 安全研究機構 METR(Model Evaluation and Training Research)日前公布最新研究,針對 16 位具備豐富開源貢獻經驗的資深開發者進行隨機對照試驗,評估他們使用 AI 工具處理實際任務的成效。
實驗共設計 246 項真實開發任務,這些任務都來自開發者平時熟悉、長期貢獻的大型程式碼庫。其中一半任務開放使用 Cursor Pro 等 AI 工具,另一半則禁止使用 AI,純靠人工完成。
出乎意料的是,開發者原先預期 AI 可讓任務時間縮短 24%,但實際結果卻相反——使用 AI 工具時,任務平均反而多花了 19% 時間。
操作不熟+大型專案複雜度高,AI 不見得能幫上忙
研究指出,僅有約 56% 的受試者曾使用過 Cursor,雖然大部分(94%)都曾接觸過類似的網頁式 LLM 工具,本次仍是部分人第一次深入使用此類本地 IDE 整合型 AI 工具。研究團隊也有提供基礎教學,但成效似乎有限。
METR 認為,導致效率下滑的原因可能包括:
-
使用者需額外花時間撰寫提示語、等待 AI 回覆;
-
AI 難以掌握大型、複雜程式碼庫的上下文;
-
錯誤的建議可能導致反覆驗證與修正,拉長開發時間。
由於本次實驗聚焦於真實專案環境,而非簡單的演算法題或課堂作業,因此結果格外具參考價值。
仍有潛力助攻新手與輕量任務
雖然研究結果對於 AI 工具的宣傳熱潮潑了點冷水,但研究團隊也強調,這不代表 AI 工具一無是處。過去多項研究顯示,AI 可協助初學者學習程式邏輯,或在較簡單任務中提供靈感與協助。隨著技術演進,未來類似工具的效能也可能顯著提升。
本次研究再次提醒市場,AI 雖有潛力,但「立即提效」並非理所當然。開發者仍需謹慎看待其在實務開發中的角色與限制,避免盲目依賴導致產出錯誤或安全漏洞。
- 新聞來源:reuters
- 延伸閱讀:工程師用了 GitHub 的 Copilot AI程式助手三個月後,研究發現既沒有提高程式開發效率也沒有減少錯誤率
- 延伸閱讀:Red Hat OpenShift新功能有效簡化並擴展應用程式開發,降低IT創新複雜性
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!