AI 生成的研究假設夠新穎嗎？研究證實效果不如預期

人工智慧有機會成為下一個科學革命的推手嗎？一項針對自然語言處理（NLP）領域的研究，試圖驗證 AI 是否具備「諾貝爾獎等級」的創造力。

這項研究使用由美國新創公司 Anthropic 開發的大型語言模型 Claude 3.5 Sonnet，自動生成上千個研究假設，並邀請專業研究人員提供具競爭力的人類版本，進行比對分析。

初步盲評階段發現，AI 提出的假設在「新穎性」評分上普遍高於人類版本。然而，當進入實際實驗階段後，研究團隊針對 24 個 AI 假設與 19 個人類假設進行獨立測試，結果顯示 AI 的新穎性評分大幅下滑，反觀人類的假設則維持穩定表現。

研究指出，AI 常會使用吸引人的詞彙來包裝已知概念，讓假設看似創新，實則缺乏實質突破。此外，AI 在判斷實驗可行性上也存在明顯不足。

這項結果也引發學界對「科學創新該如何被評價」的討論。來自美國華盛頓大學的學者指出，「新穎性」本身就是一項難以界定且充滿主觀判斷的標準，連人類評審之間都常意見分歧。

儘管如此，AI 與人類假設評分之間的差距已經小於預期。美國艾倫人工智慧研究所的專家表示，若 AI 能夠在訓練階段接觸更多高品質研究成果，其創造具潛力假設的能力仍可望持續進步。

研究團隊也預測，未來 AI 可能會在提出研究假設的工作上扮演更重要角色，而科學家則專注於驗證實驗與深入推理。這不僅提高科學研究效率，也可能重新定義「科學探索」的本質。