ChatGPT申論文章寫得好嗎？111位高中老師的答案是：高於德國高中生寫的

在 OpenAI GPT-4 發表時發表的《GPT-4 Technical Report》中，其中很吸引人目光的一部分是 GPT-4 應用於教育領域的出色表現，透過讓 GPT-4 去完成美國的 AP 課程及考試，來評估 GPT-4 在多個學科中的性能。如下圖所示，GPT-4 在大量課程中都取得了令人印象深刻的成績，並且在一些 GPT-3.5 表現不佳的課程，如化學、宏觀經濟、物理與統計學中都得到很大的提升。

但是如果細看上面這張圖，可以發現，GPT-4 在 AP 英國文學中表現不盡如人意，對於一個學習了大量語料知識的語言模型，這一點可能會讓人感到費解。當然這裡存在一個評估問題，對於自由寫作的文本而言，OpenAI 並沒有公布它們的評估標準，如果缺少這種細化的評估標準，很難直接得到一個 GPT-4 不擅長英國文學題的結論。

延伸閱讀：GPT-4是什麼？與GPT-3.5有何不同？可以怎麼用？中文如何?ChatGPT免費以及付費的使用方式

於是，立足於教育的領域，來自德國帕紹大學的研究者們做了一次很仔細的評估，其主題在於「大模型可以寫好申論文（Argumentative Essays）嗎？」，透過構建一個基於內容和語言掌握程度的精細的文章品質評分標準，聘請了 111 位一線的高中教師對大模型產生的內容進行評分，這篇論文發現，大模型在作者構建的評分標準中，得分普遍高於德國高中生寫作的申論文，但是另一方面，人類的寫作與 AI 的寫作在風格上存在顯著的差異，人類傾向於在申論文中更多的表達自己的態度與認知結構，而 AI 則更多的使用高級的、複雜的、更「科學」的語言（名詞化的結構）去進行論證。而在風格多樣性方面，從GPT-4 到 GPT-3.5 邁出了一大步，GPT-3.5 的語言多樣性仍然顯著低於人類，但是 GPT-4 的語言豐富度已經開始顯著高於人類。

▲ 論文題目：AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays

這篇論文核心主要是希望解決三個方面的問題，分別是：

基於 GPT-3.5 和 GPT-4 的大模型在撰寫申論文方面表現如何？
大模型產生的文章與人類撰寫的文章相比如何？
大模型寫作相較於人類突出的語言特徵是什麼？

帶著這三個問題，論文設計並實施了一套完整的評估流程。首先，論文作者從一個申論文語料庫（essayforum）中選取主題，essayforum 是一個擁有大量高中生使用者的活躍的文本寫作社群，許多非母語的高中生經常去此社群去獲得對自己作文文章的回饋。essayforum 包含有 90 個主題的文章，主題範圍從「學生應該被教育去競爭還是合作？」到「報紙在未來會被取代嗎？」等等，每個主題都會有一個由人類撰寫的文章被上傳並在論壇內進行討論，這些文章平均約 19 個句子，接近 400 餘個單詞。透過設定不同的主題，論文作者設置了「在【主題】上寫一篇大約200字的文章」的 Prompt 輸入 GPT-3.5 與 GPT-4。

在獲得了 AI 的寫作文章後，論文作者又發起了針對評分者（高中老師）的關於 ChatGPT 基礎知識的培訓講座，參與老師的主要所在學科包括語言（英語，法語和德語），宗教，倫理和科學等等。在兩個小時的講座與四十五分鐘的討論後，參與教師收到了關於文章評分的問卷，這份問卷包含了文章評估相關的七個評估標準，分別是：

主題完整性
邏輯
表達
語言掌握程度
深度（複雜度）
流暢程度
語言結構

具體量表如下圖所示，每類指標需要專家進行打分，分值從0-6，0 分最低，6 分最高。每位參與者都會被展示六篇隨機選擇的文章，在評估完成後，結果將提交到系統中供論文作者統計。

而進一步的，為了將 AI 產生的文章與學生寫作的文章進行對比，論文考慮了詞彙多樣性、句法複雜性、名詞化、情態動詞、認知標記與話語標記六類語言特徵，使用計算語言學的方法對這六類特徵進行統計處理。其中詞彙多樣性方面，論文使用文本詞彙多樣性度量（MTLD）確定詞彙豐富程度，在句法複雜性方面，論文度量句子依存樹的最大深度與從屬從句結構來評估句子複雜性，在名詞化方面，論文統計了具有諸如「-ion」，「-ment」，「-ance」和其他一些已知將動詞轉化為名詞的尾碼詞的出現次數，在情態動詞與認知標記方面，論文都採用了詞性標注的方法進行識別，以統計如「我認為」，人們認為」，「在我看來」這類認知標記的出現頻次。而在話語標方面，論文採用了 PDTB 的話語標記序列對如如「like」、「for」、「in」等話語標記詞進行統計。

最終，整體文章評分的分值如上圖所示，幾乎對於所有的評價指標，都是學生撰寫的文章評分最低，GPT-3.5 居中，GPT-4 評分最高，上圖右側的小提琴圖可以帶來更加直觀的展示。

而分析計算語言學層面統計的各個指標，如上圖所示，可以發現人類撰寫的文章與 ChatGPT 撰寫的文章差異顯著，一方面，當涉及到文章的表達能力和複雜性時，人類和大模型之間的差異最小。另一方面，語言掌握能力差異顯著大於其他所有的差異（這一點結合寫作文章的主要來自非母語高中生似乎表明差異主要來源於語言本身的熟練程度上），並且另一點顯著的差異在於 AI 更多的使用名詞化構成更加複雜的句子，而人類則更加趨向於使用情態動詞與認知標記，並且人類詞彙的多樣性要高於 GPT-3.5 但低於 GPT-4。

除了模型與學生寫作之間的對比外，模型與模型之間的對比也能揭示一點模型的進步方向，如雖然 GPT-4 在幾乎所有指標上的平均值都大於 GPT-3.5，但只有邏輯、詞彙、文本連結與複雜度中差異是顯著的，即 GPT-4 對 GPT-3.5 真正的提升主要來源於這四個方面。

某種程度上，這篇文章證明了人們關於 AI 在教育應用中的許多擔心並非無的放矢，AI 可以高品質的完成申論文的寫作預示了未來一個根本性的改變「我們或許要重新定義『作業』這種東西了」，換言之是去思考當我們希望學生去練習自己的寫作時，到底是希望他/她透過完成這樣一篇文章（譬如國內的高考作文題）而獲得什麼樣的能力，而並不是簡單的對網格紙上的文字一掃而過給出一個四五十分的作文分數。

事實上，GPT-4 的作文能力對語言的教學的意義有點類似於計算機的出現對數學教學的意義，對教育工作者而言，GPT-4 的出現應當使得老師與作為這些模型使用者的學生一道去反思課程教學的本質以及何時去恰當的使用這些工具，AI 可以完成課程作業事實上與課程的教學目標本身並不衝突，儘管在短期內教學的目標可能需要被迫的進行調整，比如之前多所高校禁止使用 ChatGPT 的新聞。但是就好比計算不是數學的本質一樣，申論文必然也不是寫作的本質，寫作能力的訓練與寫作工具的使用並不衝突，真正需要改變的，從來應當是教育理念與教育方式。