2023.10.16 09:00

21歲SpaceX實習生用AI破譯2000年前的赫庫蘭尼姆古卷軸

ADVERTISEMENT

2000年前的古卷軸(赫庫蘭尼姆卷軸),終於被一個21歲電腦少年給破譯了。 

這個古卷軸可以說是極其的特殊—— 

在西元79年被一場火山爆發掩埋碳化,直到1752年才被挖掘出土。 

ADVERTISEMENT

而且由於古卷軸本身已經太脆弱了,數百年來沒人敢動它,處理稍微不當就可能化作塵埃。 

赫庫蘭尼姆城和著名的龐貝古城相距8公里,位於義大利那不勒斯東南的維蘇威火山腳下;前者比龐貝古城更接近火山口。

那麼如何看到它上面記載了什麼內容,就成了困擾科學家們數百年的大難題。 

ADVERTISEMENT

現如今,隨著這位電腦少年成功的破譯,使他成為了2000年來第一個從未打開卷軸,卻「看」到了上面文字的人。 

這項任務其實是來自一個叫做維蘇威火山的挑戰賽(Vesuvius Challenge): 

ADVERTISEMENT

要求參賽者在卷軸的4平方公分區域內,至少找到10個字母。

這位少年作為完成任務的第一人,也被活動官方授予了40000美元的首字母獎(First Letters Prize)。 

很多小夥伴肯定好奇,少年破譯的文字到底是什麼? 

是古希臘語πορφυρας,意思是紫色染料或者紫色的衣服。

 

ADVERTISEMENT

在結果出爐之後,比賽的贊助者、科技企業家Nat Friedman還手動@了馬斯克,很驕傲地介紹這位少年: 

他是你們SpaceX的實習生!

破解數千年古卷軸,AI立大功

這位少年名叫路克·法瑞托(Luke Farritor),是一位電腦專業學生。 

而在講這位少年的故事之前,我們還需要說明一下關於這個比賽的背景。 

早在2019年,肯塔基大學EduceLab的布蘭特·希爾斯(Brent Seales)教授,便在粒子加速器中,對赫庫蘭尼姆卷軸進行了成像工作,並生成了解析度高達4μm的3D CT掃描。

這位教授的博士生史蒂芬·帕森斯(Stephen Parsons),長期致力於使用機器學習模型檢測CT掃描中的墨水。 

於是他和他的團隊掃描並拍攝了帶有可見墨水的分離卷軸碎片,從而提供了一個ground-truth資料集。

這項研究成功引起了科技企業家奈特·弗里德曼(Nat Friedman)和丹尼爾·格羅斯(Daniel Gross)的注意;於是乎,在二人的贊助之下,便發起維蘇威火山挑戰賽。 

他們在今年三月發起公開競賽,設置總獎金為70000美元,目的就是加速破譯古卷軸。 

到了今年八月份的時候,一位叫做凱西·漢德默(Casey Handmer)的學者寫了一篇部落格,講述了他所發現的看起來像墨水的「裂紋模式(crackle pattern)」。

這可以說是一個非常重要的突破進展,即使是史蒂芬,此前也只是在分離的碎片上看到過墨水的直接證據,但還沒有在卷軸上看到過。 

然後路克在一場PODCAST中,偶然聽到了這個消息和挑戰賽,也看到了凱西的裂紋模式在Discord上被廣泛討論。 這引起了路克非常大的興趣,並開始利用晚上的時間,著手訓練一個關於「裂紋模式」的機器學習模型。 

在訓練的過程中,他前前後後發現了幾十個墨蹟比劃,還有一些完整的字母,路克對它們做好了標記並作為訓練資料。 

沒過多久,模型就露出了肉眼看不見的裂紋痕跡;這些痕跡成了最後形成字母和實際單詞的線索。 

下面這張圖便是路克向挑戰賽提交的一個作品,隱約可以看到「ΠΟΡΦΥΡΑϹ」(porphyras)的單詞形狀, 

 

當希爾斯教授和團隊看到這張圖的時候驚歎道: 

儘管字母很模糊,但他們可以立即讀出「porphyras」這個詞。

這個單詞在古代文獻中也並不是很常見,但是也是經得起推敲,大概意思就是「紫色的」。 

一位專家解釋說: 

序列πορφυ̣ρ̣ας̣ ,可能是πορφύ̣ρ̣ας̣(名詞,紫色染料或紫色布)或πορφυ̣ρ̣ᾶς̣(形容詞,紫色)。

由於缺少上下文,也不排除是 πορφύ̣ρ̣α ς̣κ 或 πορφυ̣ρ̣ᾶ ς̣κ 。

值得注意的是,古代的單詞和現代不同,那時候的文本沒有空格,因此單詞的邊界確定起來也是比較困難。 

最終挑戰賽官方認為,路克值得獲得首字母獎;而他本人在得知這一消息的時候也非常激動: 

 

另一位研究生也有相同的發現

無獨有偶,在凱西和路克的成果激勵之下,另一位參賽者,來自柏林Egyptian biorobotics的研究生尤瑟夫·納德爾(Youssef Nader),採用了不同的方法也得到了相同的結果。 

他篩選了Kaggle上墨水檢測獎的獲獎作品,該獎項的重點是改進史蒂芬·帕森斯在分離片段中進行機器學習的方法。 

在此基礎上,他採用了域轉移技術使這些模型適應古卷軸:對卷軸資料進行無監督預訓練,然後對片段標籤進行微調。 

使用Kaggle競賽的這個修改模型,他設法找到了一些字母,儘管完全不依賴於凱西手動尋找裂紋的方法。然後,他將看起來像字母形狀的東西注釋到標籤數據中。

 

在反復的最佳化之下,尤瑟夫向官方提交的作品如下: 

最終,尤瑟夫獲得了首字母獎的二等獎,10000美元。

 

專家們在看到尤瑟夫的作果之後,更加確認了路克發現的古卷軸中的文字。 

他們甚至開始推測上面和下面的單詞,可能是ανυοντα(實現)和ομοιων(類似)。 

而就在前幾天,尤瑟夫的模型產生了更為驚人的結果:

 

在這張圖中,你可以清楚地看到四列半的文本,用一定的邊距隔開。 

儘管並非所有字母都能被專家們立即辨認出來,但起碼可以看到更多的字母了。 

官方表示,專家們正在做進一步的調研,很快將會有新的結果。

 

資料來源:

ADVERTISEMENT