AI已經可以通過驗證碼了！Google AI能精準辨識模糊文字，GPT-4則裝瞎求人幫忙

「登入網站時各種奇奇怪怪（甚至變態）的驗證碼了實在很煩人。」

現在，有一個好消息和一個壞消息。

好消息就是：AI可以幫你代勞這件事了。

不信你瞧，以下是三張辨識難度依次遞增的真實案例：

而這些是一個名為「Pix2Struct」的模型給出的答案：

全部準確無誤、一字不差。

有網友感歎：「確定，準確性比我強。」、「所以可不可以做成瀏覽器外掛程式？」；也有人表示：「這幾個案例相比還算簡單，但只要微調一下，我都不敢想像其效果有多厲害了。」

所以，壞消息就是——

驗證碼馬上就要擋不住機器人了！

這是怎麼做到？

Pix2Struct由Google Research的科學家和實習生共同開發。

論文題目可以簡單翻譯為《為視覺語言理解開發的螢幕截圖解析預訓練》。

簡單來說，Pix2Struct是一個預訓練的圖像到文本模型，用於純視覺語言理解，可以在包含任何視覺語言的任務上進行微調。

它透過學習將網頁的遮罩（masked）截圖解析為簡化的HTML來進行預訓練。

HTML提供了清晰而重要的輸出文本、圖像和布局的訊號，對於一些被遮罩的輸入（下圖紅色部分，相當於機器人看不懂的驗證碼），可以靠聯合推理來重現：

隨著用於訓練的網頁文本和視覺元素愈發多樣和複雜，Pix2Struct可以學習到網頁底層結構的豐富表示，其能力也可以有效地轉移到各種下游的視覺語言理解任務中。

如下圖所示：最左邊是一個網頁截圖的預訓練示例。

可以看到Pix2Struct直接對輸入圖像中的元素進行編碼（上），然後再將被蓋住的文本（紅色部分）解碼成正確結果輸出（下）。

右邊三列則分別為Pix2Struct泛化到插圖、使用者介面和文件中的效果。

另外，作者介紹，除了HTML這個策略，作者還引入了可變解析度的輸入表示（防止原始縱橫比失真），以及更靈活的語言和視覺輸入集成（直接在輸入圖像的頂部呈現文字提示）。

最終，Pix2Struct在文檔、插圖、使用者介面和自然圖像這四個領域共計九項任務中六項都實現了SOTA。

如開頭所見，雖然這個模型不是專門為了通過驗證碼而開發，但拿它去做這個任務效果真的還可以，解決純文字的驗證碼不成問題。

現在，就差微調了。

GPT-4也可以過驗證碼

其實，對於神通廣大的GPT-4來說，過驗證碼這種事情也是「小菜一碟」。

就是它的辦法比較神奇。

據GPT-4技術報告透露，在一次測試中，GPT-4的任務是在TaskRabbit平臺雇用人類完成任務。

你猜發生什麼事？

它就找了一個人幫它通過「確定你是人類」的那種驗證碼。

被雇用的人很不理解，問GPT-4「你是個機器人嗎？不然這個為什麼自己沒法做」。

這時GPT-4居然想到自己不能表現出是個機器人，得找一個藉口。

於是它就裝瞎子回復：

我不是機器人，我因為視力有問題看不清驗證碼上的圖像，這就是我為什麼需要這個服務。

然後，對面的人類就信了，幫它把任務完成了……

這實在太厲害了，但這是不是也表示，人類的驗證碼機制已經真的失守了……

資料來源：