600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

在《紐約時報》辦公室附近一座不起眼的建築裡,地下三層,是這家百年報紙的檔案庫。推門進去,眼前是一排排塗上深綠色油漆的鋼製文件櫃。超過 30 萬張底片,和 600 萬張發黃的老照片正靜靜躺在其中。而現在,Google打算將這些照片全部數位化。

這個檔案庫從 1904 年開始運作,內部員工將它稱作 The Morgue。這個詞有「太平間」和「停屍間」的意思,聽起來毛骨悚然,也似乎正符合老照片塵封的味道。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

11 月 9 日,Google Cloud 在部落格中宣佈正跟《紐約時報》合作,將透過雲端儲存等工具,為這 600 萬張老照片建立一個易於搜索和辨識的內部系統。

一個脆弱的時間膠囊

《紐約時報》創立於 1851 年,在 1896 年刊登出第一張新聞照片。直至 1990 年代,《紐約時報》都在用紙質方式來保存新聞照片。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

用《紐約時報》首席技術長 Nick Rockwell 的話說,這個百年檔案庫講述的不僅是報紙的歷史,它也是一個多世紀以來的全球編年史,「是一個放滿了脆弱文件的寶藏」。

Jeff Roth 是檔案庫的「守門人」,日常工作是編排整理好收錄在檔的老剪報和老照片,以及幫記者編輯找到他們需要的資料——他有一本詳細的索引目錄,能儘量快定位某張老照片的所在。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

雖然有 Roth 這個好幫手,但記者編輯們同樣會感到煩惱。一篇好的報導需要延伸、探索、研究,有時需要翻閱回顧大量的老照片和剪報,他們在這個陳舊的檔案庫裡一待就是幾個小時。

據 Roth 估算,整個檔案庫被掃描成電子版本的老照片只有不到 2%

而檔案庫也面臨著更大的現實危機。2015 年,一次水管破裂讓《紐約時報》提心吊膽,雖然 90% 泡了水的照片都影響不大,但 Roth 回憶起來還是稱這為噩夢。

這一直是我們的擔憂。 

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

2012 年,《紐約時報》也曾經嘗試將老照片數位化。

當時它建了一個 Tumblr 頁面「The Lively Morgue」,每週向公眾分享檔案庫裡的一張老照片,同時講述它背後的故事,吸引了超過 10 萬粉絲關注。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

這個項目一直持續到 2017 年,每週更新 3 次,但是數位化的進度實在太慢了。負責運營的圖片編輯 Darcy Eveleigh 當時這麼說

如果我們每天分享 10 張存檔照片,估計需要到 3935 年,才能將所有照片都搬到網路上。

數位化,將為老照片賦予新的意義

這次《紐約時報》跟 Google Cloud 的合作,大概是因為 2015 年水管爆裂事件的教訓。

對《紐約時報》來說,將紙質照片數位化的最大難題不在圖像本身,這點只要透過夜以繼日的掃描就可以解決了。但跟圖像一樣有價值的,是 600 萬張老照片背後的海量訊息。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

檔案庫裡的每張照片,背後都有清晰的時間標記、攝影師姓名、照片摘要剪報,以及檔案庫位置編號等訊息,堪比今天照片裡內建的 EXIF 資料。

將這些掃描成圖像並沒有什麼意義,而手動登記這些訊息又將耗費大量人力,這一點讓《紐約時報》頭疼了很久。

而借助 Google 的 Cloud Vision API 工具,人工智慧可以快速讀取照片後背的訊息。另外 Cloud Natural Language API 工具會像語言學專家一樣,從讀取到的文字中對訊息進行辨識歸類。

比如說,當遇到下面這句照片摘要:

1942 年擁堵的賓夕法尼亞車站,這是一個勇敢者才敢坐飛機到華盛頓、邁阿密和其他車站的時代。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

人工智慧會將「賓夕法尼亞車站」、「華盛頓」和「邁阿密」辨識為地點,然後將整個句子劃分到「旅遊出行」,甚至細分到「公車和火車」類。

除此之外,Cloud Vision API 工具還可以辨識照片上出現的物體,從潛艇到猴子再到電話和建築不等,甚至可以辨識照片中人物的情緒是喜還是悲。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

這就相當於,讓人工智慧為老照片打上各種便於檢索的標籤。按 Google 方面的說法,在數位化完成後,所有的記者編輯都可以透過內部系統搜索關鍵詞,找到相關題材的老照片。

類似的效果之前也實現過。2008 年,在《生活》雜誌停刊後,Google 開始對他們接近 650 萬張老照片進行數位化

這項工作在今年 3 月最終完成,作為 Google Arts & Culture 的項目「Lifetags」亮相,公眾可以在網站上點選任意一個關鍵詞,看到《生活》雜誌拍攝的相關照片。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

當然機器也不是萬能的。

Google 在部落格中承認,目前工具對數位和文本的轉錄辨識功能還不完善,可能會出現錯漏。而「Lifetags」的網頁,可能因為要處理檢索的照片數量太多,載入反應也都很慢。

但工具的出現,總比手動輸入歸檔和待在地下室一整天要來得方便。

目前,一個 6 人團隊正在《紐約時報》辦公室裡忙著掃描這些老照片。在其中工作的 Megan Paetzhold 說,她每天會掃描大約 1500 張老照片。

如果這是一個人的工作量,那每天將有 9000 張老照片順利存檔和被辨識。大概算一下,距離掃描完畢還需要 666 天。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

跟「Lifetags」項目不同,即使《紐約時報》的老照片全數歸檔後,也只是方便內部查閱使用,並不向公眾開放搜索。

但《紐約時報》稱,他們會在週日刊重新開設一個分享老照片的欄目,取名為「過去式(Past Tense)」,同時也會在 Instagram 帳號 @nytarchives 上更新傳播。一些昔日由於版面限制沒有刊登的照片,也得以重見天日。

600 萬張《紐約時報》老照片,正在 Google 的幫助下數位化

Google 將這稱作「連接過去與未來」。

《紐約時報》圖片編輯 Cornelius Schmid 也同意這種說法。他認為接觸到這些老照片,能給編輯記者們一個更大的世界,讓他們瞭解是什麼背景,造就近來發生的新聞事件。

而對老照片如數家珍的 Roth,好像也絲毫不擔心自己的飯碗。他說:

等數位化完成,老照片就會被賦予新的意義了。

文中圖片來自《紐約時報》

  • 本文授權轉載自ifanr
ifanr
作者

ifanr依托於中國移動互聯網的發展大潮,用敏銳的觸覺、出色的內容,聚焦 TMT 領域資訊,迅速成為中國最為出色的新銳科技Blog 媒體。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則