2021.06.23 13:45

MIT開發DNA資料儲存讀取技術,一杯咖啡大小的DNA就能儲存全世界的資料

ADVERTISEMENT

人類文明的發展離不開訊息傳遞與互動。隨著人類文明從狩獵文明到訊息文明的轉變,訊息改變了人們生活的方方面面,甚至影響了人們的生存,例如我們每天吃飯離不開外賣、購物離不開手機等等。

而隨著網路技術的快速發展,人類世界的資料訊息也在急劇增長。有統計資料顯示,目前全世界每天產生的電子郵件、照片、社群發文、影片等等數位檔案超過250 萬Gb,而全世界總數位檔案更是高達10 兆Gb。這些資料大多被保存在巨大的資料中心中,一個儲存量為10 億Gb 的大型資料中心,佔地可達數個足球場,建設和維護成本高達10 億美元。

而隨著5G 技術的發展,人類訊息儲存的需求會更加爆炸,在可預見的未來,基於傳統矽基儲存介質的儲存方式將不可避免地陷入資源枯竭的困境。於是,開發新的儲存技術就顯得尤為重要。

ADVERTISEMENT

近日,來自美國麻省理工學院生物工程系的馬克·巴斯(Mark Ba​​the)教授帶領的研究團隊,成功開發出了全新的以DNA 為基礎的訊息儲存和讀取技術,完成了DNA 資料的快速準確檢索辨識。簡單來說,這一技術首先將資料儲存在DNA 中,然後將每個資料檔案封裝在一個直徑6 微米的二氧化矽顆粒中,並且透過可顯示內容的短DNA 序列進行標記,透過這些標記,人們可以快速搜索所需的訊息。

巴斯教授表示,「我們需要新的方案來解決巨量資料的儲存問題,DNA 的密度實際上比快閃記憶體還要高1000 倍,理論上一個裝滿DNA 的咖啡杯就可以儲存世界上所有的資料。另一個有趣的點在於,一旦你製造出了DNA 聚合物,它就不會再消耗任何能量,我們可以將其永久儲存。」

DNA 儲存訊息,可靠嗎?

我們都知道,所有訊息在電腦中都是藉助0 和1 兩種代碼儲存的,而DNA 是由 A、T、G、C 四種鹼基組成的。因此,長期以來就有科學家設想,如果將四種鹼基中的 A、T 表示 0,G、C 表示 1,那麼DNA 也可以儲存訊息了。

ADVERTISEMENT

相比於目前常用的以矽基材料為基礎的訊息儲存技術,DNA 的特性使其天生就是一種非常理想的儲存介質。首先,DNA 非常穩定,合成和測序技術目前非常成熟,操作容易。其次,由於DNA 密度較高,其資料儲存密度遠遠超過傳統資料儲存技術,可儲存規模更是遠遠超出現有最大資料中心的容量。直觀來說,1立方公分的DNA儲存的資料訊息比一兆張光碟儲存量還多。

最後,之前已有科學家證實了使用DNA 進行資料儲存的可行性,例如在2012 年,哈佛大學的喬治·丘奇(George Church)就曾在Science 期刊發表論文,將自己的一本大小為659kb的書籍著作存進了DNA 中,並將其導入了大腸桿菌進行複製。

ADVERTISEMENT

然而,目前以DNA 為基礎的儲存技術要想應用到臨床還需要解決兩個非常重要的問題。例如DNA 儲存的成本問題,以目前DNA 合成的成本計算,在DNA 中存入100 萬Gb 的資料,成本高達1 兆美元。

對此,巴斯教授表示,「如果要跟矽基儲存競爭,DNA 合成的成本需要再下降6個量級。不過,就像過去幾十年間矽基儲存價格的大幅降低,DNA 合成成本預計在未來20 年左右就會降到和矽基儲存相當」。

除了成本之外,DNA 儲存所面臨的另外一個難題在於,如何從所有儲存訊息中挑出想要的檔案。目前,人們常用的是PCR(聚合酶連鎖反應)來檢索DNA檔案,每個DNA 資料檔案都包含一個特定的PCR 引物結合序列。

ADVERTISEMENT

不過,這一檢索方法有一個致命的缺點,那就是引物和基因靶向序列之間可能存在干擾,脫靶會導致不需要的檔案被拉出。此外,PCR 檢索過程中需要酶,最終也會消耗掉大部分的DNA。

新技術解決DNA 儲存訊息檢索難題

作為替代方法,巴斯教授帶領的研究團隊開發了一種全新的檢索技術。該技術首先將每個DNA檔案封裝到一個直徑6微米的二氧化矽顆粒中,每個顆粒最高容量可達1Gb,同時每個二氧化矽顆粒都被標記上與檔案內容相關的DNA條碼。

接下來,研究團隊驗證了上述方法的可行性,他們將獅子、老虎、貓、狗、香蕉、飛機等等20 個不同的圖像編碼到大約3000 個核苷酸長度的DNA片段中,相當於大約100 B。每個檔案都標有與 「貓」 或 「飛機」 等標籤相對應的條形碼。

當研究人員想要提取特定圖像時,只需加入與他們正在尋找的標籤相對應的引物,就能快速找到對應的檔案。引物用熒光或磁性粒子標記,便於從樣本中讀取和辨識匹配訊息,這種方法允許人們自主刪除所需的檔案,而不會損壞其他DNA檔案。

同時,研究人員使用了來自哈佛醫學院史蒂芬·艾利奇(Stephen Elledge)教授開發的100000 個序列庫中的單鏈DNA序列,每個序列長約25個核苷酸。如果在每個DNA檔案上放置兩個這樣的標籤,可以對100億個不同的檔案進行唯一不重複標記,如果每個檔案上有四個標籤,則可以唯一不重複標記1兆億個不同的檔案。通過這種方法,研究團隊實現了每秒1 KB 的搜索檢索速度,目前來看,這一速度仍然太慢。

不過,研究團隊表示,目前DNA 儲存技術比較適合用於儲存 「冷」 資料,也就是保存一些不常存取的資料。目前巴斯教授正在成立一家名為Cache DNA 的初創公司,致力於長期儲存DNA 技術的研究。

總的來說,巴斯教授的研究突破了DNA 儲存技術發展的瓶頸,為DNA 儲存過程中的訊息搜索提供了一種新的解決方案。未來,隨著DNA 作為儲存介質成本的下降,人類基因測序和其他相關技術的發展,DNA 儲存技術非常有希望替代傳統的矽基儲存。

ADVERTISEMENT