(2018-10-12)大數據時代,這些巨大資料目前儲存的媒介包括光碟、硬碟、固態碟,但這些碟片或雲端伺服器,都有存取速度及容量限制,且沒多久就可能要更新,但現在有人想到生物性儲存,DNA就是其一。

DNA:未來的數位資料大倉儲。(圖:drivesaversdatarecovery.com)

(2018-10-12)有了電腦與網路,資料產生的數量就快速增加,一共有多少,沒有人精確計算過,只能估算一個大概。有人估算過2016年的資料量是16.1兆GB(gigabytes, giga是10億),到了2025年就會增加10倍;另一個估算是5年以前的資料量是4.4ZB(zettabytes, zetta是1 x 1021)。

Byte是「位元」,一個位元代表一個數目字或一個英文字母,兩個位元代表一個中文字,如果把4.4ZB(4,400,000,000,000,000,000,000 bytes)的空間填滿文字與數目字,那會是什麼概念,恐怕只有讓人更模糊。這只是五年以前的數量,到了2025年就增加到160ZB。

 

這麼多資料從哪裡來?當然每個人都有照片、影片、郵件、社群網路對話留言,這些資料經年累月越積越多,但專家說這不過是一盆水裡的一滴,而如洪水般的資料則來自科學研究,醫學實驗、深入細胞、天象觀測、探測宇宙,不斷的研究,資料就成等比級數增加。

巨大的資料目前儲存的媒介,有磁帶、光碟、硬碟(HD)、固態碟(SSD),無論個人或是雲端伺服器,都有存取速度、容量限制、佔據空間的一些潛在問題,而且沒隔多久就可能要更新。這些都是物理性的儲存技術,既然不夠完善,是不是有物理以外的技術,有人就想到了生物性儲存,DNA就是其一。

DNA是「脫氧核醣核酸」(Deoxyribo Nucleic Acid)的縮寫,是細胞裡的大分子,由兩條螺旋「鹼基對」(Base Pair)組成。鹼基,可以說是生物最基本的元素,共有簡稱A、T、G、C四種,如下圖所示,由黃綠紅橘四小色條代表。

鹼基對,是兩條螺旋鹼基在相對位置的匹配,如下圖所示A與T匹配,G與C匹配,這在生物與遺傳上有特殊意義,例如俗稱的「基因」,就是DNA的一段。


DNA結構示意簡圖。(圖:U.S. National Library of Medicine)

DNA如何能儲存資料?不妨先看看DNA的尺寸大小。每個細胞裡都有一套30億對鹼基的DNA,存放在僅有6微米(100萬分之1米)的空間,如果拉出來平放,就有2米長,把一個人所有的DNA拉出來,就有兩倍太陽系直徑那麼長。

鹼基對之間的距離僅有3.4 Å(Å是百萬分之一公分),假設把ATGC四種鹼基代碼成"00"、''01"、"11"、"10",一個2米長的DNA所儲存的數位資料就極為可觀。

現在的問題是,怎麼把數位資料轉換成四種鹼基,合成一個DNA檔案。從MIT分支出來的一家新創公司Catalog,就正做這件事的研發。一年前把印在紙上的一首詩、資料量約1KB,縮小成一個小試管底下的兩滴水,水裡藏有看不見的DNA資料檔。

用DNA儲存數位資料早已有人實驗,但非常昂貴,以儲存一分鐘的音樂為例,需用150萬對鹼基,成本高達10萬美元,Catalog要改變這一成本結構。

與其把一條長的DNA填滿,Catalog把DNA切割成20-30對鹼基片段,分別儲存資料之後,再用酵素把各片段安排連接在一起,成為完整的資料。這個做法好像用字母拼字,例如用26個英文字母不同的連接,就能拼出許多不同的字。Catalog並沒有公佈生物技術的細節,但估計成本可降至1GB僅需0.003美分。

DNA可以說是最小的最大倉儲,有人估算,把全球有史以來拍攝的影片儲存在DNA,所占的空間不過一塊方糖的大小,如果把地球上所有資料全部轉換成DNA儲存,那也不過是裝在一輛汽車的後車箱就夠了。DNA還有一個好處,只要存放在4°C的環境,可以保存一萬年。

有了大數據(Big Data),就需要大倉儲(Big Storage),在Catalog之前,許多數位公司都在尋找物理以外的儲存媒介,生物儲存成為大家不約而同的選擇。數位資料轉換成DNA再轉回成數位資料,不會是像硬碟讀取那麼便利,以大批需長久保存、變動又不大的資料,最具經濟效益。

至於我們時候什麼才能買到幾條DNA,插到電腦或手機裡?即使可能,恐怕要很久以後了,至少現在還不是這樣的概念。下面的簡圖,是微軟發展的DNA儲存系統,資料存取流程的基本概念,PCR Thermocycler是DNA放大器。


DNA資料存取流程示意簡圖。(圖:微軟)


本文取材自2018年10月7日「那福忠西海岸數位隨筆(69)」:數位資料的大倉儲-DNA
對本文有任何看法,歡迎 E-Mail:frank.na@gmail.com 與作者分享。