歐洲生物信息研究所(EMBL)的研究人員開創了一個新途徑,可以將數據資料存儲在DNA裡,而DNA是一種可以存放數万年的材料。利用該存儲法,有可能將至少1億小時的高清錄像存儲在大約一茶杯的DNA中。
全世界擁有巨量的數字信息,而且新的數字內容仍不斷地大量湧入,這給數據存儲工作帶來了真正的挑戰。硬盤不但昂貴,而且需要不斷地供電;甚至質量最好的“非耗電”歸檔材料(如磁帶),在10年之內質量就會有所下降。這在生命科學領域是一個越來越突出的問題,該領域有大量包括DNA測序在內的數據資料,構成了科學記錄的基礎。
“我們已經了解到,DNA是存儲信息的可靠途徑,因為我們可以從猛獁象的骨頭里提取DNA,而猛獁象可以追溯到幾萬年之前,因此我們了解到這是個存儲的好方法。”歐洲分子生物學實驗室生物信息研究所的尼克·高曼解釋說,“DNA分子極小,但密度大,儲存時不需要電力,因而運輸、保存都很容易。”
讀取DNA相當簡單,但是到目前為止,編寫DNA一直是把DNA存儲變為現實的主要障礙。主要存在兩種挑戰:首先,利用目前的方法只能製造出短鏈DNA;其次,不管是編寫DNA還是讀取DNA都很容易出錯,特別是當同一個DNA字符出現重複時,尤其容易出錯。研究人員正著手創建一種可以解決上述兩個問題的編碼。
“我們知道,我們需要單獨地利用短鏈DNA來進行編碼,而且需要採取一種方法,使我們在編碼時不可能出現一連串的同一字符。因此我們估計,把編碼拆分為許多前後互相搭接的片段,利用索引信息來顯示每個片段在全部編碼中所屬的位置,制定一個不允許重複的編碼方案。這樣,只有在四個不同的片段中犯同樣錯誤時,編碼才會失敗——這樣的情況極為罕見。”尤恩·伯尼說道。
這個新方法需要通過編碼信息來合成DNA。安捷倫科技公司(Agilent Technologies, Inc)是位於加州的一家公司,自願為此項研究提供服務。登錄到安捷倫科技公司的網站,尤恩·伯尼和尼克·高曼給該公司發送了以下資料的編碼版本:一個mp3格式的馬丁·路德·金的演講《我有一個夢想》;一張jpg格式的EMBL照片;一篇pdf格式的沃森和克里克合作的重要論文《核酸的分子結構》;一份包括所有莎士比亞十四行詩的txt格式文件;還有一份敘述本研究中編碼情況的文件。
“我們從互聯網上下載了這些文件,並利用這些文件來合成了數十萬段DNA,合成的結果看起來就像一小塊泥土。”安捷倫科技公司的埃米莉·勒普勞斯特說。安捷倫科技公司將這個合成樣本郵寄給EMBL,EMBL的研究人員能夠不出差錯地為合成DNA測序,為文件解碼。
“我們利用DNA分子創造了一種容錯編碼,據我們所知,這種分子形式將會在1萬年甚至更長的時間裡保持良好的狀態。”尼克·高曼說,“只要有人知道這種編碼是什麼,利用一台可以讀取DNA的機器就能夠獲取編碼所存儲的文件。”
儘管還有許多實際的問題需要解決,但是DNA固有的高密度性和耐久性使之成為引人矚目的存儲媒介。研究人員下一步將要完善這種編碼方案,使DNA存儲早日付諸實用。 (胡德良 《自然與科技》雜誌)
來源: 自然與科技
留言列表