当打算机工程师流传宣传自己取得了惊人打破,可以将所占空间巨大的音乐库和电影库存储在手掌大小的设备中时,生物遗传学家立时泼来一盆冷水:跟自然界的能力比起来,这实在是太小儿科了。
没错,论存储密度,没有什么设备能跟DNA相提并论——全体有机体的遗传信息全部存储在肉眼都看不见的细胞之内。于是,打算机科学家们开始研究分子生物学,试图借鉴DNA的“魔力”首立异一代的数字存储技能。

信息大爆炸的本日,新的APP、自拍照、博文、小视频等更新频繁的数字信息让薄弱的存储设备不堪重负。但好是,DNA的存储密度理论上可以达到每克455EB(1EB=1024PB=1048576TB)。也便是说,指尖大小的芯片可以拷贝440亿份加长版《魔戒》三部曲(须要1.64亿年才能把所有这些电影看完)。

2012年,哈佛大学和麻省理工学院的著名遗传学家George Church首次用DNA来存储数字信息,并将研究成果揭橥在了《Science》上。Church将自己的一本书的电子数据编辑成DNA形式(650KB),他在《科尔伯特报告》(The Colbert Report)上向人们展示了一张薄纸,仅仅上面的一个斑点就存储了数百万个该书本的备份。
George Church
当时,George Church 和同事就已经试图证明,数字信息可以被编辑成DNA形式。随后,为了验证 George Church 的理论,很多工程师和生物学家团队对该理念进行扩展,将更多数据编辑成DNA。
2013 年,欧洲生物信息研究所(European Bioinformatics Institute,EBI)的团队称,他们将739KB的数据文件编辑成了 DNA 链,这一大小超过了 George Church 的电子书。
2016 年 7 月,微软与华盛顿大学的研究团队刷新了记录——将200MB数据编辑成 DNA 链。
如今,DNA数据存储技能又更进一步。据不久前一篇《Science》论文表示,纽约基因组中央(New York Genome Center)和哥伦比亚大学的研究职员实现了每克DNA数据链存储214PB的数据密度。
George Church没有参与这项最新研究,但他之前通过打算证明了达到这一密度是可行的。“这是一次巨大的飞跃”,George Church激动地说,“他们将理论转化成了现实。”
从DVDs 到DNA的巨大超过
该项新研究的第一作者Yaniv Erlich表示,0 和 1 是最基本的数据表达形式,无论打算机程序还是视频电影,它们都是由 0 和 1 组成的字符串。
Yaniv Erlich
同样,DNA由A(Adenine,腺嘌呤),C(Cytosine,胞嘧啶),G(Guanine,鸟嘌呤),T(Thymine,胸腺嘧啶)四个基本单元组成。
为了将数据转换成DNA,Erlich团队的事情便是将 0 和 1 映射成A、C、G、T。然后,在将相应的DNA序列发送给Twist Bioscience之类的DNA合成公司合成DNA数据链,并将其放入盛有液体且只有手指一半大小的玻璃瓶中。值得把稳的是,里面是可是真正DNA链。
在进行数据访问时,须要重新把DNA转换为二进制,即最基本的0和1的形式。
利用这种方法,研究职员将以下测试数据编辑成DNA形式后又将其复原:
打算机操作系统
1895年的法国电影《火车到站》
一张50美元的亚马逊礼品卡
一个打算机病毒
先驱者号探测器上的镀金铝板
信息论创始人克劳德·喷鼻香农(Claude Shannon)在1948年的一份研究报告
为了测试数据,Erlich还用编码的操作系统玩了把游戏。值得把稳的是,存储数据的DNA材料并不是从动物或植物中提取的。“DNA数据链在此是一种硬件,”Erlich在一份邮件中写道。“它并非源于生物体,其合成、复制、和测序完备是化学过程。”
信息的索引
听起来,DNA存储便是把 0 和 1 的数据串编码成A,C,T,G序列,貌似很大略,但实际过程要繁芜得多。首先,并不是所有的DNA序列都有很强的存储能力。由相同核苷酸组成的序列,比如AAAAAAAAAAAA——它不但构造不稳定,而且很难准确地读取数据。
其余,在排序与检索过程中,有些DNA分子会失落去活性,这就有丢失主要数据的风险。
为理解决这些问题,Erlich运用了打算机领域常用的喷泉码来索引代码,而不是直策应用代码本身,这就使得DNA数据丢失的风险大幅降落。而 DNA 喷泉码算法的索引能力更强,也就意味着即便有少部分 DNA 数据链丢失,终极还是可以解码数据。
喷泉码是将一些数据,例如文件,转化为一个有效的任意数量的编码包的方法,这样只要你吸收到稍大于信源数据包数量的编码包的子集,就可以规复信源数据。换句话说,你创建了一个编码数据的“喷泉”,只要吸收端吸收到足够的“水点”,就可以规复文件,而不管它们接到哪一个遗漏了哪一个。
研究职员正在将一小部电影存入DNA
此外,为了担保数据还原的可靠性,Erlich想进一步验证,DNA数据链能否准确无误地复制。
DNA测序过程中须要将部分分子从样本中剔除。为了保留这部分数据,科学家必须对其进行备份。比如,Erlich保留了25个初始备份,然后又对副本备份,对副本的副本进行备份,如此一共进行了9重备份。值得把稳的是,即便是第9重备份,“我们也能完美地检索信息,数据构造很稳定。”
DNA打算机到来?
只管DNA存储取得了很大进展,但把DNA作为手机和电脑的存储设备还为时尚早。“DNA存储还处于发展初期,仍属于根本科学,”Erlich说。“我们不指望人们很快就能买到DNA硬盘。”
对此,George Church表示,它更直接是用场是作为存档工具,比如,可以把视频监控等不常常访问的数据用这种方法来存档。
比较于传统硬盘,DNA不但存储密度大,而且无需散热。而且,DNA的数据存储韶光要比其他存储工具长得多。既然古人类学家能对尼安德特人等古人类进行基因测序,Erlich也丝毫不用担心DNA的数据存储寿命。
微软的研究员们则认为,DNA存储有更广泛的运用前景。微软的Karin Strauss和华盛顿大学的Luis Ceze在邮件中表示:“对付须要长期存储海量数据公司或个人,DNA存储都是不错选择”。
比如,医院须要长期存储病人的临床信息,研究机构的研究项目也有大量数据要保存,而新兴的虚拟现实行业也要存储内存很大的视频文件。其余,随着便携摄像机的遍及,越来越多的人会选择把个人视频上传云端,这也将仰仗DNA存储。
但在目前,DNA的存储本钱极其所耗费的韶光却让人望而生畏。Erlich团队合成DNA数据花费了7000美元,读取数据又花了2000美元。合成数据须要两周韶光,读取数据也须要一天韶光。
但这并不虞味着,DNA存储不会运用到人们的日常生活中。George Church的团队就在与Technicolor公司互助,利用该技能保存了很多公司的老电影。
Technicolor公司的DNA存储
在2016年的一次媒体参不雅观活动上,Technicolor研发与创新副总裁Jean Bolot向人们展示了一小瓶数据DNA,里面有100万个1902年的法国无声电影《月球旅行记》(A Trip to the Moon)的备份。
编辑:孙小彪
《麻省理工科技评论》中美互助“城郭会员操持”正式发布,让您始终处于新兴技能商业趋势的最前沿。详情请点击下方图片查看↓↓↓
招聘
编辑、视觉设计、视频策划及后期
地点:北京
联系:hr@mittrchina.com
MIT Technology Review 中国唯一版权互助方,任何机构及个人未经容许,不得擅自转载及翻译。
分享至朋友圈才是义举








