AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

2024 年 11 月 18 日,中科院北京基因组研究所(国家生物信息中心)陈非团队、计算所处理器全国重点实验室谭光明、卜东波团队、中科计算技术西部研究院段勃团队、微生物所杨怀义团队、武汉所刘翟团队以及吉林大学李全顺团队等在知名国际学术期刊《Advanced Science》上发表了题为 “Cost-Effective DNA Storage System with DNA Movable Type” 的论文,借鉴毕昇活字印刷术的思想,提出了“DNA活字存储”新思路,并实现了具有完全自主知识产权的全自动、低成本、高效率的DNA 活字存储喷墨打印机“毕昇一号”。

打开网易新闻 查看精彩图片

  • 论文标题:Cost-Effective DNA Storage System with DNA Movable Type
  • 论文地址:https://onlinelibrary.wiley.com/doi/10.1002/advs.202411354

1. 什么是 DNA 存储?

数据指数级增长,磁带、磁盘、光盘、U 盘不敷使用,怎样才能存得下?

存到 DNA 中吧!存到 DNA 中是一种有潜力的方案!

互联网时代的到来, 数字化和信息化浪潮使知识与数据都经历着爆炸式的增长。海量数据给现有的数据存储技术带来了巨大的挑战:现有的硬盘、磁带存储模式存在保存时长有限(最长约 30 年)、占用空间大、转运不方便、电能损耗大等缺点,无法满足数据指数形式增长的需求。

DNA 存储技术是一种新兴的大数据存储技术。简要地说,DNA 存储技术突破了传统的以硅基介质(如 U 盘等)为媒介的存储方式,而是利用 DNA 碱基天然的信息存储能力,依据一定规则将文本、图片、声音、影像文件等传统数据 0-1 二进制编码转换为 DNA 核苷酸四进制编码(A、T、C、G 组合),然后通过人工合成特定序列的 DNA 来存储数据。相比于现有的数据信息存储方式,DNA 存储技术具有数据密度高、保存时间长、配套设备能耗低、便于携带、运输隐蔽性高和便于多重加密等优点。

打开网易新闻 查看精彩图片

图 1. DNA 存储技术及其优势

鉴于 DNA 存储技术的巨大潜力,美国微软公司陆续投资近亿美元,与华盛顿大学于 2015 年成立 DNA 存储项目组,于 2018 年 3 月完成了约 200MB 数据的保存,其中包括古登堡计划数据库中的 100 部世界名著,创造了 DNA 存储领域的新纪录。2019 年,他们构建了端到端全流程原型机,实现了 “hello” 单词的完整写读。

2. 什么是 DNA 活字存储?

现有的 DNA 存储技术 “一次合成、一次使用”,价格昂贵,怎样才能降低成本?

用 DNA 活字吧!DNA 活字存储是一种有潜力的方案!

“庆历中,有布衣毕昇,又为活板。其法:用胶泥刻字,薄如钱唇,每字为一印,火烧令坚…… 欲印,则以一铁范置铁板上,乃密布字印,满铁范为一板,持就火炀之,药稍镕,则以一平板按其面,则字平如砥。若止印三二本,未为简易;若印数十百千本,则极为神速”。这是沈括写的《活板》中的一段话 ---《活板》被选作初中课文,是以举凡在中国读过初中者,想必对毕昇发明活字印刷术的故事皆耳熟能详。《活板》有言:“有奇字素无备者,旋刻之,以草火烧,瞬息可成”,活字印刷术相较于雕版印刷术之优势可见一斑。

那什么是 DNA 活字存储呢?所谓 DNA 活字存储,就是 “DNA 版本的活字印刷术”。目前的 DNA 存储技术方案,多采用化学合成法,一次合成,一次使用,可比作雕版印刷术;而 DNA 活字能够一次合成,多次使用,可比作活字印刷术。

具体来说,DNA 活字存储采用酶连反应替代部分化学合成步骤完成数据写入,每个活字可重复使用多达一万次,从而将数据存储成本降低至每兆字节仅 122 美元,成为当前业内最具成本效益的存储解决方案。

打开网易新闻 查看精彩图片

图 2. 毕昇发明的活字印刷术与 DNA 活字存储。以唐诗《行路难・其一》为例,我们将每个字符及其位置索引转换成 DNA 活字,用酶联技术连接成 DNA 片段,最终转导入大肠杆菌中长期存储

3. “毕昇一号”--- 全自动的 DNA 活字存储喷墨打印机

DNA 活字存储包括选活字、酶联活字、酶联后的 DNA 片段转导入大肠杆菌中长期存储等多个环节。如何提高存储效率呢?联合团队研发了 DNA 活字喷墨打印机 “毕昇一号”,全自动完成上述诸多环节,显著提升了数据写入效率 --- 研究团队将这台打印机命名为 “毕昇一号”,以表达对毕昇的崇敬之意。

打开网易新闻 查看精彩图片

图 3. “毕昇一号”--- 全自动的 DNA 活字存储喷墨打印机

“毕昇一号” 系统使用 350 个 DNA 活字,成功存储并精准检索了 43.7 KB 的多媒体数据,包括文本、图像、音频和视频,充分证明了其技术的可行性和应用潜力。这项工作为 DNA 数据存储技术的未来产业化提供了全新的思路与可能性。

毕昇一号 DNA 活字存储系统的工作流程包括四个主要步骤:

第一步,编码:将目标文件(如《十四行诗》第 12 首)分割为 100 字节 / 字符的片段,每个片段进一步划分为 20 个数据切片。每个切片包含 5 字节的有效载荷和 4 字节的地址,形成数据条带。例如,图中展示了第四条数据条带的 20 个连续数据切片(第 0–19 行),这些切片覆盖了第 300 到第 399 个字符的内容(如 “ed up...question ma”),其中第 8 个切片在第 340 个位置编码了单词 “white”。此外,通过列校验和(第 20–29 行)和行校验和(第 9 列)提供了额外的错误检测和纠正功能。

第二步,打印:利用 “毕昇一号” DNA-MT 喷墨打印机,将 4 个地址活字(AMTs)、5 个有效载荷活字(PMTs)和 1 个校验活字(CMT),以及连接酶和预切割载体打印到每个试管中,通过酶促连接形成包含 DNA-MT 块的质粒。

第三步,存储:组装完成的重组质粒可以以液体或冻干形式进行体外保存,或者转化至大肠杆菌中实现长期体内存储。

第四步,解码:通过高通量测序对 DNA 活字块进行测序,获得的 DNA 序列根据编码表解码为对应活字,从而还原原始数据。例如,解码一个 250 个碱基的序列可以恢复第 340 个位置的单词 “white”。最终,解码后的有效载荷活字根据地址活字的顺序排列,完成对原始文件的重建。

打开网易新闻 查看精彩图片

图 4. 毕昇一号 DNA 活字存储系统的工作流程

毕昇一号 DNA 活字存储的成本约为 122 $/MB,明显低于现有的 DNA 存储技术。该团队表示,后续研究通过增加活字连接段数和减小反应体系,可将存储成本降低至 0.06 $/MB,伴随着编码技术的进步,如集成高密度喷泉码和改进校验的 DNA 活字,成本将进一步降低,有望进一步推动 DNA 存储的商业化进程。

打开网易新闻 查看精彩图片

图 5. DNA 活字存储技术可显著降低存储成本

4. 展望

DNA 存储技术是生物技术与信息处理技术的碰撞与交叉。它开辟了一种新的存储模式,从根本上改变了数据、信息的保存及传递方式,是大数据存储模式的新篇章。

北宋时,毕昇发明了活字印刷术,尽扫雕版印刷术之弊;而时至今日,古老的活字印刷术与现代的 DNA 存储相互激发,相互交叉,碰撞出 “DNA 活字存储” 这一新思维。

“发挥旧事重增焕”。我们期待:“毕昇一号” DNA 活字存储喷墨打印机将像毕昇的 “活板” 一样,另辟蹊径,开创新篇!

打开网易新闻 查看精彩图片

图 6. 研究团队部分人员。左起:张心茹、范婷文、邢晶、段勃、陈非、卜东波、刘翟、杨怀义、马灌楠、魏征、魏迪、王晨阳、王佩、侯鹏飞、涂朝仕。