在DNA中存储数据听起来像是科幻小说,但它就在不久的将来。TomdeGreef教授预计第一个DNA数据中心将在五到十年内启动并运行。数据不会以零和一的形式存储在硬盘中,而是存储在构成DNA的碱基对中:AT和CG。这样的数据中心将采用实验室的形式,比现在的小很多倍。
DeGreef已经可以想象这一切。在大楼的一部分,新文件将通过DNA合成进行编码。另一部分将包含大面积的胶囊,每个胶囊都装有一个文件。机械臂将取出胶囊,读取其内容并将其放回原位。
我们谈论的是合成DNA。在实验室中,碱基按一定顺序粘在一起,形成合成产生的DNA链。当前存储在数据中心的文件和照片可以存储在DNA中。目前,该技术仅适用于档案存储。这是因为读取存储数据的成本非常高,所以要尽可能少查阅DNA文件。
大型、耗能的数据中心已经过时
DNA中的数据存储具有许多优势。例如,DNA文件可以存储得更紧凑,数据的寿命也长很多倍。但也许最重要的是,这项新技术使耗能大的数据中心变得过时。DeGreef警告说,这是迫切需要的,“因为在三年内,我们将在全球范围内生成如此多的数据,我们将无法存储其中的一半。”
与博士一起学生BasBögels、Microsoft和一群大学合作伙伴DeGreef开发了一种新技术,使合成DNA的数据存储创新具有可扩展性。结果发表在今天的《自然纳米技术》杂志上。DeGreef在TUEindhoven的生物医学工程系和复杂分子系统研究所(ICMS)工作,并担任Radboud大学的客座教授。
可扩展
使用DNA链进行数据存储的想法出现于1980年代,但在当时过于困难和昂贵。三十年后,当DNA合成开始腾飞时,这在技术上成为可能。哈佛医学院遗传学家乔治丘奇在2011年详细阐述了这个想法。从那时起,合成和读取数据的成本呈指数级下降,最终将该技术推向市场。
近年来,DeGreef和他的团队主要研究读取存储的数据。目前,这是这项新技术面临的最大问题。目前用于此的PCR方法称为“随机访问”,非常容易出错。因此,您一次只能读取一个文件,此外,每次读取一个文件时,数据质量都会下降太多。不完全可扩展。
它是这样工作的:PCR(聚合酶链式反应)通过添加带有所需DNA代码的引物来创建数百万份您需要的DNA片段。例如,实验室中的冠状病毒测试就是基于这样的:当复制这么多次时,即使是从你鼻子里取出的微量冠状病毒物质也能被检测到。但是如果你想同时读取多个文件,你需要多个引物对同时完成它们的工作。这会在复制过程中产生许多错误。
每个胶囊包含一个文件
这就是胶囊发挥作用的地方。DeGreef的小组开发了一种蛋白质和聚合物的微胶囊,然后每个胶囊锚定一个文件。DeGreef说:“这些胶囊具有我们可以利用的热特性。”在50摄氏度以上,胶囊会自行密封,从而使PCR过程在每个胶囊中单独进行。那时没有太多错误的余地。DeGreef将此称为“热密闭PCR”。在实验室中,到目前为止,它已经成功地同时读取25个文件而没有出现重大错误。
如果您随后再次降低温度,副本就会从胶囊中分离出来,而固定的原件会保留下来,这意味着原始文件的质量不会下降。“我们目前在3次读取后损失了0.3%,而现有方法的损失率为35%,”DeGreef说。
可通过荧光搜索
这还不是全部。DeGreef还使数据库更易于搜索。每个文件都有一个荧光标签,每个胶囊都有自己的颜色。然后设备可以识别颜色并将它们彼此分开。这就把我们带回了故事开头想象中的机械臂,它会在未来从胶囊池中整齐地挑选出想要的文件。
这样就解决了读取数据的问题。DeGreef说:“现在只需等到DNA合成成本进一步下降即可。届时这项技术就可以投入应用了。”因此,他希望荷兰能够很快开放其首个DNA数据中心——世界第一。