陈 非
海量数据是构建人工智能大模型的基础,目前全球数据量呈指数级增长。硬盘、磁带、U盘等硅基存储介质,存在寿命短、能耗高、占用空间大等问题,无法满足日益增长的数据存储需求。怎么办?这就要发展新型数据存储技术。
DNA是天然的数据信息编码存储材料。它的密度高,是现有存储介质的107倍;寿命长,低温下可稳定保存数千万年;能耗低,是解决大数据存储困境的“优解”。
目前,绝大多数DNA存储技术采用类似“雕版印刷”的设计策略,主要思路是“读”(直接测序)和“写”(依序合成)。具体而言,是根据一定的编码映射原则,将0—1二进制计算机数据文件编码转换为A—T—C—G四进制DNA编码,并进一步合成写入DNA,进行存储;当需要时,这些存储数据的DNA“文件夹”可以利用高通量测序等手段解码。不过,如同“雕版印刷”的使用,这种DNA存储是一次性的,使用一次、合成一次,成本高、时间长。
受我国古代“活字印刷术”启发,科研人员提出“DNA活字存储”设计思路。“DNA活字”由预制的DNA片段构成,可编码1字节的信息。根据需要打印的文件内容,我们可以自由调用“DNA活字”,按需组合,再通过一步多级连接形成“DNA活字块”,最终构成完整的DNA存储文件。
打印过程如何实现呢?科研人员开发了“DNA活字”喷墨打印及印刷一体机“毕昇一号”,实现“DNA活字”存储流程的自动化。“毕昇一号”装配了数百个预制的“DNA活字”溶液,可根据排版打印的文件需求,按照电脑程序指令自动选择所需的“活字”,并全自动组装连接成“DNA活字块”。
“DNA活字存储”拥有类似于活字印刷的复用性和灵活性,展现出明显的成本和效率优势。科研人员测算,“毕昇一号”装配的一个“DNA活字”可打印1万次,存储成本大幅降低。借助古人的智慧和现代科研人员的努力,“DNA活字存储”也将为大数据时代的海量存储需求提供一种新的解决思路。
(作者为中国科学院北京基因组研究所(国家生物信息中心)研究员)
《 人民日报 》( 2025年06月07日 06 版)