Logran archivar en ADN un sistema operativo y un cortometraje

Un algoritmo diseñado para transmitir video en un teléfono celular puede desbloquear el potencial de almacenamiento casi total del ADN, maximizando la capacidad de sus cuatro nucleótidos básicos.

Científicos de la Universidad de Columbia y el Centro del Genoma de Nueva York (NYGC) han recurrido así a la vieja solución de la naturaleza para el almacenamiento de información a gran escala, dado que la Humanidad podría generar pronto más datos de los que los sistemas actuales de almacenamiento podrían admitir.

En su estudio, publicado en Science, demuestran además que esta tecnología también es extremadamente confiable.

El ADN es un medio de almacenamiento ideal porque es ultracompacto y puede durar cientos de miles de años si se mantiene en un lugar fresco y seco, como lo demuestra la recuperación reciente del ADN de los huesos de un antepasado humano de 430.000 años de antigüedad en el yacimiento de Atapuerca.

"El ADN no se degradará con el tiempo como cintas de casete y CDs, y no se volverá obsoleto, si lo hace, tenemos problemas mayores", dijo el coautor del estudio, Yaniv Erlich, un profesor de ciencias de la computación en Columbia Engineering, Data Science Institute, y miembro principal del NYGC.

Erlich y su colega Dina Zielinski, científica asociada de la NYGC, escogieron seis archivos para codificar o escribir en el ADN: un sistema operativo de ordenador completo, una película francesa de 1895 "Llegada de un tren en La Ciotat", un regalo de 50 dólares de Amazon, un virus informático, una placa de Pioneer y un estudio de 1948 del teórico de la información Claude Shannon.

Se comprimieron los archivos en un archivo maestro, y luego se dividieron los datos en cadenas cortas de código binario compuesto de unos y ceros. Usando un algoritmo de corrección de borrado llamado código fuente, empaquetaron aleatoriamente las cuerdas en las llamadas gotas, y mapearon los unos y los ceros en cada gotita a las cuatro bases nucleotídicas en el ADN: A, G, C y T. El algoritmo suprimió combinaciones de letras conocidas por crear errores, y agregó un código de barras a cada gotita para ayudar a volver a montar los archivos más tarde.

En total, generaron una lista digital de 72.000 hebras de ADN, cada una con 200 bases de largo, y la enviaron en un archivo de texto a una empresa tecnológica dedicada a la síntesis de ADN de San Francisco, Twist Bioscience, que se especializa en convertir datos digitales en datos biológicos. Dos semanas más tarde, recibieron un vial conteniendo una mota de moléculas de ADN.

Para recuperar sus archivos, utilizaron la tecnología de secuenciación moderna para leer las cadenas de ADN, seguido de software para traducir el código genético en binario. Recuperaron sus archivos con cero errores, informa el estudio.

También demostraron que un número virtualmente ilimitado de copias de los archivos podría crearse con su técnica de codificación multiplicando su muestra de ADN a través de la reacción en cadena de la polimerasa (PCR), y que esas copias e incluso copias de sus copias, etc. se recuperan sin errores.

Finalmente, los investigadores demuestran que su estrategia de codificación contiene 215 petabytes de datos sobre un solo gramo de ADN, 100 veces más que los métodos publicados por los investigadores pioneros George Church en Harvard y Nick Goldman y Ewan Birney en el European Bioinformatics Institute. "Creemos que este es el dispositivo de almacenamiento de datos de mayor densidad jamás creado", dijo Erlich.

La capacidad de almacenamiento de datos de ADN está teóricamente limitada a dos dígitos binarios para cada nucleótido, pero las restricciones biológicas del propio ADN y la necesidad de incluir información redundante para volver a montar y leer los fragmentos más tarde reduce su capacidad a 1,8 dígitos binarios por base de nucleótidos.

La idea del equipo era aplicar los códigos de fuentes, una técnica que Erlich recordó de la escuela de posgrado, para hacer el proceso de lectura y escritura más eficiente. Con su técnica de fuente de ADN, Erlich y Zielinski empaquetaron un promedio de 1,6 bits en cada nucleótido de base. Eso es por lo menos 60 por ciento más datos que los métodos publicados anteriormente, y cerca del límite de 1.8-bit.

El coste sigue siendo una barrera. Los investigadores gastaron 7.000 dólares para sintetizar el ADN que usaron para archivar sus 2 megabytes de datos, y otros 2.000 dólares para leerlo.

Pero el precio de la síntesis de ADN puede ser enormemente reducido si se producen moléculas de menor calidad, y las estrategias de codificación como la fuente de ADN se utilizan para corregir los errores moleculares, dice Erlich. "Podemos hacer más trabajo pesado en la computadora para eliminar la carga de la codificación molecular de uso intensivo de tiempo", dijo.

Compartir el artículo