Una nueva técnica del MIT para almacenar archivos en ADN mediante cápsulas promete hacer más fácil su posterior recuperación

El almacenamiento de datos en ADN era prometedor ya allá por 2007 y años después resultó ser de interés a nivel más extendido, incluso por parte de Microsoft, quienes han llegado a desarrollar una máquina para automatizar el proceso. Este interés está lejos de mitigarse y ahora un equipo de investigadores ha ideado un nuevo proceso para almacenar y recuperar información en ADN.

El hecho de intentar encontrar un sistema práctico (y sobre todo económico) para almacenar información en esta biomolécula parte de las ventajas que representa: la información ocupa menos espacio y promete tener una durabilidad muy prolongada. Otro de los escollos está en la recuperación de los archivos almacenados, que tampoco acaba de ser lo sencillo y práctico que les gustaría por ahora, y en eso es en lo que esta nueva técnica podría aportar mejoras.

Fluorescencia y lógica booleana para dar antes con los archivos

La idea de almacenar datos en ADN se basa en codificar los bits de información (ceros y unos) en secuencias de ADN. El ADN (ácido desoxirribonucleico) es una cadena de pequeñas unidades llamadas nucleótidos que se identifican por una de sus partes (la base nitrogenada), por la que se le otorga una letra (que es la inicial del componente diferencial de la base nitrogenada): A (adenina), T (timina), C (citosina) y G (guanina). Es decir, cada eslabón sería una de estas letras, y el orden de las mismas determina los genes y qué proteína se acaba expresando, de ahí que se hable de código genético.

Organización y compactación esquemática del ADN en una célula. Imagen: KES47

De ahí que, a grandes rasgos, se trate de traducir los ceros y unos del binario en A, T, C y G, y así aprovechar el hecho de que más o menos un nucleótido equivalga a dos bits. Esto se traduce en que dos bits ocupen más o menos 1 nanómetro cúbico, con lo que un exabyte de datos (por ejemplo, de un centro de servidores) en ADN más o menos cabría en la palma de nuestra mano.

El método es prometedor, pero están esos dos puntos que reflejábamos como principales cuellos de botella: el coste y recuperar un archivo específico entre todos los que se hayan almacenado. De momento el método es parecido al que la maquinaria celular (se considera que) realiza, dado que se basa en el reconocimiento de un marcador (primer) para que se encuentre y amplifique la secuencia deseada, pero esto conlleva a que pueda haber confusión entre el primer y otras secuencias de otros archivos y, como explican en el MIT, es un proceso que consume gran parte del ADN de la muestra (y requiere muchas enzimas).

En Xataka

Las 10 variantes genéticas "ventajosas y sin efectos secundarios" que George Church quiere meter en nuestros hijos con CRISPR

En este sentido, lo que han publicado estos investigadores del propio MIT en Nature Materials es una nueva técnica para recuperar los archivos de una manera más práctica encapsulando el ADN en partículas de sílice. Cada una de estas partículas se etiqueta con una tira de ADN a modo de código de barras que se corresponde con el contenido del archivo.

Los investigadores codificaron 20 imágenes en moléculas de ADN de unos 3.000 nucleótidos, lo cual equivale a unos 100 bytes (si bien las cápsulas lograrían almacenar hasta 1 GB, según describen). Cada archivo se etiquetó con alguna referencia clara, como "gato" o "avión", de manera que se empleaban los primers de dichas referencias.

Estos primers iban marcados con fluorescencia o partículas magnéticas, de modo que fuese más fácil identificar los emparejamientos con la secuencia de ADN deseada. Lo que permite, según explican, es que se recupere el fragmento de ADN deseado (y, por tanto, el archivo) sin dañar el resto de ADN. Además, permite hacer una búsqueda de manera similar a cómo trabaja el buscador Google con las imágenes al soportar operadores booleanos, de manera que una fórmula como "animal AND blanco" genere "gato" como resultado.

Un pequeño paso hacia un almacenamiento prometedor, pero aún caro

Otra de las ventajas que muestra esta nueva técnica es que se pueden usar los instrumentos y técnicas actuales de laboratorio para secuenciar, amplificar, etc. el ADN. Mark Bathe, uno de los investigadores del proyecto, ve utilidad en el futuro para la información a la que no se accede de manera habitual.

No obstante, el coste sigue siendo un problema. Según el MIT, actualmente costaría 1 trillón de dólares almacenar un petabyte de datos (1 millón de GB), y según calcula Bathe no será hasta dentro de al menos una década (o dos) cuando empezaría a ser competitivo a nivel de coste con el almacenamiento magnético.

Así que queda ver si, mientras los procesos se abaratan como calculan, van dando además con los sistemas más eficientes también a nivel de velocidad de guardado. Mientras tanto, lo que sí sabemos seguro es que se pueden almacenar GIFs en ADN, así que la cultura del GIF está salvada.

Imagen | Vectorjuice (Freepik