Un futur front de guerre scientifique et économique, portant sur le stockage des données dans l’ADN, se prépare. Ce n’est pas de la science-fiction de mauvais roman de gare, mais bel et bien un enjeu de puissance économique et environnemental pour qui maîtrisera la conservation des mégadonnées dont les volumes augmentent de façon exponentielle. Les Etats-Unis et la Chine sont visiblement en tête !
Comment ca marche ?
Explications… A l’état de théorie dans les années 60, les physiciens Mikhail Samoilovich Neiman et Richard P. Feynman, (prix Nobel de physique en 1965) ont été les premiers à envisager l’ADN comme support de stockage de l’information numérique. Le principe est de passer du code numérique binaire (0-1) au code quaternaire propre à la molécule d'ADN, laquelle n'est rien d'autre qu'une longue chaîne de quatre caractères correspondant à ses quatre bases nucléiques : A (adénine), G (guanine), T (thymine) et C (cytosine). Plus facile à imaginer qu’à faire, car il fallait encoder les données puis savoir les lire.
Les premières victoires scientifiques
Ainsi, il faut attendre 1977 pour la mise au point de la première méthode de lecture de l’ADN, et 1983 pour aboutir à une technique d’écriture de l’ADN. En 2012, l’équipe de George M. Church (Université de Harvard aux Etats-Unis) a stocké 0,6 Mo d’information sur l’ADN, sous forme de fragments synthétiques. En 2013, l’équipe de Nick Goldman (Institut Européen de Bio-informatique, Royaume-Uni) a converti quatre fichiers en séquence d’ADN, pour un total de 0,7 Mo. L’information a été retranscrite sans erreurs. En 2018, Microsoft Corp. et l’Université de Washington, aux États-Unis, ont stocké sur de l’ADN 1 Go d’information venant de fichiers de types variés.
Plus récemment, en novembre dernier au musée des Archives nationales à Paris, Stéphane Lemaire et Pierre Crozet, respectivement directeur de recherche CNRS et maître de conférences à Sorbonne Université, présentaient DNA Drive, leur technologie brevetée de stockage d’information numérique sur ADN, « une première mondiale pour une institution publique », selon le communiqué de presse du CNRS. C’est ainsi que les Archives nationales ont officiellement enregistré le dépôt d’archives numériques encodées sur ADN de la Déclaration des droits de l’homme et du citoyen de 1789 et la Déclaration des droits de la femme et de la citoyenne, rédigée par Olympe de Gouges en 1791.
Les enjeux économiques et environnementaux
Les mégadonnées aujourd'hui stockées et archivées dans des centres dédiés, au moyen de bandes magnétiques, disques durs et mémoires flash deviennent un problème technique, énergétique et donc économique majeur. La quantité de données produites par l'humanité s'élevait, en 2018, à quelque 33.000 milliards de milliards d'octets (ou 33 zettaoctets). Autant, paraît-il, que le nombre estimé de grains de sable sur la Terre estime le rapport de l'Académie des technologies sur le thème « Archiver les mégadonnées au-delà de 2040: la piste de l'ADN », le volume de cette « sphère globale des données » (SGD) double tous les deux ans. L'ADN présente des performances stupéfiantes comparé aux supports magnétiques ou électroniques. En termes de durabilité, d'abord: alors que la durée de vie limitée des mémoires flash, disques durs et bandes magnétiques oblige les opérateurs des centres de données à effectuer des recopies tous les cinq à sept ans en moyenne (et ce, au prix d'une incroyable dépense d'électricité), l'ADN, conservé dans de bonnes conditions, reste intact pendant des dizaines de milliers d'années.
Par ailleurs, le manque de terrains disponibles dû au gigantisme des centres de données, le système de stockage-archivage actuel va vite se heurter à d'autres limites physiques. Enfin, le manque de silicium de qualité électronique (hautement purifié) : les experts estiment que seul 1 % de tout le silicium purifié nécessaire à l'absorption de la sphère globale des données d'ici à 2040 pourra être produit. L'électricité constituera enfin un autre problème : les millions de centres de données existants (en incluant ceux des entreprises et du cloud) consomment déjà à eux seuls 2 % de toute l'électricité produite dans les pays avancés. Quant à leur coût de construction et d'exploitation, il est tout simplement faramineux, puisque globalement estimé à 1.000 milliards d'euros. Autant de raisons pour lesquelles les académiciens des technologies jugent le système actuel condamné à plus ou moins brève échéance.
En fait, les tensions commencent d'ores et déjà à se faire sentir : Microsoft a calculé, en 2018, que seuls 40 % des données qu'on aurait souhaité pouvoir stocker l'ont effectivement été. « Plusieurs ordres de grandeur manquent pour atteindre la viabilité économique de cette approche: un facteur d'environ mille pour le coût et la vitesse de lecture, et cent millions pour ceux d'écriture », écrivent les académiciens du rapport. Mais attention, les technologies ADN évoluent beaucoup plus vite que la célèbre loi de Moore qui a fait les beaux jours de l'électronique. Le stockage moléculaire sera devenu économiquement viable d'ici à 2040, avancent les experts.
Le renseignement américain aux avant-postes... et sa réponse chinoise
Outre atlantique, le sujet est piloté par l'Intelligence Advanced Research Projects Activity (I'ARPA, une agence au service du renseignement américain), dans le cadre de son programme MIST (Molecular Information Storage) dont le but est de passer du « giga- » au « téra- » (mille fois plus) d'ici à 2024, qui verse régulièrement des aides dont la dernière à hauteur de 50 millions de dollars. Les organisations sélectionnées pour travailler sur MIST possèdent une expertise approfondie dans le développement de la technologie de l'ADN et comprennent le Georgia Tech Research Institute, le Broad Institute et un consortium de partenaires industriels avec Microsoft (qui dans « Scientific Reports », a présenté un prototype de paillasse de sa machine à encoder-écrire-stocker-lire-décoder de l'information dans de l'ADN, capable de traiter un gigaoctet en vingt-quatre heures), la start-up française, DNA Script (spécialiste de la synthèse enzymatique d'ADN, qui serait plus prometteuse que la synthèse chimique), la société de séquençage Illumina, enfin le laboratoire national de Los Alamos, les laboratoires nationaux de Sandia et le laboratoire de recherche de l'armée américaine.
Côté chinois, l'Association chinoise pour la science et la technologie a publié 60 problèmes scientifiques techniques d'ingénierie majeurs, et le stockage de l'ADN a été répertorié comme l'un d'entre eux. Le « 14e plan quinquennal » de la Chine contient un paragraphe visant à accélérer le déploiement de technologies de pointe telles que l'informatique quantique, les communications quantiques, les puces neuronales et le stockage d'ADN. « On peut voir que le stockage d'ADN est devenu une direction de développement clé pour le déploiement au niveau national, et il est très important d'explorer activement si le stockage d'ADN peut devenir la méthode de stockage de données de nouvelle génération » explique Yuan Yingjin, académicien de l’Académie Chinoise des Sciences et professeur à l’université de Tianjin.
Si la compétition est ouverte, côté européen l’enjeu est aussi étudié à travers le programme Oligoarchive qui a démarré en 2019 pour s’achever en 2023. Il est piloté par le Royaume Uni à hauteur de 3 millions d’euros seulement…
Eric Roubert
Auditeur en MSIE - Executive MBA en Management Stratégique et Intelligence Economique