École d’Été Peyresq 2025
Thème Quantification d’incertitude Le GRETSI et le GdR IASIS organisent depuis 2006 une École d’Été...
10 December 2024
Catégorie : Stagiaire
- Stage en informatique et codage canal (pas de connaissance nécessaire en biologie)
- Stage de fin d’études à partir d’avril 2024, localisé à IMT Atlantique à Brest
- Co-encadrement entre IMT Atlantique et INRIA Rennes
- Possibilité de poursuite en thèse
Les centres de données (“data centers”) représentent aujourd’hui autour de 20% de la consommation d’énergie du numérique en France. Une alternative, le stockage de l’information dans des molécules d’ADN synthétique, est ainsi explorée activement depuis quelques années. En plus d’offrir une densité de stockage bien supérieure aux technologies actuelles (jusqu’à plusieurs exabits au mm^3), l’ADN est un support robuste, capable de résister à de fortes variations de température, et durable dans le temps. Il devrait donc permettre de conserver l’information sur le long terme, et de diminuer significativement la consommation d'énergie du stockage.
La fabrication de l’ADN se réalise par une opération de synthèse, qui consiste à écrire une suite de symboles quaternaires sous la forme d’une molécule composée de nucléotides de types A, C, G et T. Actuellement, l’opération de synthèse représente le principal goulot d’étranglement de cette technologie, car elle est lente et coûteuse, bien que très fiable car dédiée à l’origine au domaine médical. La lecture de l’information se fait ensuite par une opération de séquençage, une technique qui introduit une proportion importante d’erreurs (environ 5%) dans les données séquencées.
Le codage canal consiste à introduire des redondances structurées dans les données à transmettre, qui seront exploitées lors du décodage pour corriger les erreurs introduites lors de la transmission des données. Les solutions modernes de codage canal telles que les codes Turbo, les codes LDPC ou les codes Polaires, sont aujourd’hui un rouage indispensable de la majorité des standards de télécommunications (Wi-Fi, radio mobile, etc.) et de stockage de l’information (mémoires RAM, disques durs, etc.), car ils permettent de fiabiliser la transmission et le stockage. Cependant, le stockage de données dans l'ADN introduit des erreurs (insertions, déletions), que les codes canal usuels ne savent pas corriger car ces erreurs cassent leur structure de redondance.
Ceci dit, une opportunité intéressante du point de vue de la correction d'erreurs réside dans le fait que le séquençage produit naturellement un grand nombre de lectures de la même molécule, avec des erreurs différentes à chaque lecture. Une solution issue du domaine de la bio-informatique consiste à utiliser des algorithmes de consensus pour reconstruire la séquence d'entrée à partir des lectures multiples. Dans ce stage, l'idée sera de combiner ces deux solutions complémentaires (algorithmes de consensus et codage canal), pour reconstruire plus efficacement la séquence d'entrée en exploitant à la fois les lectures multiples et les redondances du code.
Le stage s'effectuera dans le cadre du PEPR MolécularXiv. Le stagiaire sera affecté au département MEE de l'IMT Atlantique, à Brest, et travaillera également avec l'équipe GenScale de l'INRIA Rennes. Ce stage s'adresse à des étudiants de Master 2, 3ème année d'école d'ingénieur, ou équivalent, ayant suivi un cursus en informatique ou en télécommunications. Des connaissances préalables en codage canal seraient un plus. En revanche, il n'est pas nécessaire d'avoir des connaissances préalables en biologie pour travailler sur ce sujet.
Pour en savoir plus, vous pouvez consulter les vidéos suivantes :
- Codage canal pour le stockage de données dans l'ADN : https://www.youtube.com/watch?v=CM249olRvLI&t=1680s
- Le projet DnarXiv : https://cominlabs.inria.fr/le-projet-dnarxiv-explorer-le-stockage-de-donnees-sur-des-molecules-dadn/
Pour candidater, contacter Elsa Dupraz (elsa.dupraz@imt-atlantique.fr) et Dominique Lavenier (dominique.lavenier@irisa.fr), et joindre les éléments suivants : CV, relevé de notes, quelques lignes dans le corps du mail expliquant votre intérêt pour ce sujet.