Stage niveau M2
Contexte L’intelligence artificielle n’a pas seulement révolutionné les domaines tels que l’analyse d’image et le traitement automatique des langages, mais il présente également un intérêt particulier pour la chimie [1]. Particulièrement, les tâches de synthèse et la rétrosynthèse sont deux piliers de la chimie organique. La tâche de synthèse consiste à déterminer les produits potentiels (i.e. la ou les sorties de la réaction) à partir de précurseurs donnés (i.e. les entrées de la réaction), tandis que celle de rétrosynthèse est l’approche inverse : elle vise à identifier les précurseurs nécessaires pour obtenir les produits cibles. Les deux problèmes sont toujours considérés comme difficiles en raison de l’aspect combinatoire de l’espace chimique. Avec les avancées récentes, l’apprentissage automatique devient une approche très prometteuse pour les tâches de synthèse et la rétrosynthèse [2]. Les cyclodextrines (CDs), oligosaccharides cycliques issus de l’amidon, sont des molécules biosourcées importantes pour la production de plusieurs molécules d’intérêt en chimie [3]. Les CDs permettent de solubiliser de nombreux composés hydrophobes dans l’eau grâce à leur cavité en formant des complexes d’inclusion. Toutefois, pour élargir leur spectre d’action, il est généralement nécessaire de les modifier chimiquement, mais cette tâche reste difficile d’où un très grand nombre de dérivés possibles. C’est la raison pour laquelle le développement de l’IA est une opportunité considérable pour améliorer le criblage des cyclodextrines modifiées, optimiser leur voie de synthèse (stœchiométrique ou catalytique) et prédire leurs propriétés. MéthodesDans une méthode d’IA qui traite les tâches de synthèse et la rétrosynthèse, deux aspects restent particulièrement importants: 1) la représentation vectorielle des molécules d’une réaction et 2) l’explicabilité des prédictions.Dans la littérature, il existe essentiellement deux catégories de méthodes pour la représentation vectorielle des molécules [2]. La première catégorie se reposent souvent sur des représentations de molécules en SMILES (Simplified Molecular Input Line Entry System), i.e. une représentation textuelle. Par exemple, un SMILES typique pourrait être représenté comme suit : C(C(=O)O)N pour l’acide glycine, ce qui permet aux modèles de traiter les structures moléculaires sous forme de chaînes de caractères. Les méthodes de cette catégorie sont celles de séquence dans le traitement automatique du langage naturel (TALN) qui transforment le problème en une tâche de prédiction de séquence en utilisant les modèles de transformeurs.La limitation principale des méthodes de séquence est justement repose sur le fait de représenter une molécule en SMILES. Car, certaines informations riches, comme les positions spatiales des atomes et leur angles entre eux, se perdent dans une représentation en SMILES. C’est la raison pour laquelle il y a des travaux basés sur les représentation sous forme de graphes (2D ou 3D), notamment avec les méthodes récentes de réseaux de neurones sur graphes (GNN plus court). Les méthodes GNN, quant à elles, traitent les molécules comme des graphes où les atomes sont des nœuds et les liaisons chimiques sont des arêtes. Cette représentation en graphe permet de capturer les relations topologiquescomplexes entre les atomes dans une molécule, facilitant ainsi une meilleure prédiction des produits de réaction et des précurseurs nécessaires pour une synthèse donnée [4].Par ailleurs, l’explicabilité occupe une place centrale en IA pour favoriser la confiance et l’acceptation des technologies intelligentes. Elle vise à fournir des explications claires et compréhensibles sur le fonctionnement et les recommandations des algorithmes d’IA pour que les utilisateurs finaux comprennent comment et pourquoi une décision a été prise. C’est la raison pour laquelle plusieurs méthodes d’explicabilité ont été également proposées dans la littérature pour découvrir les décisions sous-jacentes d’un modèle de GNN (explicabilité agnostique, locale, globale, etc.) [5]. Même s’il existe de nombreux méthodes d’explication, les méthodes de l’apprentissage profond sont faiblement explicable par rapport à celles traditionnelles de l’apprentissage automatique (e.g. random forest). C’est la raison pour laquelle l’IA neuro-symbolique devient une approche très prometteuse pour l’IA explicable, qui cherche à coupler l’IA symbolique avec des approches de réseaux de neurones pour profiter des avantages de ces deux approches [6].
Objectives
Ce stage a pour objectif d’étudier et d’adapter les modèles d’IA explicable dans les tâches de synthèse et la rétrosynthèse pour des dérivés de CDs. Dans un premier temps, nous appliquerons les travaux existants sur un dataset de CDs que nous avons construit [7] afin d’identifier les forces et faiblesses de la littérature. Ensuite, nous adapterons les méthodes d’IA explicables à notre contexte. Particulièrement, nous ferons face à la problématique des données de taille petite et prendrons en compte les conditions opératoires des réactions chimiques (e.g. température, rendement, concentration, solvant, temps de réaction …). Finalement, nous nous concentrons sur les approches neuro-symboliques qui peuvent être utilisées avec GNN, car ça permet de combiner l’apprentissage automatique dans les réseaux de neurones avec le raisonnement et l’explicabilité par le biais de représentations symboliques. D’une manière générale, ce travail permettra de passer d’un criblage purement chimique vers un criblage informatique. Le résultat de ce travail sera un compromis entre la qualité de la prédiction et celle des explications fournies par les modèles d’IA.
Mots-clés
Synthèse, Rétrosynthèse, Cyclodextrines, IA Explicable, Graph Neural Networks
Profil recherché
Master ou diplôme d’ingénieur en informatique/mathématiques appliquées ou en chimie computationnelle avec une expérience de l’apprentissage automatique/statistique. Le candidat doit montrer un certain intérêt pour les aspects théoriques de l’apprentissage automatique/graph neural networks, ainsi que des compétences en programmation Python. En outre, il doit être capable de documenter le travail réalisé de manière structurée et claire en anglais.
Durée
5 à 6 mois, à partir de Février/Mars jusqu’en Août 2025
Rémunération
Selon le barème officiel en vigueur, environ 650 €/mois
Lieu
Centre de Recherche en Informatique de Lens (CRIL UMR 8188) Rue Jean Souvraz SP 18 F-62307 Lens CedexFrance
Le stage s’inscrit dans le cadre d’une collaboration avec le LG2A de l’UPJV (Laboratoire de Glycochimie et des Agro ressources d’Amiens), l’UCCS (Unité de Catalyse et Chimie du Solide, UMR 8181) et le CRIL (Centre de Recherche en Informatique de Lens) de l’Université d’Artois.
Encadrants
Nejat Arınık: nejat.arinik@univ-artois.fr
Rachid Laref: rachid.laref@univ-artois.fr
Florence Djedaïni-Pilard florence.pilard@u-picardie.fr
Pour candidater
Merci d’envoyer un mail à nejat.arinik@univ-artois.fr et rachid.laref@univ-artois.fr avec sujet « CANDIDATURE STAGE SYNTHIA 2025 ».
– lettre de motivation expliquant vos qualifications, expériences et motivation pour ce sujet (1-2 pages)
– curriculum vitae (1-2 pages)
– relevé de notes de 1ère année de master et les notes de 2ème année de master disponibles ou équivalent pour les écoles d’ingénieurs
– un lien vers des dépôts de projets personnels (par exemple GitHub ou GitLab)
– toute autre information que vous estimerez utile
Bibliographie
[1] Ali, R. S. A. E & Meng, J. & Khan, M. E. I. & Jiang, X. (2024). Machine learning advancements in organic synthesis: A focused exploration of artificial intelligence applications in chemistry. Artificial Intelligence Chemistry, 2(1), 100049.
[2] Meng, Z. & Zhao, P. & Yu, Y. & King, I. (2023). A Unified View of Deep Learning for Reaction and Retrosynthesis Prediction: Current Status and Future Challenges. arXiv e-prints, arXiv:2306.15890.
[3] Blaszkiewicz, C. & Bricout, H. & Léonard, E. & Len, C. & Landy, D. & Cézard, C. & Djedaïni-Pilard, F. & Monflier, E. & Tilloy, S. (2013). Cyclodextrin Dimer as Supramolecular Reaction Platform for Aqueous Organometallic Catalysis, Chem Comm 49, 6989-6991.
[4] Reiser, P. & Neubert, M. & Eberhard, A. & Torresi, L. & Zhou, C. & Shao, C. & Metni, H. & van Hoesel, C. & Schopmans, H. & Sommer, T. & Friederich, P. (2022). Graph neural networks for materials science and chemistry. Commun Mater 3, 93.
[5] Yuan, H. & Yu, H. & Gui, S. & Ji, S. (2023). Explainability in Graph Neural Networks: A Taxonomic Survey. IEEE Transactions on Pattern Analysis & Machine Intelligence, 45(5), 5782–5799.
[6] B.P. Bhuyan, A. Ramdane-Cherif, R. Tomar & T. P. Singh (2024), Neuro-symbolic artificial intelligence: a survey. Neural Computing and Applications, 36, 12809–12844.
[7] G. Tahıl, F. Delorme, D. Le Berre, E. Monflier, A. Sayede, S. Tilloy, Curated dataset of association constants between a cyclodextrin and a guest for machine learning.», Chemical Data Collections, 45, 2023, 101022 – doi: 10.1016/j.cdc.2023.101022.