AMI « Apport du Numérique au domaine du recyclage »
Le PEPR « Recyclage » lancé au printemps 2023 est structuré en : 5 axes verticaux « matériaux » (plastiques,...
4 Octobre 2024
Catégorie : Stagiaire
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour découvrir de nouveaux biomarqueurs. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse de fragmentation (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données expérimentales. C’est pourquoi les approches in silico se sont développées ces dernières années. L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir de données originales multiplexées obtenues selon une approche expérimentale innovante du laboratoire.
Contexte : La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [1] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son processus de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.
Sujet : L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées.
Travail demandé : A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder [2]). Un nouveau type d’architecture sera ensuite développé pour intégrer l’ensemble des informations multiplexées et montrer leur impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit notamment, et appliqués à la recherche de biomarqueurs dans les données de plusieurs cohortes cliniques disponibles au laboratoire.
Mots clés : apprentissage statistique, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] Liu et al. (2021) Current and future deep learning algorithms for tandem mass spectrometry (MS/MS)-based small molecule structure elucidation. Rapid Commun Mass Spectrom, DOI:10.1002/rcm.9120.
[2] Russo et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Commun Mass Spectrom. DOI: 10.1002/rcm.9876.
Profil : Nous recherchons un.e candidat.e avec un bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie, physique, biologie).
Lieu du stage : Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données métabolomiques du laboratoire Innovations en Spectrométrie de Masse pour la Santé.
Durée du stage : 6 mois à partir de début 2025
Date limite de candidature : 30 novembre 2024
Contact : Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France