Stage M2 (ou Césure M1) pour une durée de 6 mois, à partir de Février 2025 (dates flexibles). Il est proposé par l’UMR ITAP (INRAE montpellier – Institut Agro Montpellier) dans le cadre du Laboratoire commun AIOLY (artificial intelligence and optics laboratory : https://anr.fr/Project-ANR-23-LCV2-0015 ) formée avec l’entreprise de tri des déchets « PellencST ». Le stage est financé par #DigitAg, l’institut de convergence de l’agriculture numérique (https://www.hdigitag.fr/) .
Mots-clés : Apprentissage profond, Spectroscopie, Chimiométrie, Incertitude, Monte Carlo, Bayésien, données agro-environnementales
L’UMR ITAP est un laboratoire de recherche montpelliérain dédié au développement d’outils et méthodes pour les agricultures de demain (lien). Au sein de ce laboratoire, l’équipe Capteurs Optiques pour les Milieux Complexes (COMiC) développe des systèmes optiques de mesure associés à des méthodes de traitement du signal pour caractériser les objets ou les milieux qui sont au cœur des procédés agricoles et environnementaux. Les recherches de l’équipe reposent principalement sur les technologies de spectrométrie
UV, Visible et proche-infrarouge et d’imagerie hyperspectrale. COMiC possède une longue expérience en analyse de données multivariées et hétérogènes, notamment avec les outils de la chimiométrie. L’équipe s’investit à la fois au développement de nouvelles méthodologies de traitement de donnés spectrales et dans des applications agro-environnementales innovantes
Résumé du projet
Les données spectroscopiques, notamment infrarouges, sont essentielles en agronomie. Elles permettent de réaliser un suivi des matières premières agricoles, des produits alimentaires, des effluents, des sols ainsi que des plantes. Ainsi, elles permettent de déduire des propriétés physico-chimiques qui facilitent une meilleure gestion des procédés agricoles. Les méthodes de référence pour le traitement de ces données sont principalement issues de la chimiométrie, une discipline des statistiques multivariées et de l’apprentissage automatique qui permet une forte interprétabilité (chimique) des phénomènes en jeu. Notamment, en chimiométrie, une grande attention est portée sur la détection des données aberrantes (e.g. erreur ou perturbation des conditions de mesure) et la quantification de l’incertitude. Bien que ces méthodes soient très efficaces pour des jeux de données homogènes, elles font face à de grandes limitations pour des données hétérogènes. Avec le déploiement croissant de capteurs numériques pour des caractérisations in situ, voire en conditions réelles (au champ – OFE), les bases de données augmentent en volume, en complexité et intègrent des multi-modalités.
Des méthodes utilisées en apprentissage profond permettent de limiter, voire de lever, cette problématique. En chimiométrie, ces approches n’ont pas encore été éprouvées, il est donc nécessaire de tester ces approches dans un contexte applicatif nouveau (les données spectrales).
Enjeux et question scientifique abordée
L’objectif de ce stage et de tester différentes méthodes de quantification de l’incertitude pour les réseaux de neurones appliqués à des données spectroscopiques d’intérêt agronomique.
Comment savoir si les prédictions d’un réseau de neurones dédié à la chimiométrie sont valides. Ce qui mène à la question scientifique suivante : Comment mesurer l’incertitude des prédictions des modèles chimiométriques basés sur l’apprentissage profond ?
En effet en chimiométrie, les données traitées ont un sens physique fort (par rapport à une image ou du texte). Les données sont aujourd’hui souvent acquises in-situ (au champ ou serre) ou dans des environnements de mesure et avec des appareils différents. Ces conditions de mesure produisent des hétérogénéités importantes et potentiellement de nombreuses données aberrantes (erreurs ou conditions extrêmes / distributions marginales). Des outils statistiques existent pour s’affranchir de ces difficultés lors de la calibration de modèles chimiométrique. Aujourd’hui, avec l’intérêt grandissant pour l’usage de réseaux de neurones, les questions de gestion des données aberrantes et de la quantification de l’incertitude sont encore plus centrales. Une solution envisagée pour répondre à ces enjeux est la quantification d’incertitude dans les réseaux de neurones.
Démarche scientifique
L’étudiant devra réaliser une recherche bibliographique ciblée sur les approches de quantification d’incertitude en apprentissage profond. (i) identifier les méthodes existantes. (ii) déterminer les plus pertinentes aux regards des particularités des données spectrales, des architectures et stratégies d’apprentissage en chimiométrie. (iii) comparer et confronter ces approches sur les données réelles.
L’étudiant devra mettre en œuvre les réseaux de neurones rendu disponible par le laboratoire de recherche AIOLY, tout en valorisant les travaux sur des bases agronomiques d’intérêt. Notamment en se basant sur des applications historiques de l’UMR, sur les données du sol, les données post-récolte (qualité des fruits) et le phénotypage.
Il s’agit de réaliser une étude comparative (benchmark) conjointe des modèles de l’état de l’art en chimiométrie et des approches de quantification de l’incertitude. Les principales méthodes de quantification d’incertitude étudiées seront :
- Les réseaux de neurones bayésiens
- Les approches dites « ensemblistes »
- Les approches bayésiennes simplifiées (MC-dropout, SWAG)
L’étudiant, avec l’appui de ses encadrants pourra être amené à réaliser une publication qui étudie l’intérêt de cette démarche de quantification de l’incertitude pour les réseaux de neurones en chimiométrie.
Profil
Intéressé par la programmation et le calcul scientifique ainsi que par le formalisme mathématique des approches. Cet étudiant montre des compétences en science des données, réseaux de neurones. Un intérêt pour les données agronomiques, la spectroscopie et la chimiométrie serait un plus. Des compétences en programmation GPU (pytorch) seront nécessaires.
Indemnisation:
Taux légal selon réglementation en vigueur (environ 550 €/mois)
Localisation et contact:
Le stage se déroulera à Montpellier (Institut Agro Montpellier, 2 place Pierre vialla, 34 000, Montpellier)
Candidature (CV+LM) à envoyer à Florent Abdelghafour (florent.abdelghafour-at-inrae.fr) & Maxime Metz (m.metz-at-pellencst.com)