Histopathologie générative pour l’augmentation de données et l'amélioration de la fiabilité des systèmes d'aide au diagnostic du cancer

Mots-clés : IA générative, images histopathologiques, augmentation d’images, aide à la décision, cancer

Contexte

Les images histopathologiques jouent un rôle crucial dans le développement de modèles d’analyse avancés, essentiels pour l’aide au diagnostic du cancer. Cependant, la disponibilité limitée de ces données et leur représentativité souvent insuffisante en raison de leur caractère confidentiel freinent le développement de modèles d’analyse performants. Pour faire face à ces contraintes, le développement de méthodes d’augmentation d’images médicales, représente une alternative prometteuse [1]. Ces méthodes visent à enrichir les jeux de données existants en générant des exemples artificiels capables de refléter la diversité et les variations biologiques nécessaires. Une fois générées, ces images sont exploitées pour optimiser l’entraînement des modèles de reconnaissance, améliorant ainsi leur robustesse et leur performance.

Dans le cadre de cette thèse, nous nous focaliserons sur l’étude et le développement de nouvelles méthodes d’augmentation d’images histopathologiques en exploitant des techniques d’intelligence artificielle générative. Notre attention sera portée essentiellement sur des images de patients atteints de lymphome diffus à grandes cellules B (DLBCL), un cancer fréquent des cellules du système immunitaire englobant plusieurs sous-types et pour lequel 40 % des patients connaissent une rechute après un premier traitement [2].

Nos travaux antérieurs sur le développement de modèles d’analyse de ce cancer ont révélé que certaines techniques standards d’augmentation d’images dégradaient la performance de ces modèles [3]. Récemment, une nouvelle catégorie de méthodes d’augmentation basées sur des approches génératives et notamment sur des modèles de diffusion a émergé en remplacement des modèles de type GAN [4]. Bien que les modèles de diffusion soient prometteurs, il existe encore des défis à surmonter en lien avec leur généralisation et leur adaptation aux images histopathologiques. En effet, la grande variabilité des protocoles de coloration des tissus numérisés ainsi que l’hétérogénéité des structures tumorales représentées dans les images rendent difficile la génération d’images garantissant une pertinence clinique. Pour faire face à ces défis, nous proposons dans le cadre de cette thèse d’élargir la recherche sur le développement de modèles de diffusion en explorant l’apprentissage multimodal. L’objectif est de développer des méthodes capables de générer une image, tout en étant conditionnées par divers types de données en entrée, tels que des descriptions textuelles d’un cas particulier de lymphome (par exemple, la coloration du tissu et la distribution de la tumeur), des étiquettes indiquant sa classe (par exemple, ABC ou GCB), des informations cliniques d’un patient et une image proche de ce qui est ciblé.

Missions/Objectifs

L’établissement d’un état de l’art sur les travaux réalisés en lien avec les méthodes basée IA générative pour l’augmentation d’images notamment celles basées sur les modèles de diffusion ainsi que les métriques d’évaluation de la qualité des images générées.
La mise en place d’un benchmark d’évaluation de la qualité des images générées par les approches génératives adapté au contexte d’images histopathologiques. Le benchmark servira d’une part de filtre pour éliminer les images générées avec des artefacts ou des représentations non réalistes et d’autres part d’une base de comparaison standardisée pour mesurer les performances des modèles de l’état de l’art.
Le développement d’une méthode basée IA générative permettant la génération d’images histopathologiques. La méthode sera basée sur un modèle de diffusion exploitant différentes modalités de données. L’étude empirique de l’impact de l’enrichissement de notre corpus actuel par les images synthétiques générées sur les performances de nos modèles de sous-typage et de prédiction de réponse aux traitements. Extension de l’étude sur d’autres jeux externes.
La valorisation scientifique des travaux réalisés par des publications de qualité dans des revues/conférences internationales.

Profil recherché

Le ou la candidate idéal(e) possède une formation de niveau Bac+5 (master ou diplôme d’ingénieur) dans l’un des domaines suivants : intelligence artificielle et analyse d’images, ou science des données. Une solide expérience en programmation, notamment en Python, ainsi qu’une maîtrise des bibliothèques TensorFlow et/ou PyTorch, est essentielle. Une bonne maîtrise de l’anglais, tant à l’écrit qu’à l’oral, est requise. Une première expérience avec l’intelligence artificielle générative, en particulier les modèles de diffusion, ou l’analyse d’images médicales sera considérée comme un atout.<

Environnement de travail et date de démarrage

Cette thèse s’inscrit dans le cadre d’un projet partenarial réunissant l’IMT Nord Europe, l’ESILV, JUNIA ISEN et le CHU de Lille. Le candidat sélectionné sera rattaché au CERI SN de l’IMT Nord Europe et au centre de recherche Devinci de l’ESILV. La répartition de son travail se fera équitablement entre les deux institutions : la première moitié de la thèse se déroulera dans les locaux de l’IMT Nord Europe à Lille, tandis que la seconde moitié se déroulera dans les locaux de l’ESILV à Paris.

Le démarrage de la thèse, sous réserve de la validation du financement, est prévu en septembre ou octobre 2025.

Candidature

Transmettre par mail avant le 15 mars 2025 à Halim Benhabiles <halim.benhabiles@imt-nord-europe.fr> et Ruiwen He <ruiwen.he@devinci.fr> les documents suivants :

CV
Relevés de notes
Lettre de motivation dans laquelle vous expliquez en quoi vos expériences de projets et votre parcours vous seront bénéfiques pour la réalisation de cette thèse

Références bibliographiques

[1] Y. Chen, X. H. Yang, Z. Wei, A. A. Heidari, N. Zheng, Z. Li, Q. Guan. Generative adversarial networks in medical image augmentation: a review. Computers in Biology and Medicine, 144, 105382, Elsevier, 2022.

[2] T. Wästerlid, S. Harrysson, T. M. L. Andersson, S. Ekberg, G. Enblad, P. O. Andersson, M. Jerkeman et al. Outcome and determinants of failure to complete primary R-CHOP treatment for reasons other than non-response among patients with diffuse large B-cell lymphoma. American Journal of Hematology, Wiley, 2020.

[3] B. Guetarni, F. Windal, H. Benhabiles, M. Petit, R. Dubois, E. Leteurtre, D. Collard. A vision transformer-based framework for knowledge transfer from multi-modal to mono-modal lymphoma subtyping models. IEEE Journal of Biomedical and Health Informatics, 28(9), 5562-5572, IEEE, 2024.

[4] F. A. Croitoru, V. Hondru, R. T. Ionescu, M. Shah. Diffusion models in vision: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(9), 10850-10869, IEEE, 2023.

Annonce

Histopathologie générative pour l’augmentation de données et l’amélioration de la fiabilité des systèmes d’aide au diagnostic du cancer

IASIS en chiffres

A noter

Cartographie des expertises du GdR

Actus de la communauté

L’intelligence artificielle pour les sciences

Concours Chercheurs CNRS

Prix de thèse en Signal, Image, Vision

Projet de recherche IASIS : Appel à projet 2026

Peyresq 2026 : Modèles génératifs et Transport optimal