Action Covid-19 du GdR ISIS

Action 2 : prédiction d’évolution de la maladie à partir d’images scanner couplées à des données cliniques

Porteurs : Nicolas Thome (Cnam Paris) et Alain Lalande (ImViA, Dijon)

Contexte

Dans le contexte actuel du COVID-19, de nombreuses initiatives nationales [CVG+20] et internationales (lien, autre lien) ont été menées pour répondre à des tâches de diagnostic automatique de la maladie par des méthodes d’intelligence artificielle, notamment à partir d’images scanner (CT-scan). Les CT-scan constituent actuellement la source d’information la plus fiable pour le diagnostic et deviennent l’examen de référence, notamment pour anticiper l’évolution de la maladie. Les approches mises en œuvre reposent sur des réseaux de neurones convolutifs profonds pour segmenter les poumons et les lésions dans les images de scanner X, et reposent sur une estimation de la taille relative de la lésion pour déterminer le niveau de sévérité de contagion.

Dans le cadre du groupe de travail sur le COVID-19 du GdR ISIS, l’action 2 que nous avons mis en place en mai 2020 consiste à utiliser des méthodes d’intelligence artificielle pour le pronostic d’évolution de la maladie. Ceci présente des enjeux cliniques majeurs dans le contexte de la pandémie au printemps et dans le cadre de la seconde vague de contamination à l’automne. L’objectif consiste à franchir une étape supplémentaire dans la prédiction, permettant notamment de détecter parmi les patients contaminés ceux qui présentent des risques de contracter une version grave de la maladie nécessitant le cas échéant une place en réanimation.

Objectifs de l’action

Les objectifs scientifiques de cette action sont structurés autour des axes suivants.

Axe 1 : Partage des données avec la communauté nationale du GdR

Le premier objectif du GT consiste à pouvoir partager les données avec la communauté nationale pour fédérer et stimuler la mise en place de solutions originales pour répondre à la tâche de pronostic. Le partage des données est un verrou majeur en santé, il n’est pas possible d’envisager de diffuser directement les données sans contrôle à l’ensemble de la communauté nationale. La solution retenue consiste à laisser les données dans le centre de dépôt de données hébergeur (au sein du laboratoire CREATIS), et de permettre aux membres impliqués dans l’action de transmettre des scripts afin d’entraîner les modèles d’IA et de récupérer le niveau de performance de la méthode. Afin d’assurer un niveau de sécurité satisfaisant, il est nécessaire d’avoir un responsable humain permettant de lancer localement les codes sur les machines locales et d’en contrôler les permissions (par exemple avec une image docker).

Axe 2 : Diagnostic et pronostic sur les images scanner

Le second axe de recherche consiste à proposer des solutions originales pour exploiter les images CT-scan disponibles. Nous nous appuierons sur les différentes méthodes de l’état de l’art actuellement mises en œuvre dans le cadre du COVID-19 et basés sur des réseaux complètement convolutifs, e.g. U-Net [RFB15]. Dans la base de données générée au sein du CHU de St Etienne à partir d’un protocole plus complet qu’un examen classique, les 4 acquisitions disponibles permettent de quantifier des indices cliniques complémentaires pouvant permettre un meilleur pronostic de l’évolution de la pathologie. Les CT-scan classiques permettent de quantifier le pourcentage de zones pulmonaires avec lésions, les CT scan fin inspiration / fin expiration permettent de calculer une image de ventilation (action 1 du GT), et l’angiographie permet de segmenter l’arbre vasculaire et de mesurer le diamètre des branches périphériques (information qui semble pertinente au travers d’études cliniques récentes afin de caractériser le covid [GRI20]). Un aspect méthodologique à approfondir concerne la façon dont les 4 sources d’informations seront fusionnées pour permettre un diagnostic optimal. Nous évaluerons aussi la capacité de pronostic d’évolution de la maladie à partir des images seules, qui constituera une baseline de comparaison.

Axe 3 : Pronostic à partir de données hétérogènes

Le dernier axe consistera à proposer des solutions de pronostic d’évolution de la maladie à partir de l’ensemble des informations disponible dans la base de données, i.e. images CT et données cliniques. Nous évaluerons tout d’abord une seconde baseline de référence consistant à répondre à la tâche de pronostic uniquement à partir des données patient.

Le cœur méthodologique de cet axe consistera à proposer des solutions pour effectuer la prédiction dans l’espace multimodal et hétérogène couplant les images scanner et les données cliniques (complètes ou partielles). Nous explorerons des méthodes de plongements sémantique [ZSZ15] (« deep embedding »), qui permettent d’apprendre des espaces de représentation mixtes couplant des données pauvres en sémantique (e.g. images) et des données texte et/ou structurées. Dans ce contexte, la proposition de méthodes capables de gérer les données manquantes ou incomplètes au sein des différentes modalités sera un critère important pour guider le choix des modèles.

Avancement

Base de données

Depuis le début de la pandémie, une base de données a été collectée au CHU de Saint-Etienne et partagée avec le laboratoire CREATIS à Lyon. La base de données contient au niveau des images CT-scan une source d’information riche et inédite constituée de quatre acquisitions différentes, qui offrent un potentiel intéressant pour améliorer les performances des méthodes d’IA pour le diagnostic et le pronostic :

  • Examen CT-scan classique pour un patient atteint de difficultés respiratoires
  • CT scan acquis en fin d’inspiration
  • CT scan acquis en fin d’expiration
  • CT scan angiographique

Les CT-scans pour les 4 types d’acquisition sont actuellement disponible pour 681 patients. Un objectif de collecte de données de 800 patients a été fixé.

D’autre part, des méta-données sous forme de dossiers patient (CRF) sont également disponibles. Ils contiennentdesdonnées cliniques, par exemple des informations sur les antécédents médicaux, des données biologiques issues de résultats d’examen (e.g. prise de sang) et en particulier des indicateurs sur l’évolution de la maladie à 30 jours. Ceci correspond à 400 patients qui sont un sous-ensemble des 681 scanner précédents.

Financements obtenus

L’action 2 a pu bénéficier de deux financements :

  • Un financement de 100 k€ du ministère dans le cadre d’un projet CARE (pour lequel l’équipe d’Olivier Saut de Bordeaux a été associé à l’action du GDR), pour financer 12 mois ingénieur (~50 k€), un serveur de calcul GPU (~40 k€), et un serveur de stockage (~10 k€).
  • Un financement de 35 k€ par le biais d’un projet CNRS INS2I pour le GDR ISIS, pour financer 10 k€ de serveur et 25 k€ pour 6 mois ingénieur.

Les budgets RH des 2 projets ont été mutualisés pour recruter une jeune ingénieure de recherche (Tiphaine Diot), qui débutera le 1 novembre pour 18 mois.

Sa mission est de mettre en place l’infrastructure logicielle pour que la communauté nationale puisse accéder aux données et évaluer différents modèles pour le diagnostic et le pronostic.

Références

[CVG+20] Guillaume Chassagnon et. al. AI-Driven CT-based quantification, staging and short-term outcome prediction of COVID-19 pneumonia. https://www.medrxiv.org/content/10.1101/2020.04.17.20069187v1.article-info

[GRI20] F. Grillet, J. Behr, P. Calame, S. Aubry, E. Delabrousse. Acute Pulmonary Embolism Associated with COVID-19 Pneumonia Detected by Pulmonary CT Angiography. Radiology. 2020 Apr 23:201544. doi: 10.1148/radiol.2020201544

[KSZ15] R. Kiros, R. Salakhutdinov and R. Zemel Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models Transactions of the Association for Computational Linguistics (TACL), 2015.

[RFB15] O. Ronneberger, P.Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention (MICCAI), volume 9351, pages 234-241. Springer, 2015.

Les commentaires sont clos.