Annonce

Les commentaires sont clos.

Proposition de stage : Expliquabilité des GNNs

19 December 2023


Catégorie : Stagiaire


L'apprentissage profond a révolutionné de nombreux domaines tels que l'analyse d'images ou le traitement automatique des langues. Pourtant, l’incapacité de ces systèmes à justifier leurs décisions est très vite apparue comme une limite forte. Appliquer à la prédiction de l'action thérapeutique de molécule, l'explicabilité des réseaux permet:

  1. de valider les prédictions avant d'engager des efforts et des moyens sur les synthèses d’une série moléculaire
  2. d'obtenir une intuition sur les propriétés physico-chimiques clés que doit posséder une molécule pour avoir une action biologique ciblée.

La première partie du stage de Master/Ingénieur consistera à tester différentes méthodes de réseaux sur graphes (GCN) sur nos jeux de données. Une fois cette étape validée il s'agiera d'évaluer les méthodes de la littérature permettant d'expliquer les résultats des GCN.

Le stage aura lieu à Caen ou à Rouen en fonction du candidat. Il peut être considéré comme une étape préparatoire à une thèse de doctorat sur le même sujet.

 

Environnement

Ce stage prend place dans une collaboration de longue date entre trois laboratoires :

  1. Le GREYC (UMR 6072, Caen), a développé au cours des années une expertise forte en fouille de données et apprentissage appliqué à la Chemoinformatique,
  2. Le CERMN (UR 4258, Caen) est le centre d’études et de recherche sur le médicament de Normandie et entretient depuis de nombreuses années une collaboration avec le GREYC sur l'analyse informatique de molécules pour créer de nouveaux médicaments,
  3. Le LITIS (UR 4108, Rouen), a acquis une solide expérience en apprentissage machine qu'il applique nottament sur des bases de graphes. Le GREYC et le LITIS collaborent activement au sein de la fédération NormaSTIC.

Des membres des trois laboratoires participeront à l'encadrement du stage en y apportant leurs compétences respectives. Ce stage peut être considéré comme une étape préparatoire à une thèse de doctorat sur le même sujet.



Contexte scientifique

L'apprentissage profond a révolutionné de nombreux domaines tels que l'analyse d'images ou le traitement automatique des langues. Pourtant, l’incapacité de ces systèmes à justifier leurs décisions est très vite apparue comme une limite forte. Des méthodes permettant de mesurer la saillance de chaque donnée d'entrée ont donc été définies. Ces méthodes peuvent se décomposer en deux grandes familles : Les méthodes dites "boîte blanche" qui supposent le réseau connu et se basent donc sur toutes les informations de celui-ci : topologie, poids appris et gradient calculé par une rétropropagation. Inversement, les méthodes dites "boîte noire", considèrent le réseau comme une fonction inconnue et mesurent l'importance de chaque élément en masquant aléatoirement des parties du signal d'entrée. L'importance de chaque élément et alors définie comme la moyenne des réponses du système sur l'ensemble des masques sur lesquels l’élément n'est pas masqué.

La chémoinformatique, domaine relatif au traitement de l’information chimique, a été fortement impactée par l'arrivée de l'apprentissage profond et des réseaux convolutionnels (CNN). Un Graph Neural Network (GNN) est l’équivalent d’un CNN opérant sur des graphes. La convolution y est remplacée par une convolution sur graphe et des opérations de pooling peuvent également être définies. Une différence notable entre CNN et GNN se situe au niveau du pooling. Dans les CNN, le pooling opère sur des topologies fixes et utilise des fonctions de réduction généralement non apprises comme max pooling ou average pooling.

Dans les GNN, le pooling apprend à la fois des regroupements de sommets de topologie arbitraire et des fonctions de réduction sur ces regroupements.

L'action thérapeutique d'une molécule, dépend de la capacité de celle-ci à se fixer sur les protéines ciblées. Cette capacité de la molécule est déterminée par ses conformations les plus probables ainsi que par la présence de différents groupes fonctionnels, appelés aussi caractéristiques pharmacophoriques, qui vont permettre à la molécule de se fixer. On peut ainsi distinguer deux types de représentations de molécules pour ce type de prédiction : Le graphe squelettique (sommets et arêtes représentent respectivement les atomes et leurs liaisons covalentes) et le graphe des caractéristiques pharmacophoriques où chaque sommet code un groupe fonctionnel de la molécule et la distance (topologique ou topographique) entre deux caractéristiques est codée par une arête. Dans ce cas, le graphe est un un graphe complet avec beaucoup moins de sommets que dans la représentation squelettique.

L'explicabilité des réseaux est fondamentale dans la prédiction des propriétés thérapeutiques de molécules. En effet, celle-ci permet :

  1. de valider les prédictions avant d'engager des efforts et des moyens sur les synthèses d’une série moléculaire
  2. d'obtenir une intuition sur les propriétés physico-chimiques clés que doit posséder une molécule pour avoir une action biologique ciblée.

Les méthodes expliquant l'action des réseaux dans le cadre des graphes se situent dans la prolongation des méthodes conçues pour les CNN. On peut notamment appliquer la distinction boite noire/boîte blanche mais également subdiviser les approches en méthodes locales (telles que les méthodes précédemment citées), qui fournissent une explication de la prédiction de chaque entrée et les méthodes globales qui tentent de mettre en avant une explication globale des motifs clés pour la prédiction. Notons que les deux approches ne sont pas orthogonales. Par exemple, agglomère les explications locales sur un jeu de données pour fournir une explication globale. D'autres critères de décomposition sont également possibles. On peut par exemple décomposer les approches en méthodes factuelles, par exemple, qui cherchent des motifs (noeuds, arêtes, sous-graphes) expliquant au mieux la prédiction et des modèles contre-factuels cherchant au contraire des modifications minimales des données d'entrées qui changent la prédiction. Parmi les méthodes factuelles, on peut également distinguer les méthodes qui intègrent l'extraction de motif à la prédiction. Ces méthodes sont donc auto-interprétables et les méthodes qui combinent le modèle de prédiction à une autre méthode pour générer des explications.

Notons toutefois que les méthodes type boite blanche se sont focalisées sur des réseaux de type GNN sans pooling. L'utilisation du pooling pour l'explicabilité n'a à notre connaissance pas encore été explorée.

 

Déroulé du stage

Le stage commencera par une étude des méthodes GNN permettant de prédire les propriétés de nos jeu de données. L'étude sera ciblée sur la prédiction des interactions protéines/ligands à partir des graphes complets de pharmacophores. A cette occasion, des méthodes basées GCN, au sens large, et GCN+pooling seront étudiées.

Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d'expliquer les résultats de ces GNNs. Les résultats produits (en termes d'explication) seront évalués en utilisant plusieurs critères tels que l'accuracy, l'aire sous la courbe, la fidélité, la parcimonie,.... Nous espérons identifier à partir de cette étude des sous structures pharmacophoriques pertinentes pour les propriétés à prédire.

Nous essaierons, dans un troisième temps, d'appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s'agira de comparer sous l'angle de l'explicabilité les descriptions moléculaires "brutes" et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.

 

Profil du candidat

Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation. Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes, sera un plus.

 

Conditions du stage

Le stage sera effectué au GREYC (Caen) ou au LITIS (Rouen) en fonction du lieu de recrutement de l'étudiant. Il débutera en février ou mars 2024 pour une durée de 6 mois et bénéficiera d'une gratification au tarif minimum réglementaire pour les stages.

 

Contacts

Les personnes intéressées peuvent envoyer un cv ainsi qu'un cours texte résumant leurs atouts et motivations pour ce stage à :

  • Jean luc Lamotte (jean-luc.lamotte@unicaen.fr) et
  • Pierre Héroux (pierre.heroux@univ-rouen.fr)