Compréhension formelle des réseaux profonds

En dépit de leur performances prédictives spectaculaires, la compréhension des architectures profondes est encore fragile et limitée, notamment aux niveaux suivants :

  1. Optimisation non convexe : frein historique à l’utilisation des réseaux de neurones profonds, la nature non convexe de la fonction objectif d’apprentissage ne semble pas être un problème majeur pour bon nombre de problèmes concrets. Des travaux récents ont apporté certains éléments de réponse à cette observation empirique, à travers l’étude des minimas locaux et des points selles de la fonction objectif. D’une manière générale, la compréhension plus fine de la structure de la fonction d’apprentissage constitue assurément une source d’inspiration importante pour la mise en place de formulations d’apprentissage ou d’architectures bénéficiant de garanties de convergence fortes.
  2. Incertitude décisionnelle : les réseaux de neurones profonds ne bénéficient pas naturellement d’une mesure de confiance de prédiction. Ceci est une limitation rédhibitoire pour pénétrer certains champs applicatifs critiques comme la conduite autonome, la médecine ou le nucléaire. Le recours aux réseaux de neurones bayésiens, bien que solution naturelle pour modéliser l’incertitude, se trouve cependant rapidement limité par un coût calculatoire prohibitif. Proposer des solutions permettant à la fois de modéliser l’incertitude d’un réseau profond et d’assurer un entraînement raisonnable sur données massives est un enjeu actuel très important. En ce sens, des travaux préliminaires établissent des liens entre la technique de dropout (régularisation moderne de référence) et les méthodes d’inférence variationnelles approchées.
  3. Stabilité : la stabilité à différentes déformations est une propriété importante dans système d’apprentissage et liée à la capacité de « manifold untangling » des réseaux profonds. Certaines architectures profondes particulières inspirées de la littérature du traitement du signal et des ondelettes (scattering) ont montré leur capacité de stabilité et/ou l’invariance par rapport à certaines transformations particulières (difféomorphismes). A l’inverse, les exemples adversaires illustrent l’incapacité des réseaux à assurer une stabilité par rapport à d’autres familles de déformations. Une analyse de la stabilité vis-à-vis de déformations plus générales et apprises permettra certainement de mieux comprendre le fonctionnement des réseaux de neurones profonds.
  4. Théorie de la généralisation : étrangement, les réseaux de neurones profonds semblent robustes au sur-apprentissage. Les outils classiques de l’apprentissage statistique comme la PAC semblent insuffisants pour expliquer ces très bonnes performances prédictives. Le développement d’un cadre théorique pour les méthodes d’apprentissage de représentations semble crucial, bien qu’encore à ses balbutiements. 

Les commentaires sont clos.