Traitement de données multi-modales

Le succès de l’apprentissage automatique a fait émerger de nouvelles applications et thématiques traitant de données variées, hétérogènes et multi-modales :

Vision et langage : comprenant des sujets tels que l’indexation multi-modale et le « Visual Question Answering » (VQA). Au cœur de cette thématique se trouve la fusion de texte et de signaux visuels, nécessitant des compétences de domaines différents. Les verrous scientifiques vont de l’alignement de ces sources d’information, la prédiction d’une source à partir d’une autre jusqu’au raisonnement.
Données audio-visuelles : il s’agit sans doute du cas le plus classique intervenant dans de nombreuses applications telles que les interactions humain-machine, la robotique et l’indexation multi-média. Au cœur des défis sur ces questions, se trouvent la fusion des modalités et l’exploitation de leurs complémentarités.
Géométrie et sémantique : la géométrie est traditionnellement utilisée pour la reconstruction 3D et pour la génération de cartes métriques dans le cadre d’applications telles que la robotique, les véhicules autonomes, la mobilité, etc. L’utilisation d’étiquettes sémantiques a émergé comme une alternative ou comme une source complémentaire à la géométrie. Souvent prédites par des réseaux de neurones profonds, les étiquettes sémantiques permettent de raisonner sur la présence d’objets spécifiques et sur la classe d’objets.