Appel Choose France
L’appel Choose France est ouvert jusqu’au 31 mars. C’est une belle opportunité pour attirer en France des talents...
17 Novembre 2023
Catégorie : Stagiaire
Lieu : CentraleSupélec, campus de Rennes
Niveau : Master 2 ou dernière année d’école d’ingénieur
Dates:La durée du stage envisagée est de 5 à 6 mois. Pour un stage de 6 mois, celui-ci devra obligatoirement commencer au plus tard avant la fin de la première semaine de février 2024.
Rémunération : Gratification d'environ 600€ par mois
Mots-clés : Intelligence artificielle,vision par ordinateur, estimation de la pose et de la forme humaine.
Encadrants : Guénolé Fiche et Simon Leglaive
L'objectif de ce stage est d'appliquer une méthode d'apprentissage auto-supervisé génératif multimodale à l'estimation de la pose et de la forme humaine à partir d’images/vidéos RGB. Les principales missions envisagées sont:
Contact : guenole.fiche@centralesupelec.fr
Ce projet de stage est en collaboration avec Guénolé Fiche et Simon Leglaive, doctorant et maître de conférences à CentraleSupélec (campus de Rennes), affiliés à l’équipe de recherche AIMAC du laboratoire IETR (UMR CNRS 6164). Le stage est financé par l’Ecole Universitaire de Recherche (EUR) DIGISPORT (https://digisport.univ-rennes.fr/).
La capture de mouvement est une technologie clé avec de nombreuses applications, telles que l'animation de personnages pour les industries du cinéma et des jeux vidéo ou l'optimisation de la performance dans le domaine du sport. Les progrès récents en vision par ordinateur ont permis la capture de mouvements à partir d'images RGB et de vidéos [2, 3, 4]. Cependant, les modèles actuels sont limités par le manque d'images labellisées en 3D, qui sont difficiles à obtenir, d’autant plus dans un contexte sportif.
Pour résoudre ce genre de problème, les approches d'apprentissage auto-supervisé génératif, telles que les autoencodeurs masqués (MAEs, maskedautoencoders) [6], gagnent en popularité. Les MAE sont des autoencodeurs asymétriques qui sont entraînés à reconstruire des images partiellement masquées. Ils vont donc apprendre des représentations capturant les caractéristiques locales mais aussi globales de l’image afin de pouvoir reconstruire les zones masquées à partir de celles visibles. Parmi ces approches, un nombre croissant de méthodes sont multimodales : elles s'appuient sur différentes sources de données. Tandis que l’approche proposée dans [1] s'appuie sur différentes modalités visuelles (image RGB, carte de profondeur, segmentation), nous avons proposé dans [10] un modèle utilisant des représentations discrètes de l'image et de l'audio pour l'analyse des émotions dans la parole.
Sujet du stage
L'objectif de ce stage est d'appliquer une méthode d'apprentissage auto-supervisé génératif multimodale [1, 10] à l'estimation de la pose et de la forme humaine à partir d’images/vidéos RGB. En effet, bien que les méthodes d’apprentissage auto-supervisé génératif obtiennent des résultats impressionnants pour de nombreuses tâches de vision par ordinateur, elles ne sont pour l’instant que très peu appliquées à l’estimation de pose.
Une première étape consistera à affiner ou réentraîner un modèle sur Bedlam [2], une base de données synthétique de mouvements humains ayant pour avantage de proposer de multiples modalités : images RGB, cartes de profondeur, segmentations ainsi que la pose et la forme des corps humains. Une première problématique du stage sera de trouver un mode de masquage adapté pour la pose et la forme du corps humain : il sera pour cela possible de s'appuyer sur les travaux de thèse de Guénolé Fiche, mais d'autres approches pourront être utilisées [8].
Pour la suite, deux cas de figure sont alors envisageables :
Dans le cas où on ne peut pas directement reconstruire la pose, on peut se servir du modèle comme d'un extracteur de caractéristiques qui peut servir d'entrée pour un modèle d'estimation de pose tel que [3].
Si la vitesse d'avancement du stage le permet, il sera aussi possible d'envisager une extension au contexte de vidéos, avec un masquage spatio-temporel.
Outre une évaluation de la méthode sur des benchmarks classiques en estimation de la pose et de la forme humaine [7, 9], nous souhaiterions ensuite développer un cas d'application pour une activité sportive présentant des poses extrêmes, peu rencontrées dans les bases de données généralement utilisées en estimation de pose. Nous pensons pour l'instant à une application à la danse acrobatique [5] ou à l'escalade [11] mais d'autres applications peuvent être envisagées en collaboration avec le stagiaire si des données sont disponibles pour d'autres sports.
Profil
Le ou la candidat·e de niveau Master 2 ou dernière année d’école d’ingénieur devra avoir des compétences fortes en apprentissage automatique (y compris apprentissage profond) et maîtriser le langage de programmation Python.