Annonce

Les commentaires sont clos.

Stage M2/Ing : Fusion Intermédiaire des Modalités pour la Reconnaissance Audiovisuelle des Emotions Spontanées

7 December 2023


Catégorie : Stagiaire


Titre :

Fusion Intermédiaire des Modalités pour la Reconnaissance Audiovisuelle des Emotions Spontanées

Mots clés :

Détection des emotions, apprentissage profond, parole/visage, multimodalité, conversations spontanées

 

 

Description :

La reconnaissance des émotions joue un rôle crucial dans la compréhension du comportement humain et l’amélioration des interactions entre les humains et les machines. Elle repose sur diverses modalités, telles que la voix [1], les expressions faciales [2], les gestes ainsi que les signaux physiologiques. Des recherches antérieures ont exploré chaque modalité et ont montré leur complémentarité, soulignant l’intérêt de combiner les connaissances issues de chacune [3]. L’étude des émotions dans des contextes réels constitue un défi majeur en raison de la nature complexe des émotions. En revanche, les bases de données multimodales existantes renferment souvent des émotions induites dans des environnements contrôlés et statiques, tels que des laboratoires, en utilisant des stimuli spécifiques ou des tâches comme la visualisation de vidéos ou la lecture de phrases. Par conséquent, ces ensembles de données pourraient ne pas saisir intégralement l’expression naturelle des émotions. Pour remédier à cela, nous avons développé une base de données de conversations spontanées en français et l’avons annotée en émotions [4]. Trois modalités ont été identifiées : parole, visage et gestes. Le présent projet s’inscrit dans la continuité de ces travaux, où nous proposons de valider cette base de données à travers des systèmes de détection des émotions audiovisuelles en combinant les modalités audio et visage.
Avec l’essor des techniques d’apprentissage profond dans divers domaines tels que le traitement du langage parlé ou encore la vision par ordinateur, nous avons choisi d’utiliser ces techniques pour la reconnaissance des émotions. Au cœur de cela se trouve la conception d’architectures de réseau spécifiques et de fonctions de perte associées. Dans le cadre de ce stage, nous proposons de concevoir des modèles d’apprentissage automatique profond pour la détection des émotions, tant en modalité mono [5] [6] que multimodale, et d’explorer des pistes pour leur optimisation. Les solutions technologiques développées au cours du stage pourraient potentiellement être intégrées dans le robot Tiago++ (https://pal-robotics.com/robots/tiago) à notre disposition au CESI campus Nancy. En effet, notre laboratoire CESI LINEACT (https://lineact.cesi.fr/) travaille activement sur l’intégration de technologies avancées dans ce robot.

Missions :

Actuellement en apprentissage profond, les méthodes de fusion se répartissent en deux catégories. La première, indépendante du modèle, inclut la "fusion précoce" regroupant les paramètres de chaque modalité et la "fusion tardive" combinant les scores de décision. La seconde catégorie concerne les méthodes basées sur les couches intermédiaires du modèle, réalisant la fusion au sein du réseau profond. Ces approches permettent aux modèles multimodaux de reconnaître intégralement les émotions, en prenant en compte de manière exhaustive les interactions intra- et inter-modalités. La fusion intermédiaire tire sa force de la capacité de l’apprentissage profond à comprendre des motifs complexes et à représenter efficacement des données de grande dimension. Cela se distingue des méthodes de fusion précoce, qui peuvent limiter la modélisation d’interactions complexes en raison de prétraitements, et des techniques de fusion tardive, souvent moins aptes à saisir des relations détaillées entre les modalités suite à la séparation de l’entraînement. Ce stage se concentre sur cette dernière catégorie de méthodes de fusion, en vue de développer des architectures d’apprentissage profond efficaces. Les étapes clés de ce travail sont les suivantes :
— Etudier les travaux existants
— Développer un système de base par modalité
— Explorer les techniques de fusion et proposer des architectures efficaces
— Evaluer les performances et établir des conclusions

Compétences requises :

Ce stage est ouvert aux élèves de M2 informatique ou en préparation d’un diplôme équivalent.
Le comité de sélection sera particulièrement attentif aux profils suivants :
— Bonne connaissance des méthodes d’apprentissage automatique
— Très bon niveau en programmation python
— La maitrise des librairies Pytorch ou Tensorflow est indisponsable
— Autonomie
— Des connaissances en robotique seraient un plus

Durée & Contact :

Le stage d’une durée de 6 mois se déroulera dans les locaux de CESI École d’Ingénieurs à Nancy. Le dossier de candidature contiendra un CV complet, les relevés de notes post-bac avec classements et une ou plusieurs lettres de recommandation. Il sera transmis avant le 31/12/2023 à Leila BEN LETAIFA (lbenletaifa@cesi.fr) et Amine BOHI (abohi@cesi.fr), enseignants-chercheurs au CESI.

Références :

[1]Leila BenLetaifaet M. InésTorres. « Perceptual Borderline for Balancing Multi-Class Spontaneous Emotional Data ». In :IEEE Access9 (2021), p. 55939-55954.

[2]Yassine ElBoudouriet AmineBohi. « EmoNeXt : an Adapted ConvNeXt for Facial Emotion Recognition ». In :25th IEEE International Workshop on Multimedia Signal Processing. 2023.

[3]HailunLianet al. « A Survey of Deep Learning-Based Multimodal Emotion Recognition : Speech, Text, and Face ». In :Entropy(2023).

[4]NesrineFarhatet al. « CG-MER : A Card Game-based Maultimodal dataset for Emotion Recognition. » In :16th International Conference on Machine Vision. 2023.

[5]TingZhang. « Facial expression recognition based on deep learning : a survey ». In :International Conference on Intelligent and Interactive Systems and Applications. 2018.

[6]Ruhul AminKhalilet al. « Speech emotion recognition using deep learning techniques : A
review ». In :IEEE Access7 (2019), p. 117327-11734.

 

Avantages : Tickets restaurant, participation au transport, travail en journée, ...