Annonce


[stageM2, stageIng] Analyse et compréhension de scènes à partir de données audiovisuelles / Scene Analysis and Understanding from Audio-Visual Data

26 Mars 2025


Catégorie : Postes Stagiaires ;


Location: MINES Paris – PSL Robotics Center
Duration: 5-6 months (Beginning of May until October)
Profile required: M2 student or student-engineer

Objective and Mission

In our group we have copied the echolocation principle to reconstruct 3D surroundings using chirping sounds. This line of research can help for robot navigation or autonomous driving when the visual conditions deteriorate but properties of sound can be exploited to get spatial information. We are interested in continuing this work, developing better deep-learning pipelines for multi-modal learning, creating a large-scale audio-visual dataset for the research community and improve diverse visual task performances with sound.

The internship will provide two-fold insight into this exciting field. At the beginning of the internship a deep learning solution should be developed on previously collected data and in a simulator. The later part of the internship could potentially include help in assembly of an audio-visual sensor, data collection and analysis. This will depend on the status of the sensor design and potentially the deep learning solution will be finalized without the sensor.

The internship will consist of:

  • Task analysis and literature review for an audio-visual spatial task.
    • Details are confidential and will be given during the job interview
  • Physical data recording in several spaces for a small-scale proof-of-concept dataset
  • Training and validation of a suitable deep learning pipeline, which is to be designed, implemented and tested.

Applicant Profile

We are looking for a M2 student or engineering student with a background in machine learning, computer vision or data science.

The internship will investigate solutions to an audio-visual task which will involve the use of deep-learning pipelines. Towards the end there is optional involvement in sensor assembly and data collection. Therefore, having the following skills and experiences would be ideal and describe techniques or systems that will play a role in the internship. The concrete topic may be adjusted depending on the experience of the best candidate. Please feel free to apply even when you have no prior experience in one or several of the following topics.

Scientific Experience

  • Solid experience with deep learning
  • Some experience in computer vision
  • Understanding of Transformer-architectures, Spectrograms and Audio-Processing, NeRF, 3D-Deep Learning, Depth Prediction

Technical Experience

  • Programming in Python with PyTorch and/or TensorFlow
  • Experience with OpenCV, NumPy, SciPy, scikit-learn, Linux
  • Proficiency in data processing and visualization tools (t-SNE, UMAP, PCA)
  • Ideally experience with ROS 2, Nvidia-Jetson Architecture, Embedded Systems, Electronics

The Robotics Center

The Robotics Center at MINES Paris – PSL is one of the main research centers of the Mathematics and Systems Department. It conducts applied research into intelligent vehicles and transportation, mobile and collaborative robotics, and human-machine interaction. It is located in Paris, with an extension on the Satory site in Versailles.

Context

This internship is part of the OmniBatvision project. This is a bi-national project between Mines Paris, France and the University of Michigan, Ann Arbor, USA. Within this project the partners investigate the use of sound for scene understanding, navigation and as supervisory signal to improve vision based approaches.

Relevant Literature

The following literature is relevant for this job posting:

  • https://arxiv.org/abs/2405.18213
  • https://ieeexplore.ieee.org/abstract/document/10341715
  • https://arxiv.org/abs/2006.07995
  • https://ieeexplore.ieee.org/abstract/document/9196934

Supervision and research site

The internship will be supervised by Sascha Hornauer at the Centre de Robotique of MINES Paris – PSL, located at 60 boulevard Saint-Michel, 75006, Paris

Language:

The internship can be pursued speaking English or French

Apply:

The application can be sent to sascha.hornauer@minesparis.psl.eu

Version française

Lieu: Le Centre de Robotique de MINES Paris – PSL
Durée: 5-6 mois
Profil recherché: Étudiant(e) en M2 ou élève-ingénieur(e)

Objectifs et Missions

Dans notre groupe, nous avons copié le principe de l’écholocation pour reconstruire l’environnement en 3D à l’aide de sons. Cette ligne de recherche peut aider à la navigation des robots ou à la conduite autonome lorsque les conditions visuelles se détériorent mais que les propriétés du son peuvent être exploitées pour obtenir des informations spatiales. Nous souhaitons poursuivre ces travaux, développer de meilleurs pipelines d’apprentissage profond pour l’apprentissage multimodal, créer un ensemble de données audiovisuelles à grande échelle pour la communauté des chercheurs et explorer l’amélioration des performances de diverses tâches visuel à l’aide du son.

Le stage offrira un double aperçu de ce domaine passionnant. Au début du stage, une solution d’apprentissage profond devrait être développée sur des données précédemment collectées et dans un simulateur. La dernière partie du stage pourrait comprendre une aide à l’assemblage d’un capteur audiovisuel, à la collecte et à l’analyse des données. Cela dépendra de l’état d’avancement de la conception du capteur et il est possible que la solution d’apprentissage profond soit finalisée sans le capteur.

Profil Recherché

Nous recherchons un(e) étudiant(e) en M2 ou élève-ingénieur(e) avec un parcours en apprentissage automatique, vision par ordinateur, ou data science.

Le stage consistera à rechercher des solutions à une tâche audio-visuelle qui impliquera l’utilisation de pipelines d’apprentissage profond. Vers la fin, il y a une implication optionnelle dans l’assemblage de capteurs et la collecte de données. Par conséquent, il serait idéal de posséder les compétences et expériences suivantes, qui décrivent des techniques ou des systèmes qui joueront un rôle dans le stage. Le sujet concret peut être adapté en fonction de l’expérience du meilleur candidat. N’hésitez pas à poser votre candidature même si vous n’avez pas d’expérience préalable dans un ou plusieurs des domaines suivants.

Compétences scientifiques

  • Solide expérience de l’apprentissage profond
  • Expérience en vision par ordinateur
  • Compréhension des architectures de Transformers, des Spectrograms et du traitement audio, du NeRF, de l’apprentissage profond en 3D, de la prédiction de la profondeur.

Compétences techniques

  • Programmation en Python avec PyTorch et/ou TensorFlow
  • Expérience avec OpenCV, NumPy, SciPy, scikit-learn, Linux
  • Maîtrise des outils de traitement et de visualisation des données (t-SNE, UMAP, PCA)
  • Idéalement, expérience avec ROS 2, l’architecture Nvidia-Jetson, les systèmes embarqués, l’électronique.

Le Centre de Robotique Le Centre de Robotique de MINES Paris – PSL est l’un des principaux centres de recherche du Département Mathématiques et Systèmes. Il mène des recherches appliquées sur les véhicules et transports intelligents, la robotique mobile et collaborative, et l’interaction homme-machine. Situé à Paris, avec une extension sur le site de Satory à Versailles.

Contexte

Ce stage fait partie du projet OmniBatvision. Il s’agit d’un projet binational entre Mines Paris, France et l’Université du Michigan, Ann Arbor, USA. Dans le cadre de ce projet, les partenaires étudient l’utilisation du son pour la compréhension de la scène, la navigation et comme signal de supervision pour améliorer les approches basées sur la vision.

Littérature pertinente

La documentation suivante est pertinente pour cette offre d’emploi :

  • https://arxiv.org/abs/2405.18213
  • https://ieeexplore.ieee.org/abstract/document/10341715
  • https://arxiv.org/abs/2006.07995
  • https://ieeexplore.ieee.org/abstract/document/9196934

Encadrement et Lieu de Recherche

Encadrement et Lieu de Recherche Le stage sera encadré par Sascha Hornauer au Centre de Robotique de MINES Paris – PSL, situé 60 boulevard Saint-Michel, 75006, Paris.

Langue :

Le stage peut être effectué en anglais ou en français.

Candidatures

Les candidatures doivent être envoyées par email à : sascha.hornauer@minesparis.psl.eu

Les commentaires sont clos.