Annonce


[StageM2 (+PhD)]Rehaussement de la Parole à l’Aide de Microphones Distribués en Combinant Apprentissage Automatique et Acoustique

03 Novembre 2025


Catégorie : Postes Doctorant ; Postes Stagiaires ;


Contact pour candidater: antoine (.) deleforge (@) inria (.) fr

Description du sujet

Les microphones sont aujourd’hui omniprésents dans notre environnement : aides auditives, enceintes connectées, smartphones, casques de réalité augmentée, systèmes de visio-conférence, … L’utilisation confortable de ces dispositifs nécessite l’emploi d’algorithmes permettant de réhausser les signaux de paroles d’intérêt, même en présence de sources de bruit et de réverbération. Cette tâche est rendue d’autant plus difficile en conditions dynamiques, dans lesquels sources et microphones peuvent se déplacer. Ce stage s’inscrit dans un projet de recherche Franco-Allemand (ANR-DFG AWESOME 2026-2029) visant à exploiter l’ensemble des microphones disponibles dans une salle, formant ainsi un réseau dit distribué ou ad-hoc, pour améliorer grandement la qualité des signaux de paroles captés.

La difficulté principale pour ce faire est que les positions relatives et absolues des microphones dans la pièce ainsi que leurs caractéristiques acoustiques et celles de la salle ne sont généralement que partiellement connues, ce qui empêche l’exploitation du réseau complet à son plein potentiel. Pour débloquer ce verrou, ce stage explorera des approches combinant méthodes acoustiques inverses et apprentissage automatique, et en particulier les récents modèles génératifs basés sur la diffusion. Deux pistes pourront être explorées :

  • Déréverbération multicanale préservant les réflexions précoces. Une approche de déréverbération telle que [1] ou [2] sera étendue au scénario considéré, puis combinée avec une méthode acoustique inverse telle que [3] pour localiser les dispositifs par rapports aux réflecteurs les plus proches.
  • Calibration par clappements de mains. Un modèle de diffusion de type Shrödinger Bridge [4] sera utilisé pour transformer des enregistrements de clappements de main en réponses impulsionnelles de salle, dont les parties précoces seront exploitée par la méthode inverse [5] pour localiser les réflecteurs.

Compétences requises

  • Excellent niveau en programmation Python. PyTorch est un plus
  • Formation en deep learning, et traitement du signal. Des connaissances ou un intérêt pour l’audio, l’acoustique, les méthodes numériques ou l’optimisation sont un plus.
  • Niveau master 2 (en informatique, traitement du signal, machine learning, acoustique ou mathématiques appliquées) et un fort intérêt pour la recherche académique.

Informations pratiques

Le stage se déroulera à Strasbourg (11 rue Jean-Mentelin) dans une équipe jointe entre l’Inria et l’UMRAE et sera co-encadré par Antoine Deleforge (Chercheur Inria), Cédric Foy (Chercheur UMRAE) et Jean-Daniel Pascal (Doctorant UMRAE-Inria). Celui-ci pourra déboucher sur une thèse de doctorat financée.

Bibliographie (Merci d’examiner au moins 3 de ces références avant de postuler – pdf en liens)

[1] E. Moliner, J-M. Lemercier, S. Welker, T. Gerkmann, and V. Välimäki. « BUDDy: Single-channel blind unsupervised dereverberation with diffusion models. » In 18th International Workshop on Acoustic Signal Enhancement (IWAENC), pp. 120-124. IEEE, 2024.

[2] L. Bahrman, M. Fontaine, and G. Richard. « A Hybrid Model for Weakly-Supervised Speech Dereverberation. » In ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1-5. IEEE, 2025.

[3] D. Di Carlo, C. Elvira, A. Deleforge, N. Bertin, and R. Gribonval. « BLASTER : An off-grid method for blind and regularized acoustic echoes retrieval. » In International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 156-160. IEEE, 2020.

[4] A. Jukić, R. Korostik, J. Balam, and B. Ginsburg. « Schrödinger Bridge for Generative Speech Enhancement. » In Proceedings of Interspeech, pp. 1175-1179. ISCA. 2024.

[5] T. Sprunck, A. Deleforge, Y. Privat, and C. Foy. « Gridless 3D recovery of image sources from room impulse responses. » IEEE signal processing letters 29 (2022): 2427-2431.

Les commentaires sont clos.