Contexte
Les deepfakes sont des vidéos synthétiques générées par l’intelligence artificielle, extrêmement réalistes et souvent indiscernables à l’œil nu. Leur prolifération pose des enjeux critiques en matière de sécurité numérique, de confiance dans l’information et de protection de l’identité.
Les méthodes actuelles de détection reposent principalement sur des indices visuels, tels que les textures et artefacts, mais elles restent limitées face à des vidéos compressées ou issues de modèles génératifs récents. Pour améliorer la robustesse de la détection, il est essentiel d’exploiter des informations intrinsèques et difficiles à falsifier. Les signaux comportementaux, tels que les micro-mouvements oculaires (clignements, saccades, dilatation pupillaire) sont particulièrement révélateurs, car ils sont extrêmement difficiles à reproduire parfaitement par les générateurs de deepfakes.
De plus, l’imagerie photopléthysmographique (iPPG) permet d’extraire à distance des signaux physiologiques, comme la variabilité du rythme cardiaque, qui offrent des signatures biométriques fiables et complémentaires aux indices visuels et comportementaux. La fusion de ces trois types d’informations (visuelles, comportementales et physiologiques) constitue ainsi une approche prometteuse pour concevoir des systèmes de détection des deepfakes plus robustes, généralisables et résistants aux manipulations sophistiquées.
Sujet
Ce stage vise à explorer et développer une approche basée sur le deep learning pour la détection de deepfakes à partir d’une seule vidéo faciale, enrichie par l’exploitation conjointe d’indices visuels, comportementaux et physiologiques. L’hypothèse centrale est que les générateurs de deepfakes reproduisent difficilement certaines signatures intrinsèques du visage humain, telles que les dynamiques comportementales fines et les variations photopléthysmographiques liées à l’activité cardiovasculaires. Ces indices seront fusionnés via des stratégies de fusion innovantes, robustes aux changements de domaine et aux informations manquantes.
Objectifs et travail à réaliser
Revue bibliographique : extraction des signaux visuels, comportementaux et physiologiques, étude des modèles de fusion récents et analyse des spécificités liées au contexte.
Analyse des données et benchmarks : sélection et analyse de jeux de données récents dédiés à la détection de deepfakes tels que DF-W, BioDeepAV et Deepfake‑Eval‑2024.
Développement des modules d’extraction d’indices : conception et implémentation des modules d’extraction des caractéristiques visuelles, physiologiques et comportementales à partir des vidéos faciales.
Modélisation et fusion des indices : développement des architectures de fusion et des stratégies d’apprentissage robustes aux changements de domaines et aux modalités manquantes.
Évaluation et validation : Évaluation approfondie du cadre proposé sur les benchmarks sélectionnés, comparaison avec l’état de l’art, analyses d’ablation et étude de la robustesse aux dégradations.
Profil recherché
Nous recherchons un(e) étudiant(e) de niveau Master 2 (ou équivalent) en informatique, intelligence artificielle, vision par ordinateur ou dans un domaine connexe.
Compétences et connaissances attendues
- Solides bases en apprentissage automatique et en vision par ordinateur.
- Maîtrise de la programmation en Python, avec une expérience pratique des frameworks de deep learning tels que PyTorch et/ou TensorFlow.
- Capacité à analyser des données et à mettre en œuvre des modèles d’apprentissage profond.
- Aptitude à travailler en équipe tout en faisant preuve d’autonomie et d’initiative.
- Bonnes capacités de communication et de rédaction scientifique.
Localisation
- Laboratoire LIASD, Université Paris 8
Contacts
Transmettre CV, relevées de notes M1/M2 et lettre de motivation à
- YASSINE OUZAR<yassine.ouzar@univ-paris8.fr>
- LARBI BOUBCHIR <larbi.boubchir@univ-paris8.fr>
