Réunion
Vie privée et sécurité des données multimédia
Thèmes scientifiques :
- A - Méthodes et modèles en traitement de signal
- D - Télécommunications : compression, protection, transmission
Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions
13 personnes membres du GdR ISIS, et 9 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 50 personnes.
Annonce
Dans le cadre d'une journée commune entre le GDR IASIS et le GDR Sécurité informatique, nous vous proposons une journée partagée entre les deux GT, à savoir « Protection de la vie privée » et « Sécurité des données multimédia ». Les activités en sécurité multimédia s'articuleront autour de la protection des données multimédia contre l'usurpation d'identité et les créations des fausses identités, le partage de secrets visuels, et la biométrie liée à la cryptographie.
Pour assister à cette journée, en plus de s'inscrire sur le GDR IASIS, il est nécessaire de s'inscrire sur le GDR Sécurité informatique : https://gdr-secu-jn2024.sciencesconf.org/
Pour plus d'information merci d'adresser un message à William PUECH et Iuliia TKACHENKO.
Organisateurs :
William PUECH, LIRMM, Université de Montpellier
Iuliia TKACHENKO, LIRIS, Université Lyon 2
Contact :
william.puech@lirmm.fr, iuliia.tkachenko@liris.cnrs.fr
Programme
9h30-10h30 : Kai Wang, GIPSA-lab, CNRS
Titre : Digital image forensics: Different approaches and some recent focuses
14h00-14h50 : Slava Voloshynovskyy, Université de Genève, Suisse
Titre : Security of foundation models: implications for downstream tasks, content protection and tracking
14h50-15h30 : Teddy Furon, IRISA, INRIA, Rennes
Titre : Confidentialité des modèles d'IA : Qu'est-ce qu'il y a dans la boîte noire ?
15h30-16h00 : PAUSE CAFÉ
16h00-16h30 : Jean-Francois Bonastre
Titre : La voix, une modalité d'identification unique, avec ses limites et ses risques
16h30-17h00 : Mohamed Maouche et Carole Frindel
Titre : Vers une évolution de la caractérisation du risque de ré-identification des images médicales
17h00-17h30 : Vincent Thouvenot, THALES
Titre : AI Friendly Hacker : quand une IA révèle plus qu'elle ne devrait...
Résumés des contributions
Digital image forensics: Different approaches and some recent focuses
Kai Wang, GIPSA-lab, CNRS
Résumé :
Nowadays, the wide variety and availability of powerful image editing and generation tools have made it easy to tamper with a digital image without leaving an obvious visual clue. Fake images, which do not reflect what happens in reality, can have serious negative impacts on society. In this talk, we provide a brief introduction to the research field of image forensics whose main objective is to detect and locate different types of image forgeries. Technically we present two case studies on two different image forensic problems. In the first case study, we show how different approaches, either traditional or deep-learning-based, can be used to solve a same image forgery detection problem. In the second case study, we present some recent trends within the research community, with special focuses on improving forensic performance in certain challenging application scenarios.
Security of foundation models: implications for downstream tasks, content protection and tracking
Slava Voloshynovskiy, Université de Genève, Suisse
Résumé :
The emergence of a vast amount of content is reshaping our digital landscape. This content comes from two main sources: it is either captured directly from the real world, i.e., physically produced, or created via digital algorithms, i.e., synthetically generated. Various tools and creators produce this content for diverse purposes. This content spans a wide array of media including images, videos, audio, and text, necessitating robust methods for its protection and tracking.
Central to this evolving digital ecosystem are Foundation Models (FMs) and notably Vision Foundation Models (VFMs), which represent a significant advancement in machine learning (ML) capabilities. These large, pre-trained neural networks, refined on extensive and diverse datasets, are versatile tools employed in many downstream applications, ranging from image classification and semantic segmentation to object detection, content retrieval, and tracking. Moreover, their ability to power generative ML technologies has been particularly transformative.
However, the provenance of data used to train these models, as well as the content they generate, poses significant challenges. There is a pressing need to ensure the integrity, authenticity, and security of this content to maintain trust in information, prevent misinformation, protect individuals and organizations from adversarial attacks, preserve the integrity of legal evidence, and uphold ethical standards. Notably, the EU AI Act recognizes the risks linked with the recent ML models and the content they generate.
To address these challenges, the multimedia security community has developed two fundamental pillars: digital watermarking (content protection) and content fingerprinting (content tracking), also known as robust perceptual hashing. Digital watermarking and content fingerprinting being integrated with Digital Rights Management (DRM) systems, enhance their ability to safeguard digital assets across a variety of platforms. Recently, these techniques have begun to leverage FMs, using them as the backbone of content protection and tracking systems. Despite their widespread use, the security of FMs and, by extension, the systems based on them remains a critically underexplored area, exposing potential vulnerabilities to unknown threats.
In this talk, we focus on the particularities of modern VFMs, digital watermarking, and content fingerprinting systems that are based on these VFMs, and investigate their robustness in the face of adversarial threats.
Confidentialité des modèles d'IA : Qu'est-ce qu'il y a dans la boîte noire ?
Teddy Furon, INRIA, Rennes
Résumé :
Considérons un modèle d'IA enfermé dans une boîte noire (accès par une API - MLaaS, ou par un circuit intégré - ML On Chip). Est-il possible d'identifier ce modèle ? Cet exposé présente les raisons pour lesquelles un attaquant ou un défenseur résoudrait cette tâche. Il fusionne nos travaux sur le fingerprinting (identification passive) et le watermarking (identification active) pour les modèles de décision (classifieurs) mais aussi les modèles d'IA générative (images ou textes).
La voix, une modalité d'identification unique, avec ses limites et ses risques
Jean-Francois Bonastre
Résumé :
Les solutions d'identification des personnes par la voix sont de plus en plus populaires, grâce aux fonctionnalités uniques qu'elles offrent, et ce malgré les limites intrinsèques de cette modalité. La voix transporte en effet non seulement le message linguistique, mais aussi l'identité du locuteur, ce qui rend ces applications possibles. Cependant, elle véhicule également de nombreuses autres informations sur le locuteur, telles que le sexe, l'âge, l'état émotionnel ou physiologique, ou encore sur son environnement.
Dans cet exposé, je présenterai tout d'abord le principe général des méthodes d'identification de la voix, ainsi que leurs performances et leurs limites. J'aborderai ensuite la question des deepfakes. Enfin, j'examinerai quelques travaux récents en réponse à certains points soulevés, tels que le besoin d'explicabilité, avec la méthode BA-LR et son illustration dans le domaine judiciaire, ou sur la représentation de la preuve pour le respect de la vie privée.
Vers une évolution de la caractérisation du risque de ré-identification des images médicales
Mohamed Maouche et Carole Frindel
Résumé :
Alors que la technologie de reconnaissance faciale se généralise, son utilisation dans l'imagerie médicale suscite des inquiétudes. Ce travail examine les risques pour la vie privée liés aux données d'IRM, y compris le potentiel de ré-identification par le biais de photos de médias sociaux et la déduction d'attributs sensibles. L'amélioration rapide de la qualité des IRM coïncide avec les progrès des outils de reconnaissance faciale, ce qui accroît le risque de réidentification des personnes à partir des images médicales. Notre approche consiste à reconstruire des visages à partir de données IRM cérébrale et à utiliser des techniques de reconnaissance faciale pour faire correspondre ces visages à des photographies. Les réglementations légales telles que le GDPR exigent l'évaluation et la protection des données personnelles, ce qui rend essentielle l'évaluation continue des risques. Au-delà de la réidentification, nous étudions comment les images IRM peuvent révéler des attributs sensibles tels que l'âge, le sexe et l'origine ethnique. Cette recherche évalue les risques pour la vie privée des données d'IRM à la lumière des progrès des technologies de reconnaissance et de reconstruction faciales qui sont désormais plus accessibles. Nous démontrons également que l'élimination des poils du visage sur les photographies augmente le risque de ré-identification. Dans l'ensemble, nos résultats mettent en évidence les vulnérabilités du partage des données d'IRM et soulignent la nécessité de renforcer les mesures de protection de la vie privée.
AI Friendly Hacker : quand une IA révèle plus qu'elle ne devrait...
Vincent Thouvenot, THALES
Résumé :
L'objectif de l'IA basée sur l'apprentissage automatique est de généraliser des informations sur des individus à l'ensemble d'une population. Et pourtant...
- Une IA peut-elle divulguer des informations sur ses données d'apprentissage ?
- Si la réponse à la première question est oui, quel type d'informations peut-elle divulguer ?
- Comment peut-on l'attaquer pour récupérer ces informations ?
Pour souligner les problèmes de vulnérabilité de l'IA, la Direction Générale de l'Armement (DGA) a proposé un défi sur les attaques de confidentialité basé sur deux tâches :
- Attaque d'appartenance : Un modèle de classification d'images a été entraîné sur une partie de l'ensemble de données en libre accès FGVC-Aircraft. Le but de ce défi est de trouver, à partir d'un ensemble de 1 600 images, lesquelles ont été utilisées pour l'entraînement du modèle.
- Attaque d'oubli : Le modèle fourni, également connu sous le nom de modèle « export », a été affiné à partir d'un modèle dit « souverain ». Le modèle souverain comporte certaines classes (familles) d'avions sensibles qui ont été supprimées et remplacées par de nouvelles classes. L'objectif est de trouver, parmi un ensemble donné de classes, celles qui ont été utilisées pour former le modèle souverain, en utilisant uniquement les poids du modèle export.
L'équipe Friendly Hackers de ThereSIS a remporté les deux tâches. Au cours de la présentation, nous expliquerons comment nous avons procédé et quelles leçons nous avons tirées de ce défi fascinant.