Réunion
Journée Vision 3D et Apprentissage
Axes scientifiques :
- Audio, Vision et Perception
Organisateurs :
Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions
22 personnes membres du GdR IASIS, et 38 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 60 personnes. 0 Places restantes
Inscriptions closes pour cette journée
Annonce
Les techniques d’apprentissage profond se sont progressivement imposées comme les outils les plus performants pour résoudre de nombreux problèmes de vision par ordinateur. Toutefois, la vision 3D est fondée sur des concepts théoriques bien établis issus de la physique, qui ne sont pas explicitement pris en compte dans les modèles d’apprentissage. L’objectif de cette journée « Vision 3D et Apprentissage » est de réunir les chercheurs et chercheuses dont les travaux se situent à l’interface entre ces deux domaines.
La journée portera notamment sur ce que peuvent apporter les méthodes d’apprentissage à la vision 3D, et réciproquement, sur comment introduire des aspects de géométrie 3D dans des techniques d’apprentissage. Par exemple, nous chercherons à répondre aux questions suivantes : Pour quels aspects de la vision 3D les méthodes d’apprentissage sont-elles adaptées, et comment les appliquer ? Existe-t-il encore des applications pour lesquelles les méthodes purement géométriques restent plus adaptées et pourquoi ? Comment tenir compte de la dynamique de la scène ou de la déformation des objets dans les méthodes d’apprentissage profond ?
Cette journée aura lieu le 9 décembre 2025 de 10h à 17h. Elle se déroulera à la Salle Turing, 7e étage, LIPADE, Université Paris-Cité, 45, rue des Saints-Pères, 75006 Paris; et inclura deux conférences invitées :
- Stefanie Wuhrer, INRIA Grenoble – Analysis of deforming 3D shapes
- Vincent Leroy, Naver Labs – The *3R family: a Foundation Model for (3D) vision
Appel à contributions. Nous lançons également un appel à contribution, notamment à destination des doctorant·e·s. Les personnes souhaitant présenter leurs travaux sont invitées à envoyer, par e-mail, leur proposition (titre et résumé d’une demi-page) aux personnes qui organisent la journée, par email (email : yvain.queau@ensicaen.fr ; sylvie.chambon@toulouse-inp.fr), avant le 20 octobre. Suivant les propositions reçues, nous proposerons une présentation orale ou poster.
Attention : Les outils de gestion CNRS risquant de fermer courant novembre, les demandes de prise en charge de mission ne pourront être acceptées que jusqu’au 7 novembre.
Les organisateurs,
Sylvie Chambon, IRIT, INP Toulouse
Yvain Queau, GREYC, CNRS
Résumés des contributions
Vincent Leroy, Naver Labs
The *3R family: a Foundation Model for (3D) vision
Unconstrained 3D Reconstruction originally presented in DUSt3R has seen a rapid growth in popularity for its ease of use, its robustness and its many potential applications. In some sense, it revolutionized traditional multi-view stereo reconstruction by casting the problem as simply regressing pointmaps. Because they encode scene geometry, camera calibration and pose, this meant a unification of monocular 3D reconstruction, camera calibration, pose estimation and dense 3D reconstruction. It even showed exciting new capabillities for instance when the two views do not share visual content yet observe the same scene. Overall, DUSt3R unifies and simplifies the complex pipeline of traditional photogrammetry, significantly reducing computational overhead and enhancing performance across various tasks. in this talk I will present our latest advances in pursuit of a general and controllable computer vision network, a.k.a. "foundation model" that can solve as many geometric computer vision tasks as possible, and even more...
Stefanie Wuhrer, INRIA Grenoble
Analysis of deforming 3D shapes
This talk presents our recent results on data-driven representations and analyses of deforming 3D shapes. Three classes of shapes will be discussed. First, we focus on human body shapes, where we consider motion sequences digitized by a discrete number of frames, each captured densely as 3D shape. Our recent works allow to generate human motion sequences using retargeting, where a target body shape is animated with the motion extracted from a source sequence of body shapes. We further studied how the resulting 3D human body motion sequences can be evaluated in a way that correlates with human perception. Second, we focus on clothing worn by humans during motion, where we discuss how diffusion models can be used to generate detailed deforming 3D clothing based on human body shape, motion, and material parameters of the cloth. Finally, we focus on 3D plants, where we use an encoder-decoder model to infer parameterized representations of plants from raw 3D scans.
Clémentine Grethen, IRIT / Université de Toulouse
Adaptation de la vision stéréoscopique des objets à la reconstruction 3D de la surface lunaire avec la base de données StereoLunar
Une reconstruction 3D précise de la surface lunaire est essentielle pour l’exploration spatiale. Cependant, les méthodes géométriques classiques multivues (SfM, MVS,...) rencontrent de fortes limites dans ce contexte, en raison du manque de texture du sol lunaire, des variations d’éclairement extrêmes et des trajectoires orbitales atypiques (base stéréoscopique minimale). Les modèles récents d’apprentissage profond, entraînés sur des bases de données terrestres à l’échelle humaine (objets, scènes urbaines,..), n’ont pas été évalués sur des images spatiales et ne sont pas directement transférables aux conditions lunaires. Pour répondre à ce problème, nous avons développé le premier jeu de données public d’images stéréo lunaires (StereoLunar), basé sur un rendu par lancer de rayons physiquement réaliste. Celui-ci exploite des modèles d’élévation du terrain lunaire ainsi que des fonctions de réflectance adaptées, telles que le modèle de Hapke. Il couvre une grande diversité d’altitudes, de conditions d’illumination et d’angles de vue autour du pôle sud lunaire, et fournit une supervision physiquement fondée pour les tâches de reconstruction 3D. À partir de ce dataset, nous avons ajusté ("fine-tuning") les modèles MASt3R et VGGT avec succès, démontrant leurs capacités d’adaptation au domaine lunaire. Les résultats montrent une amélioration spectaculaire de l’estimation de la géométrie 3D dans tous les scénarios, avec une réduction moyenne de plus de 70% de l’erreur sur l’estimation des pentes et un gain d’environ 50% en précision relative globale. Parallèlement, nous avons étudié et développé des stratégies de distillation, permettant de spécialiser et de compresser ces grands réseaux vers des modèles plus légers, rapides et adaptés à la tâche spécifique de reconstruction 3D de la surface lunaire. Cette démarche constitue une étape essentielle pour rendre ces approches potentiellement embarquables dans des applications de navigation basée vision.
Léo-Paul Huar, INRIA / Interdigital
Compactness-Aware Densification for 3D Gaussian Splatting
Le 3D Gaussian Splatting (3DGS) représente une scène par un ensemble de gaussiennes 3D anisotropes optimisées à partir d’images d’entrée calibrées. La compacité (nombre de gaussiennes) détermine directement les besoins en mémoire, en stockage et le coût de rendu. Les pipelines d’optimisation 3DGS actuels intègrent une densification adaptative (Adaptive Density Control) qui duplique des gaussiennes selon un critère fondé sur le gradient de position. Ce mécanisme permet d’obtenir une scène dense et de bonne qualité, mais il tend à générer des gaussiennes redondantes dans des zones déjà bien reconstruites, alourdissant le modèle sans gain de qualité perceptible. Les travaux explorent une densification orientée compacité, qui vise à remplacer le critère de gradient classique par une mesure mieux adaptée au contrôle de la densité et e la redondance des gaussiennes. Cette approche conserve la compatibilité avec les pipelines 3DGS existants et ne nécessite aucune modification du moteur de rendu. Elle permet de mieux cibler les zones réellement bénéfiques à la densification et de réduire la redondance tout en préservant la qualité visuelle du modèle. Des évaluations sur scènes réelles montrent une réduction significative du nombre de gaussiennes à qualité comparable, voire améliorée, pour une surcharge de calcul négligeable et un contrôle explicite du compromis qualité–compacité.
Lou Denis, LAAS
Gaussian Smoke : Apprentissage de la propagation de fumée avec des Gaussiennes 3D.
La modélisation de fluides, et plus particulièrement de fumée, est un domaine de recherche crucial ayant de nombreux domaines d'application tels que la santé ou la météorologie. Pour modéliser la propagation de fumée, il existe différents modèles analytiques de propagation, certains très fidèles aux équations de Navier-Stokes (CFD) et d'autres qui visent une application en temps réel (SPH). Plus récemment, les modèles neuronaux se sont imposés en alternative aux modèles analytiques, en apprenant à modéliser une dynamique à partir de données observées. Ces modèles offrent plus de flexibilité sur le type de données utilisées, et permettent ainsi l'utilisation de signaux plus complexes tels que des images multi-vues. L’objectif de nos travaux est d'inférer les transitions et interactions d'un état vers le suivant à partir d'observations multi-vues de la surface de la fumée. Cette tâche est à l'intersection entre la reconstruction 3D à partir d'images, et l'identification de systèmes dynamiques. L'état de l'art pour la modélisation de fumée à partir d’images peut être divisé en deux parties : 1) les méthodes focalisées sur la reconstruction [1,2], qui utilisent une représentation spatiale de la densité, guidée par les équations de Navier Stokes, afin de modéliser un champ de densité physiquement plausible. La dynamique n'est pas apprise, et les prédictions des états suivants sont réalisées avec des modèles analytiques appliqués à la densité reconstruite. 2) les méthodes "reconstruction + affinage" [3], qui effectuent une reconstruction et prédiction avec une dynamique explicite, puis utilisent un modèle de diffusion pour affiner les images. Notre modèle s'appuie sur les récents progrès de la représentation de l'espace par des Gaussiennes 3D reconstruites à partir d'images. Ces gaussiennes sont plus compactes qu'une grille de voxels classique, et plus contrôlables qu'une représentation neuronale. De plus, cette représentation est proche des représentations lagrangiennes d'un fluide. Nous utilisons donc une version modifiée du 3D Gaussian Splatting [3] pour la reconstruction volumétrique de la fumée. A partir de cette représentation, nous entraînons un GNN (Graph Neural Network) pour l'apprentissage de l'évolution temporelle des Gaussiennes. Notre méthode permet l'apprentissage d'une dynamique généralisable à différentes simulations, sans dériver explicitement un modèle de propagation des Gaussiennes. Contrairement aux méthodes existantes, notre approche permet 1) la prédiction de la propagation de la fumée avec très peu d'états précédents fournis en entrée et 2) un apprentissage de la dynamique directement dans l'espace 3D, sans utiliser de méthode de post-processing sur les images.
Salem Ait Messaoud, IRIMAS – UHA / HOLO3
Clonage de défauts par édition d’objets avec une approche « 3D Gaussian Splatting »
La conception de systèmes de vision pour la détection d’anomalies constitue un défi majeur lorsqu’il s’agit d’objets manufacturés aux formes complexes et aux surfaces spéculaires. L’apparence des défauts d’aspect ou de forme dépend fortement des configurations d’éclairage et d’observation. Plusieurs paramètres interviennent, notamment les types d’éclairage et leur position dans la scène, qui conditionnent la visibilité des anomalies. Dans ce contexte, le recours à des modélisations numériques apparaît comme une approche prometteuse pour la conception de ces machines. Ces environnements doivent intégrer des modèles réalistes de défauts, incrustés dans des scènes synthétiques avec un rendu naturel selon les conditions d’éclairage et d’observation, tout en réduisant le besoin d’acquisitions physiques coûteuses et en permettant d’étudier virtuellement l’apparence des pièces sous de multiples configurations. Dans ce cadre, nous avons évalué le 3D Gaussian Splatting (3DGS), une méthode récente de reconstruction 3D photoréaliste. Si cette approche a déjà montré son efficacité sur des scènes naturelles ou des objets du quotidien, peu de travaux l’ont appliquée à des contextes de vision industrielle impliquant des objets complexes et spéculaires. Dans notre étude, des images multi-vues d’une pièce industrielle ont été acquises par caméra embarquée sur bras robotisé, puis utilisées pour entraîner 3DGS. Le modèle reconstruit la scène et génère de nouvelles vues cohérentes. Les résultats montrent une fidélité élevée aux images réelles, avec un PSNR supérieur à 30 dB, confirmant la pertinence de 3DGS pour modéliser l’apparence de surfaces métalliques complexes. Dans le cadre de l’édition géométrique, nous avons développé une première approche de clonage de défauts. Elle consiste à reproduire un défaut observé (par exemple une rayure) et à le transférer sur une autre zone de la pièce. Cette stratégie permet de créer des images synthétiques réalistes intégrant différents types de défauts, afin d’évaluer virtuellement leur visibilité selon diverses configurations d’éclairage et d’observation, et d’optimiser la conception des systèmes d’inspection.
Tom Février, Institut Clément Ader / Université de Toulouse
3DThermoScan: Simultaneous 3D reconstruction and temperature measurement with a single camera
We introduce 3DThermoScan, a proof-of-concept method employing a single camera for full 3D thermal reconstruction, i.e., joint geometry and temperature recovery. Most existing approaches rely on infrared--visible camera pairs, requiring cross-system calibration and strong assumptions on surface emissivity. Our method instead inverts a unified image formation model that accounts for both reflection and emission, thereby overcoming these limitations. From images captured under controlled active lighting, 3DThermoScan integrates photometric stereo and thermoreflectometry to estimate surface normals, albedo, and radiance temperature. With diffuse reflectance as the only optical assumption, we recover surface emissivity and true temperature from these estimates, and map them onto the 3D model. Preliminary experiments on synthetic and real diffuse surfaces with diverse geometric and thermal properties demonstrate both the accuracy and robustness of our approach, as well as its potential.
