Label-Efficient Machine Learning for Visual Recognition
Hichem SAHBI, LIP6, Sorbonne Université
Most of the existing machine learning (ML) models, particularly deep neural networks, are reliant on large datasets whose hand-labeling is expensive and time demanding. A current trend is to make ML frugal and less label-dependent. Among the existing solutions, self-supervised and active learning are currently witnessing a major interest and their purpose is to train ML models without (or only with the most informative) labeled data. This presentation discusses progress in label-efficient ML for visual recognition. The first part of the talk introduces a novel active learning method that seeks to minimize the hand-labeling effort. The method is probabilistic and based on the optimization of a constrained objective function that mixes diversity, representativity and uncertainty of data. The proposed approach unifies all these criteria in a single objective function, using a stateless reinforcement learning algorithm, that measures the relevance of data (i.e., how critical they are) when training ML models. The second part of the talk introduces a novel adversarial scheme which allows frugally labeling data that challenge the most the learning models, and this ultimately leads to a better re-estimate of these models in the subsequent iterations of active learning. Finally, the third part of the talk discusses some progress in self-supervised learning that pushes frugality further by making training totally label-free. The applicability of all these methods is shown through different visual recognition tasks including image classification, change detection and video analysis.
Bridging Domains with Minimal Supervision: Domain Adaptation and Generalization for Semantic Segmentation
Mohammed-Yasser BENIGMIM, LTCI, Télécom Paris, Institut Polytechnique de Paris,
LIX, Ecole Polytechnique, CNRS, Institut Polytechnique de Paris
Responding to the need for label-efficient models in computer vision, our research explores methods to enhance the adaptability of semantic segmentation models under conditions where real-life data is scarce or entirely unavailable. These methods utilize generative modeling and domain adaptation techniques to minimize reliance on hard-to-collect real-world datasets. In the first work, we developed a method that leverages a single sample from the target domain, utilizing text-to-image diffusion models to generate high-quality images that closely match the specific style and context of the target domain. This approach involves training the model in a self-supervised fashion on these generated images, which induces a more robust model capable of adapting effectively to new domains. Additionally, our second work addresses a more complex challenge where target data is not available at all. For this, we employ a collaborative system of existing foundation models, already pre-trained on vast amounts of data. This enables content diversification and robust feature representation of images, using the power of generative models and strong feature extractors trained contrastively on huge amounts of data. Additionally, we refine our predictions on the generated images using another pre-trained foundation model known for its sophisticated prediction refinement capabilities, enhancing the reliability of our domain generalization approach. By harnessing these advanced foundation models, we contribute to the deployment of more adaptable and efficient visual recognition systems, capable of operating reliably in dynamic and data-scarce scenarios.
Apprentissage dans un contexte de données visuelles labellisées limitées : des méthodes few-shot aux modèles de fondation
Frédéric JURIE, GREYC-UMR6072, Université de Caen Normandie
Stéphane HERBIN, DTIS, ONERA, Université Paris Saclay
Dans cette présentation, nous nous intéresserons aux avancées récentes des techniques de Machine Learning utilisées en Vision par Ordinateur dans des contextes où les données d'entraînement sont limitées ou absentes. Le Machine Learning / Deep Learning a joué un rôle essentiel dans les progrès récent en Vision par Ordinateur, mais au prix d?un besoin toujours plus grand en données d'entraînement. Or, dans de nombreux domaines applicatifs, la collecte de telles données reste un obstacle majeur en raison de contraintes de coût ou de disponibilité.
Pour surmonter cette limitation, diverses approches ont été proposées, notamment grâce aux techniques de few-shot learning, de zero-shot learning ou d'adaptation de domaine. Nous examinerons ces techniques en détail, en mettant en évidence leurs principes fondamentaux et en illustrant leur application à travers des exemples concrets issus de nos travaux de recherche.
Cette discussion nous guidera vers des concepts plus récents, notamment l'utilisation de modèles dits "modèles de fondation", qui ouvrent de nouvelles perspectives pour les applications de Vision par Ordinateur dans des conditions dans lesquelles les données d'entraînement sont rares ou inexistantes. Nous explorerons les implications et les possibilités offertes par ces modèles, en mettant en lumière les défis restants et les pistes de recherche prometteuses à explorer.
Adaptation de domaine de segmentations échocardiographiques via l?apprentissage par renforcement
Thierry JUDGE, INSA Lyon, Université Claude Bernard Lyon 1, CNRS UMR5220, Inserm U1294, CREATIS, Villeurbanne, France
Université de Sherbrooke, Sherbrooke, QC, Canada
Les réseaux de neurones fournissent d'excellentes performances de segmentation d'images échocardiographiques lorsqu'entraînés sur un bon nombre d'images. Cependant, leurs performances diminuent de façon significative lorsque confrontés à des images issues de protocoles d'acquisitions différents. Pour cette raison, plusieurs méthodes d'adaptation de domaine ont été développées pour exploiter des données non-étiquetées. Par contre, ces méthodes ne considèrent généralement pas de modèle de forme a priori, donc peuvent fournir des segmentations invalides. Nous présentons RL4Seg, une méthode d'adaptation de domaine de segmentation novatrice, basée sur l'apprentissage par renforcement. Inspirée de l'entrainement de ChatGPT, elle produit des segmentations en bonne adéquation avec des métriques de conformité anatomique et optimise un réseau de récompense pouvant servir d'estimateur d'incertitude fiable. Ses performances surpassent l'état de l'art, notamment en atteignant 99% de validité anatomique.
Semantic Generative Augmentations for Few-Shot Counting
Hervé LE BORGNE, Perla DOUBINSKY, CEA LIST, Saclay
Recent advancements in generative modeling for visual content have led to the synthesis of diverse high-resolution and high-quality images. For applications such as image editing and data augmentation, controlling the semantic properties of the generated images is also highly desirable. The work presented in this talk was developed in the more general context of a thesis that focuses on enhancing control over the generated content and also explores how to exploit the control to synthesize effective and diversified training data.
In the work presented, we specifically investigate the use of large pre-trained models conditioned on text to synthesize training datasets. However, we find that text control alone may be insufficient for tasks requiring compositionality. To address this, we propose adding a task-specific conditioning to generate precise augmentations suitable for supervised learning. Additionally, we introduce a strategy to diversify augmentations by utilizing both task-specific and text conditioning, prompting the generative model with novel but plausible pairs. We apply this method to the task of few-shot class-agnostic object counting and demonstrate improvements in the counting network's performances.
Vers la création de modèles de fondation pour les séries temporelles d'images satellites
Iris DUMEUR, CESBIO, Université de Toulouse, CNES/CNRS/INRAe/IRD/UT3
Suite aux récents et nombreux lancements de satellites d?observation de la Terre, des séries temporelles d?images satellites multi-années, offrant une large couverture géographique, sont désormais accessibles. Ces données renferment des informations cruciales pour diverses tâches de surveillance de la Terre telles que la gestion des cultures agricoles, la classification de l?occupation des sols et l?étude du changement climatique. Cependant, ces applications se heurtent souvent à un manque de données étiquetées, ce qui entrave le développement de méthodes d?apprentissage applicables à grande échelle. Ainsi, nous proposons une méthode d?entraînement autosupervisé multivue adaptée aux séries temporelles d?images satellites (STIS). En particulier, cette méthode fusionne une tâche de reconstruction croisée avec des fonctions de coût dans l?espace latent. De plus, le réseau de neurones proposé génère une représentation latente de taille fixe et alignée des STIS, qui sont par défaut irrégulières et non-alignées. Enfin, la qualité du pré-entraînement a été évaluée sur 3 tâches en aval différentes : l?occupation des sols, la segmentation des cultures et la détection de changements. Dans la configuration où le modèle pré-entraîné est gelé, notre méthode surpasse les méthodes compétitives actuelles sur des STIS [1, 2]. Enfin, lors d?une expérience simulant un manque de données étiquetées pour la segmentation des cultures, nos résultats indiquent que le pré-entraînement améliore significativement les performances de classification des cultures. Ces résultats soulignent l?importance du pré-entraînement autosupervisé pour les tâches disposant de peu de données étiquetées.
Références
[1] Iris Dumeur, Silvia Valero, and Jordi Inglada. Self-supervised spatio-temporal representation learning of satellite image time series. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, pages 1?18, 2024.
[2] Gabriel Tseng, Ivan Zvonkov, Mirali Purohit, David Rolnick, and Hannah Rae Kerner. Lightweight, pre-trained transformers for remote sensing timeseries. ArXiv, abs/2304.14065, 2023.
Language-guided Adaptation and Generalization in Semantic Segmentation
Tuan-Hung VU, VALEO
A critical challenge in employing semantic segmentation models in the open-world is the distributional shifts between training and testing environments. Domain adaptation and domain generalization are research fields focused on enhancing testing performance in target domains, whether known or unknown. In this study, we revise both adaptation and generalization problems when leveraging the recent vision-language models like CLIP. In our first work, we exploit the CLIP?s latent space and propose a simple and effective feature stylization mechanism that converts source-domain features into target-domain ones simply via language prompting. Fine-tuning the segmentation model on these zero-shot synthesized features helps mitigate the distribution gap between the source and target domains, thus improving performance on targets. In our second work, we introduce a simple framework for generalizing semantic segmentation networks by employing language as the source of randomization. Our recipe comprises three key ingredients: i) preservation of the intrinsic CLIP robustness through minimal fine-tuning, ii) language-driven local style augmentation, and iii) randomization by locally mixing the source and augmented styles during training. Through this line research, we demonstrate the significant potential of harnessing textual modality to improve the robustness of vision systems.
Indirect-attention: SS-DETR for one shot object detection
Bissmella BAHADURI, LabCom IRISER, L2TI, Université Sorbonne Paris Nord