Réunion

Les commentaires sont clos.

Capteurs visuels émergents et applications Journée inter GdR IASIS et Robotique

Date : 4-07-2024
Lieu : Amphi Fourier (5ème étage), Université Paris Cité, 45 rue des Saints-Pères, Paris

Thèmes scientifiques :

    Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.


    S'inscrire à la réunion.

    Inscriptions

    36 personnes membres du GdR ISIS, et 23 personnes non membres du GdR, sont inscrits à cette réunion.

    Capacité de la salle : 100 personnes.

    Annonce

    Dans le cadre du GT "Vision guidée par les capteurs émergents" le GdR IASIS s'associe au GdR Robotique pour l'organisation d'une journée de travail le 4 juillet prochain autour des capteurs visuels émergents et leurs applications, notamment en robotique.

    Au delà des caméras conventionnelles, de nombreux capteurs de vision permettent aujourd'hui d'obtenir des informations de natures différentes comme la profondeur (caméras temps de vol, multi-vues, plénoptique,...) le changement (caméras à événements), ou encore de longueurs d'ondes différentes (visible, IR, SWIR, hyperspectral...).

    L'usage de ces capteurs fait émerger de nombreuses questions en vision par ordinateur sur les outils et les méthodes associées. De nombreuses activités de recherche se développent pour modéliser ces capteurs et exploiter les données visuelles qu'ils génèrent pour caractériser l'environnement. L'objectif de cette journée est de réunir les acteurs du domaine, avec un focus particulier sur des applicatifs en robotique, afin de faire le point sur ces recherches et dégager des pistes de collaboration vers des travaux futurs.

    Appel à communications :

    En plus de présentations invitées, cette journée est ouverte à des présentations courtes qui permettront d'aborder de nouveaux travaux. Nous lançons ainsi un appel à contributions sur les thématiques liées aux capteurs visuels émergents et incluant :

    • Conception de capteurs de vision non conventionnels
    • Modélisation et étalonnage
    • Traitements et analyse d'informations visuelles
    • Fusion de différentes modalités d'imagerie
    • Vision dynamique et applications

    Les personnes intéressées sont invitées à envoyer leurs propositions (titre et résumé) avant le 10 juin 2024 aux organisateurs (cf. la section "Contacts").

    L'inscription à cette journée est gratuite mais obligatoire sur le site du GdR IASIS.

    Dates importantes :

    10 juin 2024 : date limite d'envoi des résumés

    14 juin 2024 : notification aux auteurs et diffusion du programme

    4 juillet 2024 : journée Capteurs visuels émergents et applications

    Orateurs invités confirmés :

    Nathan Crombez (UTBM), Stéphane Bazeille (UHA), Julien Moreau (UTC), Antoine Rouxel (LAAS)

    Organisateurs :

    Céline Teulière, Mathieu Labussière, Omar Ait-Aider, Guillaume Caron

    Contacts :

    celine.teuliere@uca.fr, mathieu.labussiere@uca.fr

    Programme

    • 9h00-9h30 : accueil
    • 9h30-10h10 : Julien Moreau (UTC - Heudiasyc) "Aperçu de capteurs visuels émergents appliqués au véhicule et focus sur de l'estimation de mouvement et de profondeur avec caméra événementielle et lidar"
    • 10h10-10h30 : Laure Acin (ETIS) "VK-SITS: a Robust Event-Based Representation for Multiple Applications"

    Pause

    • 10h50-11h20 : Antoine Rouxel (LAAS) "Co-conception en imagerie : du séquentiel vers le global"
    • 11h20-11h40 : Edoardo Malaspina (Sma-rty) "Deep learning methods for thermal-visible image registration"
    • 11h40-12h00 : Lucas Deregnaucourt (Litis) "Fusion multimodale évidentielle adaptative pour la segmentation sémantique"

    Pause repas

    • 13h30-14h00 : Stéphane Bazeille (UHA -Irimas) "Odométrie visuelle avec une caméra plénoptique"
    • 14h00-14h20 : Hermès McGriff (Univ. Bourgogne - ICB) "Acquisition de la fonction plénoptique avec une caméra Light Field à Rolling Shutter"
    • 14h20-14h40 : Sabrine Djedjiga Oucherif (LIS) "Reconnaissance des Expressions Faciales avec l'Imagerie Plénoptique"

    Pause

    • 15h00-15h30 : Nathan Crombez (UTBM) "Asservissement visuel photométrique de robot par vision 360"
    • 15h30-15h50 : Alexandre Bordat et Claire Béranger (ETIS) "Non-conventional Imaging for Radar-based Elderly Fall Prediction"
    • 15h50-16h10 : Leo Poughon (ISM) "Utilisation de la polarisation de la lumière du ciel pour l'obtention d'un cap en automobile"
    • 16h10-16h20 : Clôture

    Résumés des contributions

    • VK-SITS: a Robust Event-Based Representation for Multiple Applications (Laure Acin)
      Event-based cameras are non-conventional sensors that provide movement perception with low latency, high temporal resolution, high power efficiency and high dynamic range. However, conventional machine learning and deep learning technologies are not appropriate for this data format since event data are asynchronous and sparse. The generation of image-like representations, frequently referred to as time-surfaces, is a common first stage in event-based processing. These event representations are often proposed along with a learning method for a particular application. Most frequently, these learning algorithms and event representations are assessed jointly. Furthermore, validation for these approaches is frequently done on the testing set rather than in a rigorous manner. We concentrate on a generic event representation called VK-SITS, which is an end-to-end trainable, spatially and speed-invariant time-surface that is computationally fast and GPU-friendly. We provide a benchmark to evaluate event-based representations on the DVS128 Gesture, N-Caltech101 and SL-Animals-DVS recognition datasets based on 10-fold cross-validation. We analyze the influence of meta-parameters and provide more insights into the selection of its meta-parameters.
      VK-SITS is a generic representation that is robust to the split used to optimize parametrization and to meta-parameters. This fast method provides consistently accurate recognition results. VK-SITS increases performance of state-of-art recognition methods.
      This representation might be used in robotics as a result of these benefits. Our event-based representation appears as a generic event representation for object and movement
      recognition, a key component of robotics.
    • Co-conception en imagerie : du séquentiel vers le global (Antoine Rouxel) : En optique et en photonique, la co-conception est une approche système qui consiste à développer conjointement la partie matérielle (composants optiques) et la partie logicielle (algorithmes de traitement). Cette approche permet de dépasser la vision anthropomorphique traditionnelle et s'inscrit dans une démarche où la frontière entre mesure et traitement, jusque-là bien définie, s'estompe.
      Dans ce contexte, l'imagerie spectrale à ouverture codée, inspirée du compressed sensing, propose de réduire considérablement la quantité d'informations à mesurer. Elle s'appuie sur des hypothèses sur la scène observée pour la reconstruire ou pour extraire directement l'information d'intérêt.
    • Deep learning methods for thermal-visible image registration (Edoardo Malaspina) :
      The analyzed problem is thermal-visible image registration, which involves extraction of keypoints and matching them in order to find the correct alignment between two images. Various publicly available state-of-the-art deep-learning-based methods for image registration have been tested. To quantify the performance of keypoints matching algorithms used for registration, a specific metric has been defined. This metric enables the comparison of keypoints matching across different frameworks without requiring the manual selection of ground truth points from image pairs. Finally, the best-performing method was selected, and its ability to align images during registration was demonstrated through image fusion.
    • Fusion multimodale évidentielle adaptative pour la segmentation sémantique (Lucas Deregnaucourt) :
      La robustesse des méthodes de fusion et leur capacité à s'adapter aux défaillances des capteurs sont des défis cruciaux pour leur déploiement dans des applications réelles. Il est essentiel de développer des méthodes de fusion qui peuvent fonctionner même en l'absence de certaines modalités pendant l'inférence. Cependant, les méthodes de fusion actuelles dépendent fortement des images RGB, ce qui entraîne des pertes de performances importantes en cas d'indisponibilité de cette modalité. Pour résoudre ce problème, nous proposons une méthode de fusion tardive, dite late fusion, basée sur la théorie de Dempster-Shafer. Cette méthode affaiblit de manière adaptative la sortie de chaque modalité en fonction de leurs conflits avant de les fusionner.
    • Odométrie visuelle avec une caméra plénoptique (Stéphane Bazeille) :
      L'odométrie visuelle est très souvent utilisée pour localiser un robot mobile lorsque qu'une localisation absolue comme le GPS n'est pas disponible. Dans le cas le plus courant, on utilise une caméra monoculaire et dans ce cas la localisation est obtenue à un facteur d'échelle près. Des connaissances a priori sur l'environnement ou une fusion avec d'autre capteur est nécessaire pour obtenir une localisation à l'échelle. Dans cette présentation, nous présentons un algorithme d'odométrie visuelle indirecte utilisant seulement une caméra plénoptique, permettant d'estimer la localisation d'un robot mobile tout en levant l'ambiguïté d'échelle.
    • Asservissement visuel photométrique de robot par vision 360 (Nathan Crombez) : Les caméras non conventionnelles ont apporté des contributions significatives à la robotique en améliorant les systèmes de perception, et donc les performances et l'autonomie des robots. Parmi ces dispositifs d'imagerie émergents, les systèmes d'acquisition à 360° présentent un grand potentiel, car ils apportent une perception globale tout autour du robot en une seule acquisition. Un champ de vision élargi offre des informations visuelles potentiellement plus fiables et plus nombreuses, ce qui s?est avéré très efficace pour diverses tâches telles que la détection d'objets, l'évitement d'obstacles, la navigation ou encore la localisation et cartographie. Nous proposons de tirer profit de la vision 360 afin de contrôler un robot par asservissement visuel direct. Plus exactement, nous nous intéressons au positionnement d?un robot en exploitation l?intégralité de l?information photométrique contenue dans les acquisitions 360 comme retour d'information visuelle d?une boucle de contrôle. Les évaluations de la modélisation proposée démontrent que la combinaison des caractéristiques visuelles photométriques aux acquisitions 360 permet au robot de se positionner à partir de poses initiales beaucoup plus éloignées qu'en utilisant une caméra possédant un champ de vision plus restreint, avec des trajectoires de caméra beaucoup plus directes, tout en conservant une excellente précision à la convergence.
    • Reconnaissance des Expressions Faciales avec l'Imagerie Plénoptique (Sabrine Djedjiga Oucherif) : L'utilisation d'une caméra plénoptique dans le domaine de la reconnaissance des expressions faciales permet de fournir des informations 3D détaillées du visage, facilitant une étude approfondie de sa structure. Grâce aux avancées technologiques et aux méthodes de deep learning, des progrès significatifs ont été réalisés dans ce domaine. Les images de sous-ouverture capturées par la caméra, lorsqu'elles sont traitées par un réseau CNN-RNN, permettent d'extraire des informations angulaires et spatiales précises. En fusionnant les cartes de profondeur et les images à focus total, nous pouvons ajuster et améliorer la précision de la reconnaissance des émotions.
      Lors de ce séminaire, nous présenterons les architectures utilisées ainsi que les résultats obtenus dans ce domaine.
    • Acquisition de la fonction plénoptique avec une caméra Light Field à Rolling Shutter (Hermès McGriff) : Les caméras plénoptiques proposent de capturer des images qui multiplexent, sur un unique capteur 2D, cinq des six dimensions usuelles de la fonction plénoptique. Le temps est souvent négligé et les images plénoptiques sont considérées comme composées de pixels capturés au même instant. Or la plupart des caméras classiques, et une partie des caméras plénoptiques, possèdent un capteur à Rolling Shutter, qui capture séquentiellement les pixels (ligne par ligne) de l'image. Mes travaux de thèse visent à montrer qu'il est possible de lever l'ambiguïté entre mouvement en déformation de l'effet Rolling Shutter dans une image plénoptique, et ainsi montrer qu'une caméra plénoptique à Rolling Shutter capture toutes les dimensions de la fonction plénoptique. En bonus, nous concevons actuellement une caméra qui sera théoriquement capable de récupérer un (petit) light field à partir de l'ajout d'une ouverture mobile à une caméra Rolling Shutter classique. Cette présentation portera donc sur le Rolling Shutter en tant que méthode (involontaire) de multiplexing et l'acquisition de Light Fields.
    • Non-conventional Imaging for Radar-based Elderly Fall Prediction (Alexandre Bordat et Claire Béranger ) :
      Falls represent the main risk of injury for elderly people. One-third of adults aged over 65 and half of people over 80 will have at least one fall a year. People at risk should visit a clinical service to detect gait difficulties. Solutions for detecting daily activities are being studied more and more, aiming to develop a complementary method to early detect this type of health risk as effectively as possible. Non-intrusiveness in the person?s life for this type of problem is an important criterion, which is why current research is focusing on solutions involving non-conventional imagery such as radar systems. We will present an embedded system for classifying daily activities based on the processing of micro-Doppler images.
      The implementation of the pre-processing chain with a filter enables the acquisition of detailed spectrograms, which proves to be effective in detecting walking. Additionally, by porting it onto the Jetson Orin, it could be possible to accelerate the inference phase of the classification model. We used the ResNet-18 classification method to classify six human activities: Walking, Sitting, Standing, Picking up objects, Drinking water, and Fall events. The results showed that the model is capable of recognising most of the activities on real data.
    • Utilisation de la polarisation de la lumière du ciel pour l'obtention d'un cap en automobile (Léo Poughon) :
      Cette présentation explore l'utilisation de la polarisation de la lumière du ciel pour déterminer le cap de véhicules en estimant l'orientation relative du soleil. La première partie de la présentation décrit une expérience d'acquisition de données polarimétriques-couleur de la lumière du ciel avec diverses conditions météos étendue sur une période de deux mois, en utilisant une caméra à division de plan focal. La seconde partie de la présentation introduit ensuite un nouveau type de capteur de polarisation, différent de la caméra à division de plan focal car se basant sur l'utilisation d'une lame d'onde pour générer des images contenant des irisations caractérisant le motif de polarisation dépendant de la position du soleil. Un modèle complet de la chaîne d?acquisition du ciel à l'imageur est présenté, ainsi qu'une méthode basée sur des réseaux de neurones convolutifs pour finalement estimer la position du soleil afin d'en déduire le cap.