Stage M2
Contact: isetitra@utc.fr.
Autonomous driving systems heavily depend on effective environmental perception, particularly in the area of object detection. Although YOLO (You Only Look Once) models [1][2][3] have established themselves as a standard for real-time object detection due to their balance between accuracy and speed, they show limitations when faced with unexpected situations, such as the sudden appearance of objects like animals on the road. This project aims to address rare and unexpected cases, such as the sudden entry of animals into the field of view. By taking existing datasets, we will add suddenly appearing objects, with variations in speed and size, and analyze how current models react. The goal is to compare the performance of the models with these particular cases against those obtained on more conventional datasets.
To address these challenges, this project aims to explore a comprehensive approach to improve existing YOLO frameworks and integrate techniques such as transformers, attention mechanisms, and open-world recognition strategies [4][5]. The objective is to create a robust object detection system capable of adapting to complex and unexpected environments while maintaining real-time performance [6]. Thus, the main objectives of this project are as follows:
- Improve the performance of YOLO, particularly in challenging driving conditions and unexpected cases.
- Develop methods to extend YOLO’s capabilities to recognize and classify new objects that were not included in the training dataset.
- Explore the possibility of integrating transformers and attention mechanisms [7][8] into YOLO to enhance feature extraction and contextual understanding.
- Implement a framework to address unexpected cases: Create simulated scenarios of object appearance, such as animals, with varying parameters (size, speed, trajectory) to test and evaluate the robustness of the studied models.
- Develop an optional augmented reality interface that will display intelligent alerts on the vehicle dashboard in case of sudden dangers.
Les systèmes de conduite autonome dépendent fortement d’une perception environnementale efficace, notamment dans le domaine de la détection d’objets. Bien que les modèles YOLO (You Only Look Once) [1][2][3] se soient imposés comme un standard pour la détection d’objets en temps réel grâce à leur équilibre entre précision et vitesse, ils montrent des limitations face à des situations imprévues, comme l’apparition soudaine d’objets tel que des animaux sur la route. Ce projet se propose de traiter des cas rares et inattendus, tels que l’entrée soudaine d’animaux dans le champ de vision. En prenant des ensembles de données existants, nous ajouterons des objets apparaissant soudainement, avec des variations de vitesse et de taille, et analyserons comment les modèles actuels réagissent. L’objectif est de comparer les performances des modèles avec ces cas particuliers par rapport à celles obtenues sur des ensembles de données plus conventionnels.
Pour relever ces défis, ce projet vise à explorer une approche globale qui vise à améliorer les cadres YOLO existants et intégrer des techniques telles que les transformers, les mécanismes d’attention et les stratégies de reconnaissance en monde ouvert [4][5]. L’objectif est de créer un système de détection d’objets robuste capable de s’adapter à des environnements complexes et inattendus tout en maintenant des performances en temps réel [6]. Ainsi, les objectifs principaux de ce projet sont les suivants :
- Amélioration des performances de YOLO en particulier dans des conditions de conduite difficiles et les cas inattendus.
- Développer des méthodes pour étendre les capacités de YOLO à reconnaître et classer des objets nouveaux qui n’étaient pas inclus dans le jeu de données d’entraînement.
- Exploration de la possibilité d’intégration de transformers et de mécanismes d’attention [7][8] à YOLO pour améliorer l’extraction de caractéristiques et la compréhension du contexte.
- Mise en œuvre d’un cadre pour traiter des cas inattendus : Créer des scénarios simulés d’apparition d’objets tel que des animaux avec différents paramètres (taille, vitesse, trajectoire) afin de tester et évaluer la robustesse des modèles étudiés.
- Développement d’une interface de réalité augmentée (en option) qui affichera des alertes intelligentes sur le tableau de bord des véhicules en cas de dangers soudains.
Le projet sera effectué en quatre étapes principales :
- Revue de la littérature : Effectuer une revue approfondie des avancées récentes dans les modèles YOLO, les méthodes de détection en monde ouvert et les architectures hybrides impliquant des transformers. Cela inclura l’analyse de travaux comme ceux sur la détection en monde ouvert[5] et l’exploration des itérations récentes de YOLO pour les références de performance[2][3].
- Développement du modèle :
- Amélioration de YOLO : Utiliser l’architecture YOLO et intégrer des techniques d’optimisation récentes, telles que les méthodes de détection sans point d’ancrage ou l’intégration de caractéristiques multi-échelles afin de gérer les objets OOD (out of distribution).
- Stratégies en monde ouvert : Mettre en œuvre des mécanismes d’apprentissage incrémental permettant au modèle de s’adapter à de nouvelles classes d’objets en temps réel [6].
- Comparaison ou intégration de transformers : Développer un modèle utilisant des mécanismes d’attention basés sur des transformers pour améliorer la compréhension contextuelle et la robustesse.
- Évaluation :
- Mener des expériences sur des ensembles de données de référence spécifiques à la conduite autonome (par exemple, BDD100K, KITTI) pour évaluer les performances du modèle amélioré en termes de précision, de vitesse et d’adaptabilité à des objets nouveaux.
- Traitement des cas inattendus en créant des scénarios simulés à partir des benchmarks existant où des objets apparaissent soudainement dans le champ de vision, et mesurer l’impact de ces situations sur les performances du modèle.
- Analyser l’efficacité du modèle dans diverses conditions, y compris différentes conditions d’éclairage, météo et scénarios de circulation.
- Effectuer des expérimentations dans différentes conditions de circulation (animaux traversant la route, objets apparaissant brusquement) et analyser la capacité des modèles à gérer ces cas imprévus.
References:
-
- J. Redmon, S. Divvala, R. Girshick and A. Farhadi, « You Only Look Once: Unified, Real-Time Object Detection, » 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
- C. -Y. Wang, A. Bochkovskiy and H. -Y. M. Liao, « YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors, » 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
- Cao, J., Zhang, T., Hou, L. et al. An improved YOLOv8 algorithm for small object detection in autonomous driving. J Real-Time Image Proc 21, 138 (2024).
- K. J. Joseph, S. Khan, F. S. Khan and V. N. Balasubramanian, « Towards Open World Object Detection, » 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
- Yiming Li, Yi Wang, Wenqian Wang, Dan Lin, Bingbing Li, and Kim-Hui Yap. Open world object
detection: A survey. ArXiv, 2024. - J. M. Pierre, « Incremental Lifelong Deep Learning for Autonomous Vehicles, » 2018 21st International Conference on Intelligent Transportation Systems (ITSC)
- Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai: Deformable DETR: Deformable Transformers for End-to-End Object Detection. ICLR 2021
- kshita Gupta, Sanath Narayan, K J Joseph, Salman Khan, Fahad Shahbaz Khan, and Mubarak
Shah. Ow-detr: Open-world detection transformer. ArXiv, 2022. - Xiao Zhao, Xukun Zhang, Dingkang Yang, Mingyang Sun, Mingcheng Li, Shunli Wang, and Lihua
Zhang. Maskbev: Towards a unified framework for bev detection and map segmentation. arXiv,
2024.