Annonce


[Stage M2+PhD] Réseaux de neurones impulsionnels autosupervisés pour la détection et la segmentation d’objets

13 Janvier 2026


Catégorie : Postes Doctorant ; Postes Stagiaires ;

Plus d'informations, téléchargement :

★ Le stage se déroulera au sein de l’équipe FOX du laboratoire CRIStAL, à l’Université de Lille.

Avantage : Il s’agit principalement d’une offre de poste de doctorat, mais il est possible de commencer par un M2 (ce n’est toutefois pas obligatoire).

Résumé :
Le projet vise à concevoir un système neuromorphique capable de détecter en temps réel des motifs spatio-temporels dans l’activité de réseaux de neurones impulsionnels (SNN). Les SNN traitent l’information à travers des événements discrets de décharge (spikes) au fil du temps. Ce codage temporel permet un calcul parcimonieux et piloté par les événements, offrant ainsi une très grande efficacité énergétique.
À l’inverse, l’apprentissage autosupervisé (SSL) a révolutionné l’entraînement des réseaux artificiels classiques en éliminant le besoin d’annotations manuelles, permettant aux modèles d’apprendre des représentations généralisables directement à partir des données brutes. Malgré son succès, le SSL n’a pas été efficacement transposé au domaine impulsionnel. La plupart des travaux antérieurs reposent soit sur un affinement supervisé (supervised fine-tuning), soit sur l’adaptation de tâches prétextes issues des ANNs, sans exploiter les dynamiques temporelles uniques des SNN. Plus important encore, aucun travail antérieur n’a démontré un cadre SNN entièrement auto-supervisé capable d’aller au-delà de tâches simples et de faible résolution (comme MNIST/CIFAR) pour atteindre des contextes plus complexes impliquant des résolutions plus élevées ou des tâches de prédiction dense.

Dans ce projet, nous travaillerons sur un cadre entièrement autosupervisé capable d’atteindre des performances compétitives lors du pré-entraînement à grande échelle (ImageNet-1K) et de se transférer efficacement vers des tâches aval de grande envergure telles que la détection d’objets sur COCO ou la segmentation sémantique, sans avoir recours à une supervision annotée [1]. En somme, le projet repose sur la convergence de trois axes majeurs de la recherche actuelle :

  • Nous prévoyons d’exploiter la dynamique temporelle des spikes comme source naturelle de diversité temporelle, permettant un apprentissage riche des représentations au fil du temps [2]
  • La modélisation biologique des réseaux neuronaux impulsionnels et de leur dynamique temporelle
  • Nous envisageons également d’utiliser la dynamique temporelle des spikes pour réaliser des alignements temporels.
  • En outre, le modèle proposé devra être compatible à la fois avec les architectures SNN basées sur CNN et celles basées sur Vision Transformer, et devra se généraliser aussi bien sur des jeux de données statiques (par ex. ImageNet-1K, CIFAR-10) que neuromorphiques (CIFAR10-DVS), tout en assurant un transfert performant vers des jeux de données aval.
  • Le traitement événementiel asynchrone propre aux architectures neuromorphiques

Dans le cadre du modèle autosupervisé défini ci-dessus, nous explorerons différentes architectures de réseaux de neurones profonds.
Spiking ResNet : Dans un premier temps, nous étudierons les architectures classiques de réseaux neuronaux profonds impulsionnels. Dans cette direction, des méthodes d’apprentissage profond ont récemment été introduites dans les SNNs, et les SNNs profonds ont obtenu des performances proches de celles des réseaux neuronaux classiques (ANNs) sur certains jeux de données simples de classification. Nous travaillerons sur une version impulsionnelle de ResNet permettant d’implémenter réellement l’apprentissage résiduel, ce qui devrait simultanément résoudre les problèmes de gradients qui disparaissent ou explosent [3].

Spiking Vision Transformers :
Des travaux récents ont proposé des spike-formed transformers qui adaptent le mécanisme d’auto-attention des Transformers au paradigme impulsionnel pour diverses tâches telles que le suivi d’objets, la vision par ordinateur, l’estimation de profondeur et la reconnaissance vocale.
Cependant, les spike-formed transformers [4] actuels reposent majoritairement sur une attention uniquement spatiale, négligeant la nature dynamique et temporelle intrinsèque des événements impulsionnels. La littérature montre que l’attention purement spatiale se limite aux relations verticales (spatiales) à chaque pas de temps, ce qui conduit à ignorer des caractéristiques d’objets qui évoluent au fil du temps.
Dans ce projet, nous mettrons en œuvre une attention spatio-temporelle, intégrant simultanément les informations spatiales et temporelles au sein du mécanisme d’auto-attention. L’objectif est également de maintenir une complexité computationnelle équivalente à celle des Transformers impulsionnels existants.

Intégrer le modèle de codage prédictif dans ces cadres d’apprentissage automatique susmentionnés :

Les techniques d’apprentissage automatique basées sur les réseaux de neurones impulsionnels ont été conçues pour consommer beaucoup moins d’énergie lors du traitement de l’information, à l’image du cerveau biologique. Cette efficacité est obtenue en imitant le codage neuronal biologique au moyen de décharges électriques discrètes (spikes).

L’approche du « predictive coding » pousse ce principe à l’extrême. Dans les modèles classiques de codage prédictif, toutes les informations sensorielles qui peuvent être anticipées par les niveaux supérieurs de la hiérarchie de traitement sont éliminées, et seuls les signaux d’erreur de prédiction sont transmis vers les étages supérieurs.
Dans [5], une variante appelée « Predictive Coding Light (PCL) », alternative au codage prédictif classique, est présentée dans le contexte des réseaux neuronaux artificiels. Dans ce travail de recherche, nous prévoyons d’examiner plus en détail les techniques basées sur le « predictive coding », en particulier en cherchant à améliorer les fondements du PCL dans un cadre d’apprentissage auto-supervisé. Nous commencerons par intégrer des approches de type « predictive coding » (comme PCL) dans des modèles d’apprentissage auto-supervisé construits autour de Spiking-ResNet et de Spiking-Transformer.

Ensuite, nous travaillerons à renforcer et optimiser ces approches PCL dans le contexte de l’apprentissage auto-supervisé fondé sur ces architectures impulsionnelles avancées.

Profil recherché

  • Étudiant(e) en dernière année de Master (M2) ou en école d’ingénieurs, spécialisé(e) en apprentissage automatique (machine learning), vision par ordinateur ou domaine connexe.
  • Connaissances en vision par ordinateur, apprentissage automatique et profond
  • Compétences en programmation (Python).
  • Autonomie, rigueur et esprit critique.

★ Le stage se déroulera au sein de l’équipe FOX du laboratoire CRIStAL, à l’Université de Lille.

Adresse de Stage :
CAMPUS Haute-Borne CNRS IRCICA-IRI-RMN
Parc Scientifique de la Haute Borne, 50 Avenue Halley, BP 70478, 59658 Villeneuve d’Ascq Cédex

Candidature :

Si cette proposition vous intéresse, veuillez envoyer les documents suivants au Dr. Tanmoy MONDAL (tanmoy.mondal@univ-lille.fr), Chaabane DJERABA (chabane.djeraba@univ-lille.fr)

  • CV
  • Lettre de motivation
  • Relevés de notes obtenus en licence / master / école d’ingénieur ainsi que le classement dans la promotion
  • Nom et coordonnées d’au moins une personne de référence pouvant être contactée si nécessaire

Références

  1. Anonymous, S4NN : Scalable Self-Supervised Spiking Neural Networks, in Submitted to The Fourteenth International Conference on Learning Representations, 2025
  2. S. Barchid, Avancées en vision neuromorphique : représentation événementielle, réseaux de neurones impulsionnels supervisés et pré-entraînement auto-supervisé, Thèse de doctorat, Université de Lille, 2023.
  3. W. Fang, Z. Yu, Y. Chen, T. Huang, T. Masquelier, and Y. Tian, Deep Residual Learning in Spiking Neural Networks, arXiv [cs.NE]. 2022.
  4. Lee, D., Li, Y., Kim, Y., Xiao, S., Panda, P. (2025). Spiking Transformer with Spatial-Temporal Attention. CVPR, 13948–13958. https ://doi.org/10.1109/CVPR52734.2025.01302
  5. N’dri, A.W., Barbier, T., Teulière, C. et al. Predictive Coding Light. Nat Commun 16, 8880 (2025). https ://doi.org/10.1038/s41467-025-64234-z

Les commentaires sont clos.