[PhD] à l'Ecole Navale : Contrôle adaptatif d’un drone en conditions dégradées : Etude des solutions de méta-apprentissage par renforcement profond pour des scénarios d’appontage

Une campagne de recrutement d’un doctorant informatique (IA / robotique) est ouverte à l’Ecole Navale au sein de l’équipe de recherche sur les drones à l’IRENav (EA 3634, Lanvéoc-Poulmic, https://www.ecole-navale.fr). Le sujet porte sur l’intelligence artificielle appliquée à l’appontage autonome de drones en environnement maritime complexe.

Lieu : Institut de recherche et d’Études Navales (IRENav) en co-tutelle Ecole navale et Arts et Métiers

Poste vacant à partir du 01/09/2026 (sous réserve de financement)

Date limite de réception des candidatures : 14 juin 2026

Mots-clés : Simulation, Robotique (ROS), Drone, Apprentissage par renforcement

1 – Contexte
Les drones aériens s’imposent aujourd’hui comme des outils de reconnaissance maritime d’intérêt opérationnel majeur, grâce à leur excellent rapport coût-efficacité et à la diversité de leurs domaines d’applications. Ils peuvent ainsi être mobilisés pour des missions de surveillance de la navigation, de détection des pollutions ou encore de contrôle des activités de pêche. Malgré ces avantages, leur déploiement opérationnel reste limité par une autonomie de vol réduite, contraignant leur rayon d’action effectif. Pour dépasser cette limitation, des architectures de coopération multi-domaines air-surface émergent, exploitant des USV (véhicules de surface sans pilote) ou des navires comme plateformes mobiles d’appontage et de décollage. Cependant, l’efficacité de ces systèmes demeure fortement conditionnée par les conditions marines, restreignant leur disponibilité opérationnelle aux seules fenêtres météorologiques favorables. Dans ce contexte, l’appontage, c’est-à-dire l’atterrissage d’un drone aérien sur une plateforme mobile en mer, constitue une phase nécessaire mais critique du vol. Cette manœuvre concentre en effet des contraintes dynamiques importantes, liées aux mouvements de la surface d’accueil (houle, roulis, tangage) et aux fluctuations du vent. Ce travail vise à étendre significativement les capacités de déploiement des drones aériens en développant des stratégies de contrôle adaptatif robustes face à la variabilité environnementale maritime dans des scénarios d’appontage.

2 – Problématique
Des études récentes ont démontré l’intérêt de l’utilisation de l’apprentissage par renforcement profond (DRL) [1,2] pour le contrôle d’un drone [3,4], notamment pour ses capacités d’adaptation et d’apprentissage séquentiel (prise en compte de l’impact d’une action sur la suite du scénario). Parmi ces études, des solutions d’atterrissage ont déjà été proposées et testées pour traiter des scénarios d’atterrissage sur des plateformes statiques et dynamiques en milieu fermé [4]. Toutefois, la simplicité des environnements de test n’est pas satisfaisante dans le cadre d’une application réelle de l’outil de contrôle, qui implique des conditions plus complexes, telles que les perturbations liées au vent et la difficulté de prévoir les mouvements de la plateforme d’atterrissage. Le projet dans lequel s’inscrit cette thèse vise à explorer les possibilités d’utilisation du DRL en tant que solution de contrôle dans ces conditions complexes, en s’appuyant sur des techniques d’optimisation de l’apprentissage (Meta-Learning) [5], afin de garantir une meilleure robustesse de la solution de contrôle. Pour mener à bien ce sujet de recherche, un environnement simulé réaliste doit également être mis en œuvre pour permettre une exploration des stratégies de contrôle du drone en conditions dégradées (en vue d’un déploiement ultérieur sur un système réel).

3 – Travail demandé
Le projet consiste en la mise en place d’un modèle de contrôle robuste d’un drone aérien (à voilure tournante) capable de réaliser un appontage autonome sur une plateforme mobile soumise à des perturbations environnementales significatives. Plusieurs étapes ont été identifiées pour la réalisation de ce projet :

Simulation du scénario [4,6,7] : Conception d’un environnement de simulation réaliste d’appontage
intégrant un modèle dynamique du drone aérien, un modèle de plateforme mobile soumis aux conditions maritimes dégradées. Cette étape inclut une étude des modèles de simulation de la houle et du vent. Différentes approches pourront être envisagées, notamment des modèles de turbulence (Dryden, von Kármán), ainsi que des spectres de houle (Pierson-Moskowitz).
Modèle de contrôle [5,8] : Apprentissage d’un modèle de contrôle du drone robuste à partir de la simulation. Cette partie comprend l’identification des points clefs pour l’apprentissage : définition de l’état observable, des commandes du drone, et de la fonction de récompense). Elle comprend également l’exploration de l’usage du DRL et du méta-learning comme leviers pour l’augmentation de la robustesse du modèle de contrôle du drone face aux perturbations environnementales.
Transition SimToReal [9]: Transfert du modèle développé en simulation vers une plateforme expérimentale physique. Ce dispositif comprend un hexapode (Symétrie) permettant de reproduire les mouvements d’une plateforme mobile (espace d’atterrissage) [10], un mur de vent (WindShaper) capable d’appliquer de fortes perturbations et turbulences au-dessus de la plateforme [11,12], et un drone physique que nous aurons à concevoir spécifiquement pour ce projet [13].

4 – Bibliographie :

[1] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra and Martin Riedmiller, « Playing Atari with Deep Reinforcement Learning », 2013.
[2] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford and Oleg Klimov, OpenAI, « Proximal Policy Optimization Algorithms », 2017.
[3] J. Amendola, L. R. Cenkeramaddi and A. Jha, « Drone Landing and Reinforcement Learning: State-of-Art, Challenges and Opportunities », in IEEE Open Journal of Intelligent Transportation Systems, vol. 5, pp. 520-539, 2024.
[4] R. Polvara et al., « Toward End-to-End Control for UAV Autonomous Landing via Deep Reinforcement Learning », 2018 International Conference on Unmanned Aircraft Systems (ICUAS), Dallas, TX, USA, pp. 115-123, 2018.
[5] Chelsea Finn, Pieter Abbeel, and Sergey Levine, « Model-agnostic meta-learning for fast adaptation of deep networks », In Proceedings of the 34th International Conference on Machine Learning – Volume 70 (ICML’17). JMLR.org, 1126–1135, 2017.
[6] G. -T. Tu and J. -G. Juang, « Path Planning and Obstacle Avoidance Based on Reinforcement Learning for UAV Application », 2021 International Conference on System Science and Engineering (ICSSE), Ho Chi Minh City, Vietnam, pp. 352-355, 2021.
[7] Gangik Cho, Joonwon Choi, Geunsik Bae, Hyondong Oh, « Autonomous ship deck landing of a quadrotor UAV using feed- forward image-based visual servoing », Aerospace Science and Technology, Volume 130, 2022.
[8] Tu, Guan-Ting & Juang, Jih-Gau. (2023). « UAV Path Planning and Obstacle Avoidance Based on Reinforcement Learning in 3D Environments. Actuators », 12. 57. 10.3390/act12020057, 2019.
[9] Robinroy Peter, Lavanya Ratnabala, Demetros Aschu, Aleksey Fedoseev, and Dzmitry Tsetserukou, “TornadoDrone : Bio- inspired DRL-based Drone Landing on 6D Platform with Wind Force Disturbances“, 2024.
[10] Duget, Anne & Roux, Thierry & Noire, Pierre & Lapierre, Olivier. « Hexapodes de positionnement de précision », Photoniques. 51-56. 10.1051/photon/202211257, 2022.
[11] Flavio Noca, Guillaume Catry, Nicolas Bosson, Luca J. Bardazzi, Sergio Márquez, and Albéric Gros , “Wind and Weather , »Facility for Testing Free-Flying Drones”, in Proceedings of AIAA Aviation and Aeronautics Forum and Exposition, 2019.
[12] Noca, Flavio & Bujard, Thierry & Visvaratnam, Geshanth & Catry, Guillaume & Bosson, Nicolas, « Flow Profiling in a WindShaper for Testing Free-Flying Drones in Adverse Winds », 10.2514/6.2021-2577, 2021.
[13] M. Siam and M. ElHelw, « Robust autonomous visual detection and tracking of moving targets in UAV imagery », IEEE 11th International Conference on Signal Processing, Beijing, China, 2012, pp. 1060-1066, 2012.

5 – Diplôme : Master et/ou diplôme d’ingénieur en Informatique

6 – Compétences techniques :

Solides fondamentaux en robotique, en automatique, en systèmes embarqués et en informatique.
Maîtrise de la programmation dans plusieurs langage (Python, C++, etc.).
Connaissance des outils et bibliothèques ROS (souhaitée).
Intérêt pour les environnements de simulation (Gazebo, PyBullet, etc.).

7 – Capacités transverses :

Rigueur, dynamisme et capacité d’initiative.
Bonnes capacités de rédaction scientifique.
Maîtrise du français et de l’anglais (lu, écrit, parlé).
Aptitude au travail collaboratif et esprit d’équipe.
Bonnes qualités relationnelles et humaines.

8 – Contacts : Encadrement de la thèse
Directeur de la thèse :
MCF HDR Eric Saux, eric.saux@ecole-navale.fr
Encadrant de la thèse :
CER Alexandre Brunoud, alexandre.brunoud@ecole-navale.fr

8 – Contact administratif : recrutement@ecole-navale.fr

Annonce

[PhD] à l’Ecole Navale : Contrôle adaptatif d’un drone en conditions dégradées : Etude des solutions de méta-apprentissage par renforcement profond pour des scénarios d’appontage

IASIS en chiffres

A noter

Cartographie des expertises du GdR

Actus de la communauté

Prix de thèse Signal, Image et Vision : résultats

Médailles du CNRS : des membres du GdR à l’honneur

« Modèles de diffusion des ondes électromagnétiques et méthodes inverses pour la caractérisation des systèmes particulaires », Meudon, 21 mai 2026

Graphes, la science des liens

Jean-Louis Lacoume (1940-2026)