Assemblée Générale du GdR 2025
La prochaine Assemblée Générale du GdR se déroulera à La Grande-Motte Presqu’Ile du Ponant, du...
19 Juin 2024
Catégorie : Doctorant
Il s'agit de développer un réseau de neurones profond pour partitionner, de façon non-supervisée, un ensemble de données selon plusieurs points de vue. Cette thèse se fera en collaboration avec des biologistes.
Objectif :
Le partitionnement de données, qualifié aussi d’apprentissage non-supervisé dans le domaine de l’apprentissage automatique, est un problème scientifique et technique majeur en science des données et en intelligence artificielle. Un seul partitionnement est souvent peu informatif car il est difficile de forcer ce partitionnement à regrouper avec pertinence des données qui ne sont pas préalablement étiquetées. En effet, dans le domaine médical par exemple, il est parfois délicat d’étiqueter avec précision l’état de santé d’un patient ; la dichotomie « malade » ou « sain » est parfois trop stricte. Plus généralement, dans d’autres domaines d’applications, notamment ceux avec des volumes de données importants, l’étiquetage des données est trop coûteux et il est donc souhaitable de développer des approches non-supervisées.
Notre but est d’utiliser le Deep Learning (ou apprentissage profond) [1] afin de calculer, de façon simultanée, plusieurs partitionnements complémentaires entre eux [2]. De cette façon, certains de ces partitionnements devraient permettre d’identifier des groupes de données qui ont des liens spécifiques entre eux. L’approche développée sera de nature théorique et méthodologique. Elle ne sera pas limitée au domaine médical.
Durant cette thèse, il s’agira donc d’identifier les architectures de réseaux les plus prometteuses en partitionnement multi-vues (chaque vue correspond à une façon différente de regrouper les données). Le doctorant pourra s’appuyer sur des travaux méthodologiques récents [3] qui développent des méthodes de partitionnement multi-vues. De façon générale, cette thèse souhaite développer de nouvelles approches dans le domaine de l’apprentissage non-supervisé [4, 5].
Contexte :
L’équipe SIS (Signaux, images et systèmes) du laboratoire I3S collabore avec le laboratoire IPMC (Institut de Pharmacologie Moléculaire et Cellulaire) situé à Sophia Antipolis. Cette collaboration s’effectue dans le cadre d’un projet de l’ANR (Agence Nationale de la Recherche). Nous disposons de données biomédicales qui concernent des patients atteints de troubles mentaux. Nous souhaitons développer un algorithme de partitionnement (« clustering ») qui permet de regrouper ces patients en différents groupes. Ce partitionnement pourrait permettre d’identifier les caractéristiques communes qui sont partagées par les patients qui souffrent d’un même trouble mental. Les approches développées ne seront pas limitées au domaine médical.
Profil recherché :
Formation niveau M2/Ingénieur en mathématiques appliquées et/ou en informatique.
Ces travaux requièrent les compétences suivantes : apprentissage automatique (machine learning), réseau de neurones, probabilités et statistiques, Python (ou langage équivalent), intérêt pour la biologie et la médecine, autonomie, curiosité, esprit de synthèse.
Lieu de travail : campus SophiaTech (Sophia Antipolis).
Directeur de thèse :
M. Lionel Fillatre (professeur des universités)
Courriel : lionel.fillatre@i3s.unice.fr
Durée : 36 mois à partir du 1er octobre 2024
Rémunération : environ 1 700 euros net par mois.
Procédure pour déposer sa candidature : envoyer son CV, sa lettre de motivation et ses résultats académiques niveau L1, L2, L3, M1 et M2 à lionel.fillatre@i3s.unice.fr
Sujet détaillé : un sujet détaillé est disponible à l’adresse
https://github.com/lionel-fillatre/lionel-fillatre.github.io/blob/main/Thèse%20Doctorat-DeepLearningNonsupervisé-Fillatre-gitversion.pdf
Bibliographie :
[1] http://www.deeplearningbook.org/
[2] U. Fang, M. Li, J. Li, L. Gao, T. Jia and Y. Zhang, "A Comprehensive Survey on Multi-View Clustering," in IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 12, pp. 12350-12368, 2023.
[3] F. Falck, H. Zhang, M. Willetts, G. Nicholson, C.Yau and C. Holmes, Multi-facet clustering variational autoencoders, Advances in Neural Information Processing Systems, 2021.
[4] Trevor Hastie, Robert Tibshirani et Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2009, 2e éd.
[5] Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification, 2nd Edition, Wiley, 2000.