Le succès spectaculaire de l’apprentissage profond a été particulièrement marqué pour des tâches d’apprentissage supervisé et de classification. Dans ce contexte, la capacité du deep learning a bénéficié d’une formulation d’apprentissage (discrimination) clairement définie. Pour d’autres problématiques classiques d’apprentissage tel que le contexte non supervisé, la formulation d’un critère d’optimisation clair pour l’apprentissage de représentations reste encore largement ouverte. Des solutions prometteuses récentes « d’auto-supervision » exploitent la nature des données ou du problème pour convertir un problème d’apprentissage non-supervisé en apprentissage supervisé. On peut citer par exemple word2vec pour l’apprentissage de représentations textuelles ou les très populaires modèles génératifs adversaires (Generative Adversorial Networks, GAN).
Le coût des annotations est également un problème qui motive la mise en place de formulations d’apprentissage alternatives. Ainsi, développer des modèles permettant de pouvoir bénéficier des données massivement disponibles mais moins massivement annotées est un enjeu actuel majeur. Développer des solutions d’apprentissage semi-supervisé ou faiblement supervisé est une piste pour cela, mais la formulation de ces problèmes est aujourd’hui également largement ouverte. L’apprentissage avec labels bruités est également une question centrale dans le contexte actuel du big data.
En ce qui concerne l’apprentissage profond, l’architecture des réseaux convolutifs profonds pose des questions cruciales pour répondre à une problématique particulière : détection et reconnaissance à large échelle, segmentation sémantique et segmentation d’instances, détection et estimation de la posture 3D, etc. Le choix d’une architecture est également étroitement lié à des questions d’optimisation, de sur-apprentissage et d’empreinte mémoire des algorithmes qui conditionnement leur bon comportement et déploiement.
Enfin, la mise en place de solutions d’apprentissage permettant de prédire des sorties « structurées », c’est-à-dire pour lesquelles les variables de sortie sont corrélées, est une question importante pour dépasser les succès récents obtenus pour des problèmes simples de catégorisation. L’utilisation de modèles graphiques pour la résolution des problèmes centraux en vision, comme la segmentation d’images ou l’estimation de pose, a été intensivement étudiée. L’apprentissage structuré pose des questions spécifiques dans le contexte du deep learning moderne, notamment au niveau de la capacité d’inclure l’étape de prédiction (inférence) lors de l’entraînement des modèles afin de pouvoir bénéficier d’une optimisation globale du réseau (« end-to-end learning »).