Un enjeu important en Machine Learning concerne la capacité à traiter des volumes d’informations diverses à grande échelle, et pour cela, à mettre en place des algorithmes d’optimisation efficaces. Si les méthodes de descente de gradient stochastique ont été la clé du déploiement des algorithmes d’apprentissage pour les réseaux de neurones profonds, l’accélération de la convergence reste un enjeu crucial, et de nombreuses variantes ont été proposées ces dernières années. L’apprentissage distribué est également une solution pour le passage à l’échelle des algorithmes qui s’inscrit naturellement dans le contexte du big data et des objets connectés. Les systèmes potentiellement décentralisés sont une piste intéressante par exemple pour préserver les aspects privés.
Un autre point important pour l’apprentissage sur données plus au moins massives est la possibilité d’exporter les connaissances apprises d’une tâche à l’autre (« transfer learning »). Pour la classification d’images, la base ImageNet a été un élément majeur permettant l’extraction de représentations apprises par des réseaux convolutifs (« Deep features ») dont la capacité de transfert s’est avérée spectaculaire pour un très grand nombre de tâches de reconnaissance visuelle. Pour aller plus loin que cette approche de transfert naïve, de nombreux travaux restent à mener pour modéliser la corrélation entre la base cible et source, ou pour chercher explicitement à mettre en place des algorithmes d’adaptation de domaine (par exemple en utilisant des méthodes de transport optimal). Dans ce cadre, la formulation d’apprentissage inclut souvent différents objectifs ou tâches (apprentissage multi-tâches), ce qui nécessite une réflexion particulière pour le développement des algorithmes.