A l’ère numérique, la dimension de grands ensembles de données, parfois hétérogènes, s’est imposée rapidement dans tous les domaines. Des méthodes d’analyse, reconnaissance, indexation et fouille des données images et vidéo évoluent pour répondre à ces nouveaux besoins en tenant compte d’une part des notions classiques mais aussi de cette nouvelle échelle.
Dans ce contexte, les techniques d’apprentissage sont devenues un outil incontournable. Les approches supervisées, où des exemples sont typiquement annotés par un expert humain, sont les plus couronnées de succès, mais ce sont aussi celles qui demandent le plus d’investissement en temps et en argent. Le problème est exacerbé en vision par ordinateur, où les annotations peuvent être complexes, comme des régions de l’image 2D ou des mesures 3D. La dimension temporelle apportée par la vidéo reste un problème ouvert pour les techniques d’apprentissage où, pour les problèmes inverses comme le flot optique, les approches end-to-end ne surpassent pas encore les approches plus classiques ou mixtes ( benchmark MPI-Sintel).
Les méthodes géométriques peuvent également être utiles dans un contexte d’apprentissage en couplant conjointement les mesures géométriques 3D aux données sémantiques. Enfin, des méthodes alternatives, spécifiques à la vision par ordinateur, commencent à émerger pour diminuer la quantité de données à annoter. Une première approche possible est l’auto-apprentissage (self-learning) : l’idée est d’exploiter la cohérence temporelle entre images d’une séquence vidéo. Par exemple, la segmentation d’un objet dans des images consécutives doit être cohérente avec le flot optique. Une autre approche est le domain transfer, où différentes techniques commencent à être développées, pour pouvoir utiliser des images de synthèse pour l’entrainement tout en généralisant aux images réelles. Le transfert learning, les Generative Adversarial Networks sont des méthodes possibles pour le domain transfer.