Défi technologique : Data intelligence dont Intelligence Artificielle (en savoir +)
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Laboratoire : Laboratoire Vision et Apprentissage pour l'analyse de scènes
Date de début : 01-06-2023
Localisation : Saclay
Code CEA : SL-DRT-23-0785
Contact : valentin.belissen@cea.fr
Les représentations apprises dans les algorithmes modernes d'IA étant intrinsèquement liées à l'apparence des images, la performance des modèles entraînés est susceptible de se dégrader dès lors que celle-ci n'est pas identique entre les données utilisées en entraînement et en inférence. On peut alors s'intéresser au cas où le principal changement de domaine vient de variations dans le dispositif de capture d'image : changement de type de focale en particulier. Le travail de thèse sera centré autour de l'apprentissage de représentations qui s'affranchissent autant que possible du type de dispositif de capture d'image, permettant ainsi une généricité importante. Dans une première catégorie de travaux (C1), l'apprentissage de représentations moins dépendantes du modèle de caméra a été exploré, mais toujours dans le plan image. Dans une seconde catégorie (C2), des représentations liées au modèle de caméra ont été apprises, mais en passant par une représentation spatiale beaucoup plus pertinente pour un grand nombre de tâches de perception. Dans un premier temps, le ou la candidat.e pourra tenter d'appliquer les méthodes développées dans (C1) à des tâches variées, comme la segmentation sémantique ou la détection d'objets. Une évaluation du potentiel de ces méthodes sera menée, notamment vis-à-vis de l'adaptation de domaine. Dans un second temps, le ou la candidat.e pourra proposer des méthodes innovantes en faisant se rejoindre les travaux de (C1) et de (C2). Une exploration approfondie des différentes architectures adaptées à ces méthodes sera menée, conjointement à la mise en place d'ensemble de données et de processus d'évaluation adaptés. Enfin, le ou la candidat.e pourra étudier l'application de telles représentations spatiales à des jeux de données multi-caméras, où la fusion spatiale directement au niveau des représentations pourrait être intéressante.