La thèse proposée se concentre sur lapos;optimisation des transformers multimodaux de vision (ViT) pour la segmentation panoptique dapos;objets, en explorant deux axes principaux. Il sapos;agit dapos;abord de développer un pipeline de fusion polyvalent pour intégrer des données multimodales (RGB, IR, profondeur, événements, nuages de points), en exploitant les relations dapos;alignement inter-modales. Ensuite, une approche combinant le pruning et la quantification à précision mixte sera étudiée. Lapos;objectif global est de concevoir des modèles ViT multimodaux légers, adaptés aux contraintes des systèmes embarqués, tout en optimisant leurs performances et en réduisant la complexité computationnelle.
Master en informatique/vision par ordinateur/intelligence artificielle