Ce stage propose d'explorer une approche double pour optimiser les Vision Transformers (ViTs) en combinant deux techniques complémentaires : la réduction de tokens (Token Pruning) et la précision mixte (Mixed Precision). La réduction de tokens vise à réduire la quantité d'informations traitées à chaque couche en supprimant de manière dynamique les tokens redondants ou non pertinents, allégeant ainsi la charge de calcul sans compromettre significativement la performance. Parallèlement, la précision mixte permet d'utiliser des formats de nombres à plus faible précision (par exemple, passer de la précision 32 bits à 16 bits ou 8 bits) pour économiser de la mémoire et accélérer les calculs, tout en maintenant une précision suffisante pour les tâches de vision. L'objectif de ce stage est de concevoir, implémenter et évaluer l'efficacité d'une approche double au sein d'un modèle de Vision Transformer, afin d'atteindre un équilibre optimal entre l'efficacité computationnelle et la performance prédictive. Le laboratoire, qui dispose déjà d'une expérience avec les modèles ViTs quantifiés, a développé une méthode de réduction de tokens qui a montré des résultats prometteurs pour des tâches de segmentation sémantique. L'adaptation des solutions de pointe sera appliquée à différents niveaux : au niveau de l'encodeur, avec l'intégration de la quantification en précision mixte des opérateurs, et au niveau du décodeur, en adaptant la tête du modèle à l'encodeur quantifié pour assurer la cohérence du traitement de l'information. Enfin, des tests de benchmarking (FPS, mIOU, Params, MACC, FLOPS) seront réalisés sur une carte embarquée NVIDIA Orin pour évaluer les capacités de généralisation du modèle de réduction de tokens. Dans ce contexte, les objectifs du stage sont : Une étude des techniques de réduction de tokens ; Une étude des techniques de quantification en précision mixte ; Des tests de benchmarking (FPS, mIOU, Params, MACC, FLOPS) des modèles optimisés avec les techniques sélectionnées ; Développer une nouvelle approche frugale qui rivalise avec l'état de l'art (SoTA) ; Implémentation sur une puce embarquée type NVIDIA Jetson Orin. #Token #TokenPruning #MixedPrecision #VIT #VisionTransformers #EfficientVisionTransformers #ModelOptimization #DeepLearning #NeuralNetworks #AIOptimization #MachineLearning #ModelCompression #ReducedComplexity #EnhancedPerformance
Talent impulse, le site d’emploi scientifique et technique de la Direction de la Recherche Technologique du CEA
© Copyright 2023 – CEA – TALENT IMPULSE – Tous droits réservés