Défi technologique : Data intelligence dont Intelligence Artificielle (en savoir +)
Département : Département Systèmes et Circuits Intégrés Numériques (LIST)
Laboratoire : Laboratoire Intelligence Artificielle Embarquée
Date de début : 01-03-2023
Localisation : Saclay
Code CEA : SL-DRT-23-0601
Contact : olivier.bichler@cea.fr
Les valeurs d'activation dans les réseaux de neurones profonds (DNN) suivent généralement une distribution à décroissance exponentielle : les grandes valeurs sont beaucoup plus rares que les petites, un nombre important de valeurs étant nulles (sparsité élevée). Il en va de même pour le taux d'activation des réseaux de neurones impulsionnels. Cela signifie que l'entropie de Shannon dans un réseau de neurones est beaucoup plus faible que le nombre réel de bits transmis d'une couche à l'autre, même lorsque le réseau est fortement quantifié de manière uniforme. Cette observation est encore mal formalisée dans l'état de l'art et n'est qu'indirectement exploitée dans les derniers développements des modèles impulsionnels utilisant la rétro-propagation à travers le temps (BPTT) et les techniques de gradient de substitution. Notre objectif est de répondre à des questions fondamentales concernant les distributions des poids et des activations dans les réseaux de neurones profonds, et en particulier pour les modèles convolutifs et attentionnels : 1) Comment les topologies et les hyperparamètres des réseaux sont-ils liés à l'entropie de leurs activations ? 2) Existe-t-il une stratégie de codage qui minimise l'entropie du réseau : la distribution des valeurs internes doit-elle être plus clairsemée ou plus dense ? 3) Existe-t-il une équivalence mathématique, ou du moins une "équivalence entropique", entre les réseaux impulsionnels s'entraînant par rétropropagation dans le temps et les réseaux profonds classiques ?