Post-Doc sur le TAL pour l'aide à la conception de nouveaux matériaux H/F

  • Artificial Intelligence & data intelligence,
  • Fixed term contract
  • 24 mois
  • CEA-List
  • Paris – Saclay
  • Level 7
  • 2024-05-06
Apply

Dans le cadre d’un projet de recherche en association avec d’autres laboratoires du CEA, le LASTI vise à exploiter les technologies du Traitement Automatique des Langues (TAL) pour automatiser l’extraction d’information depuis la littérature scientifique dans le domaine des matériaux. Plus précisément, le domaine d’application du projet est le design de matériaux innovants : cet objectif nécessite d’explorer l’état de l’art pour connaître les données matériaux, par exemple les compositions chimiques et les valeurs ou tendances concernant les propriétés clés mesurées dans l’étude ainsi que les caractéristiques du type d’essais réalisé. L’objectif du projet est d’exploiter des techniques d’intelligence artificielle pour réaliser cette exploration de façon automatique et extraire les données d’intérêt à partir du texte des articles scientifiques ou brevets considérés. L’objectif à terme sera d’intégrer les informations extraites dans un système existant de raisonnement automatique à base d’inférence en logique floue pour fournir un assistant numérique pour le design des matériaux. Le travail se fera en collaboration avec le laboratoire du CEA qui développe ce système de raisonnement et un laboratoire du CEA spécialisé sur les matériaux qui apportera son expertise sur les informations pertinentes à extraire. Les missions du poste seront les suivantes : - Réaliser un état de l’art dans l’application du TAL pour les données matériaux; - Constituer un jeu de données de référence d’articles scientifiques à partir de sources identifiées (journaux, sites) - Développer des approches pour l’extraction d’information à partir de ces données : on s’intéressera en particulier (1) aux approches frugales : sans apprentissage (zero-shot), en s’appuyant sur de grands modèles de langue (LLMs) ou avec un apprentissage à partir de peu de données (few-shot learning) ; (2) aux approches d'IA hybride combinant l’exploitation de connaissances explicites (bases de données, thesaurus) avec les modèles par apprentissage.

Au Département Intelligence Ambiante et Systèmes Interactifs (DIASI), les équipes du Laboratoire d’Analyse Sémantique Texte et Image (LASTI) développent des technologies innovantes de traitement automatique des langues et des données multimédia et multilingues. Les sujets abordés au sein du laboratoire vont de l’analyse et l’extraction d’information à partir de documents textes et images jusqu’aux agents conversationnels, en passant par la construction de ressources linguistiques pour les langues peu dotées.

Niveau Doctorat avec des connaissances en machine learning, deep learning et traitement automatique des langues, Compétences techniques (liste informative) : - Langages de programmation : Python - Librairies et frameworks : scikit-learn, Pytorch, transformers, optuna, spaCy - Devops : docker, docker-compose, slurm, git

en_USEN

Contact us

We will reply as soon as possible...