Traitement automatique des langues pour la proposition d’examens à partir de comptes-rendus médicaux

Candidater

D’un point de vue technique, le stage relève du traitement automatique des langues (TAL ou NLP – Natural Language Processing) et plus particulièrement des domaines de l’extraction d’information, pour identifier les concepts médicaux pertinents dans les comptes-rendus (comme des indications anatomiques, des pathologies, des symptômes ou des traitements), de la classification automatique, pour la prise de décision des examens à réaliser et de la génération de texte pour l’aide à la rédaction des demandes. Ainsi, les travaux à réaliser dans le cadre de ce stage aborderont les points suivants : Mise en place d’un environnement d’évaluation pour les modèles développés : constitution d’un benchmark de référence à partir de comptes-rendus médicaux de l’IGR ; Mise au point de méthodes pour la décision sur les examens complémentaires : cette tâche relève de la classification automatique et pourra s’appuyer sur des méthodes d’apprentissage à base de Deep Learning et/ou sur l’exploitation de connaissances médicales spécifiques au domaine de spécialité étudié ; Génération de justifications pour les examens demandés : exploration de méthodes d’extraction de passages et de méthodes s’appuyant sur les modèles d’IA générative à partir de grands modèles de langue (LLM) ; Ce travail initial pourra être poursuivi en thèse, dans un cadre plus large.

CEA List : Basé à Paris-Saclay, le CEA List est l'un des quatre instituts du CEA Tech, direction de la recherche technologique du CEA. Dédié aux systèmes numériques intelligents, il contribue au développement de la compétitivité des entreprises par le développement et le transfert de technologies. Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI) est une équipe de 25 personnes (chercheurs, ingénieurs, doctorants) menant des travaux de recherche sur la description et la compréhension du contenu multimédia et des documents multilingues : - algorithmes efficaces et robustes pour l'analyse et l'extraction de contenu multimédia ; - reconstitution ou fusion de données hétérogènes pour interpréter des scènes ou documents ; - méthodes et des outils pour la construction, la formalisation et l'organisation des ressources et connaissances Institut Gustave Roussy : L’institut Gustave Roussy est un institut de soins, de recherche et d'enseignement, qui prend en charge des patients atteints de tout type de cancer, à tout âge de la vie. L’Institut intègre à la fois des activités de recherche fondamentale, de recherche translationnelle et de recherche clinique, sources d'innovations thérapeutiques et d'avancées diagnostiques. Gustave Roussy axe principalement ses travaux de recherche autour de la médecine personnalisée, de l’immunothérapie et de la réparation de l’ADN, ce qui fait de lui aujourd’hui le 1er centre européen de médecine personnalisée et d’immunothérapie.

Formation d'ingénieur et/ou M2 en informatique avec un fort intérêt pour l'intelligence artificielle et l'apprentissage artificiel. Compétences requises :  • environnement de travail : linux  • notions de base en traitement automatique des langues ;  • notions de base en apprentissage automatique et en réseaux de neurones (modèles de langues pré-entraînés) ;  • programmation : Python + PyTorch/TensorFlow

Bac+5 - Diplôme École d'ingénieurs

Français Courant

fr_FRFR

Contact us

We will reply as soon as possible...