Extraction d'information à partir de documents PDF complexes H/F

  • Cybersécurité : hardware et software,
  • Stage
  • 6
  • CEA-List
  • Paris – Saclay
  • BAC+5
  • 2024-04-01
Candidater

Le format PDF (Portable Document Format) crée en 1992 et aujourd’hui largement adopté, préserve la mise en page des documents telle que définie par leur auteur. Les outils NLP nécessitent pour la plupart de convertir chaque PDF en texte brut séquentiel. Malheureusement la structure du document ou de tableaux révélée par la mise en forme est souvent détériorée. Historiquement, les travaux en extraction d'information se sont d'abord concentrés sur les données non-structurées (texte brut), puis peu à peu le sujet s'est ouvert au traitement des données semi-structurés plus largement vers 2008, sans devenir majeur. Le traitement de ce type de données constitue un défi actuel en extraction d’information. Il  existe à l'heure actuelle nombre d'outils pour océriser les documents PDF ou image : Amazon Textract , Google API Cloud Vision, ABBYY FineReader PDF, OCRmobile ( Meelo), OCRmyPDF, Tesseract 4.0 (open source), Parsr (open source), etc. Une fois OCRisé, la seconde étape d’une approche classique est d’extraire et de structurer le texte pour reconstituer les paragraphes, identifier les titres de section et organiser le contenu des tableaux. La plupart des outils d’extraction de texte sont open-source, parmi lesquels on trouve pdftotext, PdfMiner, Tika, Grobid, etc.   Ont émergés récemment des outils génératifs tels Vision LLM, LLava, GPT-4V qui pourraient permettre une meilleure reconnaissance et sémantisation de la structure des PDF et d’éléments internes (comme les tableaux). Ces modèles pourraient in fine améliorer les performances d’extraction d’information et autres outils NLP. Le stage se déroulera selon les étapes suivantes : Identifier et se familiariser avec les divers outils logiciels utilisés actuellement pour effectuer l’OCR et l’extraction de texte voire des outils génératifs orientés vision tels Vision LLM, LLava, GPT 4V, etc. Se familiariser avec les outils logiciels du laboratoire (et alternatives open-source) pour l’extraction d’informations : LIMA, SpaCy Évaluer les différents outils et approches grâce àla constitution d’un jeu d’évaluation à partir de documents PDF internes et/ou l’identification d’un jeu de données académique, la mise en place de pipelines de traitement de documents PDF pour l’extraction d’information (pour une évaluation indirecte à travers cette tâche NLP) Une analyse quantitative et/ou qualitative de l’extraction d’information comparant les performances dans différentes structures des documents PDF : texte vs tableaux. Propositions d’amélioration. Optimisation des pipelines de traitement de documents les plus prometteurs pour améliorer les performances. Rédaction du rapport de stage. Pour débuter : Tutoriel introductif ACL 2020 dédié à l’extraction d’information à partir de données non-, semi-structurées : https://sites.google.com/view/acl-2020-multi-modal-ie

Basé à Paris-Saclay, le CEA List est l'un des quatre instituts du CEA Tech, direction de la recherche technologique du CEA. Dédié aux systèmes numériques intelligents, il contribue au développement de la compétitivité des entreprises par le développement et le transfert de technologies. L'expertise et les compétences développées par les 800 ingénieurs-chercheurs et techniciens du CEA List permettent à l'Institut d'accompagner chaque année plus de 200 entreprises françaises et étrangères sur des projets de recherche appliquée s'appuyant sur 4 programmes et 9 plateformes technologiques. 21 start-ups ont été créées depuis 2003. Labellisé Institut Carnot depuis 2006, le CEA List est aujourd'hui l'institut Carnot Technologies Numériques. Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI) est une équipe de 25 personnes (chercheurs, ingénieurs, doctorants) menant des travaux de recherche sur les technologies de description et de compréhension du contenu multimédia (image, texte, parole) et des documents multilingues, en particulier à grande échelle. Enjeux scientifiques: · développer des algorithmes efficaces et robustes pour l'analyse et l'extraction de contenu multimédia · reconstitution ou fusion de données hétérogènes · développer des méthodes et des outils pour la construction, la formalisation et l'organisation des ressources et connaissances · intégrer plusieurs de ces briques technologiques afin d'accéder à l'information et répondre à un besoin

Compétences requises : Environnement de travail : Linux Maîtrise d'un langage de programmation : Python (ou C++) Maîtrise des méthodes d’évaluation des modèles de Machine Learning ou Deep Learning en NLP Notion de base en apprentissage automatique et en réseaux de neurones Notions de base en traitement automatique des langues et en vision par ordinateur. Expérience appréciée avec une bibliothèque de type Transfomers, Tensorflow, PyTorch, etc.

Bac+5 - Master 2

Français Courant,Anglais Courant

fr_FRFR

Contact us

We will reply as soon as possible...