Annonce


[PhD] Extraction et structuration de connaissances multimodales à partir de documents PDF hétérogènes pour un système d’assistance rédactionnelle sémantique / Extraction and Structuring of Multimodal Knowledge from Heterogeneous PDF Documents for a Semantic Writing Assistance System

13 Juin 2025


Catégorie : Postes Doctorant ;


1. Contexte du projet

Dans le cadre d’un projet collaboratif associant le GIP FCIP de l’Académie de Reims, les laboratoires CReSTIC (URCA) et CIAD (Université de Bourgogne), ainsi que l’entreprise Spark’Up, nous recrutons un(e) doctorant(e) pour mener des travaux de recherche sur l’extraction de connaissances à partir de documents PDF complexes.

Le projet vise à développer une solution d’assistance rédactionnelle intelligente pour le GIP FCIP, en s’appuyant sur des modèles de langage augmentés par récupération (RAG), une ontologie métier dédiée et des techniques avancées d’analyse de documents PDF multimodaux (textes, tableaux, images, graphiques). L’objectif est de structurer, extraire et exploiter la mémoire documentaire de l’organisation pour faciliter la production de contenus et la continuité des savoirs.

Le projet global est divisé en 4 lots :
Lot 1 : cadrage, recueil des besoins, accompagnement au changement et coordination du projet.
Lot 2 : conception de l’ontologie métier et développement du moteur RAG sémantique.
Lot 3 : développement technique du prototype, intégration des briques de recherche et transfert aux équipes du GIP.
Lot 4 : extraction de connaissances à partir des documents PDF (segmentation, transcription et similarité multimodale).

2. Sujet de la thèse

Le doctorant recruté travaillera sur le lot 4, centré sur l’analyse des contenus des documents PDF hétérogènes. Les documents à traiter contiennent des zones de texte, tableaux, graphiques et images. L’objectif principal de la thèse est de proposer des solutions permettant :
• La segmentation automatique des documents PDF en régions homogènes (texte, tableau, graphique, image), en combinant des approches classiques et deep learning ;
• La transcription des contenus textuels à partir de fichiers PDF nativement textuels ou issus de scan (OCR avancé basé sur des modèles type Transformer, ex. TrOCR) ;
• Le développement de méthodes de comparaison de similarité sémantique entre ces contenus homogènes ou hétérogènes (réseaux siamois, embeddings multimodaux, mesures asymétriques de similarité, etc.) ;
• L’alimentation et l’enrichissement de la base de connaissances servant le moteur de recherche RAG.

Ce travail s’inscrira donc dans une collaboration étroite avec :
• Un second doctorant (Lot 2) travaillant sur la construction de l’ontologie métier et le pipeline sémantique RAG.
• Les équipes techniques des partenaires, en particulier pour l’intégration des modules développés dans la chaîne de traitement globale.
• Les équipes du GIP

3. Profil recherché

Nous recherchons un(e) candidat(e) avec un profil informatique orienté traitement d’images et IA, présentant les compétences et qualités suivantes :
• Bonne maîtrise des techniques de traitement d’images (segmentation, détection de régions, OCR, deep learning appliqué à l’image et au texte) ;
• Connaissances en apprentissage automatique et réseaux de neurones
• Bonne capacité à travailler en équipe pluridisciplinaire et à collaborer avec d’autres doctorants et ingénieurs, mais aussi les équipes non techniques du GIP ;
• Compétences de programmation (Python, frameworks image numériques et deep learning / LLM-RAG) ;

4. Environnement de travail
• Le doctorant sera accueilli au laboratoire CReSTIC (URCA – Reims) sous la supervision du Pr. Frédéric Morain-Nicolier et de la MCF Agnès Delahaies.
• Collaboration étroite avec le laboratoire CIAD et les autres partenaires du projet.
• Financement prévu sur 36 mois.
• Démarrage souhaité : à partir de l’automne 2025, au plus tôt (septembre ou octobre)

5. Candidature

Les candidatures doivent comporter :
• un CV détaillé,
• une lettre de motivation,
• les relevés de notes de M1/M2 (ou équivalent),
• éventuellement une ou plusieurs lettres de recommandation.

Les candidatures sont à envoyer à :
• Pr. Frédéric Morain-Nicolier (CReSTIC, URCA) — frederic.nicolier@univ-reims.fr

———-

1. Project Context

As part of a collaborative project involving GIP FCIP of the Académie de Reims, the CReSTIC laboratory (URCA), the CIAD laboratory (University of Burgundy), and the company Spark’Up, we are recruiting a PhD student to conduct research on knowledge extraction from complex PDF documents.

The project aims to develop an intelligent writing assistance solution for GIP FCIP, relying on Retrieval-Augmented Generation (RAG) language models, a dedicated business ontology, and advanced analysis techniques for multimodal PDF documents (text, tables, images, graphs). The objective is to structure, extract, and leverage the organization’s documentary memory to facilitate content production and knowledge continuity.

The project is divided into 4 work packages:

  • WP1: project scoping, requirements gathering, change management, and coordination.
  • WP2: design of the business ontology and development of the semantic RAG engine.
  • WP3: technical development of the prototype, integration of research components, and transfer to GIP teams.
  • WP4: knowledge extraction from PDF documents (segmentation, transcription, and multimodal similarity).

2. PhD Subject

The recruited PhD student will work on WP4, focusing on the analysis of heterogeneous PDF document contents. The documents to be processed contain text areas, tables, charts, and images. The main objective of the thesis is to propose solutions to enable:

  • Automatic segmentation of PDF documents into homogeneous regions (text, table, chart, image), combining classical and deep learning approaches;
  • Transcription of textual content from natively digital PDFs or scanned files (advanced OCR based on Transformer models, e.g. TrOCR);
  • Development of methods for semantic similarity comparison between homogeneous or heterogeneous contents (Siamese networks, multimodal embeddings, asymmetric similarity measures, etc.);
  • Feeding and enriching the knowledge base used by the RAG search engine.

This work will involve close collaboration with:

  • A second PhD student (WP2) working on business ontology construction and the semantic RAG pipeline;
  • The technical teams of the project partners, particularly for integrating the developed modules into the global processing pipeline.

3. Candidate Profile

We are looking for a computer science candidate with a focus on image processing and AI, with the following skills and qualities:

  • Master’s degree or engineering diploma in computer science, image processing, computer vision, AI or related fields;
  • Strong knowledge of image processing techniques (segmentation, region detection, OCR, deep learning applied to image and text);
  • Knowledge of machine learning and neural networks, especially Transformer architectures and Siamese networks;
  • Ability to work in a multidisciplinary team and collaborate with other PhD students, engineers, and non-technical GIP teams;
  • Programming skills (Python, deep learning frameworks: PyTorch or TensorFlow).

4. Working Environment

  • The PhD student will be hosted at the CReSTIC laboratory (URCA – Reims) under the supervision of Prof. Frédéric Morain-Nicolier and Associate Professor Agnès Delahaies;
  • Close collaboration with the CIAD laboratory and other project partners;
  • Funding secured for 36 months;
  • Desired start date: as early as autumn 2025 (September or October).

5. Application

Applications should include:

  • A detailed CV;
  • A motivation letter;
  • Academic transcripts for M1/M2 (or equivalent);
  • Optionally, one or more recommendation letters.

Applications should be sent to:

  • Prof. Frédéric Morain-Nicolier (CReSTIC, URCA) — frederic.nicolier@univ-reims.fr

Les commentaires sont clos.