Pause
Lecture
Moteur de recherche d'offres d'emploi CEA

Structuration automatique de comptes-rendus médicaux dictés H/F


Détail de l'offre

Informations générales

Entité de rattachement

Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche.

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions :
. la défense et la sécurité
. l'énergie nucléaire (fission et fusion)
. la recherche technologique pour l'industrie
. la recherche fondamentale (sciences de la matière et sciences de la vie).

Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration aux côtés de ses partenaires académiques et industriels.  

Référence

2022-24027  

Description de l'unité

Basé à Paris-Saclay, le CEA List est l'institut de recherche technologique de CEA Tech dédié aux systèmes numériques intelligents, qui contribue au développement de la compétitivité des entreprises par le développement et le transfert de technologies.
L'expertise et les compétences développées par les 800 ingénieurs-chercheurs et techniciens du CEA List permettent à l'Institut d'accompagner chaque année plus de 200 entreprises françaises et étrangères sur des projets de recherche appliquée s'appuyant sur 4 programmes et 9 plateformes technologiques.
Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI) est une équipe de 25 personnes (chercheurs, ingénieurs, doctorants) menant des travaux de recherche sur les technologies de description et de compréhension du contenu multimédia (image, texte, parole) et des documents multilingues, en particulier à grande échelle. Les enjeux scientifiques sont :
• développer des algorithmes efficaces et robustes pour l'analyse et l'extraction de contenu multimédia, leur classification et analyse sémantique ;
• développer des méthodes et des outils pour la construction, la formalisation et l'organisation des ressources et connaissances nécessaires au fonctionnement de ces algorithmes ;
• intégrer plusieurs de ces briques technologiques afin d'accéder à l'information et répondre à un besoin utilisateur (moteurs de recherche, chatbot, rapports synthétiques de veille).

Description du poste

Domaine

Mathématiques, information  scientifique, logiciel

Contrat

Stage

Intitulé de l'offre

Structuration automatique de comptes-rendus médicaux dictés H/F

Sujet de stage

Le sujet du stage se situe dans le domaine du Traitement Automatique des Langues. L'objectif du stage est de mettre en place les outils et les ressources nécessaires pour la structuration automatique d'information à partir de comptes-rendus médicaux dictés par des médecins. Dans ce contexte, les travaux à réaliser dans le cadre du stage sont multiples : (1) constituer, en partenariat avec l'hôpital, une base de documents pour l'évaluation des méthodes proposées ; (2) spécifier avec les médecins la structure des informations à extraire ; (3) développer les ressources et les approches pour l'extraction automatique des informations.

Durée du contrat (en mois)

6

Description de l'offre

Le stage proposé se situe dans le domaine global de l’extraction d’information [1], dont l’objectif est d’identifier des concepts ou des faits dans des textes et de structurer les informations retenues. Dans ce stage, réalisé en partenariat avec l’institut Gustave Roussy, le domaine d’application de cette tâche est le domaine médical : dans ce cadre, les concepts à extraire sont des concepts médicaux, comme des indications anatomiques, des pathologies, des symptômes, des traitements, etc.

Comme beaucoup de tâches du TAL (Traitement Automatique des Langues), l’extraction d’information est depuis quelque temps dominée par les modèles à base de réseaux de neurones et, en particulier, les approches s’appuyant sur de grands modèles de langue pré-entraînés, comme BERT [2]. Ce type de modèles peut être affiné sur de nouvelles tâches, comme l’extraction de concepts spécifiques à partir de données annotées. Dans le domaine médical, Il existe des corpus annotés permettant de faire l'apprentissage pour la reconnaissance de concepts médicaux, comme le corpus QUAERO [3], qui utilise les types sémantiques du méta-thesaurus de l’UMLS [4] pour qualifier les concepts retenus.
Néanmoins, ces concepts restent plutôt génériques et ne répondront pas forcément directement au cas d’usage couvert pas le stage : il sera donc nécessaire d’envisager d’autres approches pour la reconnaissance de ces nouveaux concepts. En particulier, en l’absence de données annotées à partir desquelles un apprentissage en Deep Learning peut être effectué, des méthodes fondées sur l’exploitation directe de connaissances structurées (terminologies) ou d’apprentissage symbolique peuvent être mises en œuvre à partir de peu d’exemples.
Un des enjeux du stage sera ainsi d’étudier la combinaison d’approches d’extraction d’information par connaissances et apprentissage symbolique avec des approches à base d’apprentissage neuronal. Le stagiaire pourra s’appuyer, sur ces deux sujets, sur les résultats de projets précédents réalisés dans le laboratoire :

  •  l’analyseur linguistique LIMA [5], développé au LASTI, intègre des modules d’extraction d’information qui peuvent être configurés automatiquement à partir de définitions déclaratives de nouveaux concepts ou d’exemples d’instances de concepts ou relations dans des textes (apprentissage symbolique) ;
  • une adaptation de modèles de langues pour la tâche de reconnaissance de concepts médicaux dans les textes a été entreprise [6], à partir du corpus QUAERO, et offre des premiers outils pour l’extraction de concepts médicaux génériques sur lesquels on pourra s’appuyer pour configurer l’extraction d’information adaptée au cas de l’hôpital.

 #StageList

Profil du candidat

Ingénieur/Master 2

- environnement de travail : linux

- notions de base en traitement automatique des langues.

- notion de base en apprentissage automatique et en réseaux de neurones.

Localisation du poste

Site

Saclay

Localisation du poste

France, Ile-de-France, Essonne (91)

Ville

Centre Nano-Innov, Palaiseau

Critères candidat

Diplôme préparé

Bac+5 - Master 2

Formation recommandée

Intelligence Artificielle, TAL

Possibilité de poursuite en thèse

Oui