Informations générales
Entité de rattachement
Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche.
Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions :
. la défense et la sécurité
. l'énergie nucléaire (fission et fusion)
. la recherche technologique pour l'industrie
. la recherche fondamentale (sciences de la matière et sciences de la vie).
Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration aux côtés de ses partenaires académiques et industriels.
Référence
2022-24027
Description de l'unité
Basé à Paris-Saclay, le CEA List est l'institut de recherche technologique de CEA Tech dédié aux systèmes numériques intelligents, qui contribue au développement de la compétitivité des entreprises par le développement et le transfert de technologies.
L'expertise et les compétences développées par les 800 ingénieurs-chercheurs et techniciens du CEA List permettent à l'Institut d'accompagner chaque année plus de 200 entreprises françaises et étrangères sur des projets de recherche appliquée s'appuyant sur 4 programmes et 9 plateformes technologiques.
Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI) est une équipe de 25 personnes (chercheurs, ingénieurs, doctorants) menant des travaux de recherche sur les technologies de description et de compréhension du contenu multimédia (image, texte, parole) et des documents multilingues, en particulier à grande échelle. Les enjeux scientifiques sont :
• développer des algorithmes efficaces et robustes pour l'analyse et l'extraction de contenu multimédia, leur classification et analyse sémantique ;
• développer des méthodes et des outils pour la construction, la formalisation et l'organisation des ressources et connaissances nécessaires au fonctionnement de ces algorithmes ;
• intégrer plusieurs de ces briques technologiques afin d'accéder à l'information et répondre à un besoin utilisateur (moteurs de recherche, chatbot, rapports synthétiques de veille).
Description du poste
Domaine
Mathématiques, information scientifique, logiciel
Contrat
Stage
Intitulé de l'offre
Structuration automatique de comptes-rendus médicaux dictés H/F
Sujet de stage
Le sujet du stage se situe dans le domaine du Traitement Automatique des Langues. L'objectif du stage est de mettre en place les outils et les ressources nécessaires pour la structuration automatique d'information à partir de comptes-rendus médicaux dictés par des médecins. Dans ce contexte, les travaux à réaliser dans le cadre du stage sont multiples : (1) constituer, en partenariat avec l'hôpital, une base de documents pour l'évaluation des méthodes proposées ; (2) spécifier avec les médecins la structure des informations à extraire ; (3) développer les ressources et les approches pour l'extraction automatique des informations.
Durée du contrat (en mois)
6
Description de l'offre
Le stage proposé se situe dans le domaine global de l’extraction d’information [1], dont l’objectif est d’identifier des concepts ou des faits dans des textes et de structurer les informations retenues. Dans ce stage, réalisé en partenariat avec l’institut Gustave Roussy, le domaine d’application de cette tâche est le domaine médical : dans ce cadre, les concepts à extraire sont des concepts médicaux, comme des indications anatomiques, des pathologies, des symptômes, des traitements, etc.
Comme beaucoup de tâches du TAL (Traitement Automatique des Langues), l’extraction d’information est depuis quelque temps dominée par les modèles à base de réseaux de neurones et, en particulier, les approches s’appuyant sur de grands modèles de langue pré-entraînés, comme BERT [2]. Ce type de modèles peut être affiné sur de nouvelles tâches, comme l’extraction de concepts spécifiques à partir de données annotées. Dans le domaine médical, Il existe des corpus annotés permettant de faire l'apprentissage pour la reconnaissance de concepts médicaux, comme le corpus QUAERO [3], qui utilise les types sémantiques du méta-thesaurus de l’UMLS [4] pour qualifier les concepts retenus.
Néanmoins, ces concepts restent plutôt génériques et ne répondront pas forcément directement au cas d’usage couvert pas le stage : il sera donc nécessaire d’envisager d’autres approches pour la reconnaissance de ces nouveaux concepts. En particulier, en l’absence de données annotées à partir desquelles un apprentissage en Deep Learning peut être effectué, des méthodes fondées sur l’exploitation directe de connaissances structurées (terminologies) ou d’apprentissage symbolique peuvent être mises en œuvre à partir de peu d’exemples.
Un des enjeux du stage sera ainsi d’étudier la combinaison d’approches d’extraction d’information par connaissances et apprentissage symbolique avec des approches à base d’apprentissage neuronal. Le stagiaire pourra s’appuyer, sur ces deux sujets, sur les résultats de projets précédents réalisés dans le laboratoire :
- l’analyseur linguistique LIMA [5], développé au LASTI, intègre des modules d’extraction d’information qui peuvent être configurés automatiquement à partir de définitions déclaratives de nouveaux concepts ou d’exemples d’instances de concepts ou relations dans des textes (apprentissage symbolique) ;
- une adaptation de modèles de langues pour la tâche de reconnaissance de concepts médicaux dans les textes a été entreprise [6], à partir du corpus QUAERO, et offre des premiers outils pour l’extraction de concepts médicaux génériques sur lesquels on pourra s’appuyer pour configurer l’extraction d’information adaptée au cas de l’hôpital.
#StageList
Profil du candidat
Ingénieur/Master 2
- environnement de travail : linux
- notions de base en traitement automatique des langues.
- notion de base en apprentissage automatique et en réseaux de neurones.
Localisation du poste
Site
Saclay
Localisation du poste
France, Ile-de-France, Essonne (91)
Ville
Centre Nano-Innov, Palaiseau
Critères candidat
Diplôme préparé
Bac+5 - Master 2
Formation recommandée
Intelligence Artificielle, TAL
Possibilité de poursuite en thèse
Oui