Connexion Espace candidat

J'ai déjà un espace candidat

 
Pause
Lecture
Moteur de recherche d'offres d'emploi CEA

Vous êtes ici :  Accueil  ›  Liste des offres  ›  Détail de l'offre

STA - Apprentissage à partir de connaissance incertaine H/F


Détail de l'offre

Informations générales

Entité de rattachement

Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche.

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions :
. la défense et la sécurité
. l'énergie nucléaire (fission et fusion)
. la recherche technologique pour l'industrie
. la recherche fondamentale (sciences de la matière et sciences de la vie).

Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration aux côtés de ses partenaires académiques et industriels.  

Référence

2018-7171  

Description de l'unité

Acteur majeur de la recherche, du développement et de l'innovation, le Commissariat à l'Energie Atomique et aux Energies Alternatives (16 000 salariés, environ 600 brevets déposés par an) intervient dans 4 grands domaines : les énergies bas carbone, la défense et la sécurité globale, les technologies pour l'information, et les technologies pour la santé.
Vous avez du talent et souhaitez travailler dans un environnement stimulant dédié aux technologies numériques ?

Rejoignez-nous !

Au sein de CEA Tech, le pôle « recherche technologique » du CEA, l'institut List dédie ses activités aux systèmes numériques intelligents. Nous avons un savoir-faire unique issu d'une culture de l'innovation et avons pour mission de produire et de transférer les technologies utiles à nos partenaires industriels dans quatre domaines :
- Usine du futur
- Systèmes cyberphysiques
- Instrumentation innovante
- Intelligence artificielle

Au sein du LIST, le Laboratoire de Vision et d'Ingénierie des Contenus (LVIC) emploie 80 chercheurs et ingénieurs travaillant dans le domaine de l'Intelligence Artificielle pour l'analyse et l'interprétation de données multimédia (texte, image, vidéo). Le laboratoire développe des algorithmes robustes pour l'extraction, l'analyse et le traitement de grands volumes de données multimédia et participe par ailleurs à de nombreux projets collaboratifs (ANR, Europe FP7, Pôle de Compétitivité) avec des partenaires académiques, PM

Délai de traitement

3 mois

Description du poste

Domaine

Mathématiques, information  scientifique, logiciel

Contrat

Stage

Intitulé de l'offre

STA - Apprentissage à partir de connaissance incertaine H/F

Sujet de stage

Apprentissage à partir de connaissance incertaine

Durée du contrat (en mois)

6

Description de l'offre

Le traitement automatique du langage (TAL, NLP en anglais) regroupe l'ensemble des technologies permettant à un ordinateur d'interpréter un énoncé en langage naturel, typiquement un document écrit ou un flux audio avec de la parole.

Les investissements dans ce domaine sont en très grande croissance, tant en recherche que chez les industriels pour deux raisons principales:

-  l'abondance des données, le 'big data', suscite la convoitise de beaucoup d'opérateurs mais toute la partie non structurée de ces données ne peut être véritablement exploitée qu'avec un traitement linguistique de base.

- de très grands progrès ont été réalisés récemment grâce aux techniques d'apprentissage et en particulier celles à base de réseau de neurones en s’appuyant sur les représentation distribuées des mots (word embeddings).

Les applications de ces technologies sont multiples dans la société du numérique : moteur de recherche, traduction automatique, outils de veille ou de recommandations...

Ce stage s’inscrit dans les activités de Traitement Automatique du Langage du Laboratoire Vision et Ingénierie des Contenus du CEA List. Le laboratoire développe sa propre technologie d’analyse du texte qui est diffusée en open source avec la plate-forme Lima.

Les systèmes de traitement linguistique ont largement adopté les technique d’apprentissage supervisé : à partir de corpus annoté (c’est-à-dire des textes pour lesquels des spécialistes de la langue ont annoté chaque mot avec des informations sur le découpage en mots, les informations sur la morphologie, sur la structure de la phrase, etc.), le système apprend un modèle qui lui permet d’analyser des textes en entrée.

Quand on ne dispose pas de corpus annoté pour une tâche d'apprentissage (par exemple pour traiter une nouvelle langue) ni du budget pour le constituer, on réalise de façon automatisée un corpus dit "synthétique" par exemple issus d'une projection d'annotation crosslingue ou par alignement d'une base de connaissances sur le texte. Bien sûr, ces corpus "synthétiques"  contiennent des erreurs ou plutôt des incertitudes sur les annotations.

L’objectif du stage consiste à  modéliser ces incertitudes et à les exploiter dans le processus d'apprentissage et à évaluer les amélioration des modèles produits.

Les expérimentations se feront en s'appuyant sur un framework de  réseaux de neurones.

L'apprentissage se fera à partir de corpus annoté fournis.

 

 

Profil du candidat

- Diplôme d'ingénieur ou Master 2
- maîtrise d'un langage de programmation: C++ ou python
- notion de base sur les technologies d'apprentissage
Le goût pour les langues, le langage de façon générale et la capacité à échanger avec les autres est un plus.

Le poste est basé à Palaiseau (91) et ouvre la possibilité de poursuite en thèse ou sur un poste d'ingénieur au sein du laboratoire.

Localisation du poste

Site

Saclay

Lieu

Route du Cyclotron, 91400 Saclay, France