Informations générales
Entité de rattachement
Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche.
Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions :
. la défense et la sécurité
. l'énergie nucléaire (fission et fusion)
. la recherche technologique pour l'industrie
. la recherche fondamentale (sciences de la matière et sciences de la vie).
Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration aux côtés de ses partenaires académiques et industriels.
Référence
2022-24712
Description de l'unité
Basé à Paris-Saclay, le CEA List est l'un des quatre instituts de recherche technologique de CEA Tech, direction de la recherche technologique du CEA. Dédié aux systèmes numériques intelligents, il contribue au développement de la compétitivité des entreprises par le développement et le transfert de technologies.
Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI) est une équipe de 25 personnes (chercheurs, ingénieurs, doctorants) menant des travaux de recherche sur les technologies de description et de compréhension du contenu multimédia (image, texte, parole) et des documents multilingues, en particulier à grande échelle. Les enjeux scientifiques sont :
- développer des algorithmes efficaces et robustes pour l'analyse et l'extraction de contenu multimédia, leur classification et analyse sémantique;
- reconstitution ou fusion de données hétérogènes pour interpréter des scènes ou documents;
- développer des méthodes et des outils pour la construction, la formalisation et l'organisation des ressources et connaissances nécessaires au fonctionnement de ces algorithmes;
- intégrer plusieurs de ces briques technologiques afin d'accéder à l'information et répondre à un besoin utilisateur (moteurs de recherche, chatbot, rapports synthétiques de veille).
Description du poste
Domaine
Mathématiques, information scientifique, logiciel
Contrat
Stage
Intitulé de l'offre
Acquisition automatique de lexiques bilingues H/F
Sujet de stage
Le stage consistera, d'une part, à constituer un alignement de référence à partir de deux corpus spécialisés : parallèle et comparable , et d'autre part, à évaluer les outils d'alignement de mots à partir de corpus de textes parallèles ou comparables développés au Laboratoire Analyse Sémantique Texte et Image (LASTI) du CEA-LIST. Cette évaluation sera réalisée selon deux approches différentes : une évaluation intrinsèque à petite échelle dans laquelle les lexiques bilingues construits automatiquement seront comparés à un alignement de référence créé manuellement, et une évaluation extrinsèque dans laquelle l'impact d'utilisation de ces lexiques bilingues sera étudié dans le moteur de recherche d'information interlingue AMOSE du CEA-LIST.
Durée du contrat (en mois)
6 mois
Description de l'offre
CONTEXTE:
Les dictionnaires bilingues jouent un rôle important dans les applications de Traitement Automatique de la Langue (TAL) telles que la Recherche d'Information Interlingue (RII) et la Traduction Automatique (TA). La quantité de travail nécessaire pour créer manuellement ces dictionnaires est très importante. C'est la raison pour laquelle depuis quelques années de nombreux travaux ont fait appel aux techniques d’alignement pour automatiser le processus de construction de dictionnaires bilingues. Ces techniques constituent un préalable à l’exploitation des corpus de textes parallèles (Melamed, 2001) et comparables (Chiao et al., 2002): qu’il s’agisse d’aligner au niveau des paragraphes, des phrases ou d’apparier des unités lexicales, la plupart des applications reposent sur la possibilité d’extraire des correspondances précises entre les textes source et cible.
SUJET DE STAGE:
Le stage consistera, d'une part, à constituer un alignement de référence à partir de deux corpus spécialisés : parallèle et comparable en utilisant l’outil Yawat (Germann, 2008), et d'autre part, à évaluer les outils d’alignement de mots à partir de corpus de textes parallèles ou comparables développés au Laboratoire Analyse Sémantique Texte et Image (LASTI) du CEA-LIST (Semmar et al., 2010; Bouamor et al., 2012; Bouamor et al., 2013). Cette évaluation sera réalisée selon deux approches différentes : une évaluation intrinsèque à petite échelle dans laquelle les lexiques bilingues construits automatiquement seront comparés à un alignement de référence créé manuellement, et une évaluation extrinsèque dans laquelle l’impact d’utilisation de ces lexiques bilingues sera étudié dans le moteur de recherche d’information interlingue AMOSE du CEA-LIST (Besançon et al., 2004; Semmar et al., 2008).
Le stage comportera les étapes suivantes:
- Appropriation des principaux outils d’alignement de mots à partir de corpus de textes parallèles ou comparables développés au Laboratoire LASTI.
- Appropriation des outils d’alignement de mots de l’état de l’art Giza++ (Och et al., 2003) et Dali (Hu et al., 2019).
- Constitution de deux lexiques bilingues de référence à partir de deux corpus spécialisés: parallèle et comparable en utilisant l’outil Yawat.
- Evaluation intrinsèque des lexiques bilingues construits à partir de corpus de textes parallèles ou comparables spécialisés.
- Recherche de corpus de références (gold standards) pour l’évaluation du moteur de recherche interlingue (CLEF, TREC …).
- Evaluation extrinsèque des lexiques bilingues spécialisés en recherche d’information interlingue.
- Développement d’une interface web pour l’acquisition automatique de lexiques bilingues à partir de corpus parallèles et comparables.
#StageList
Moyens / Méthodes / Logiciels
Programmation HPC, Frameworks Deep Learning
Profil du candidat
- Environnement de travail : linux
- Maîtrise d'un langage de programmation : C++, Java, Perl, Python
- Expérience avec une bibliothèque de type Tensorflow, PyTorch, etc.
- Notion de base en apprentissage automatique et en traitement automatique des langues
Localisation du poste
Site
Saclay
Localisation du poste
France, Ile-de-France, Essonne (91)
Ville
Palaiseau
Critères candidat
Langues
Anglais (Intermédiaire)
Diplôme préparé
Bac+5 - Master 2
Formation recommandée
Ingénieur, Master 2
Possibilité de poursuite en thèse
Non