Acquisition automatique de lexiques bilingues H/F

Détail de l'offre

Informations générales

Entité de rattachement

Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche.

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions :
. la défense et la sécurité
. l'énergie nucléaire (fission et fusion)
. la recherche technologique pour l'industrie
. la recherche fondamentale (sciences de la matière et sciences de la vie).

Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration aux côtés de ses partenaires académiques et industriels.  

Référence

2022-24712  

Description de l'unité

Basé à Paris-Saclay, le CEA List est l'un des quatre instituts de recherche technologique de CEA Tech, direction de la recherche technologique du CEA. Dédié aux systèmes numériques intelligents, il contribue au développement de la compétitivité des entreprises par le développement et le transfert de technologies.

Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI) est une équipe de 25 personnes (chercheurs, ingénieurs, doctorants) menant des travaux de recherche sur les technologies de description et de compréhension du contenu multimédia (image, texte, parole) et des documents multilingues, en particulier à grande échelle. Les enjeux scientifiques sont :
- développer des algorithmes efficaces et robustes pour l'analyse et l'extraction de contenu multimédia, leur classification et analyse sémantique;
- reconstitution ou fusion de données hétérogènes pour interpréter des scènes ou documents;
- développer des méthodes et des outils pour la construction, la formalisation et l'organisation des ressources et connaissances nécessaires au fonctionnement de ces algorithmes;
- intégrer plusieurs de ces briques technologiques afin d'accéder à l'information et répondre à un besoin utilisateur (moteurs de recherche, chatbot, rapports synthétiques de veille).

Description du poste

Domaine

Mathématiques, information  scientifique, logiciel

Contrat

Stage

Intitulé de l'offre

Acquisition automatique de lexiques bilingues H/F

Sujet de stage

Le stage consistera, d'une part, à constituer un alignement de référence à partir de deux corpus spécialisés : parallèle et comparable , et d'autre part, à évaluer les outils d'alignement de mots à partir de corpus de textes parallèles ou comparables développés au Laboratoire Analyse Sémantique Texte et Image (LASTI) du CEA-LIST. Cette évaluation sera réalisée selon deux approches différentes : une évaluation intrinsèque à petite échelle dans laquelle les lexiques bilingues construits automatiquement seront comparés à un alignement de référence créé manuellement, et une évaluation extrinsèque dans laquelle l'impact d'utilisation de ces lexiques bilingues sera étudié dans le moteur de recherche d'information interlingue AMOSE du CEA-LIST.

Durée du contrat (en mois)

6 mois

Description de l'offre

CONTEXTE:

Les dictionnaires bilingues jouent un rôle important dans les applications de Traitement Automatique de la Langue (TAL) telles que la Recherche d'Information Interlingue (RII) et la Traduction Automatique (TA). La quantité de travail nécessaire pour créer manuellement ces dictionnaires est très importante. C'est la raison pour laquelle depuis quelques années de nombreux travaux ont fait appel aux techniques d’alignement pour automatiser le processus de construction de dictionnaires bilingues. Ces techniques constituent un préalable à l’exploitation des corpus de textes parallèles (Melamed, 2001) et comparables (Chiao et al., 2002): qu’il s’agisse d’aligner au niveau des paragraphes, des phrases ou d’apparier des unités lexicales, la plupart des applications reposent sur la possibilité d’extraire des correspondances précises entre les textes source et cible.

SUJET DE STAGE:

Le stage consistera, d'une part, à constituer un alignement de référence à partir de deux corpus spécialisés : parallèle et comparable en utilisant l’outil Yawat (Germann, 2008), et d'autre part, à évaluer les outils d’alignement de mots à partir de corpus de textes parallèles ou comparables développés au Laboratoire Analyse Sémantique Texte et Image (LASTI) du CEA-LIST (Semmar et al., 2010; Bouamor et al., 2012; Bouamor et al., 2013). Cette évaluation sera réalisée selon deux approches différentes : une évaluation intrinsèque à petite échelle dans laquelle les lexiques bilingues construits automatiquement seront comparés à un alignement de référence créé manuellement, et une évaluation extrinsèque dans laquelle l’impact d’utilisation de ces lexiques bilingues sera étudié dans le moteur de recherche d’information interlingue AMOSE du CEA-LIST (Besançon et al., 2004; Semmar et al., 2008).

Le stage comportera les étapes suivantes:
- Appropriation des principaux outils d’alignement de mots à partir de corpus de textes parallèles ou comparables développés au Laboratoire LASTI.
- Appropriation des outils d’alignement de mots de l’état de l’art Giza++ (Och et al., 2003) et Dali (Hu et al., 2019).
- Constitution de deux lexiques bilingues de référence à partir de deux corpus spécialisés: parallèle et comparable en utilisant l’outil Yawat.
- Evaluation intrinsèque des lexiques bilingues construits à partir de corpus de textes parallèles ou comparables spécialisés.
- Recherche de corpus de références (gold standards) pour l’évaluation du moteur de recherche interlingue (CLEF, TREC …).
- Evaluation extrinsèque des lexiques bilingues spécialisés en recherche d’information interlingue.
- Développement d’une interface web pour l’acquisition automatique de lexiques bilingues à partir de corpus parallèles et comparables.

#StageList

Moyens / Méthodes / Logiciels

Programmation HPC, Frameworks Deep Learning

Profil du candidat

- Environnement de travail : linux

- Maîtrise d'un langage de programmation : C++, Java, Perl, Python

- Expérience avec une bibliothèque de type Tensorflow, PyTorch, etc.

- Notion de base en apprentissage automatique et en traitement automatique des langues

Localisation du poste

Site

Saclay

Localisation du poste

France, Ile-de-France, Essonne (91)

Ville

Palaiseau

Critères candidat

Langues

Anglais (Intermédiaire)

Diplôme préparé

Bac+5 - Master 2

Formation recommandée

Ingénieur, Master 2

Possibilité de poursuite en thèse

Non