Entité de rattachement
Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.
Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.
Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.
Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :
• La conscience des responsabilités
• La coopération
• La curiosité
Référence
2026-40249
Vous intégrerez le Groupe Calcul Intensif et Infrastructures Informatiques (GC3I), dont les activités couvrent l’administration des systèmes, le développement logiciel, le calcul scientifique haute performance (HPC) ainsi que le développement de méthodes d’intelligence artificielle appliquées à la science.
Au sein de cet environnement, vous contribuerez au développement et à l’évolution d’un outil interne de gestion des données expérimentales, au cœur des activités scientifiques de l’Institut.
Cet outil vise à faciliter la collaboration entre physiciens et ingénieurs en intelligence artificielle en automatisant la création de jeux de données exploitables pour des workflows IA (data marts).
Vos missions principales seront les suivantes :
- Développer des mécanismes d’ingestion automatisée des données à partir de fichiers de configuration ;
- Concevoir et implémenter des méthodes génériques de nettoyage et de préparation des données ;
- Mettre en place des outils de visualisation adaptés aux besoins des utilisateurs ;
- Développer un noyau de sérialisation vers des formats compatibles avec les workflows IA ;
- Mettre en œuvre des solutions d’annotation et d’enrichissement en métadonnées ;
- Participer à l’amélioration continue de l’outil en intégrant les retours utilisateurs et les contraintes techniques.
Dans le cadre de cette alternance, vous contribuerez activement à la version 2 de cet outil stratégique, avec pour objectif de livrer une solution robuste, performante et adaptée aux besoins métiers.
Vous serez amené(e) à collaborer étroitement avec des ingénieurs IA, des développeurs et des chercheurs, sur des problématiques concrètes à l’interface entre science des données et recherche en fusion par confinement magnétique.
Une ouverture est également prévue sur l’évaluation de l’apport des technologies d’IA, notamment les modèles de type LLM, pour améliorer certaines fonctionnalités clés (extraction, annotation, nettoyage des données).
Cette alternance constitue une opportunité unique de travailler sur des cas d’usage concrets de data engineering appliqué à la recherche scientifique (AI for Science).
Vous êtes en dernière année d’école d’ingénieur ou en Master 2, avec une spécialisation en data science, data engineering ou intelligence artificielle.
Vous disposez des compétences suivantes :
- Maîtrise du langage Python et de ses bibliothèques scientifiques (NumPy, SciPy, Pandas, Plotly…) ;
- Bonnes connaissances en nettoyage, transformation et préparation des données ;
Pratique des outils de versionnement (Git) et idéalement des environnements d’intégration continue ; - Intérêt pour les architectures de données et les problématiques d’interopérabilité.