Pause
Lecture
Moteur de recherche d'offres d'emploi CEA

Développement d’un archivage des métadonnées liées à l'exécution d'algorithmes de Machine Learning


Détail de l'offre

Informations générales

Entité de rattachement

Situé à 40 km au sud de Paris, le centre DAM-Île de France, a en charge la conception des armes nucléaires françaises, la recherche et développement dans le domaine de la lutte contre la prolifération et le terrorisme, l'alerte aux autorités en cas de séisme, de tsunami ou d'essai nucléaire étranger, la construction et le démantèlement de grandes infrastructures nucléaires. Leader français de la simulation numérique et du calcul intensif, il possède deux des machines européennes les plus puissantes. Il dispose également de plusieurs accélérateurs et de nombreux moyens techniques et expérimentaux pour mener ses recherches. Lui est également rattaché, l'Unité Propulsion Nucléaire située sur le centre CEA/Cadarache en région Provence Alpes-Côte d'Azur, où sont implantées les installations d'essais et une partie des fabrications de la propulsion nucléaire.  

Référence

2021-18586-S0422  

Description du poste

Domaine

Mathématiques, information  scientifique, logiciel

Contrat

Stage

Intitulé de l'offre

Développement d’un archivage des métadonnées liées à l'exécution d'algorithmes de Machine Learning

Sujet de stage

Développement d’un archivage des métadonnées liées à l'exécution d'algorithmes de Machine Learning

Durée du contrat (en mois)

3 à 6 mois

Description de l'offre

R&D du laboratoire en matière d’ingénierie de la donnée dans un environnement de calcul haute performance.

Lors d’une phase d'apprentissage automatique, il est nécessaire de réaliser plusieurs exécutions de différents algorithmes de Machine Learning (ML) pour leur optimisation. L'archivage du contexte d'exécution et des résultats est actuellement réalisé manuellement par le biais de fichiers de configuration intégrés au lancement d'un apprentissage.
L'objectif est de développer une solution dédiée à l'automatisation de la gestion des runs : placement automatique des resultats dans différents répertoires, gestion des métadonnées liées aux runs (données d'entrée utilisées, transformations réalisées sur les données, algorithme utilisé et paramètres associés, etc.)
Une première étape sera dédiée au développement d'un wrapper pour automatiser l'intégration d'un fichier de configuration lors de l'exécution d'un algorithme de ML.
Une deuxième étape sera dédiée à l'implémentation de l'automatisation du processus de génération des résultats (graphes, poids d'un réseau de neurones, fichiers JSON, etc) et de leur placement dans différents répertoires en fonction des paramètres d'exécution (date, algorithme, expérience, etc).
Une troisième étape sera dédiée à l'implémentation d'un plugin englobant ces différentes fonctions, pour automatiser l'application des algorithmes de ML sur des fichiers de données. Le plugin sera intégré à un outil de pipeline de données actuellement en cours de développement. Un pipeline de données est l'application d'une succession d'opérations sur un jeu de donneés.

Profil du candidat

Autonomie, Rédaction, Capacité d'adaptation, Esprit d'initiative
Linux, Python
Bac+4

Localisation du poste

Site

DAM Île-de-France

Localisation du poste

France, Ile-de-France, Essonne (91)

Ville

Bruyères-le-Châtel