Pause
Lecture
Moteur de recherche d'offres d'emploi CEA

Stage M2: attaques de confidentialité en apprentissage fédéré H/F


Détail de l'offre

Informations générales

Entité de rattachement

Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.

Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.

Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.

Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :

• La conscience des responsabilités
• La coopération
• La curiosité
  

Référence

2023-29282  

Description de l'unité

Situé à Saclay, en Ile-de-France sud, le CEA LIST (http://www-list.cea.fr/) est un centre de recherche scientifique et technologique dédié au développement de logiciels, de systèmes embarqués et de capteurs pour des applications destinées à la défense, la sécurité, l'énergie, le nucléaire, l'environnement et la santé. Le CEA LIST fait partie de l'écosystème dynamique et stimulant de l'Université Paris Saclay. Il compte plus de 700 chercheurs se focalisant sur les systèmes numériques intelligents, centrés autour de l'intelligence artificielle, l'usine du futur, l'instrumentation innovante, les systèmes cyberphysiques et la santé numérique. Au sein de cet institut, le Laboratoire Instrumentation Intelligente, Distribuée et Embarquée (LIIDE) développe des fonctionnalités innovantes d'intelligence artificielle pour la mesure répartie et l'apprentissage frugal et distribué.

Description du poste

Domaine

Mathématiques, information  scientifique, logiciel

Contrat

Stage

Intitulé de l'offre

Stage M2: attaques de confidentialité en apprentissage fédéré H/F

Sujet de stage

En 2016, Google publie les principes fondateurs de l'apprentissage fédéré [1] avec la promesse de faire de l'apprentissage statistique sans compromettre les données des clients. Il s'agit d'une approche collaborative où plusieurs clients participent à l'apprentissage du modèle sans transmettre leurs données personnelles, mais uniquement les paramètres du modèle mis à jour localement puis agrégés au niveau du serveur central. Par construction, l'apprentissage fédéré apparait ainsi comme une solution pour assurer la confidentialité des données mais pas pour la confidentialité du modèle dont les paramètres sont échangés entre les clients et le serveur tout au long du processus d'apprentissage. Or il est tout à fait possible pour un serveur malveillant d'inférer de l'information sur les données d'apprentissage d'un client à partir des paramètres du modèle. Ce sont ces attaques dites de confidentialité qui seront étudiées au cours du stage.

[1] Google AI blog: https://ai.google

Durée du contrat (en mois)

6

Description de l'offre

Le but du stage consiste à étudier les attaques de confidentialité dans un cadre fédéré. Classiquement, un serveur malveillant (honnête mais curieux) tente d'inférer de l'information sur les données d'apprentissage d'un client à partir des paramètres du modèle [2]. Dans la littérature, ces attaques consistent souvent à reconstruire les données d'apprentissage en supposant les labels des données connus. Cette hypothèse n'étant bien sûr pas réaliste, une sous-catégorie d'attaques se concentre uniquement sur l'inférence de labels (iDLG [3], LLG [4], RLG [5], BLRG [6]). C'est ce type d'attaques qui sera exploré plus en détails durant le stage.

 

Dans un premier temps, le stagiaire se familiarisera avec les concepts d’apprentissage fédéré et d'attaques de confidentialité. Dans un deuxième temps, le stagiaire se concentrera sur les attaques d'inférence de labels en réalisant une étude bibliographique et en étudiant la robustesse des attaques les plus prometteuses face à la complexité des architectures et face aux défenses classiquement mises en œuvre dans un contexte distribué (e.g. confidentialité différentielle). Enfin une dernière étape du stage pourra consister à étudier les limitations mathématiques des attaques existantes et/ou proposer une attaque innovante 


[2] Zhu et al., Deep leakage from gradients, 2019
[3] Zhao et al., iDLG: Improved deep leakage from gradients, 2020
[4] Wainakh et al., User-level label leakage from gradients in federated learning, 2022
[5] Dang et al., Revealing and protecting labels in distributed training, 2021
[6] Ma et al., Instance-wise Batch Label Restoration via Gradients in Federated Learning, 2023

Profil du candidat

Le stage s’adresse à un(e) étudiant(e) du cycle ingénieur/universitaire cherchant un stage M2 et manifestant l’envie de travailler dans le milieu de la recherche. Idéalement, le/la candidat(e) suit actuellement une formation en lien avec le domaine de l’Intelligence Artificielle/Machine Learning. La connaissance des algorithmes d’optimisation en Machine Learning ainsi que la maîtrise de Python sont indispensables. Durant le stage, le/la candidat(e) sera en relation directe avec les membres de l’équipe d’apprentissage fédéré (deux ingénieurs-chercheurs, un thésard et deux post-doctorants). Nous attendons qu’il/elle soit capable d'apporter sa rigueur, son enthousiasme et sa curiosité pour la recherche. Nous offrons la possibilité à nos stagiaires de participer à la conférence JDSE afin de les familiariser avec le déroulement d'une conférence scientifique.

Localisation du poste

Site

Saclay

Localisation du poste

France, Ile-de-France, Essonne (91)

Ville

Gif-sur-Yvette

Critères candidat

Langues

  • Français (Courant)
  • Anglais (Courant)

Demandeur

Disponibilité du poste

15/02/2024