Informations générales
Entité de rattachement
Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.
Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.
Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.
Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :
• La conscience des responsabilités
• La coopération
• La curiosité
Référence
2025-36353
Description du poste
Domaine
Mathématiques, information scientifique, logiciel
Contrat
CDD
Intitulé de l'offre
Thèse (PhD) : Vulnérabilités des modèles d'IA génératives multimodaux H/F
Statut du poste
Non Cadre
Durée du contrat (en mois)
36
Description de l'offre
Bien que l'intelligence artificielle générative excelle dans la création de contenus originaux (comme du texte, image ou code), elle fait face à plusieurs limitations.
Les données utilisées pour entrainer les modèles de fondation sur lesquelles s'appuie l'IA générative peuvent être périmées depuis des semaines, des mois, voire des années. De plus, dans un chatbot d'entreprise, elles peuvent ne pas prendre en compte des informations spécifiques aux produits ou services de l'entreprise. Cela peut conduire à des réponses incorrectes qui érodent la confiance en la technologie de certains clients et collaborateurs.
Afin d'atténuer ces limitations, les modèles de fondations doivent être régulièrement mis à jour et personnalisés. Une des techniques état-de-l'art utilisée pour optimiser la réponse de l'IA générative mais sans modifier le modèle sous-jacent est la Génération Augmentée de Récupération (RAG). Le RAG permet ainsi aux modèles d'IA générative de se référer à une base de connaissances externe afin de générer un contenu mis à jour et spécialisé.
Bien que l'utilisation du RAG est en train de se démocratiser dans le monde industriel, il y a encore beaucoup d'incertitudes concernant les risques autour de cette technique de personnalisation.
Le sujet de thèse proposé consiste à étudier les menaces liées à l'intégrité et à la confidentialité des données lors de l'utilisation d'un RAG pour adapter les nouveaux modèles d'IA générative multimodaux.
#CEA-List ; #PhD ; #Thèse ; #IA
Profil du candidat
La thèse s’adresse à un(e) étudiant(e) du cycle ingénieur/universitaire manifestant l’envie de travailler dans le milieu de la recherche avec un intérêt manifeste pour la cybersécurité des IA et disposant d’un Master 2 dans l’un des domaines suivants :
-IA,
-Machine Learning,
-Statistiques.
La connaissance des principaux algorithmes d’optimisation ainsi que la maîtrise de Python sont indispensables.
Localisation du poste
Site
Saclay
Localisation du poste
France, Ile-de-France, Essonne (91)
Ville
GIF-SUR-YVETTE
Critères candidat
Langues
- Français (Courant)
- Anglais (Courant)
Demandeur
Disponibilité du poste
15/09/2025