Informations générales
Organisme de rattachement
CNRS
Référence
UMR9015-LAUDEV-004
Date de début de diffusion
30/06/2025
Date de parution
01/07/2025
Date de fin de diffusion
21/07/2025
Description du poste
Versant
Fonction Publique de l'Etat
Catégorie
Catégorie A (cadre)
Nature de l'emploi
Emploi ouvert uniquement aux contractuels
Domaine / Métier
Recherche - Chercheuse / Chercheur
Statut du poste
Vacant
Intitulé du poste
Exploration des grands modèles de langage avec raisonnement « Chain-of-Thought » : explicablité et biai
Descriptif de l'employeur
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieure et de la Recherche. Créé en 1939 et dirigé par des scientifiques, il a pour mission de faire progresser la connaissance et être utile à la société dans le respect des règles d’éthique, de déontologie et d’intégrité scientifique.
Description du poste
Sujet de thèse :
L’objectif est d’améliorer la traçabilité, la lisibilité et la fidélité explicative des réponses générées par les LLMs tout en conservant leurs performances. Cette recherche s'inscrit dans une perspective d’interprétabilité et d’ingénierie des requêtes, et débouchera sur des outils d’analyse, des protocoles de génération, et des modèles enrichis plus explicables.
Le sujet de thèse propose plusieurs enjeux de recherche. Un point critique est la traduction implicite des prompts en anglais, même lorsqu’ils sont initialement rédigés en français. Cette opération, souvent invisible à l’utilisateur, peut introduire des biais sémantiques, linguistiques et culturels (idiomatismes, reformulations, pertes de sens), des imprécisions ou des erreurs dans les résultats. D’autre part, les étapes intermédiaires de la chaîne de pensée sont rarement explicitées ou contrôlées, ce qui nuit à la transparence et à la traçabilité de l'inférence. En parallèle, l’introduction de tokens spéciaux dans les requêtes (par ex. raisonnement, étape, conclusion, lang=fr, etc.) ou dans les réponses du modèle peut servir à : structurer le raisonnement produit (début/fin, étapes intermédiaires, justification, choix de réponse), guider le comportement du modèle (forçage d'explication ou de format), améliorer l’explicabilité en facilitant l’extraction et la visualisation des parties-clés du traitement de la requête.
Objectifs principaux :
1/ Étudier les forces, les limites et les biais du CoT, en tant qu’approche multi-requêtes explorant l’espace des connaissances d’un LLM.
2/ Expliciter les différentes étapes intervenant dans le traitement d’un prompt complexe : Traduction implicite (et ses biais), Nombre et nature des étapes de décomposition, Usage de la paraphrase ou des reformulations intermédiaires.
3/ Développer des mécanismes permettant de guider, annoter ou contrôler ces étapes, par l’introduction de tokens spéciaux, d’annotations linguistiques, ou de prompts structurés.
4/ Évaluer l’impact de ces éléments sur : la qualité du résultat final, le coût computationnel, l’explicabilité perçue et mesurable du raisonnement.
5/ Proposer des variantes de du CoT plus robustes, multilingues, et plus transparentes.
Méthodologie :
Phase 1 : Revue de littérature sur le CoT, les prompts structurés, les biais de traduction implicite, et les méthodes d’explicabilité.
Phase 2 : Conception de variantes guidées du CoT : prompts hiérarchiques, décompositions explicites, paraphrases contrôlées.
Phase 3 : Intégration dans des architectures existantes et ouvertes (LLaMA, DeepSeek, ...) et instrumentation du traitement du prompt pour tracer les étapes internes.
Phase 4 : Évaluation expérimentale sur des tâches de QA complexe et de raisonnement (GSM8K, HotpotQA, CosmosQA), avec comparaison à des baselines standard et analyse qualitative des biais linguistiques introduits.
Phase 5 : Propositio
Voir plus sur le site emploi.cnrs.fr...
Conditions particulières d'exercice
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
Descriptif du profil recherché
Contraintes et risques :
Le sujet a des contraintes en termes de capacités de calcul. Une plateforme de calcul sera à disposition de l'étudiant(e) pour mener ses expériences qu'il(elle) devra utiliser à bonne escient. Nous aurons soin de travailler sur la frugalité des algorithmes et de mesurer les coûts.
Temps plein
Oui
Rémunération contractuels (en € brut/an)
La rémunération est d'un minimum de 2200,00 € mensuel
Pays
Localisation du poste
Europe, France, Île-de-France, Essonne (91)
Géolocalisation du poste
GIF SUR YVETTE
Lieu d'affectation (sans géolocalisation)
91190 GIF SUR YVETTE (France)
Critères candidat
Niveau d'études / Diplôme
Niveau 8 Doctorat/diplômes équivalents
Spécialisation
Formations générales
Langues
Français (Seuil)