Informations générales
Organisme de rattachement
CNRS
Référence
UMR6072-FREJUR0-014
Date de début de diffusion
23/04/2026
Date de parution
08/05/2026
Date de fin de diffusion
14/05/2026
Intitulé long de l'offre
Apprentissage de représentations et tokenisation multimodale pour les modèles de fondation en sciences (H/F)
Date limite de candidature
14/05/2026
Nature du contrat
CDD d'1 an
Description du poste
Versant
Fonction Publique de l'Etat
Catégorie
Catégorie A (cadre)
Nature de l'emploi
Emploi ouvert uniquement aux contractuels
Domaine / Métier
Recherche - Chercheuse / Chercheur
Statut du poste
Vacant
Intitulé du poste
Apprentissage de représentations et tokenisation multimodale pour les modèles de fondation en sciences
Descriptif de l'employeur
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieure et de la Recherche. Créé en 1939 et dirigé par des scientifiques, il a pour mission de faire progresser la connaissance et être utile à la société dans le respect des règles d’éthique, de déontologie et d’intégrité scientifique.
Description du poste
Missions :
Les travaux de recherche se situent dans le domaine de l'intelligence artificielle pour les sciences (AI for Science). La mission principale consiste à lever les verrous technologiques liés à la représentation de données scientifiques complexes (graphes, structures 3D, spectres) au sein de modèles de fondation. Le/la postdoctorant(e) devra concevoir des stratégies de "tokenisation" innovantes permettant d'intégrer ces données non-linguistiques dans des architectures de type Transformer, en garantissant la préservation des propriétés géométriques et topologiques.
Activités :
Réaliser un état de l'art sur l'apprentissage de représentations (SSL, Geometric DL) appliqué aux sciences.
Développer et implémenter des algorithmes de tokenisation pour les graphes moléculaires, les structures 3D et les signaux spectraux.
Entraîner et évaluer des modèles de fondation multimodaux sur des clusters de calcul (Jean Zay, CRIAN).
Collaborer avec les experts métier (physiciens, chimistes) pour valider la pertinence scientifique des représentations apprises.
Rédiger des articles scientifiques pour les conférences et revues majeures (NeurIPS, ICML, ICLR, ou revues spécialisées en physique/matériaux).
Présenter les avancées du projet lors de séminaires et conférences internationales.
Contexte de travail :
Le projet s'inscrit dans une collaboration unique entre trois laboratoires de l'Université de Caen / CNRS / ENSICAEN : le GREYC (Sciences du numérique), le CRISMAT (Science des matériaux) et le LPC (Physique subatomique). Le candidat bénéficiera d'un environnement de recherche interdisciplinaire stimulant et d'un accès privilégié à des ressources de calcul intensif locales et nationales (Jean Zay). Le poste est basé à Caen, ville dynamique située à 2h de Paris.
Conditions particulières d'exercice
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
Descriptif du profil recherché
Competences :
Formation : Doctorat en Informatique, Intelligence Artificielle, Mathématiques Appliquées ou Physique/Chimie numérique avec une forte composante ML.
Technique : Maîtrise approfondie du Deep Learning (Transformers, GNNs, Auto-encodeurs).
Programmation : Excellente maîtrise de Python et des frameworks PyTorch ou TensorFlow/JAX.
Outils : Expérience de l'entraînement sur GPU et de la gestion de données volumineuses.
Soft skills : Forte autonomie, curiosité intellectuelle et capacité à communiquer dans un environnement interdisciplinaire.
Langues : Anglais scientifique courant (écrit et oral).
Contraintes et risques :
Manipulation de jeux de données scientifiques hétérogènes et de grande dimension.
Gestion des temps de calcul et optimisation des ressources sur cluster (SLURM).
Déplacements ponctuels pour les réunions de coordination entre les trois laboratoires et pour les conférences.
Respect des règles de sécurité informatique liées à l'accès aux centres de calcul nationaux.
Temps plein
Oui
Rémunération contractuels (en € brut/an)
de 3072€ à 4 439€ brut selon expérience
Pays
Localisation du poste
Europe, France, Normandie, Calvados (14)
Géolocalisation du poste
CAEN
Lieu d'affectation (sans géolocalisation)
14032 CAEN (France)
Critères candidat
Niveau d'études / Diplôme
Niveau 8 Doctorat/diplômes équivalents
Spécialisation
Formations générales
Langues
Français (Seuil)