Apprentissage de représentations et tokenisation multimodale pour les modèles de fondation en sciences

Détail de l'offre

Informations générales

Organisme de rattachement

CNRS  

Référence

UMR6072-FREJUR0-014-02  

Date de début de diffusion

23/04/2026

Date de parution

08/05/2026

Date de fin de diffusion

14/05/2026

Intitulé long de l'offre

Apprentissage de représentations et tokenisation multimodale pour les modèles de fondation en sciences (H/F)

Date limite de candidature

14/05/2026

Nature du contrat

CDD d'1 an

Description du poste

Versant

Fonction Publique de l'Etat

Catégorie

Catégorie A (cadre)

Nature de l'emploi

Emploi ouvert uniquement aux contractuels

Domaine / Métier

Recherche - Chercheuse / Chercheur

Statut du poste

Vacant

Intitulé du poste

Apprentissage de représentations et tokenisation multimodale pour les modèles de fondation en sciences

Descriptif de l'employeur

Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieure et de la Recherche. Créé en 1939 et dirigé par des scientifiques, il a pour mission de faire progresser la connaissance et être utile à la société dans le respect des règles d’éthique, de déontologie et d’intégrité scientifique.

Description du poste

Missions :
Les travaux de recherche se situent dans le domaine de l'intelligence artificielle pour les sciences (AI for Science). La mission principale consiste à lever les verrous technologiques liés à la représentation de données scientifiques complexes (graphes, structures 3D, spectres) au sein de modèles de fondation. Le/la postdoctorant(e) devra concevoir des stratégies de "tokenisation" innovantes permettant d'intégrer ces données non-linguistiques dans des architectures de type Transformer, en garantissant la préservation des propriétés géométriques et topologiques.
Activités :
Réaliser un état de l'art sur l'apprentissage de représentations (SSL, Geometric DL) appliqué aux sciences.

Développer et implémenter des algorithmes de tokenisation pour les graphes moléculaires, les structures 3D et les signaux spectraux.

Entraîner et évaluer des modèles de fondation multimodaux sur des clusters de calcul (Jean Zay, CRIAN).

Collaborer avec les experts métier (physiciens, chimistes) pour valider la pertinence scientifique des représentations apprises.

Rédiger des articles scientifiques pour les conférences et revues majeures (NeurIPS, ICML, ICLR, ou revues spécialisées en physique/matériaux).

Présenter les avancées du projet lors de séminaires et conférences internationales.
Contexte de travail :
Le projet s'inscrit dans une collaboration unique entre trois laboratoires de l'Université de Caen / CNRS / ENSICAEN : le GREYC (Sciences du numérique), le CRISMAT (Science des matériaux) et le LPC (Physique subatomique). Le candidat bénéficiera d'un environnement de recherche interdisciplinaire stimulant et d'un accès privilégié à des ressources de calcul intensif locales et nationales (Jean Zay). Le poste est basé à Caen, ville dynamique située à 2h de Paris.

Conditions particulières d'exercice

Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers), en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.

Descriptif du profil recherché

Competences :
Formation : Doctorat en Informatique, Intelligence Artificielle, Mathématiques Appliquées ou Physique/Chimie numérique avec une forte composante ML.

Technique : Maîtrise approfondie du Deep Learning (Transformers, GNNs, Auto-encodeurs).

Programmation : Excellente maîtrise de Python et des frameworks PyTorch ou TensorFlow/JAX.

Outils : Expérience de l'entraînement sur GPU et de la gestion de données volumineuses.

Soft skills : Forte autonomie, curiosité intellectuelle et capacité à communiquer dans un environnement interdisciplinaire.

Langues : Anglais scientifique courant (écrit et oral).
Contraintes et risques :
Manipulation de jeux de données scientifiques hétérogènes et de grande dimension.

Gestion des temps de calcul et optimisation des ressources sur cluster (SLURM).

Déplacements ponctuels pour les réunions de coordination entre les trois laboratoires et pour les conférences.

Respect des règles de sécurité informatique liées à l'accès aux centres de calcul nationaux.

Temps plein

Oui

Rémunération contractuels (en € brut/an)

de 3072€ à 4 439€ brut selon expérience

Pays

Localisation du poste

Europe, France, Normandie, Calvados (14)

Géolocalisation du poste

CAEN

Lieu d'affectation (sans géolocalisation)

14032 CAEN (France)

Critères candidat

Niveau d'études / Diplôme

Niveau 8 Doctorat/diplômes équivalents

Spécialisation

Formations générales

Langues

Français (Seuil)