Mission temporaire OT-29281

Ingénieur-e de développement Python – Écosystème data & IA

31000 Toulouse

Présentation INRAE

L’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 272 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la France. INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l’animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes.

Environnement de travail, missions et activités

Vous exercerez votre activité au sein de l'unité mixte de service « Plateforme des données Recherche Data Gouv ». Recherche Data Gouv est un écosystème national au service des données de la recherche qui offre des outils et des accompagnements aux chercheurs tout au long du cycle de vie de leurs données.

Pleinement intégré(e) à l'équipe d'ingénierie des données fonctionnant en mode Agile Scrum , vous serez un acteur clé pour concevoir, moderniser et faire évoluer une infrastructure technologique à la pointe. Au-delà du catalogue national, le projet intègre un graphe de connaissances, des tableaux de bord et des outils d'analyse avancés.

L'équipe fonctionne en mode Agile Scrum. Le poste requiert une forte capacité à collaborer à distance avec des interlocuteurs répartis sur toute la France.

Mission principale :

Vous assurerez le développement, la maintenance technique et la modernisation profonde du catalogue national des données de la recherche de la plateforme Recherche Data Gouv. Vous serez en charge de faire évoluer les outils technologiques d’ingénierie des données vers des architectures basées sur l'intelligence artificielle et le web sémantique.

Développer et déployer des agents IA (LLM) intégrés aux interfaces afin d’assister les chercheurs pour le dépôt de leurs jeux de données.
Concevoir un moteur de recherche sémantique de nouvelle génération et des outils d'analyse automatisés reposant sur les LLMs et les embeddings pour assister la curation et la validation des données.
Faire évoluer et administrer un graphe de connaissances sur les données de la recherche en exploitant des ontologies et des thésaurus scientifiques pour structurer l'ensemble de l'écosystème.
Architecturer l'articulation technique et l'interopérabilité entre les espaces de stockage des données de la recherche et les environnements de calcul de haute performance.
Implémenter des connecteurs et des protocoles de communication modernes, notamment le protocole MCP (Model Context Protocol), pour lier les LLM aux bases de connaissances locales.`
Intégrer et exploiter le standard Croissant-ML afin de décrire, structurer et distribuer les jeux de données de manière à optimiser leur utilisation directe par les modèles d'apprentissage automatique.
Concevoir les tableaux de bord et les outils d'analyse nécessaires au pilotage de l’ensemble des données de la recherche.
Garantir la qualité, la sécurité et la maintenabilité du code produit (tests, revues de code) au sein d'une équipe fonctionnant en mode Agile Scrum.
Collaborer quotidiennement avec les Product Owners et l'équipe d'ingénierie pour affiner le backlog et valider les fonctionnalités livrées.

Le poste est basé à Toulouse. Il implique une collaboration quotidienne et essentielle avec des interlocuteurs (Product Owners, équipes partenaires, utilisateurs) situés à distance sur l'ensemble du territoire national.

Formations et compétences recherchées

Master/Ingénieur (Bac+5)

Formation recommandée : Formation supérieure en informatique (Bac+5)

Compétences techniques indispensables :

Maîtrise solide du langage Python et de son écosystème de développement.

Compétences souhaitées (un fort intérêt et une volonté de monter en compétences sur ces sujets suffisent) :

Intérêt pour l'exploitation des LLM, notamment open (frameworks d'orchestration, APIs) et les concepts de vectorisation (embeddings).
Sensibilité aux architectures de graphes de connaissances et à la manipulation d'ontologies ou de thésaurus.
Curiosité pour les protocoles modernes d'interopérabilité comme MCP (Model Context Protocol) ou le standard Croissant-ML.
Anglais souhaitable car le travail se fera aussi dans un contexte de recherche européenne

Expérience appréciée : Débutant accepté

Aptitudes recherchées : autonomie, rigueur technique et proactivité dans l'apprentissage de nouvelles technologies. De très bonnes capacités de communication (écrite et orale) sont indispensables pour la collaboration quotidienne au sein d'une équipe répartie à distance.

Télétravail partiel possible jusqu'à 2 jours par semaine.

Votre qualité de vie à INRAE

En rejoignant INRAE, vous bénéficiez (selon le type de contrat et sa durée) :

- jusqu'à 30 jours de congés + 15 RTT par an (pour un temps plein)
- d'un soutien à la parentalité : CESU garde d'enfants, prestations pour les loisirs ;
- de dispositifs de développement des compétences : formation, conseil en orientation professionnelle ;
- d'un accompagnement social : conseil et écoute, aides et prêts sociaux ;
- de prestations vacances et loisirs : chèque-vacances, hébergements à tarif préférentiel ;
- d'activités sportives et culturelles ;
- d'une restauration collective.

Modalités pour postuler

J'envoie mon CV et ma lettre de motivation

Les personnes accueillies à INRAE, établissement public de recherche, sont soumises aux dispositions du Code de la fonction publique notamment en ce qui concerne l’obligation de neutralité et le respect du principe de laïcité. A ce titre, dans l’exercice de leurs fonctions, qu’elles soient ou non au contact du public, elles ne doivent pas manifester leurs convictions, par leur comportement ou leur tenue, qu’elles soient religieuses, philosophiques ou politiques. > En savoir plus : site fonction publique.gouv.fr