Mission temporaire OT-28777
Ingénieur·e d’étude Data / Machine Learning
34000 Montpellier
Retour à la liste des résultats
Présentation INRAE
L’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 272 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la France. INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l’animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes.
Environnement de travail, missions et activités
Contexte
L’environnement alimentaire, social et urbain est aujourd’hui considéré comme un facteur influençant les comportements alimentaires1. Les acteurs des territoires pourraient donc agir sur l’environnement pour encourager des comportements alimentaires durables et favorables à la santé, en améliorant l’accessibilité à l’ensemble de l’offre alimentaire (commerces, restaurants, marchés, points de vente). Cependant, en France, il n’existe à l’heure actuelle aucune base de données fiable disponible à l’échelle nationale permettant de caractériser et spatialiser finement l’environnement alimentaire2.
Un premier travail a été conduit visant à agréger des données issues de différentes sources de données en prenant comme point de départ le répertoire des entreprises Sirene3. Ces données ont pu être agrégées grâce à l’utilisation dans ces bases d’un identifiant unique : le numéro Siret des entreprises. Cependant, ce travail est aujourd’hui incomplet : par exemple de nombreux établissements fermés sont considérés actifs dans cette base. De plus, des caractéristiques et des coordonnées géographiques plus précises sont renseignées dans d’autres bases existantes mais n’utilisant pas le numéro Siret comme identifiant. C’est notamment le cas de la carte collaborative OpenStreetMap. Enfin, certaines formes de distribution alimentaires comme les marchés, les points de distribution des AMAP ne sont pas renseignées dans le répertoire Sirene.
Le projet soulève des enjeux méthodologiques forts en data engineering, en apprentissage automatique et en analyse spatiale : intégration de sources hétérogènes, désambiguïsation d’entités, détection d’erreurs et d’obsolescence, gestion de l’incertitude spatiale. Il vise à produire une base de données réutilisable à long terme, tant pour la recherche que pour l’action publique.
2 https://onlinelibrary.wiley.com/doi/full/10.1111/tgis.13013
3 https://www.sciencedirect.com/science/article/pii/S235234092500575X
Le poste proposé s’inscrit dans ce processus de construction d’une base nationale fiable permettant de caractériser et cartographier l’offre alimentaire. En particulier, il visera à identifier des doublons entre plusieurs bases de données structurées différemment et développer un modèle capable d’identifier les établissements fermés à partir de jeux de données de référence.
Le système produit devra être pérenne robuste et maintenable, conforme à des standards de « qualité production », et non d’une simple preuve de concept. Le livrable devra pouvoir fonctionner de manière fiable et autonome après le départ de l’ingénieur·e d’étude.
Missions principales
Construction de jeux de données de référence (ground truth)
- Conception de stratégies d’extraction multi-sources (API, web scraping, OCR, données terrain)
- Nettoyage, normalisation et documentation de données hétérogènes
- Analyse critique de la qualité, de la complétude et de la fraîcheur des données
Record linkage et désambiguïsation d’établissements
- Développement de méthodes de matching entre bases structurées différemment (Sirene, OpenStreetMap, autres sources)
- Combinaison de règles expertes, de fuzzy matching et de modèles supervisés
- Attribution probabiliste de numéros Siret
Détection automatique d’établissements fermés
- Conception de variables dérivées à partir de sources hétérogènes
- Entraînement et évaluation de modèles supervisés
- Analyse des faux positifs / faux négatifs et interprétabilité des résultats
Industrialisation et pérennisation
- Conception de pipelines reproductibles et maintenables
- Documentation et transfert pour assurer l’autonomie du système
La personne recrutée disposera d’une large autonomie dans les choix méthodologiques et techniques, en lien étroit avec les encadrants scientifiques. Le poste s’adresse à un·e ingénieur·e souhaitant s’investir sur un problème complexe, avec un haut niveau d’exigence sur la qualité des données et du code.
Selon le profil et l’intérêt de la personne recrutée, les travaux pourront donner lieu à des publications scientifiques, communications ou valorisations méthodologiques.
Encadrement scientifique :
La personne recrutée sera sous la supervision de Simon Vonthron, chargé de recherche en géographie à INRAE UMR Innovation, Ghislain Géniaux, chargé de recherche en économétrie spatiale – INRAE UR Ecodéveloppement et Hélène Charreire, directrice de recherche en géographie – INRAE UMR MoISA.
Des déplacements ponctuels à Avignon (pris en charge par INRAE) seront à prévoir pour travailler avec le co-encadrant du projet.
Lieu du poste :
UMR Innovation, Bâtiment 27, Campus de la Gaillarde Centre INRAE Montpellier-Occitanie
2 place Pierre Viala, Montpellier
Formations et compétences recherchées
‐ Niveau d’étude et type de formation : Bac +5 en école d'ingénieurs, université ou équivalent avec une spécialisation en Data Science, Mathématiques Appliquées ou Informatique
‐ Très bonne maîtrise de Python ou R pour la data science et le machine learning
‐ Solide expérience en data engineering : pipelines reproductibles, gestion de données hétérogènes, SQL
‐ Expérience concrète en machine learning supervisé appliqué à des données réelles et imparfaites
‐ Intérêt marqué pour :
- la qualité des données
- le record linkage / entity resolution
‐ La maîtrise de PostGIS ou de techniques d’OCR constitue un atout fort
‐ Aptitude à travailler de façon itérative et utilisant un système de versionnement de code (Git)
Votre qualité de vie à INRAE
En rejoignant INRAE, vous bénéficiez (selon le type de contrat et sa durée) :
- jusqu'à 30 jours de congés + 15 RTT par an (pour un temps plein)
- d'un soutien à la parentalité : CESU garde d'enfants, prestations pour les loisirs ;
- de dispositifs de développement des compétences : formation, conseil en orientation professionnelle ;
- d'un accompagnement social : conseil et écoute, aides et prêts sociaux ;
- de prestations vacances et loisirs : chèque-vacances, hébergements à tarif préférentiel ;
- d'activités sportives et culturelles ;
- d'une restauration collective.
Télétravail et congé :
https://jobs.inrae.fr/actualites/conges-horaires
https://guide-accueils-internationaux.inrae.fr/venir-a-inrae/chercheur-contractuel-a-inrae/connaitre-vos- conditions-de-travail-avantages/
Modalités pour postuler
J'envoie mon CV et ma lettre de motivation
Les personnes accueillies à INRAE, établissement public de recherche, sont soumises aux dispositions du Code de la fonction publique notamment en ce qui concerne l’obligation de neutralité et le respect du principe de laïcité. A ce titre, dans l’exercice de leurs fonctions, qu’elles soient ou non au contact du public, elles ne doivent pas manifester leurs convictions, par leur comportement ou leur tenue, qu’elles soient religieuses, philosophiques ou politiques. > En savoir plus : site fonction publique.gouv.fr