Stage OT-27602
Stage M2 : Apprentissage par renforcement pour de la robotique frugale
31320 Castanet-Tolosan
Retour à la liste des résultats
Présentation INRAE
L’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 272 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la France. INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l’animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes.
Le stage se déroulera au sein de l'unité MIAT (Mathématiques et Informatique Appliquées de Toulouse).
Vous serez encadre´ par Léo Saulières, Meritxell Vinyals, Régis Sabbadin (MIAT, INRAE, Toulouse) et Johann Laconte (TSCF, INRAE, Clermont-Ferrand), dont les sujets de recherche gravitent autour de l’apprentissage par renforcement et la robotique mobile.
Environnement de travail, missions et activités
L’adoption croissante de la robotique agricole a motivé la recherche sur des systèmes autonomes capables d’effectuer des interventions ciblées dans les champs. Parmi celles-ci, la détection et l’élimination des mauvaises herbes constituent un défi majeur, car celles-ci représentent une source importante de pertes de récoltes et leur gestion a un impact direct sur le rendement, le coût et la durabilité´ environnementale. Une piste prometteuse consiste à apprendre ou à modéliser la distribution spatio-temporelle des mauvaises herbes, de manière `a ce que les décisions robotiques puissent s’appuyer sur une représentation sous-jacente de la façon dont les mauvaises herbes apparaissent et évoluent au fil du temps.
Le déploiement d’un robot pour surveiller un environnement agricole entraîne des coûts non négligeables, tant en termes de consommation d’énergie que de temps. La surveillance continue de l’ensemble du champ n’est donc pas pratique, ce qui nécessite des agents décisionnels qui déterminent quand le robot doit être activé et quelles sous-régions du champ doivent être inspectées. L’objectif n’est pas de maintenir une carte complète et `a jour de la présence de mauvaises herbes, mais plutôt d’acquérir suffisamment d’informations pour guider les opérations de désherbage sélectif. En concentrant les interventions uniquement là où elles sont nécessaires, le système peut assurer un contrôle efficace des mauvaises herbes tout en minimisant le déploiement et les déplacements inutiles du robot. Bien que des méthodes d’exploration actives aient été proposées en robotique, celles-ci ne prennent pas en compte le compromis entre prise d’information et un coût antagoniste comme la consommation d’énergie [HWS24]. En effet, le but final n’est pas d’avoir la carte la plus précise possible (e.g., [PHN+16]), mais d’optimiser la santé du champ agricole tout en minimisant l'énergie et le temps consommé par le robot.
Pour répondre à cette problématique, l’apprentissage par renforcement (AR) semble pertinent. L’AR est un paradigme dans lequel un agent évolue au sein d’un environnement au travers d’actions. Dans ce problème de prise de décision séquentielle, l’objectif de l’agent est de maximiser une récompense en apprenant une politique. Dans la problématique du stage, l’AR sera utilisé, dans un premier temps, pour apprendre une politique de prise d’information parcimonieuse de l’état du champ. Dans un second temps, l’AR sera utilise´ pour apprendre une politique déterminant quand et dans quelle sous-région du champ le robot doit effectuer une opération de désherbage. L’implémentation de l’environnement ainsi que d’algorithmes d’AR s’effectuera au travers des librairies Gymnasium [TKT+24] et RLlib [WLL+21].
Objectifs du stage :
— Effectuer une brève revue de la littérature.
— Développer un algorithme d’apprentissage par renforcement pour répondre à la problématique.
— Implémenter et évaluer l’algorithme sur une simulation de robot évoluant dans un champ à désherber.
Références :
[HWS24] Nicholas Harrison, Nathan Wallace, and Salah Sukkarieh. Automated testing of spatially-dependent environmental hypotheses through active transfer learning. In 2024 IEEE International Conference on Robotics and Automation (ICRA), pages 17941–17947. IEEE, 2024.
[PHN+16] Marija Popovic, Gregory Hitz, Juan I. Nieto, Inkyu Sa, Roland Y. Siegwart, and Enric Galceran. Online informative path planning for active classification using uavs. 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 5753–5758, 2016.
TKT+24] Mark Towers, Ariel Kwiatkowski, Jordan Terry, John U Balis, Gianluca De Cola, Tristan Deleu, Manuel Goul˜ao, Andreas Kallinteris, Markus Krimmel, Arjun KG, et al. Gymnasium : A standard interface for reinforcement learning environments. arXiv preprint arXiv :2407.17032, 2024.
WLL+21] Zhanghao Wu, Eric Liang, Michael Luo, Sven Mika, Joseph E. Gonzalez, and Ion Stoica. RLlib flow : Distributed reinforcement learning is a dataflow problem. In Conference on Neural Information Processing Systems (NeurIPS), 2021.
Formations et compétences recherchées
— Connaissances en apprentissage par renforcement.
— Expérience en programmation Python.
— Autonomie et capacité de travail en équipe, de rédaction, de synthèse.
— Des compétences en développement collaboratif (utilisation de GIT, tests unitaires, documentation...) sont un plus, même si elles pourront être acquises pendant le stage.
Votre qualité de vie à INRAE
En rejoignant INRAE, vous bénéficiez (selon le type de contrat et sa durée) :
- jusqu'à 30 jours de congés + 15 RTT par an (pour un temps plein)
- d'un soutien à la parentalité : CESU garde d'enfants, prestations pour les loisirs ;
- de dispositifs de développement des compétences : formation, conseil en orientation professionnelle ;
- d'un accompagnement social : conseil et écoute, aides et prêts sociaux ;
- de prestations vacances et loisirs : chèque-vacances, hébergements à tarif préférentiel ;
- d'activités sportives et culturelles ;
- d'une restauration collective.
Modalités pour postuler
J'envoie mon CV et ma lettre de motivation
Les personnes accueillies à INRAE, établissement public de recherche, sont soumises aux dispositions du Code de la fonction publique notamment en ce qui concerne l’obligation de neutralité et le respect du principe de laïcité. A ce titre, dans l’exercice de leurs fonctions, qu’elles soient ou non au contact du public, elles ne doivent pas manifester leurs convictions, par leur comportement ou leur tenue, qu’elles soient religieuses, philosophiques ou politiques. > En savoir plus : site fonction publique.gouv.fr