Stage OT-27600
Stage M2 : Apprentissage par renforcement observationnel
31320 Castanet-Tolosan
Retour à la liste des résultats
Présentation INRAE
L’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 272 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la France. INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l’animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes.
Le stage se déroulera au sein de l'unité MIAT (Mathématiques et Informatique Appliquées de Toulouse).
Vous serez encadré par Meritxell Vinyals, Léo Saulières et Régis Sabbadin (MIAT, INRAE, Toulouse), dont les sujets de recherche gravitent autour de l’apprentissage par renforcement.
Environnement de travail, missions et activités
Nous considérons l’apprentissage comme l’amélioration des performances à travers l’expérience. Les expériences directes sont celles que l’apprenant acquiert par ses propres interactions avec l’environnement. Les expériences indirectes, quant `a elles, proviennent de l’observation d’autres individus interagissant dans ce même environnement.
D’un côté, l’apprentissage par observation (AO) [BRH11] – apprendre en observant le comportement d’autres agents dans le même environnement – permet aux humains et aux animaux de découvrir des comportements utiles qui seraient difficiles à acquérir par l’exploration individuelle, et de s’adapter rapidement à de nouvelles circonstances. De l’autre, l’apprentissage par renforcement (AR) [SB18] est un paradigme dans lequel un agent apprend à interagir avec un environnement afin de maximiser un signal de récompense en élaborant une politique de décision. La combinaison de ces deux approches, appelée apprentissage par renforcement observationnel (ARO), constitue un champ de recherche ´émergeant [BPMP17, NELJ21]. L’ARO vise à apprendre des politiques d’AR en exploitant les observations des actions d’autres agents dans l’environnement. Cependant, ce domaine manque encore de benchmarks standardisés permettant de tester et de comparer les algorithmes existants.
L’objectif principal de ce stage est donc de concevoir un benchmark pour l’apprentissage par renforcement observationnel. Ce benchmark sera développé en Python avec l’API Gymnasium (https://gymnasium.farama.org), dédiée à la création d’environnements de simulation pour le développement et l’évaluation d’algorithmes d’apprentissage par renforcement. Un second objectif consistera `a implémenter et évaluer des stratégies simples (heuristiques) ainsi que des algorithmes existants dans ce benchmark.
Objectifs du stage :
— Réaliser une revue de la littérature sur l’apprentissage par renforcement observationnel.
— Concevoir et implémenter un benchmark dédié`a l’ARO en utilisant l’API Gymnasium.
— Implémenter et évaluer des stratégies simples (heuristiques) et des algorithmes d’ARO existants dans ce benchmark.
Références :
[BPMP17] Diana Borsa, Bilal Piot, R´emi Munos, and Olivier Pietquin. Observational learning by reinforcement learning. arXiv preprint arXiv :1706.06617, 2017.
[BRH11] Robert Boyd, Peter J Richerson, and Joseph Henrich. The cultural niche : Why social learning is essential for human adaptation. Proceedings of the National Academy of Sciences, 108(supplement 2) :10918–10925, 2011.
[NELJ21] Kamal K Ndousse, Douglas Eck, Sergey Levine, and Natasha Jaques. Emergent social learning via multi-agent reinforcement learning. In International conference on machine learning, pages 7991–8004. PMLR, 2021.
[SB18] Richard S. Sutton and Andrew G. Barto. Reinforcement Learning : An Introduction. The MIT Press, second edition, 2018.
Formations et compétences recherchées
— Connaissances en apprentissage par renforcement.
— Expérience en programmation Python.
— Autonomie et capacité de travail en équipe, de rédaction, de synthèse.
— Des compétences en développement collaboratif (utilisation de GIT, tests unitaires, documentation...) sont un plus, même si elles pourront être acquises pendant le stage.
Votre qualité de vie à INRAE
En rejoignant INRAE, vous bénéficiez (selon le type de contrat et sa durée) :
- jusqu'à 30 jours de congés + 15 RTT par an (pour un temps plein)
- d'un soutien à la parentalité : CESU garde d'enfants, prestations pour les loisirs ;
- de dispositifs de développement des compétences : formation, conseil en orientation professionnelle ;
- d'un accompagnement social : conseil et écoute, aides et prêts sociaux ;
- de prestations vacances et loisirs : chèque-vacances, hébergements à tarif préférentiel ;
- d'activités sportives et culturelles ;
- d'une restauration collective.
Modalités pour postuler
J'envoie mon CV et ma lettre de motivation
Les personnes accueillies à INRAE, établissement public de recherche, sont soumises aux dispositions du Code de la fonction publique notamment en ce qui concerne l’obligation de neutralité et le respect du principe de laïcité. A ce titre, dans l’exercice de leurs fonctions, qu’elles soient ou non au contact du public, elles ne doivent pas manifester leurs convictions, par leur comportement ou leur tenue, qu’elles soient religieuses, philosophiques ou politiques. > En savoir plus : site fonction publique.gouv.fr