Stage OT-27395
Imputation de données de séquençage low-pass dans des pedigrees génotypés
31326 CASTANET TOLOSAN
Retour à la liste des résultats
Présentation INRAE
L’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 272 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la France. INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l’animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes.
Environnement de travail, missions et activités
Vous serez accueilli(e) au sein du laboratoire de recherche GenPhySE (Génétique, Physiologie et Systèmes d’Elevage), sur le campus INRAE de Toulouse à Auzeville, dans l’équipe Chamade.
Contexte et objectifs
Le génotypage précis de grandes cohortes d’individus est essentiel pour mener des études d’association avec des traits phénotypiques ou reconstituer l’histoire évolutive de populations. Pour cela, le génotypage par puce SNP représente une solution abordable comparativement au séquençage tout génome, mais limitée à un ensemble restreint de variants pré-sélectionnés. Une approche plus récente, le séquençage à faible profondeur (“low-pass”), consiste à séquencer un grand nombre d’individus avec une couverture très faible (Lou et al. 2021). Bien que la qualité du génotypage par individu soit moindre, l’utilisation de méthodes d’imputation permet d’obtenir un génotypage de haute résolution à un coût compétitif par rapport aux puces de génotypage, ce qui en fait une stratégie particulièrement adaptée aux études génomiques de grande envergure. Cette approche exige toutefois des algorithmes spécialisés et une puissance de calcul importante.
Des méthodes se sont spécialisées dans l’imputation de ce type de données (Davies et al. 2016; Browning and Yu 2009; Rubinacci et al. 2021). Sur ces méthodes, une pipeline d’imputation ainsi qu’un benchmark a été développé (Guyomar et al. 2025) dans le laboratoire sur un jeu de données réel de de 1 050 porcs issus de 12 fondateurs, dont les données de séquençage ont été sous-échantillonnées à différentes profondeurs. Les résultats montrent de très bonne performances même à très faible profondeur, mais les ressources en calculs et en stockage sont extremement élevés. De plus, l’information du pedigree qui est disponible dans nos données entre les individus n’est jamais prise en compte pendant l’imputation.
Au court de ce stage, nous proposons d’implémenter une méthode bien connue de la littérature, le peeling (Kerr and Kinghorn 1996; Fernando, Stricker, and Elston 1993), permettant d’estimer les probabilités génotypiques de chaque membre d’un pedigree en prenant en compte l’ensemble des relations de parenté. Cette méthode intègre également l’incertitude liée au séquençage et offrirait ainsi la possibilité d’exploiter l’information du pedigree pour imputer des données de séquençage low-pass.
La technique du peeling s’appplique à chaque polymorphisme de manière indépendante. Pour pouvoir considérer l’ensemble des polymorphismes de manière conjointe, elle sera donc intégrée dans un deuxième temps à un outil d’estimation des transmissions d’haplotypes dans un pedigree génotypé développé au sein du laboratoire (Servin 2025). Il faudra alors évaluer dans quelle mesure ceci permet d’améliorer la qualité de l’imputation et constituer une alternative viable, moins coûteuse, aux méthodes actuelles reposant sur l’association entre données de puces de génotypage et information de pedigree, grâce à l’utilisation du séquençage low-pass.
Au cours de ce stage, le/la stagiaire aura l’occasion de se former à l’analyse statistique de données génétiques en grande dimension, à la programmation python pour le calcul scientifique (NumPy, Dask) et à l’optimisation de l’execution de programmes de calcul intensif sur un cluster de calcul notamment en utilisant des systèmes de gestion de pipeline de traitement de données (Nextflow, snakemake, conda).
Browning, Brian L., and Zhaoxia Yu. 2009. “Simultaneous Genotype Calling and Haplotype Phasing Improves Genotype Accuracy and Reduces False-Positive Associations for Genome-Wide Association Studies.” American Journal of Human Genetics 85 (6): 847–61. https://doi.org/10.1016/j.ajhg.2009.11.004.
Davies, Robert W., Jonathan Flint, Simon Myers, and Richard Mott. 2016. “Rapid Genotype Imputation from Sequence Without Reference Panels.” Nature Genetics 48 (8): 965–69. https://doi.org/10.1038/ng.3594.
Fernando, R. L., C. Stricker, and R. C. Elston. 1993. “An Efficient Algorithm to Compute the Posterior Genotypic Distribution for Every Member of a Pedigree Without Loops.” Theoretical and Applied Genetics 87 (1): 89–93. https://doi.org/10.1007/BF00223750.
Guyomar, Cervin, Denis Milan, Christophe Klopp, Cécile Donnadieu, Bertrand Servin, and Julie Demars. 2025. “Evaluating low-pass genotyping strategies using PARSEC, a scalable and modular Nextflow pipeline.” Intelligent Systems for Molecular Biology/European Conference on Computational Biology. https://hal.inrae.fr/hal-05163312.
Kerr, R. J., and B. P. Kinghorn. 1996. “An Efficient Algorithm for Segregation Analysis in Large Populations.” Journal of Animal Breeding and Genetics 113 (1–6): 457–69. https://doi.org/10.1111/j.1439-0388.1996.tb00636.x.
Vous serez plus particulièrement en charge de :
• Travailler sur l’implémentation python de la méthode du peeling et tester son bon fonctionnement.
• Intégrer cette implémentation au package python existant proposant l’estimation des haplotypes (phasage).
• Appliquer la méthode au benchmark existant.
• Intégrer ce benchmark à la pipeline existante.
Formations et compétences recherchées
Formation recommandée : Bioinformatique, statistique, génétique, data-science
Connaissances souhaitées : Programmation python (expérience en calcul scientifique bienvenue), Bash
Votre qualité de vie à INRAE
En rejoignant INRAE, vous bénéficiez (selon le type de contrat et sa durée) :
- jusqu'à 30 jours de congés + 15 RTT par an (pour un temps plein)
- d'un soutien à la parentalité : CESU garde d'enfants, prestations pour les loisirs ;
- de dispositifs de développement des compétences : formation, conseil en orientation professionnelle ;
- d'un accompagnement social : conseil et écoute, aides et prêts sociaux ;
- de prestations vacances et loisirs : chèque-vacances, hébergements à tarif préférentiel ;
- d'activités sportives et culturelles ;
- d'une restauration collective.
Modalités pour postuler
J'envoie mon CV et ma lettre de motivation
Les personnes accueillies à INRAE, établissement public de recherche, sont soumises aux dispositions du Code de la fonction publique notamment en ce qui concerne l’obligation de neutralité et le respect du principe de laïcité. A ce titre, dans l’exercice de leurs fonctions, qu’elles soient ou non au contact du public, elles ne doivent pas manifester leurs convictions, par leur comportement ou leur tenue, qu’elles soient religieuses, philosophiques ou politiques. > En savoir plus : site fonction publique.gouv.fr