v1.14
Next release corresponding to different improvements of the workflow :
1 Contexte scientifique
Une collection complète de génomes divers et hautement précis est essentielle pour une compréhension approfondie de la variation génétique chez les animaux et les plantes d’intérêt agronomique. Grâce aux avancées dans les technologies de séquençage et de calcul, ces dernières années ont vu émerger de nombreux projets de séquençage de génomes végétaux et animaux, ainsi que des études dédiées à l’analyse de la diversité des individus au sein d’une même espèce. En parallèle, le concept de pan-génome a été établi comme une approche de référence pour représenter et interroger la diversité génomique au sein des espèces eucaryotes, offrant des avantages significatifs par rapport aux génomes de référence linéaires traditionnels. Ces avantages incluent une meilleure diversité des séquences, un taux plus élevé d’alignement des lectures et une représentation améliorée des variations génomiques à la fois à petite et à grande échelle. Les études récentes sur les pan-génomes végétaux et animaux ont conduit à des découvertes majeures, telles qu’un taux élevé de variabilité du contenu génétique dans chaque espèce étudiée et l’identification de variations associées à la tolérance au stress et à l’adaptation environnementale.
Avec la baisse des coûts de séquençage et l’essor des technologies de séquençage à longues lectures, il est désormais possible d’obtenir des assemblages de génomes de haute qualité et continus, avec une résolution fine des régions répétées et autres régions non codantes. Ces avancées permettent d’aller au-delà des études classiques de pan-génomes, qui se concentraient principalement sur les différences de contenu en gènes codants. Dans ce contexte, les graphes de séquence des pan-génomes, qui intègrent l’alignement mutuel de nombreux génomes, émergent comme des modèles efficaces pour intégrer plusieurs génomes d’une même espèce. Cependant, les méthodes actuelles de construction de ces graphes étant encore en cours de développement, il n’est pas encore clair comment ces modèles évoluent avec l’augmentation du volume et de la diversité des données génomiques. Au cours des cinq dernières années, deux méthodes se sont révélées particulièrement efficaces pour construire des graphes de pan-génomes à partir de collections d’assemblages de génomes complets chez différentes espèces végétales et animales : Minigraph-Cactus et PGGB.
La question de l’accessibilité d’une représentation intégrée aux biologistes, notamment via la visualisation et l’interrogation des données, reste un défi ouvert que nous avons proposé d’explorer dans le cadre du projet BReIF. Nous avons évalué les méthodes les plus avancées pour la génération de graphes de pan-génomes en considérant leurs limites pour intégrer, visualiser et interroger des populations de génomes ou de séquences intra-espèces selon différents critères, notamment la taille et le nombre d’assemblages de génomes, la polyploïdie, la présence de régions répétées, ainsi que le nombre et la nature des variantes intra-espèces.
En réponse à ces défis, nous avons développé Pan1c et Pan1c-view, un service dédié à la production de graphes de pan-génomes à l’aide des approches les plus avancées, permettant d’explorer la diversité intra-espèce. Pan1c est un workflow Snakemake qui simplifie la création de pan-génomes en se concentrant sur la comparaison de chromosomes similaires, en utilisant soit PGGB, soit Minigraph-Cactus. Un graphe de pan-génome est d’abord généré individuellement pour chaque chromosome, avant que ces pan-génomes à l’échelle du chromosome ne soient concaténés en un graphe final, réduisant ainsi le temps de construction grâce à la parallélisation et facilitant l’interprétation ainsi que les analyses ultérieures. Tout au long du processus, divers graphiques et statistiques sont produits pour aider les utilisateurs à évaluer la qualité du graphe de pan-génome et à interpréter les résultats. L’ensemble de ces visualisations et statistiques est accessible via une page web générée par Pan1c-view.
Le workflow est fonctionnel, développé par Alexis MERGEZ pour son usage personnel. Pan1c s'est révélé d'intérêt pour le PEPR BReIF, il mérite donc d'être maintenu et amélioré pour faciliter son utilisation et sa diffusion.
2 Description de la demande
Amélioration des vérifications des données utilisateur en entrée, renommage automatique des haplotypes et génération automatique des fichiers d'exécutions. La restructuration des données en entrée permettrait de ne pas exécuter ragtag, ce qui permettrait de diminuer le temps d'exécution, en particulier sur les grands jeux de données.
3 Organisation
3.1 Planning
Début janvier 2025 : Implémentation des fonctionnalités de contrôle des fichiers en entrée et des fonctions de base pour la prise en charge des données
Mi-janvier 2025 : Ajout de la fonctionnalité de désactivation de ragtag pour accélérer l'exécution du workflow.
Fin janvier : vérifier fonctionnalité avec données test et ajout de fonctionnalité manquante si suggestion, écriture wiki.
3.2 Personnes
Implémentation : Martin
Tests et revue du code : Martin, Alexis et/ou Christophe et/ou Fabrice et/ou Christine
4. Échéancier
voir planning
5 Critères de validation
Jeux de test validés, facilité d'utilisation
Test du pipeline : Alexis et/ou Christophe et/ou Fabrice
6 Bilans et modifications du planning et des ressources
Réunion du 03/02/2025
Les fonctionnalités ont été ajoutées, un tag a été créé, les tests sont toujours en cours avec Christophe K. et Fabrice L., la date de livraison a été repoussée pour permettre la validation et l'ajout de fonctionnalités qui pourront être suggérées à l'utilisation. Nouvelle date de fin 01/04/2025.
Pas de changement de ressources