• Aucun résultat trouvé

Les outils technologies pour étudier l’androgenèse à l’ère des « omics »

Le transcriptome est l'ensemble complet de tous les ARN transcrits d’une cellule ou d’un tissu donné à un stade de développement donné (ou une condition physiologique spécifique) pour un temps donné (Wang et al. 2009; McGettigan 2012). C’est en quelque sorte une image ponctuelle de la transcription du génome et variable selon les précédents paramètres. Chaque transcriptome est unique contrairement au génome qui est invariable (excluant les variations épigénétiques). Dans la pratique, les scientifiques étudient rarement (à savoir jamais) l’ensemble complet des ARN d’une cellule. Les analyses transcriptomiques réfèrent habituellement à une catégorie d’ARN.

Différentes catégories d’ARN s’observent chez les plantes. Dans le cadre de ma thèse, je m’intéresse à la catégorie des ARN codants. L’ARN codant (ou ARNm

désignant ARN messager) réfère à une copie de l’ADN d’un gène guidant la synthèse des protéines. C’est historiquement la catégorie d’ARN la plus étudiée. Divers objectifs motivent l’analyse des ARNm. À titre d’exemple, l’analyse de l’ARNm peut viser les deux objectifs suivants : (i) décrire le transcriptome spécifique d’une cellule ou (ii) comparer le transcriptome de la cellule à deux stades de développement spécifiques pour identifier les gènes différemment exprimés. Diverses approches méthodologiques ont été développées pour analyser les ARN ces trois dernières décennies. À l’ère des « omics », le séquençage de l’ARN (ARN-seq) s’impose. Par rapport aux précédentes méthodes, celle-ci offre deux avantages importants, soit (i) d’élucider le transcriptome d’un organisme sans connaissance préalable du génome ou du transcriptome et (ii) de permettre la mesure précise de l’abondance des gènes exprimés et leur changement d’abondance entre deux conditions sans aucune limite d’amplitude (Wang et al. 2009). Dans le cadre de cette thèse, sans entrer dans les détails techniques, j’exposerai les critères importants à considérer dans les choix technologiques pour utiliser le séquençage pour les études des ARNm. Une analyse ARN-seq comporte trois étapes importantes, à savoir, la préparation des librairies, le séquençage et l’analyse des données. Pour préparer les librairies, l’idée consiste à capturer seulement les ARNm. Les ARNm représentent cependant qu’une toute petite fraction de tous les ARN exprimés dans une cellule. La fraction des ARN ribosomiques prédomine largement. Une étape clé repose sur l’enrichissement des ARNm ou la déplétion des ARN ribosomiques. Il semble que pour le rapport qualité et coût, l’approche d’enrichissement des ARNm soit la meilleure approche chez les plantes. Cette approche repose sur une particularité de la molécule d’ARNm. L’ARNm mature se caractérise par ses extrémités 5’ et 3’ où une coiffe méthylée et une queue polyadénylée (polyA) sont observés respectivement. L’approche d’enrichissement repose sur la capture des ARNm par la queue polyA à l’aide de billes munies d’oligos polyA permettant de capturer les ARNm polyadénylés par enrichissement. Ensuite, l’objectif consiste à construire des librairies d’ADN complémentaire fragmenté à une taille de 300-500 pb et séquencer ces fragments sur un séquenceur de nouvelle génération comme les

appareils Illumina. L’ARN-seq avec le séquenceur Illumina apporte certains avantages comme (i) un faible taux d’erreur de lecture (ii) la capacité de séquencer les deux extrémités de la molécule (de l’anglais « paired-reads ») (iii) les outils bio- informatiques sont nombreux et très bien développés (iv) un débit de séquençage inégalable et (v) un coût relativement faible. Les analyses ARN-seq sont habituellement faites sur un nombre de répétitions biologique > 3 pour des fins de reproductibilité et d’analyse statistique. La profondeur de séquençage dépend habituellement de la finalité de l’objectif de recherche. Pour une analyse courante visant l’identification des gènes différemment exprimés, le séquençage > 10 millions de séquences par échantillon semble courant. Lorsque les budgets de recherche le permettent, il semble avisé de maximiser le nombre de répétitions biologiques, la profondeur de séquençage par échantillon et l’usage du séquençage paired-reads.

Un large choix de programmes informatiques existe pour analyser les données de séquençage. Un bon programme d’analyse répond aux critères suivants : (i) gratuit et ouvert (ii) facile d’usage (iii) peu exigeant en ressources informatiques de calcul et de stockage des données (iv) les programmeurs offrent un support lorsque nécessaire et (v) référencé dans la littérature scientifique. La première étape d’analyse consiste à reconstruite les transcrits exprimés. Cette séquence d’ARNm pleine longueur est déterminée par l’assemblage des fragments d’ADN complémentaire séquencés soit par 1) l’alignement des séquences sur le génome de référence ou par 2) l’assemblage de novo des séquences d’ADN complémentaire chevauchantes. La première approche est à privilégier chez l’orge en raison de la disponibilité et de la qualité du génome assemblé. Beaucoup de programmes d’alignement de séquences sont disponibles comme Tophat2 (Kim et al. 2013), Hisat2 (Kim et al. 2015) et STAR (Dobin et al. 2013). Hisat2 semble être un outil performant pour l’alignement des séquences ARN-seq sur le génome de référence guidé par le transcriptome. Pour une analyse d’expression, l’étape suivante vise à dénombrer le nombre de séquences alignées sur les gènes et procéder à l’analyse d’expression différentielle. Deux options sont possibles. L’analyse peut s’effectuer à la résolution du gène ou du transcrit lorsque les

variants d’épissage nous intéressent. Pour mon cas d’étude, l’option de la quantification à la résolution du gène permettra de répondre aux objectifs. Ici encore, plusieurs programmes existent. Les programmes HTSeq (Anders et al. 2014) et edgeR (Robinson et Oshlack 2010 ; Robinson et al. 2010) semblent de bons programmes pour quantifier et mesurer les changements d’expression respectivement. Tous deux semblent reconnus par la communauté scientifique et ils sont abondamment cités dans la littérature.

Dans la mesure où aucun assemblage de novo n’est fait, il n’est pas nécessaire de procéder à une annotation fonctionnelle pour l’orge. L’annotation fonctionnelle est disponible. Comme mentionné précédemment, l’information est disponible sur Phytozome v12. L’outil BioMart est un outil permettant d’accéder facilement à une myriade d’informations utiles. Cette information est facilement accessible et peut être personnalisée autant pour la liste de gènes de la requête que pour l’information recherchée.

1.5.2 L’étude de l’ADN

Les marqueurs moléculaires sont de puissants outils pour suivre la transmission des allèles dans une population. Mesurer la fréquence des allèles permet d’évaluer la présence, l’ampleur et l’emplacement de la DS dans une population HD. À l’ère des technologies « omics », nous pouvons mettre en évidence les polymorphismes d’un seul nucléotide (SNP, « single-nucleotide polymorphism ») rapidement et à très faible coût, et ce à l’échelle génomique (Sonah et al. 2013). Les approches de réduction de complexité sont parfaitement adaptées pour découvrir des SNP chez l’orge. L’idée maîtresse consiste à réduire la complexité des génomes à l’aide des enzymes de restriction et de séquencer une fraction du génome. Les enzymes de restriction permettent d’accéder à l’ensemble du génome avec facilité, précision et reproductibilité. Avec les enzymes de restriction appropriées, nous pouvons générer de nombreuses séquences provenant de loci distribués uniformément sur le génome chez un grand nombre d’individus à la fois. Différentes méthodes ont été développées comme le: (i) « reduced-representation library » (RRL; Altshuler et al. 2000) (ii) « restriction site-associated DNA sequencing » (RAD-Seq; Baird et

al. 2008) et (iii) « genotyping-by-sequencing » (GBS; Elshire et al. 2011). Le GBS se distingue par sa rapidité, sa reproductibilité, sa grande couverture du génome, son coût faible et la faible quantité d’ADN nécessaire (Elshire et al. 2011). Les grandes étapes du GBS sont: (i) la préparation des librairies de fragments d’ADN (ii) le séquençage des librairies et (iii) l’appel des SNP.

Le GBS a été mis au point chez le maïs et l’orge par Elshire et al. (2011) en utilisant l’enzyme ApeKI pour diriger la digestion enzymatique. Le protocole original a été modifié par Poland et al. (2012), lesquels ont opté pour l’utilisation du couple d’enzyme PstI-MspI. Cette combinaison permet de (i) créer des fragments d’une taille de 200 à 400 pb, (ii) couvrir l’ensemble du génome et (iiii) réduire la fréquence de coupe avec pour effet d’augmenter la couverture en séquençage des fragments. Diverses technologies peuvent être utilisées pour séquencer les librairies GBS. Les séquenceurs Illumina offrent une technologie appropriée. La parallélisation de ce séquenceur permet le séquençage des librairies GBS pour un grand nombre d’individus à la fois. L’identification des SNP dépend de la disponibilité d’un génome de référence. Lorsqu’un génome de référence est disponible et de bonne qualité, les SNP peuvent être découverts par l’alignement des séquences sur la carte physique du génome (Lu et al. 2013). Des programmes d’analyses ont été développés à cette fin comme les programmes TASSEL (Bradbury et al. 2007 ; Glaubitz et al. 2014), Stacks (Catchen et al. 2013) ou IGST (Sonah et al. 2013). Lorsque le génome est non assemblé ou incomplètement assemblé, des programmes comme UNEAK (Lu et al. 2013) ou Stacks permettent la découverte des SNP sans génome de référence. L’idée maîtresse est d’aligner les séquences GBS au sein d’une population/collection de lignées et faire l’appel des variants SNP observés dans ce groupe de séquences plutôt que par l’alignement sur le génome de référence comme par l’approche conventionnelle. Permettant de caractériser la diversité allélique pour un nombre important de SNP en parallèle, le GBS s’avère intéressant pour de nombreux champs d’études (en biologie, en écologie ou en agriculture). L’approche conventionnelle consiste à fabriquer les librairies GBS, les séquencer et faire l’appel des SNP pour chaque

individu composant une population. La fréquence allélique peut ensuite se calculer par le nombre d’individus partageant l’un ou l’autre des deux allèles à un SNP donné dans la population. Cette approche devient rapidement laborieuse à exécuter et fort coûteuse lorsqu’un grand nombre d’individus compose une ou plusieurs populations (Zhu et al. 2012). Une alternative est la mesure de la fréquence allélique à l’échelle populationnelle. Posons qu’une population est composée de 500 individus. Cette approche vise à mélanger les tissus foliaires des 500 individus pour en tirer un seul échantillon d’ADN, fabriquer une seule librairie GBS et faire l’appel des SNPs au sein de cet échantillon. L’idée est de caractériser la population comme si elle ne formait qu’un seul échantillon. Ainsi, la fréquence allélique est mesurée non pas par le nombre d’individus qui partagent l’un ou l’autre des allèles, mais plutôt sur la base du nombre de séquences partageant l’un ou l’autre des allèles à un SNP donné. Au-delà du fait de réduire drastiquement le coût des expériences, cette alternative expérimentale permet l’étude d’échantillons pour lesquels la quantité d’ADN est insuffisante par l’approche conventionnelle. La microspore d’orge, une cellule unique, en est un bon exemple. Cette approche a été utilisée chez certaines espèces comme la vache (Bos taurus L.; Van Tassell et al. 2008), la mouche du vinaigre (Drosophila melanogaster; Turner et al. 2011; Zhu et al. 2012) ou le ray-grass anglais (Lolium perenne L.; Byrne et al. 2013). La validation de la méthode reste à faire. À l’échelle d’un génome, la corrélation entre la fréquence allélique mesurée (à partir de lignées individuelles) et estimée (à partir du nombre de séquences chez des échantillons en composite) n’a pas été validée. Aussi, la reproductibilité de la fréquence allélique estimée chez plus d’une répétition n’a pas été vérifiée. Enfin, l’approche méthodologie reste à développer chez des populations HD.

Documents relatifs