• Aucun résultat trouvé

Les diérentes méthodes d'analyse

Nous avons détaillé dans le chapitre précédent les caractéristiques moléculaires des microsatel- lites, et les diérentes dénitions que l'on pouvait en donner. Qu'ils soient mono ou dinucléotidiques, parfaits ou imparfaits, courts ou longs, l'intérêt principal qui est porté à ces séquences est lié à leur forte variabilité en taille dans une population. La communauté scientique a donc très tôt cherché à comprendre les mécanismes aectant cette variabilité, et notamment le taux de mutation. La section 2.3 sera consacrée à la présentation de ces mécanismes, mais nous allons tout d'abord présenter les principales méthodes utilisées pour les étudier. Chacune des méthodes présente des contraintes et des avantages en termes de coût nancier, temporel, et technique. Toutes ne permettent pas non plus d'obtenir les mêmes types de données, ou de réaliser les mêmes analyses. Les principales méthodes sont les analyses de mutation directe, de variabilité, phylogénétique, et de génome séquencés. Seules les deux dernières méthodes peuvent servir à étudier l'apparition des microsatellites ; nous nous y attarderons donc plus longuement.

2.2.1 Les analyses de mutation directe et de variabilité

Les premiers travaux portant sur la compréhension des mécanismes de mutation des microsatel- lites ont été des observations directes de mutations. Levinson & Gutmann [Levinson and Gutman, 1987a] ont commencé en utilisant des techniques de manipulation génétique. L'insertion d'un mi- crosatellite dans un gène de bactériophage de levure leur a permis de détecter des mutations par glissement en fonction de l'expression (ou non) du gène dans les cellules en culture. La technique a été utilisée dans nombre d'autres études [Strand et al., 1993, Wierdl et al., 1997], et permet de déterminer quels paramètres inuent sur les taux de mutation (longueur de la séquence ou type du motif, interruptions ou non, etc.). De plus, il est possible de jouer avec certaines contraintes métabo- liques des cellules, en désactivant par exemple les gènes de réparation de l'ADN ou ceux impliqués dans la recombinaison. Schlötterer et Tautz (1992) ont aussi proposé une analyse in vitro de la dynamique des microsatellites, qui avait pour avantage d'étudier la mécanique pure du glissement, sans se soucier des interférences avec l'environnement cellulaire.

Une autre possibilité pour observer directement des mutations est de créer des lignées d'accumu- lation de mutations [Schug et al., 1997]. Le principe est de faire se reproduire de multiple générations à partir d'individus possédant le même allèle microsatellite pour un certain nombre de locus, et de compter le nombre de mutations présentes dans les dernières générations. Les mutations s'étant accumulées au l des générations, il est possible d'évaluer un taux de mutation par génération. Cette méthode demande un grand nombre de générations pour obtenir susamment d'événements de mutations, et ne peut donc être réalisée qu'avec des organismes à cycle de vie rapide, et dont la reproduction peut être contrôlée.

Les mutations des microsatellites d'organismes ayant un cycle de vie plus long peuvent quant à elles être observées par des analyses de pedigree. Elles reposent sur l'analyse de la transmission des allèles microsatellites dans diérentes familles [Weber and Wong, 1993, Primmer et al., 1996, Xu et al., 2000]. Pour chaque famille, on compare les génotypes des parents à ceux de leur progéniture, et on compte les allèles qui ont muté chez ces derniers. Ces analyses ont été largement utilisées pour explorer la dynamique évolutive des microsatellites humains, mais elles requièrent d'avoir à disposi- tion des liens de parenté sûrs pour un grand nombre de familles, et nécessite un contrôle rigoureux des transmissions (problème des allèles nuls, de l'origine parentale inconnue,... ).

La dynamique des microsatellites peut aussi être analysée par des méthodes moins directes, telles que les analyses de variabilité. Ces méthodes sont basées sur l'analyse de la distribution en taille des allèles d'un locus donné, dans diérentes populations d'une même espèce, ou dans plusieurs espèces [Rubinsztein et al., 1995, Primmer and Ellegren, 1998, Harr et al., 1998]. Ces distributions nous renseignent sur le nombre d'allèles présents dans chaque population, leur fréquence, la taille moyenne et la variance, ou encore l'hétérozygotie de la population (valeur déterminant le taux d'individus hétérozygotes dans la population). Il n'est par contre pas possible de calculer les taux de mutation directement, mais ces derniers peuvent être inférés en ajustant des modèles de mutation aux distributions (voir section 2.4.1).

2.2.2 Les analyses phylogénétiques

Les analyses phylogénétiques suivent une logique diérente de celle des méthodes précédentes, et ont pour vocation d'étudier l'histoire évolutive des locus microsatellites. Elles sont réalisées via le séquençage de locus chez plusieurs individus d'espèces ou de populations dont les liens phylo- génétiques sont connus. Elles peuvent être réalisées à la suite d'analyses de variabilité. Certains allèles sont choisis dans les populations étudiées, sont séquencés, et sont alignés en fonction des liens

phylogénétiques des populations. Les séquences permettent d'obtenir de nouvelles informations qui n'étaient pas détectables sur la base des distributions alléliques uniquement, comme par exemple l'eet des interruptions sur la variabilité [Richard and Dujon, 1996, Jin et al., 1996]. Les études phylogénétiques ont par ailleurs permis de dévoiler les problèmes d'homoplasie (allèles identiques en longueur, mais issus d'un ancêtre diérent) et de saturation (perte du signal phylogénétique à cause de l'homoplasie) [Angers and Bernatchez, 1997, Dettman and Taylor, 2004], que nous ne détaillerons pas dans cette thèse.

Les études phylogénétiques peuvent aussi être conduites sur la base d'une ou de peu de séquences par espèce. L'étude de la variabilité ou des taux de mutation des microsatellites n'est pas possible avec ces analyses, mais elles permettent de détecter leurs apparitions ou disparitions. Si l'arbre phylogénétique utilisé est assez large (avec des espèces susamment éloignées phylogénétiquement), il est possible que des locus qui existent dans une espèce soient apparus dans l'une des branches uniquement, et seront donc absents chez les autres espèces (Figure 2.2). Certaines études ont ainsi permis de mettre en évidence l'apparition d'un tétranucléotide par mutation ponctuelle chez l'homme [Messier et al., 1996], ainsi que des apparitions par glissement chez les drosophiles [Noor et al., 2001]. Il est par contre à noter que ces observations ne sont qu'anecdotiques, et qu'aucune étude d'envergure n'a été réalisée pour évaluer les modes d'apparition des microsatellites sur un grand nombre de locus. La disparition des microsatellites est observable de la même manière, lorsqu'un locus est présent dans une branche complète et absent dans une sous-branche [Taylor et al., 1999] (Figure 2.2).

2.2.3 Les analyses de séquences

Toutes les méthodes précédentes, exceptées celles de manipulations génétiques, reposent sur l'utilisation de marqueurs microsatellites connus, dont la plupart ont été choisis parce qu'ils étaient polymorphes et faciles à génotyper. Or, les microsatellites polymorphes sont a priori ceux qui pos- sèdent un fort taux de mutation. Il y a donc un biais inhérent à ces techniques. La mise à disposition de séquences génomiques a permis de remédier à ce problème de non-représentativité. Les séquences génomiques, qu'elles soient simplement des fragments d'ADN, ou plus récemment des séquences complètes de génomes, contiennent un grand nombre de locus microsatellites. Le principe est donc de rechercher les séquences répétées dans ces fragments, grâce à des algorithmes informatiques, puis de les analyser en tant que locus distincts [Bell and Jurka, 1997, Yeramian and Buc, 1999, Young et al., 2000, Leclercq et al., 2007].

Les données issues de cette méthode sont diérentes de celles obtenues par les méthodes précé-

Fig. 2.2 Méthode d'analyse phylogénétique. Les Xnreprésentent les individus de diérentes espèces apparentées. Les bases soulignées représentent les interruptions. Une mutation ponctuelle fait apparaître un (TC)3 dans la lignée

J à partir de la séquence ancestrale, visible dans les individus X6 et X7. Le (TC)3 s'est ensuite développé puis est devenu variable dans la lignéeK. Enn, dans la lignéeL, il a subi des interruptions et des contractions qui ont amené à sa disparition dans l'individu X4.

dentes. En eet, les séquences analysées ne représentent qu'un seul allèle pour chaque locus, et à un seul moment. Il est donc impossible d'en déduire directement un taux de mutation. Il permet en revanche, lorsque la proportion de séquences disponibles est susante, d'évaluer de manière non biaisée le nombre de locus dans les génomes, leur densité, et d'obtenir des distributions par motif ou par taille. Ces distributions peuvent alors être comparées entre organismes, comme il a été présenté dans la section 2.1.3 de ce chapitre. Une autre utilisation de ces distributions a été de permettre l'ajustement de modèles de dynamique d'évolution des microsatellites, et donc d'inférer des taux de mutation (voir section 2.4.1).

L'un des problèmes de ce genre d'étude concerne l'identication des locus, appelée extraction. Elle se fait via des programmes informatiques, qui peuvent avoir des logiques et des implémentations diérentes. Nous verrons dans le chapitre 3 que ces diérences engendrent de réelles divergences, les distributions obtenues pouvant être radicalement diérentes selon l'algorithme de détection utilisé.

De plus, il n'est pas possible d'obtenir d'information sur l'apparition des locus. Des moyens détour- nés ont toutefois été mis en place, en introduisant des facteurs d'apparition dans les modèles de dynamique des microsatellites [Bell and Jurka, 1997, Jarne et al., 1998].