• Aucun résultat trouvé

Dénitions et structure moléculaire

1.3 Les séquences Alu

2.1.2 Dénitions et structure moléculaire

Il n'existe pas de dénition formelle des microsatellites à l'heure actuelle. La seule caractéris- tique commune à tous les microsatellites est celle, déjà énoncée, d'une séquence répétée en tandem de période 1 à 6 nucléotides. Pourtant, beaucoup d'autres paramètres permettent de qualier et clas- ser les microsatellites. Des caractéristiques comme le nombre de répétitions, le motif en lui-même, la complexité de la séquence, sont encore sujets à débats malgré de réguliers eorts de consensus [Tautz, 1993, Chambers and MacAvoy, 2000, Ellegren, 2004, Buschiazzo and Gemmell, 2006]. Pour bien comprendre la suite du document, et particulièrement les mécanismes d'apparition des micro- satellites, il est nécessaire de connaître leurs propriétés structurelles. Nous allons donc les détailler dans cette section.

Motif

Un microsatellite est déni tout d'abord par sa période (la taille du motif répété). La période des microsatellites est généralement comprise entre 1 et 6 nucléotides. Chaque période représente une classe de microsatellites, nommées respectivement mono, di, tri, tétra, penta et hexanucléotides. La période se doit aussi d'être la plus petite possible, c'est-à-dire que le motif donné ne peut être la répétition d'un motif plus court (par exemple, ATAT est un AT répété deux fois). On dit alors que le motif est indivisible.

Certaines études ne considèrent pas les mononucléotides comme des microsatellites. En règle générale, leur dynamique évolutive semble toutefois concorder avec celles des autres classes [Lai and Sun, 2003, Dieringer and Schlotterer, 2003], cette distinction n'a donc pas lieu d'être. La période maximum de 6 nucléotides est encore matière à débats, mais l'on sait que les séquences répétées de périodes plus importantes (les minisatellites) évoluent plutôt par erreurs de recombinaison (cf. section 2.1.1). Il y a donc une fenêtre de période entre 6 et 10 nucléotides, où l'on ne sait pas si c'est le glissement de polymérase, les erreurs de recombinaison, ou les deux qui sont majoritairement à l'origine de la variabilité des séquences. Ces classes de motifs sont toutefois intégrées à certaines analyses de microsatellites [Yeramian and Buc, 1999, Desmarais et al., 2006].

La grande majorité des études sur les microsatellites sont réalisées avec des séquences répétées de type AC/GT, pouvant laisser croire que seuls ces motifs correspondent à des microsatellites. En réalité, cette prédominance des AC est la conséquence de leur nombre important dans les génomes, du moins chez les animaux [Dokholyan et al., 2000] et de leur propension à être longs et polymorphes. Ils sont donc de fait devenus des marqueurs de choix en biologie des populations, et la matière première

des études de dynamique évolutive (souvent amorcées par des biologistes des populations). D'autres motifs sont néanmoins utilisés, tels que AT, AG/CT, CAG/CTG, et quelques tétranucléotides comme les GATA et AAAG. De plus, l'utilisation s'est élargie à tous les motifs possibles depuis que de larges fractions de génomes, voire des génomes entiers, sont disponibles dans les banques de séquences.

Taille

Un second paramètre important pour un microsatellite est sa taille, en nombre de répétitions. On décrit généralement un microsatellite sous la forme (X)n, avec X le motif, et n le nombre de

répétitions, même si cette notation pose plusieurs problèmes. Tout d'abord, la variabilité des mi- crosatellites est due au glissement, qui, par dénition, n'implique que des changements de taille multiples de la période (voir section 1.2.5). Il n'y a cependant aucune raison que la séquence possède un nombre entier de répétitions. Par exemple, la séquence ggATCATCATCATgg ne peut être consi- dérée comme (ATC)4, mais n'est pas non plus réellement un (ATC)3. L'utilisation d'un nombre de

répétitions non entier devient alors nécessaire, comme ici un (ATC)3,67. De plus, la dénomination

des microsatellites par leur nombre de répétitions peut amener une certaine confusion, lorsque l'on considère les diérentes classes de motifs. Il est bien évident qu'un mononucléotide et un hexanu- cléotide possédant tous deux dix répétitions ne sont pas soumis aux mêmes contraintes physiques. L'hexanucléotide étant six fois plus long (en terme de nucléotides), il a par exemple beaucoup plus de chances de subir des mutations.

Un autre problème est la question de la taille minimum. Si l'on veut être formel, on peut considé- rer un microsatellite comme tout élément constitué d'au moins une répétition en tandem d'un motif donné. Dans les faits, une taille limite bien supérieure est généralement utilisée, soit en nombre de répétitions [Kruglyak et al., 2000], soit en paires de bases [Richard and Dujon, 1997, Toth et al., 2000], soit les deux [Jurka and Pethiyagoda, 1995]. La justication de ces limites est statistique. En eet, la dénition formelle considère par exemple que tous les doublons de types AA, CC, GG ou TT sont des microsatellites, malgré la très forte probabilité de les rencontrer aléatoirement dans les génomes. Il a donc été proposé de ne considérer les microsatellites que pour des tailles où leur densité est supérieure à celle attendue dans un génome dénué de dynamique de glissement [Delgrange and Rivals, 2004, Kolpakov et al., 2003, Rose and Falush, 1998]. L'apparition des microsatellites dans un tel génome n'est censée se produire que par mutation ponctuelle aléatoire, et tout écart à cet attendu dans un génome réel suppose qu'un glissement s'est produit. Cette taille minimum de glissement introduit une propriété non plus structurelle, mais mécanique à la dénition des microsatellites. La taille minimum généralement admise est de huit paires de bases, comme proposé par Rose & Falush

[Rose and Falush, 1998] suite à des analyses de distribution dans le génome de la levure (voir section 5.1.1).

La question de la taille minimum est un point central de ma thèse, car des répétitions de taille inférieure à cette limite semblent quand même être capables de glissement [Noor et al., 2001, Primmer and Ellegren, 1998]. Ce thème sera abordé plus en détail dans le chapitre 5.

Proto-microsatellites et quasi-microsatellites

Les proto-microsatellites sont des séquences répétées possédant un très petit nombre de répé- titions, trop peu pour pouvoir être variables. Ils apparaissent par hasard, à la suite de mutations ponctuelles, comme proposé dans le modèle de Jarne et al. [Jarne et al., 1998]. Le concept de proto- microsatellite n'est valable que si l'on considère qu'une séquence répétée a besoin d'atteindre une taille minimum (en paire de bases ou en répétitions) pour devenir un microsatellite.

Les quasi-microsatellites sont des séquences non répétées, mais qui peuvent le devenir, via quelques mutations ponctuelles. Par exemple, la séquence aaACCTACTTgc est une séquence quasi- microsatellite car une substitution C→T ou T→C peut la transformer en (ACCT)2 ou (ACTT)2,

respectivement. Une séquence telle que ttACCACCAGCta n'est pas considérée comme un quasi- microsatellite même si la transition G→C donne un (ACC)3, car le proto-microsatellite (ACC)2

existe déjà. Par contre, la séquence ttACCAGCACCta en est un. Le nombre de mutations n'est pas une limite exacte car il dépend de la taille du motif et de la position des mutations.

La distinction entre proto- et quasi-microsatellite peut être ambiguë, comme par exemple pour une séquence de type ttAAGAAcc. Dans ce cas là, faut-il considérer les deux AA comme des proto- microsatellites distincts, ou préférer considérer l'ensemble comme un quasi-microsatellite ? La solu- tion est de la considérer comme étant les deux. Ce genre de cas se retrouve fréquemment dans les régions de faible complexité ou  cryptic simplicity  [Tautz et al., 1986]. Ce sont des régions de taille variable, constituées de répétitions d'un faible nombre de motifs diérents, pas nécessairement adjacentes. La dénition des régions de faible complexité repose là encore sur un critère statistique de sur-représentation par rapport à un attendu dans un génome aléatoire, au même titre que la ques- tion de la taille minimum des microsatellites. Elles sont relativement communes dans les génomes eucaryotes et contiennent de nombreux proto- et quasi-microsatellites.

Imperfections

Par dénition, les microsatellites sont des séquences répétées en tandem, mais il arrive que ces répétitions ne soient pas parfaites. En eet, ces séquences sont soumises aux mêmes contraintes moléculaires que le reste du génome, et peuvent notamment subir des mutations ponctuelles qui bri- seront les répétitions. Un microsatellite ayant subi des mutations ponctuelles est qualié d'imparfait (tableau 2.1), et les zones où la répétition est brisée sont nommées interruptions. La question des interruptions a été très peu étudiée, les seuls travaux disponibles ne concernant que des séquences très faiblement imparfaites [Taylor et al., 1999, Rolfsmeier et al., 2000, Harr et al., 2000]. Le pro- blème de la détermination d'un taux maximum d'imperfection, au-delà duquel la séquence ne peut plus être considérée comme un microsatellite, mais comme une simple région de faible complexité, reste par exemple totalement non résolu.

D'autre part, les interruptions soulèvent la question de la cohérence du microsatellite. Par exemple, deux (AC)20 séparés par 3 bases non répétées peuvent être considérés comme deux mi-

crosatellites parfaits distincts ou comme un seul imparfait. La plupart des analyses tolèrent des interruptions de quelques bases, mais d'autres, souvent théoriques [Bell and Jurka, 1997, Lai and Sun, 2003], préfèrent considérer deux microsatellites distincts dès qu'une interruption vient rompre la répétition. Si l'on souhaite se contenter d'étudier les microsatellites parfaits, il faut ne pas consi- dérer les sous-parties parfaites des microsatellites imparfaits, en s'assurant que la séquence étudiée n'est pas voisine à quelques bases d'une autre séquence répétée de même motif.

Complexité

Les notions de motif et d'interruption vues précédemment ne s'appliquent qu'à des microsatel- lites dits simples, constitués de la répétition d'un motif unique. On peut dénir deux autres types de microsatellites : composés et complexes [Chambers and MacAvoy, 2000]. Les microsatellites com- posés sont dénis comme la concaténation de deux microsatellites de motifs distincts. Les deux sous-parties peuvent être directement adjacentes ou séparées de quelques bases non répétées, qui seront alors considérées comme une interruption (Table 2.1). Les motifs peuvent être totalement diérents, tant en taille qu'en composition, mais sont en règle générale assez similaires. Il n'est par exemple pas rare d'observer des microsatellites composés (GA)n(GATA)m. Les microsatellites com-

plexes sont une généralisation des microsatellites composés, avec plus de deux motifs distincts. Là encore, des interruptions sont possibles entre les motifs, et un motif peut se trouver à plusieurs po- sitions diérentes dans le locus (tableau 2.1). Ce genre de microsatellites est utilisé dans des études de biologie des populations, mais leur dynamique évolutive n'est encore que rarement abordée. On

suppose toutefois qu'ils proviennent de microsatellites simples ayant dégénéré [Buschiazzo and Gem- mell, 2006].

La nécessité de recourir à plusieurs dénitions selon la complexité du microsatellite montre la limitation de la dénomination (X)n basée sur un motif. La séquence de chaque microsatellite est en eet issue de son histoire évolutive, qui implique certes des expansions et contractions, mais aussi des mutations ponctuelles qui peuvent aboutir à la formation de ces séquences complexes. Ce problème de motif consensus pose d'ailleurs quelques dicultés pour la détection des microsatellites via des algorithmes informatiques, comme nous l'exposerons dans le chapitre 3.

Tab. 2.1 Les diérentes classes de microsatellites, catégorisées selon leur complexité.