• Aucun résultat trouvé

Calcul de la sur-représentation

5.1 Une taille minimum pour les microsatellites ?

5.2.2 Calcul de la sur-représentation

L'analyse de l'alignement des doublons et triplets va nous permettre d'évaluer les modes d'appa- rition des doublons et des triplets, mais ne renseigne en rien sur leur inuence sur le nombre de locus présents dans la séquence. Pour déterminer si les phénomènes de micro-duplication et glissement éventuellement observés jouent un rôle dans la densité de doublons et triplets, nous allons réaliser une analyse de sur-représentation par rapport à une densité attendue dans un génome aléatoire.

Comme nous l'avons vu en section 5.1.1, il est possible de calculer un nombre de locus attendus

aléatoirement par des formules théoriques, et ainsi déterminer un écart par rapport au nombre de locus observés. Le problème majeur de ces calculs théoriques est qu'ils ne permettent pas de calculer d'intervalle de conance, il est donc impossible de déterminer si l'écart observé est signicatif ou non. Or nous avons vu que les interprétations des résultats peuvent être radicalement diérentes selon de degré de signicativité obtenu. Dieringer et Schlötterer (2003) ont calculé un nombre de locus attendus en simulant un génome aléatoire et en comptant le nombre de microsatellites de chaque taille présent dans cette séquence. En répétant la procédure un certain nombre de fois, on obtient une distribution des nombres attendus, qui permet de calculer un nombre d'attendus moyen et un intervalle de conance. Il ont eectué 250 simulations, pour avoir des intervalles de conance à 5% très précis.

Notre analyse de la sur-représentation des doublons-triplets dans le génome humain sera basée sur la même méthode. Nous avons simulé 100 séquences aléatoires de la taille du chromosome 22, et calculé les nombres de doublons et triplets de chaque motif présents dans ces séquences. Le nombre moyen pour chaque motif sera utilisé comme attendu aléatoire et comparé au nombre eectivement détecté sur le chromosome 22. La répétition de 100 simulations s'est révélée susante pour obtenir de bons intervalles de conance. Nous nous sommes restreints à l'analyse du chromosome 22 car les simulations et les analyses sont très gourmandes en temps de calcul, et l'analyse du génome complet n'aurait pu être réalisée dans le cadre de ma thèse. Néanmoins, la densité de microsatellites est équivalente pour tous les chromosomes humains (voir section 4.2.1), nous avons donc supposé que c'était le cas aussi pour les doublons et les triplets.

Il a ensuite fallu déterminer comment construire nos séquences aléatoires. En eet, une séquence aléatoire pure est une séquence dont la probabilité de chaque base azotée est de 1/4 pour chaque position, correspondant à un taux de GC de 50%. Or le taux de GC du génome humain est de 41%, signiant que la probabilité d'obtenir deux A ou deux T adjacents est plus forte qu'avec un taux de GC de 50%. C'est pourquoi la majorité des analyses utilisant des attendus aléatoires prennent en compte la composition en GC de la séquence étudiée. Cette suggestion est en fait valable pour n'importe quel motif, les chances d'obtenir deux AC adjacents aléatoirement étant par exemple plus grandes si la proportion de AC dans le génome est plus importante que celle des autres dinucléotides. Rose et Falush (1998) ont pris en compte ce biais possible en calculant un attendu théorique à partir d'une formule qui tient compte de la proportion de chaque motif d'une taille donnée dans le génome.

Nous avons mené une analyse préliminaire pour évaluer si la prise en compte de la proportion de

chaque motif était nécessaire, ou si le taux de GC susait à obtenir des génomes aléatoires respec- tant la composition en motif. Les résultats de ces simulations montrent sans équivoque que ne gérer que la composition en GC ne permet pas de construire des génomes qui respectent les proportions de chaque motif (gure 5.6). Les nombres attendus de doublons et de triplets seront donc calculés par classe de motifs, à partir de génomes simulés respectant la proportion de chaque motif. Il faut remarquer que ces constructions sont dépendantes de la taille de motif analysée. Ainsi, les génomes aléatoires construits pour calculer de nombre de tétranucléotides ne respectera pas forcément la com- position en motifs des trinucléotides, ce qui explique que l'on ait dû réaliser les analyses séparément pour chaque classe.

Nous avons montré dans le chapitre précédent que les éléments transposables, et plus particu- lièrement les séquences Alu chez l'homme, ont une inuence non négligeable sur l'apparition des microsatellites. Etant donné leur nombre important dans le génome, et le caractère non aléatoire de leur séquence, les éléments transposables ont été retirés des analyses de sur-représentation. Repeat- Masker a été exécuté sur la séquence 22 du chromosome humain, avec les paramètres par défaut, et la bibliothèque Repbase Update (version 9.11) complète. La taille des séquences simulées est donc égale au nombre de bases non masquées, et le nombre d'occurrences de chaque motif est celui ob- tenu à partir des régions non masquées. De la même manière, le compte des doublons et des triplets observés a été réalisé à partir des régions non masquées.

Fig. 5.6  Densité moyenne des motifs tétranucléotides calculée à partir de 100 génomes aléatoires construits soit en respectant la composition en GC, soit en respectant la composition en motifs du chromosome 22 humain. Les intervalles de conance sont donnés mais ne sont pas visibles sur la gure, car sont très réduits. La densité réelle est donnée à titre de comparaison.

5.2.3 Etude de la micro-duplication