Inuence des paramètres

3.2 Méthodes et résultats

3.2.2 Inuence des paramètres

Tous les programmes exposés ci-dessus, à l'exception de STAR, possèdent des paramètres qui peuvent être dénis par l'utilisateur, et qui peuvent inuencer la quantité et/ou la qualité des détec- tions renvoyées. Ces paramètres sont détaillés dans l'article en Annexe 1. L'étude des paramètres ne s'est focalisée que sur certains d'entre eux, dont l'inuence sur les détections n'était pas forcément triviale au premier abord, et qui sont :

- La résolution de Mreps. La résolution est la valeur qui détermine la distance de Hamming maximum permise entre deux répétitions adjacentes. Pour une résolution K donnée, l'algorithme sera exécuté pour toutes les distances k comprises entre 0 et K, sans dépasser toutefois la taille de la période -1. Les résultats des multiples exécutions sont ensuite fusionnés s'ils se chevauchent.

- Les scores de validation et les valeurs de pénalité de Sputnik et TRF. Le score de validation

est le score que doit atteindre l'alignement pour être renvoyé, et les pénalités sont les valeurs soustraites au score d'alignement pour chaque erreur. Les pénalités peuvent être diérentes selon que l'erreur est une substitution ou un indel.

- Le score de validation (cuto) de RepeatMasker, et la taille des séquences consensus. Le score de validation a la même fonction que pour Sputnik et TRF, mais pour RepeatMasker, il n'est pas possible de modier les valeurs des pénalités. En eet, ces dernières sont issues de matrices d'alignements internes au programme, qui sont déterminées à partir du taux de GC de la séquence. La taille des séquences consensus est le nombre de répétitions qui constitue les séquences pour chaque motif dans la bibliothèque de consensus.

L'inuence de ces paramètres a été analysée en exécutant chacun des programmes sur la séquence complète du chromosome X humain (version 35.1, 29 août 2004, téléchargée sur le site du NCBI : http ://ncbi.nih.gov/Genomes/), en changeant à chaque fois la valeur d'un des paramètres. Pour chaque exécution, le nombre de détections, leur taille moyenne et leur divergence ont été comparés, ainsi que les distributions en taille. Il convient de dénir ici ce que l'on a nommé divergence, car chaque algorithme possède sa propre méthode de calcul (l'homologie, qui est l'inverse de la divergence, est parfois utilisée). La divergence est calculée comme le pourcentage d'erreurs présentes dans l'alignement de la séquence détectée et de la séquence consensus répétée de même taille. Ainsi une divergence de 0% désigne une séquence parfaite, et une seule erreur dans un alignement de taille 20 donne une divergence de 5%.

Inuence sur le nombre de détections

Le tableau 3.6 montre le nombre de détections, la taille moyenne et la divergence moyenne obtenus pour chacune des exécutions. Les paramètres qui ont le plus d'inuence sur le nombre de détections sont les scores de validation de TRF et Sputnik, avec une relation exponentielle négative entre la valeur du score et le nombre de microsatellites détectés. En eet TRF renvoie 22 fois plus de détections pour un score à 20 que pour un score à 50, et Sputnik 43 fois plus entre les scores de 7 et 20. Le nombre de détections est par contre nettement moins aecté par les valeurs de pénalités, puisque l'augmentation n'est que de 1,6 fois et 1,05 fois, respectivement, entre les valeurs les plus astreignantes et les moins astreignantes. L'inuence de la résolution de Mreps est à peu près similaire avec une augmentation de 25% (soit 1,25 fois plus) entre la résolution de 1, la plus astreignante, et la résolution de 6 qui autorise plus d'erreurs entre les répétitions. La variation du score de validation et de la taille des consensus de RepeatMasker n'ont pratiquement aucune inuence sur le nombre de détections, avec un écart inférieur à 10 détections par mégabase entre les diérentes valeurs des paramètres.

Fig. 3.6 Densité (nb/Mb), taille moyenne et divergence moyenne des détections obtenues pour diérents algorithmes, avec diérents paramètres.

Inuence sur la taille des détections

Comme le montre la gure 3.7, la réduction des scores de validation de TRF et Sputnik a pour principale conséquence de permettre la détection de microsatellites plus courts. On peut d'ailleurs noter que plus la taille minimum est courte, plus le nombre de nouvelles détections est important, ce qui explique l'augmentation exponentielle observée pour le nombre de détections. Cela explique

aussi la réduction de la taille moyenne entre les scores les plus hauts et les scores les plus faibles, rapportés dans le tableau 3.6. Le nombre de détections longues est aussi augmenté signicativement avec la réduction du score pour TRF, mais pas pour Sputnik.

A l'inverse, l'utilisation de pénalités moins fortes pour TRF et Sputnik, et d'une résolution plus importante pour Mreps, permet d'augmenter la taille moyenne des détections (tableau 3.6). Si l'on observe la gure 3.7, on peut toutefois remarquer que l'augmentation de la taille moyenne n'est pas provoquée par la détection de nouveaux microsatellites plus longs, mais par l'élargissement de détections plus courtes. En eet, le nombre de microsatellites courts est réduit pour les pénalités les moins astreignantes, tandis que le nombre des plus longs augmente.

Les paramètres de RepeatMasker n'ont là encore que peu d'inuence sur la taille des détections. On peut remarquer toutefois que la réduction de la taille des consensus provoque des pics de détection à la taille donnée (gure 3.7), mais les diérences de distribution ne sont pas signicatives (ANCOVA, F3,200 = 0.008, p-value = 0.999 ; voir article en Annexe 1 pour les détails de l'analyse statistique).

Inuence sur la divergence

La divergence est aectée de deux manières diérentes selon le paramètre qui est changé. Les scores de validation de TRF et Sputnik ont pour eet de réduire la divergence par un facteur 2,5 entre le plus haut et le plus bas score (tableau 3.6), pour les deux algorithmes. Le fait que l'on observe une réduction de la divergence lorsque l'on réduit le score de validation pour TRF et Sputnik signie que toutes les nouvelles détections sont parfaites ou presque. Les valeurs de pénalité et la résolution de Mreps ont un eet inverse, avec une divergence qui augmente lorsque les paramètres deviennent moins astreignants. Ces résultats conrment ceux obtenus pour la taille moyenne, et soutiennent le fait que les détections réalisées à de faibles valeurs de pénalités sont les mêmes que celles à forte pénalité, élargie grâce à une plus grande tolérance aux interruptions. Comme pour le nombre de détections et la taille moyenne, ni le score de validation, ni la taille des séquences consensus de RepeatMasker ne semblent aecter la divergence signicativement.

Résumé

Ces quelques résultats nous montrent que le choix des paramètres peut jouer un grand rôle sur la distribution des détections renvoyées, particulièrement à cause de la détection des microsatellites courts. En eet, l'abaissement des scores de validation de TRF et Sputnik permet de réduire la taille minimum de détection. Or, la gure 3.7 nous montre que les locus sont de plus en plus nombreux

Fig. 3.7 Distribution en taille des détections pour diérents algorithmes, avec diérents paramètres. Seules les détections de taille inférieure à 200 nt sont représentées.

à mesure qu'ils sont courts, leur détection faisant baisser du même coup la taille moyenne et la divergence moyenne. Ce résultat est assez inattendu, car un score de validation plus faible permet en théorie d'autoriser plus d'interruptions, et donc d'augmenter les divergence et taille moyennes. L'aaiblissement des pénalités d'erreur pour TRF et Sputnik produit par contre l'eet attendu. La taille moyenne est bien augmentée, ainsi que la divergence, tandis que le nombre de détections n'est que légèrement augmenté, signiant que la relaxe sur les pénalités autorise plus d'interruptions dans les microsatellites. L'augmentation de la résolution de Mreps produit les mêmes eets, ce qui est aussi le comportement attendu. Tous les paramètres ne provoquent néanmoins pas de telles variations. Aucun des deux paramètres analysés pour RepeatMasker n'a par exemple eu d'inuence sur les distributions des détections, tant en nombre, qu'en taille ou en divergence.

Dans le document Origines des séquences microsatellites dans les génomes eucaryotes (Page 72-77)

Inuence des paramètres

3.2 Méthodes et résultats

3.2.2 Inuence des paramètres

3.2.2 Inuence des paramètres