• Aucun résultat trouvé

3.2 Méthodes et résultats

3.2.3 Comparaison des algorithmes

La comparaison des diérents algorithmes a été réalisée sur la même séquence que l'analyse des paramètres, à savoir le chromosome X humain. Les paramètres des algorithmes ont été xés au dé- part, pour éviter de multiplier les tests. La section précédente a démontré que les paramètres avaient une grande inuence sur les distributions renvoyées ; il a donc fallu les choisir avec précaution. Après réexion, nous avons choisi de nous contenter des paramètres donnés par défaut par les concepteurs, avec toutefois une réduction du score de 50 à 20 pour TRF, et de 10 à 7 pour Sputnik. Ce choix a été motivé par le fait que l'on a considéré pour cette analyse une taille minimum de 8 nt pour les microsatellite, comme proposé par Rose & Falush (1998), voir section 2.1.2). Or, nous l'avons constaté dans la section précédente, les scores de 50 et de 10 ne permettaient pas d'obtenir des détections de cette taille.

Nous allons résumer dans cette section les résultats détaillés dans l'article (joint en Annexe 1). La présentation a toutefois été réarrangée, permettant de mieux mettre en valeur les résultats principaux. La comparaison originale était décomposée en plusieurs étapes, qui étaient : la compa- raison des microsatellites parfaits uniquement, puis l'ajout des imparfaits à l'analyse, une extension de l'analyse à 3 autres génomes (D. melanogaster, Neurospora crassa et S. cerevisiae), et enn la comparaison des positions génomiques. Ici, nous nous contenterons de présenter les résultats gé- néraux pour toutes ces analyses, l'importance des détections de petite taille, et les résultats de la comparaison des positions génomiques.

Résultats généraux

En premier lieu, les résultats généraux (Tableau 3 dans article, colonne 'All') montrent de grandes diérences entre les divers algorithmes, avec plus de 25 fois plus de détections pour Sputnik que pour RepeatMasker (qui renvoient respectivement le plus et le moins de détections). Le nombre de dé- tections est assez faible pour STAR et RepeatMasker, il est 3 à 5 fois plus important pour Mreps, encore 1,7 fois plus pour TRF, et Sputnik est seul en tête avec ses 6589 détections par mégabase. Il existe de plus une relation entre le nombre de détections et leur taille et divergence moyennes. Plus les microsatellites détectés par un algorithme sont nombreux, plus ils sont courts, et parfaits. Cette règle est valable pour tous les algorithmes sauf Mreps, dont le nombre de détections et la taille moyenne sont intermédiaires, alors que la divergence moyenne est la plus importante.

Les exécutions ont été ensuite reproduites sur les génomes de divers organismes pour évaluer l'ef- fet de la séquence génomique sur les résultats. Les résultats obtenus montrent une relative stabilité dans les comportements de chacun des algorithmes, quel que soit l'organisme (Tableau 3 de l'article). En eet, l'ordre des algorithmes ne change pas quand on s'intéresse au nombre de détections, Sputnik retournant à chaque fois nettement plus de microsatellites que les autres, suivi de TRF puis Mreps, et STAR et RepeatMasker arrivant systématiquement à la n. De plus, pour chaque organisme, la relation entre le nombre de détections et les tailles et divergences moyennes est respectée, signiant qu'elles sont causées par la méthode de détection et non par la séquence génomique originale.

Cette analyse a par ailleurs permis de constater que l'homme, la drosophile et N. crassa possé- daient une densité de microsatellites équivalente, et que seule la levure S. cerevisiae a une densité légèrement moins élevée. Les tailles et divergences moyennes sont quant à elles totalement similaires quel que soit l'organisme, pour un même algorithme de détection. Ces résultats ne concernent pas directement la comparaison des algorithmes, mais ils indiquent que la densité des microsatellites est moins variable entre organismes que ce qui était estimé jusqu'alors (c.f. section 2.1.3).

Inuence de la taille des détections

Les diérences en nombre de détections, et les relations avec la taille et la divergence sont di- rectement liées à la capacité des algorithmes à détecter les microsatellites courts et parfaits, comme c'était le cas avec les variations de paramètres. En eet, l'analyse des détections imparfaites unique- ment (Tableau 3 de l'article, 'Imperfect') et de la distribution en taille des parfaites (Figure 2 de l'article) pour l'homme indique que d'une part les algorithmes donnent des résultats beaucoup plus proches pour les imparfaits que pour l'ensemble des microsatellites, et d'autre part que la majorité

des détections parfaites de TRF et Sputnik sont comprises entre 8 et 12 nt (selon la classe de motif).

Or tous les algorithmes ne sont pas équivalents pour ce qui est du choix de la taille minimum. Pour RepeatMasker par exemple, une taille minimum de 20 nt non modiable est imposée. Cette contrainte limite de fait l'ecacité de RepeatMasker en termes de nombre de détections, puisque la très grande majorité est inférieure à cette taille. STAR ne possède pas de contrainte aussi stricte, mais la gure 2 de l'article montre un nombre de détections croissant jusqu'à la taille de 20 nt (sauf pour les hexanucléotides, qui ont le pic à 10 nt), pour des raisons qui sont expliquées dans la discussion. Enn Mreps, à cause du ltre de signicativité, ne peut détecter les microsatellites de taille inférieure à la taille de leur motif + 9. Cette contrainte a assez peu d'inuence pour les mono et dinucléotides, mais pénalise fortement la détection des tetra, penta et hexanucléotides dont la très grande majorité se situe en dessous du seuil.

Recouvrement inter-algorithme

Le recouvrement inter-algorithme a été calculé pour évaluer la proportion de microsatellites détectés aux mêmes positions entre les algorithmes. Deux méthodes ont été testées, se basant res- pectivement sur le recouvrement en nombre de locus et de nucléotides. Le recouvrement en nombre de locus montre que plus de 93% des détections de RepeatMasker et STAR sont aussi détectés par Sputnik, Mreps et TRF (Tableau 4 de l'article), tandis que le recouvrement des trois derniers par les deux premiers est nettement moins important (moins de 34% des détections de Mreps, 20% pour TRF et 10% pour Sputnik). Ces résultats sont en accord avec les nombres de détections totaux obtenus pour chacun des algorithmes. Le recouvrement en quantité de nucléotides est légèrement diérent, avec un recouvrement moins prononcé de Sputnik, TRF et Mreps sur les deux autres, et inversement, un recouvrement plus prononcé de RepeatMasker et STAR sur les trois autres. Ces légères distinctions sont à corréler avec le fait que les détections de STAR et RepeatMasker sont plus longues en moyenne que celles des trois autres algorithmes, leur couverture étant donc plus ecace en termes de nucléotides.