• Aucun résultat trouvé

Un méthode alternative proposée dès 1985 par Willian R. Lipman et David J. Lipman se fonde sur des simulations de type Monte-Carlo13 pour estimer la significativité d’un alignement entre deux séquences réelles a et b (Lipman et Pearson, 1985). Un nombre C d'alignements est réalisé entre a et une séquence aléatoire B, dérivée de b par permutation

(Fitch, 1983). Ces comparaisons aboutissent à l’estimation d’une moyenne empirique µ de la

variable aléatoire S(a,B) et de son écart-type σ (l'estimation de la moyenne et de l'écart-type empiriques sont indiqués par la notation ^). La Z-value est alors définie par la formule :

[29] ∧ − = σ µ ) , ( *) , (ab s ab Z

où * désigne la séquence permutée et s(a,b) le score d'alignement de a et b. La Z-value est issue de la cote Z, unité de mesure statistique qui permet d'exprimer une position dans une distribution, par rapport à la moyenne et l'écart type, en d'autres termes, l'étalement. Parce que cette unité de mesure tient compte de la moyenne et de l'étalement, son utilisation permet de ramener à une échelle commune des objets différents et, du même coup, de faciliter leur comparaison. Une expression en cote Z, permet des classements d'objets à la fois différents et équivalents. Dans le cas des scores d'alignements, il existe plusieurs façons d'estimer la Z-

value, en tentant par exemple de corriger la dissymétrie des calculs de Z(a,b*) et Z(b,a*) (voir

pour comparaison de différentes corrections proposées Bastien et Maréchal, soumis). Bien que le terme de Z-score ait été introduit, nous utiliserons le terme générique de Z-value dans ce mémoire.

13 La méthode de Monte-Carlo peut être utilisée pour simuler des processus aléatoires. Des résultats obtenus lors de ces

simulations, on peut déduire des solutions à des problèmes complexes difficiles à formaliser. La méthode de Monte-Carlo doit son nom à Nicholas Métropolis et Stanislaw Ulam utilisant cette méthode dans le cadre de calculs liés au projet Manhattan de conception des premières bombes atomiques. Son appellation date des années 1944 et fait référence à la principauté de Monaco et à son casino.

43

Pour une évaluation de la pertinence de la Z-value appliquée à l'analyse de séquences,

Comet et al. (1999) ont effectué une comparaison tout-contre-tout du protéome de

Saccharomyces cerevisiae par la méthode de Smith-Waterman, en ne retenant que les scores

supérieurs ou égaux à 30. Ces auteurs ont ensuite calculé les Z-values des alignements retenus pour 20, 50, 100 et 200 permutations et observé que le calcul de Z(a,b*) était convergent et dépendait de la précision de l’estimation de µ et σ , par conséquent de C. En particulier,

Comet et al. (1999) ont montré que l’écart type dépendait de la valeur de Z et décroissait en

fonction de C suivant la formule :

[30] Z

C

Z) 1.26

( ≈

σ

Dans la pratique, on utilise des valeurs de C allant de 100 à 1000 (Louis et al., 2001; pour revue Bastien et al., soumis). Comet et al. (1999) ont de plus montré que la loi asymptotique de la Z-value était indépendante de la taille et de la composition des séquences comparées. Un résultat important de cette étude est que la distribution des Z-values issues de ces comparaisons semble suivre une loi de Gumbel (Pearson, 1998; Comet et al., 1999). En se basant sur l’algorithme dit de clumping de Waterman et Vingron (1994), Bacro et Comet

(2001) ont examiné cette propriété remarquable et montré que la loi des Z-values pouvait être

approchée par une loi de Gumbel aux paramètres séquences-indépendents.

L’algorithme initial de Comet et al (1999) pour le calcul des Z-values fixe C, et rend l’écart-type variable d’une comparaison à l’autre. Partant de cette constatation Aude et Louis

(2002) ont proposé un algorithme itératif de calcul de la Z-value dont l’objectif est la

réduction du nombre de permutations nécessaires au calcul. Cette approche est basée sur le fait que l’équation précédente permet d’exprimer le nombre de permutations nécessaire pour obtenir un écart type donné :

[31] 2 ) ( 6 . 1 ⎠ ⎞ ⎜ ⎝ ⎛ × = Z Z C σ

L’algorithme débute en calculant la Z-value à partir de 25 permutations. Si la Z-value est inférieure à 6, l’algorithme arrête le calcul, considérant que si la Z-value est distribuée normalement avec une moyenne de 6 et un écart-type de 1.5, la probabilité d’être au-dessus de 7.5 est supérieure à 90% (et donc la probabilité de manquer une Z-value significative est faible). Si la Z-value est entre 6 et 35, le calcul est itéré. Si la Z-value est supérieure à 35, C est fixé à 100. Plusieurs commentaires sur cette approche peuvent être formulées. D'une part la première étape de l’algorithme suppose une normalité de la distribution, hypothèse que l’on sait fausse. D'autre part la méthode ne fixe pas la variance pour des grandes valeurs de Z (exemple pour Z=400 et C=100, l’écart-type est égal à 50.4, soit une erreur relative de 12.6%). Ceci a pour conséquence de limiter l’exploitation de cet algorithme pour les études utilisant les valeurs relatives des Z-values.

Le calcul de la Z-value, bien que réputé meilleur pour la comparaison de séquences, est à ce jour sous-utilisé. Deux raisons essentielles expliquent ce faible usage, d'une part le coût de la simulation de Monte-Carlo qui nécessite une puissance de calcul importante, d'autre part l'implémentation des modèles statistiques directement dans les algorithmes de

44

comparaison (par exemple le modèle de Karlin-Altschul directement implémenté dans BLAST) qui favorise l'usage de ces statistiques au détriment du développement de méthodes alternatives. Pour notre étude, nous avons essentiellement exploité le modèle statistique de Lipman-Pearson de la Z-value et la méthode d'alignement de Smith-Waterman implémentés dans le logiciel polyvalent BioFacet, développé par la société Gene-IT14 (Glemet et Codani,

1997).

VI. Quelles méthodes pour une analyse comparative de génomes biaisés ?

Il est difficile d'évaluer parmi les matrices de substitution, les méthodes de calcul d'alignement et les modèles statistiques, ceux qui sont les plus appropriés dans une situation extrême d'analyse comparative de séquences biaisées compositionnellement. Il est apparu à l'origine de ce travail que nous devions tenter d'examiner chacun de ces dispositifs séparément. Nous avons en particulier avancé dans la compréhension des matrices de substitutions en amont et des statistiques des scores d'alignement en aval, dans le cas d'une comparaison de séquences particulièrement divergentes. L'examen de la méthode de comparaison (en gros BLAST versus Smith-Waterman) était quant à lui plus difficile du fait de l'implémentation du modèle statistique de Karlin-Altschul au coeur de l'algorithme BLAST.

Pour un usage pratique, Comet et al. (1999) avaient montré la robustesse

des statistiques de la Z-value vis-à-vis des longueurs et compositions des séquences. Un seuil empirique pour les Z-values a été déterminé entre 6 et 12, intervalle qualifié de twilight-zone, au dessous duquel un alignement est considéré comme peu fiable et au dessus duquel un alignement peut être considéré comme relevant (i.e. avec une forte probabilité de relation d’homologie entre les deux séquences). Aucun support théorique n’était disponible pour soutenir la pertinence de ce seuil et le point de départ de la thèse présentée dans ce mémoire a été consacré à l'examen du fondement théorique de cette propriété remarquable.

Résultats et discussion

Chapitre 1

Documents relatifs