• Aucun résultat trouvé

A utour de la phylogénie

Dans le document Disponible à / Available at permalink : (Page 37-43)

I. INTRODUCTION : LA PHYLOGÉNIE

1.5 A utour de la phylogénie

1.5.1 Alignement multiple

Au sein des séquences du jeu de données il y a en effet pu y avoir des événements de

délétion ou d’insertion. En conséquence, le f'"® site d’une séquence ne correspond plus au f”"

site d’une autre, mais au De fait, comparer les états des sites i dans ces deux séquences

n’a aucun sens évolutif, puisqu’ils sont issus de sites ancestraux différents (Figure 15).

Pour pallier à ce problème, il est impératif, avant toute analyse phylogénétique, de réaliser un alignement multiple des séquences. Un grand nombre de programmes réalisant

cette tâche existent. Si CLUSTAL [49-51] reste très utilisé, notons qu’il est assez vieux et que

d’autres méthodes ont depuis vu le jour. Nous pouvons citer proalign [52], muscle [53], t-

COFFEE [54], MAFFT [55-57]. Il Convient de choisir son programme d’alignement avec précaution, voire d’en tester plusieurs. Le seul moyen de décider quel alignement est le meilleur est de l’observer directement afin de vérifier, par exemple, si certaines régions reconnues comme homologues se retrouvent bien dans l’alignement obtenu, et éventuellement de le corriger à la main.

C’est l’étape critique d’une analyse phylogénétique, puisqu’un alignement erroné conduit par la suite à inférer des relations entre des choses qui n’en ont pas. Et de ce fait, si la robustesse de l’arbre obtenu est testée, il est possible d’observer par « chance » un arbre robuste, bien que fondé sur des données fausses.

1.5.2 Le bootstrap

Le bootstrap est une méthode statistique permettant de tester la robustesse des nœuds d’un arbre. La robustesse est à distinguer de la fiabilité. Un nœud robuste est peu sensible à des perturbations, comme par exemple l’ajout ou la suppression d’une partie des données. Un nœud fiable est proche de la réalité. Mais s’il est certain qu’un nœud peu robuste est peu fiable, im nœud robuste peut ne pas être fiable. Donc si le bootstrap permet de repérer les nœuds peu fiables, il ne permet pas de dire qu’un arbre est vraisemblablement le bon ; juste que celui-ci est robuste.

Le principe est le suiveint. Si un nœud est robuste, il doit logiquement « résister » à de faibles perturbations du jeu de données, c’est-à-dire que des données sensiblement altérées doivent doimer le même nœud au cours d’une analyse avec les mêmes paramètres. Lors d’un

Séquences

etc

Figure 16. Bootstrap.

Chaque site est représenté par un rectangle coloré. À une couleur correspond un site unique, plusieurs sites peuvent être présents au sein du même alignement. Afin de constituer les données pour chaque réplicat de bootstrap, un nouvel alignement est créé à chaque fois, de la même taille que l’alignement original. Les sites sont obtenus par tirages aléatoires avec remise. Un même site peut donc se trouver plusieurs fois au sein d’un bootstrap alors qu’il n’était présent qu’une fois dans l’alignement. Chaque bootstrap servira à obtenir une phylogénie.

test de bootstrap, un certain nombre de réplicats d’une analyse sont effectués (typiquement, au

moins 1000). À chaque réplicat, les données sont générées aléatoirement comme suit :

l’ensemble des sites des séquences (donc des colonnes dans l’alignement multiple) constitue un ensemble ; dans cet ensemble seront tirés aléatoirement et avec remise le même nombre de sites que ceux présents dans le jeu de données. Le nouvel alignement obtenu sert de base à ime analyse. Au terme de tous les réplicats, les nœuds présents dans l’arbre testé sont recherchés. Si un nœud est présent dans par exemple 75% des réplicats, son score de bootstrap sera de 0,75. C’est encore une fois l’utilisateur qui juge, selon ses propres connaissances de l’évolution des séquences considérées et les résultats obtenus, où se situe le seuil de robustesse des nœuds (Figure 16). Ce test peut se révéler utile, mais nécessite un temps de calcul important, puisque la même analyse doit être refaite un grand nombre de fois.

Finalement, même si le bootstrap permet de se faire une certaine idée de la qualité d’une phylogénie, le meilleur outil reste tout de même les connaissances biologiques. Prenons par exemple deux arbres obtenus par deux méthodes différentes. L’arbre A a 50% de nœuds dont le score de bootstrap est supérieur à 0,8 et l’arbre B en a 75%. Si malgré tout, l’arbre A donne plus de clades correspondant à une réalité biologique connue, c’est bien entendu cette phylogénie qui doit être considérée.

1.5.3 Consensus

Il est parfois délicat, surtout lorsque rien n’est connu quant à l’évolution des séquences considérées, de déterminer parmi plusieurs arbres lequel est le meilleur, même après analyse par bootstrap. Un autre moyen permettant d’avoir une idée de la robustesse d’un arbre est de réaliser un consensus. Les méthodes de consensus permettent de comparer plusieurs phylogénies et de les résumer en une seule (Figure 17a).

Un consensus strict va contenir uniquement les nœuds présents dans tous les arbres qui sont comparés. Si pour certaines séquences il n’existe aucun nœud les incluant qui soit présent dans tous les arbres, celles-ci seront placées à la racine de l’arbre en polytomie (nœud regroupant plus de deux séquences).

Un consensus semi-strict regroupe les nœuds qui ne se contredisent pas. Ainsi, une polytomie ne va jamais contredire n’importe quel clade contenant les mêmes séquences. Ce nœud sera donc présent dans le consensus.

ABCDEF ABCDF, F A

1

5 C D E

II

A B C F, n F

Lm^

T

Arbres de départ A B C D K F

T

Consensus strict Conscnsusscmi-strict Majority-rulcconsensus

Figure 17. Description de différentes méthodes de consensus. a. Exemples de consensus strict, semi-strict, et majority-rule à partir de trois arbres différents. Le consensus strict n’est pas résolu car dans aucun des arbres les clades (A,B,C) et (D,E,F) ne sont jamais strictement identiques. Dans le consensus semi-strict, le clade (A,B,C) est résolu car la version du deuxième arbre de départ n’est pas contredite par les polytmies présentes dans les deux autres ; le clade (D,E,F) n’est pas résolu car celui du troisième arbre contredit les deux autres. Dans le majority-rule consensus, le clade (A,B,C) n’est pas résolu car le clade majoritaire dans les arbres de départ est une polytomie ; le clade (D,E,F) est résolu car c’est le clade majoritaire dans les arbres de départ.

b. Exemple de consensus d’Adams à partir de deux arbres. La position des taxa B et G se contredisant dans les arbres de départ, ils sont tous les deux placés à la racine du clade.

Figure 18. Superarbres.

Cette méthode permet, à partir de plusieurs phylogénies chevauchantes (partageant des taxa communs) ici en rouge, vert et bleu, de reconstruire la phylogénie globale (regroupant tous les taxa des arbres de départ) qui décrit le mieux l’ensemble des arbres de départ.

D’après Guglielmini et al, 2008

[130]

Un consensus « majority-rule » regroupe tous les nœuds présents dans la majorité (>50%) des arbres considérés. Éventuellement, cette valeur de 50% peut être augmentée.

Finalement, un consensus d’Adams [58] est une méthode différente, préservant plus les relations entre clades. Il regroupe tous les nœuds gigognes. Si on considère deux clades A et B, ceux-ci sont dits gigognes si les séquences de B forment un sous-ensemble des séquences de A et si les séquences de B ont un ancêtre plus récent que celles de A (Figure

17b).

Il existe par ailleurs d’autres méthodes qui ne seront pas décrites ici. Il faut bien faire attention à utiliser le consensus à bon escient, à savoir plus comme un outil permettant de décrire des relations générales entre des clades, ou de déterminer l’allure générale que le vrai arbre doit avoir, que comme une phylogénie à proprement parler. Un arbre consensus peut également être utilisé comme « squelette » pour des analyses phylogénétiques plus poussées.

Plusieurs phylogénies peuvent aussi être utilisées pour construire un super-arbre.

1.5.4 Super-arbres

Les méthodes de super-arbres ont été conçues à l’origine afin de permettre d’utiliser des phylogénies déjà connues pour en inférer de plus générales (voir par exemple [59, 60]). Le principe est de prendre un ensemble d’arbres dont les données sont partiellement chevauchantes (certaines séquences sont présentes dans au moins deux des arbres considérés) et d’utiliser ces chevauchements pour en déduire la phylogénie globale (Figure 18).

Cette méthode a permis, par exemple, de reconstruire des phylogénies de l’ensemble du vivant à partir d’arbres présents dans la littérature.

Figure 19. Arbres racinés et non raciné.

Le premier arbre est non raciné. S’il donne une information sur la relation entre les clades (A,B,C), (D,E) et F, il ne permet pas de conclure à un scénario évolutif dans le temps. Les 3 arbres suivant représentent des enracinements possibles selon le clade choisi comme étant le plus ancien, (F, (D,E), (A,B,C) respectivement). La racine est représentée en orange.

Dans le document Disponible à / Available at permalink : (Page 37-43)

Documents relatifs