• Aucun résultat trouvé

La taxonomie num´erique

Dans le document The DART-Europe E-theses Portal (Page 17-20)

1.3 Trois ´ecoles pour la syst´ematique

1.3.2 La taxonomie num´erique

Les syst´ematiciens partisans de cette approche inf`erent des arbres –ouph´enogrammes– `a partir des similitudes globales entre UEs. La premi`ere partie du travail consiste donc `a construire une matrice de distances entre UEs prises deux `a deux. La fr´equence des diff´erences observ´ees sur la suite de caract`eres consid´er´ee est une mesure de la distance entre deux UEs. Naturellement, il existe des m´ethodes plus sophistiqu´ees de calcul de distances, faisant notamment appels `a desmod`eles stochastiques, traduisant des hypoth`eses sur le mode de substitution entre les diff´erents ´etats des caract`eres. Nous reviendrons largement sur ces mod`eles par la suite.

a

b

A

B x

Fig. 1.2 – Agglom´eration de a et b.a et b sont les noeuds racines des sous-arbresA et B. xest un noeud externe ou un noeud interne `a la racine d’un sous-arbre.

Les premi`eres approches pour bˆatir des ph´enogrammes sont bas´ees sur une m´ethode de classification ascendante. Notons ∆ la matrice de distances estim´ees. ∆ij est la distance entre les ´el´ements i et j.

L’algorithme de construction d’un ph´enogramme comprend trois ´etapes qui sont r´ep´et´ees tant que la dimension de la matrice est sup´erieure `a 1. (1) La distance minimale observ´ee au sein de ∆ d´esigne une paire de noeuds voisins dans l’arbre, not´es aet b. (2) Ceux-ci sont joints et les longueurs des deux branches engendr´ees par cette agglom´eration sont toutes deux ´egales `a 12ab. (3) ∆ est ensuite r´eduite en rempla¸cant les entr´ees correspondant `aaet bpar une seule entr´ee, not´eeu.

Les diff´erentes strat´egies pour calculer les distances entreuet les autres entr´ees de la matrice d´efinissent les variantes de cette m´ethode. L’´etape de r´eduction repose g´en´eralement sur une variante de l’expression suivante :

uxaaxbbx, avecαab= 1

a et b sont les racines des sous-arbres A et B pr´esentant |A| et |B| UEs respectivement et x est une UE, ou un groupe d’UEs d´ej`a constitu´e, exclue deA etB (Figure 1.2). Lorsqueαa =|A|/(|A|+|B|) et αb=|B|/(|A|+|B|), les poids associ´es `aAetB sont proportionnels `a leurs effectifs. Par cons´equent, un seul et mˆeme poids est associ´e `a chacune des UEs pr´esente au sein de ces sous-arbres. Cette approche non pond´er´ee correspond alors `a l’algorithmeUPGMA(«Unweighted Paired Group Method using Ave-rages») (Sokal et Michener, 1958). Lorsque αa = 1/2 et αb = 1/2, le poids associ´e `a chaque UE est inversement proportionnel `a l’effectif du sous-arbre auquel il appartient. Cette approche correspond `a l’algorithme WPGMA («Weighted Paired Group Method using Averages») (McQuitty, 1966). Notons ici que UPGMA et WPGMA sont fr´equemment confondus dans la litt´erature : WPGMA associant le mˆeme poids aux sous-arbreA etB, cette m´ethode est souvent consid´er´ee comme non-pond´er´ee. Cepen-dant, les poids ´evoqu´es au sein des deux acronymes UPGMA et WPGMA portent sur les UEs et non les sous-arbres. Or, du point de vue des poids associ´es aux UEs, UPGMA et WPGMA sont bien des versions pond´er´ees et non pond´er´ees du mˆeme algorithme. La Figure 1.3 donne un exemple de construc-tion d’un ph´enogramme par cette m´ethode. Enfin, la m´ethode dulien simplefixeαa = 1 et αb = 0 si

ax <∆bx : seule la plus petite des deux distances parmi ∆ax et ∆bx intervient dans la r´eduction. La m´ethode dulien completfixeαa= 0 etαb= 1 si ∆ax<∆bxet seule la plus grande des deux distances

a

Fig. 1.3 – Construction d’un ph´enogramme par WPGMA. La matrice (`a gauche) reporte les distances entre les noeuds agglom´er´es de l’arbre. Les positions de ces derniers sont indiqu´es par les valeurs situ´ees au-dessus de l’arbre. Celles-ci correspondent aux distances minimales dans la matrice `a chaque ´etape et d´esignent donc la suite de paires de noeuds agglom´er´es aboutissant au ph´enogramme complet.

intervient dans la r´eduction.

Le nombre r´eel de substitutions d’un ´etat par un autre d´efinit une distance d’arbre et cette der-ni`ere est repr´esent´ee par une unique phylog´enie d´ecrivant correctement les liens de parent´es entre les organismes compar´es. Lorsque les vitesses d’´evolution sont constantes, les distances d’arbres sont dites ultram´etriques. Dans cette situation et pour des s´equences suffisamment longues, les ph´enogrammes construits par UPGMA ou WPGMA correspondent aux vraies phylog´enies. En effet, lorsque deux noeuds sont agglom´er´es, la divergence entre ceux-ci est distribu´ee de mani`ere ´egale entre les deux branches cr´e´ees

`a cette ´etape. Le calcul des longueurs de branches suit donc l’hypoth`ese d’´egalit´e des vitesses d’´evolution au sein des lign´ees. Lorsque les distances r´eelles ne sont pas ultram´etriques, les ph´enogrammes ´etablis par ces deux m´ethodes ne correspondent g´en´eralement plus aux vraies phylog´enies.

Les m´ethodes ADDTREE (Sattah et Tversky, 1977) et NJ (Saitou et Nei, 1987) permettent cependant d’´etablir la phylog´enie correcte `a partir de distances d’arbres sans que celles-ci soient ultram´etriques. Cette caract´eristique correspond en fait `a une divergence profonde de ces deux approches vis `a vis des m´ethodes ph´en´etiques au sens strict. Alors que l’objectif de ces derni`eres est d’obtenir une simple repr´esentation des

divergences entre UEs, ADDTREE, NJ et la plupart des m´ethodes actuelles d’inf´erence d’arbres bas´ees sur les distances ´evolutives, ont pour but de retracer les liens de parent´es entre organismes. ADDTREE et NJ construisent des phylog´enies, UPGMA et WPGMA construisent des ph´enogrammes qui, sous certaines conditions (les distances vraies sont ultram´etriques), correspondent `a des phylog´enies. Une partie du chapitre 3 est consacr´ee `a la description des principales m´ethodes de construction de phylog´enies actuelles

`a partir de distances entre UEs.

Dans le document The DART-Europe E-theses Portal (Page 17-20)