Critère du maximum de vraisemblance - Méthodes basées sur la vraisemblance

3.2 M´ethodes bas´ees sur la vraisemblance

3.2.1 Crit`ere du maximum de vraisemblance

Reprenons les notations du chapitre précédent. T est la phylogénie considérée et T , sa topologie. Υ est le vecteur des paramètres de nuisance. Ce dernier se décompose en l, le vecteur de longueurs de branches, et m le vecteur des paramètres libres du modèle de substitution (par exemple, le ratio

transition/transversion). La phylogénie la plus vraisemblable, notée bT , est définie de la fa¸con suivante :

T = argmax

{T ,l,m}(L(T , l, m, D))

Ici, l’approche exhaustive consiste `a trouver, pour chaque topologie, les valeurs des longueurs de branches

et des paramètres libres du modèle de substitution qui maximisent la vraisemblance de la phylogénie. Ainsi, les méthodes fondées sur le principe du maximum de vraisemblance, tout comme les méthodes de distances, reposent sur un algorithme d’exploration des topologies et le calcul d’un critère pour chacune de celles-ci.

Une première estimation de la phylogénie est généralement obtenue par insertions successives d’UEs suivant le même principe que celui utilisé dans le cadre des approches globales pour les méthodes de distances. Le critère des moindres carrés est simplement remplacé ici par celui de la vraisemblance. L’ordre d’insertion des UEs est généralement dicté par celui d’apparition des séquences homologues dans le fichier analysé. Or, deux permutations de ce classement n’aboutissent pas nécessairement à la même phylogénie. La plupart des programmes implémentant cette approche proposent donc la possibilité d’itérer

Une approche agglomérative est aussi envisageable : les deux UEs sélectionnées à chaque étape cor- respondent au couple qui maximise la vraisemblance de la phylogénie en cours de construction. Mais, il

semble que le principe du maximum de vraisemblance s’accorde mal `a une approche de type locale. En

effet, les performances de cette méthode, en termes de fiabilité des topologies inférées, sont inférieures à la précédente (Adachi et Hasegawa, 1996, p. 48).

Les méthodes basées sur les quartets permettent aussi d’estimer une première phylogénie en s’inspi- rant du principe de vraisemblance maximale (Strimmer et von Haeseler, 1996). Un quartet est un arbre `

a quatre UEs. Le calcul de la vraisemblance d’une telle structure est très rapide et peut être réalisé pour l’ensemble des quartets déduits des n séquences homologues analysées. Pour résumer, les UEs sont insérées

successivement et le point d’insertion correspond `a la position la moins conflictuelle vis `a vis des quar-

tets inférés, pondérés par leurs vraisemblances respectives. La fiabilité des topologies inférées par cette

approche est similaire, voir inférieure, à celle de NJ, pour des temps de calculs bien supérieurs (Ranwez

et Gascuel, 2001). Ces performances décevantes comparées à celles de l’approche d’insertion classique s’expliquent probablement par la simple constatation que les fondements de cette approche ne sont pas

ceux du maximum de vraisemblance. Bien que les arbres à quatre UEs soient inférés suivant ce principe,

la procédure d’insertion utilisée ne vise pas à maximiser la probabilité des données conditionnellement à

la phylogénie. De plus, l’inférence d’arbres à quatre UEs est particulièrement sensible à l’attraction des

longues branches, un artefact bien connu en phylogénie, pouvant engendrer des erreurs dans l’estimation de la topologie (voir Felsenstein, 1978 et Philippe, 2000 pour une description du problème et de ses conséquences).

Les méthodes d’exploration de topologies d’arbres venant généralement compléter celles décrites ci-

dessus, sont discutées plus loin dans ce chapitre. Nous insistons à présent sur l’ajustement des longueurs

de branches à une topologie donnée ainsi que l’optimisation des paramètres du modèle.

En pratique, la vraisemblance d’une phylog´enie est une fonction trop complexe pour exhiber les ex- pressions analytiques des valeurs optimales des param`etres de nuisance. Ces valeurs sont donc obtenues

par optimisation num´erique. Les m´ethodes d’optimisation sont nombreuses (Press et al., 1988) et les

performances de celles-ci, mesurées par leur rapidité et leurs capacités d’ajustement, varient suivant la

nature de la fonction. Pour notre exemple, la fonction à maximiser décrit assurément un paysage com-

plexe (la surface de vraisemblance) et présente généralement de multiples optima locaux (Steel, 1994), rendant difficile la recherche d’optima globaux. Les simulations réalisées par Rogers et Swofford (1999) indiquent cependant que de tels optima sont pratiquement absents lorsque les phylogénies considérées

sont proches de l’arbre ayant servi à engendrer les données. Ceci signifie que l’ajustement des paramètres

libres du mod`ele de substitution et des longueurs de branches pour une topologie proche ou identique `a

celle de l’arbre vrai ne nécessite généralement pas de recourir à des méthodes d’optimisation permettant

lnL

xi yi a zi

Fig. 3.4 – Encadrement d’un maximum par le triplet (xi, yi, zi). L’axe des abscisses reporte les

valeurs du paramètre à ajuster. L’axe des ordonnées indique les valeurs du logarithme de la vraisemblance,

lnL. Le triplet de points (xi, yi, zi) encadre un maximum de la fonction. a est un nouveau point, et

constitue un élément du triplet suivant, (xi+1, yi+1, zi+1), dans le processus d’ajustement (voir texte). À

chaque étape de l’optimisation, la distance sur l’axe des abscisses entre a et xi est égale à la distance

entre yi et zi.

Dans le document Méthodes et algorithmes pour l'approche statistique en phylogénie (Page 59-61)