3.2 M´ethodes bas´ees sur la vraisemblance
3.2.1 Crit`ere du maximum de vraisemblance
Reprenons les notations du chapitre pr´ec´edent. T est la phylog´enie consid´er´ee et T , sa topologie. Υ est le vecteur des param`etres de nuisance. Ce dernier se d´ecompose en l, le vecteur de longueurs de branches, et m le vecteur des param`etres libres du mod`ele de substitution (par exemple, le ratio
transition/transversion). La phylog´enie la plus vraisemblable, not´ee bT , est d´efinie de la fa¸con suivante :
b
T = argmax
{T ,l,m}(L(T , l, m, D))
Ici, l’approche exhaustive consiste `a trouver, pour chaque topologie, les valeurs des longueurs de branches
et des param`etres libres du mod`ele de substitution qui maximisent la vraisemblance de la phylog´enie. Ainsi, les m´ethodes fond´ees sur le principe du maximum de vraisemblance, tout comme les m´ethodes de distances, reposent sur un algorithme d’exploration des topologies et le calcul d’un crit`ere pour chacune de celles-ci.
Une premi`ere estimation de la phylog´enie est g´en´eralement obtenue par insertions successives d’UEs suivant le mˆeme principe que celui utilis´e dans le cadre des approches globales pour les m´ethodes de distances. Le crit`ere des moindres carr´es est simplement remplac´e ici par celui de la vraisemblance. L’ordre d’insertion des UEs est g´en´eralement dict´e par celui d’apparition des s´equences homologues dans le fichier analys´e. Or, deux permutations de ce classement n’aboutissent pas n´ecessairement `a la mˆeme phylog´enie. La plupart des programmes impl´ementant cette approche proposent donc la possibilit´e d’it´erer
Une approche agglom´erative est aussi envisageable : les deux UEs s´electionn´ees `a chaque ´etape cor- respondent au couple qui maximise la vraisemblance de la phylog´enie en cours de construction. Mais, il
semble que le principe du maximum de vraisemblance s’accorde mal `a une approche de type locale. En
effet, les performances de cette m´ethode, en termes de fiabilit´e des topologies inf´er´ees, sont inf´erieures `a la pr´ec´edente (Adachi et Hasegawa, 1996, p. 48).
Les m´ethodes bas´ees sur les quartets permettent aussi d’estimer une premi`ere phylog´enie en s’inspi- rant du principe de vraisemblance maximale (Strimmer et von Haeseler, 1996). Un quartet est un arbre `
a quatre UEs. Le calcul de la vraisemblance d’une telle structure est tr`es rapide et peut ˆetre r´ealis´e pour l’ensemble des quartets d´eduits des n s´equences homologues analys´ees. Pour r´esumer, les UEs sont ins´er´ees
successivement et le point d’insertion correspond `a la position la moins conflictuelle vis `a vis des quar-
tets inf´er´es, pond´er´es par leurs vraisemblances respectives. La fiabilit´e des topologies inf´er´ees par cette
approche est similaire, voir inf´erieure, `a celle de NJ, pour des temps de calculs bien sup´erieurs (Ranwez
et Gascuel, 2001). Ces performances d´ecevantes compar´ees `a celles de l’approche d’insertion classique s’expliquent probablement par la simple constatation que les fondements de cette approche ne sont pas
ceux du maximum de vraisemblance. Bien que les arbres `a quatre UEs soient inf´er´es suivant ce principe,
la proc´edure d’insertion utilis´ee ne vise pas `a maximiser la probabilit´e des donn´ees conditionnellement `a
la phylog´enie. De plus, l’inf´erence d’arbres `a quatre UEs est particuli`erement sensible `a l’attraction des
longues branches, un artefact bien connu en phylog´enie, pouvant engendrer des erreurs dans l’estima- tion de la topologie (voir Felsenstein, 1978 et Philippe, 2000 pour une description du probl`eme et de ses cons´equences).
Les m´ethodes d’exploration de topologies d’arbres venant g´en´eralement compl´eter celles d´ecrites ci-
dessus, sont discut´ees plus loin dans ce chapitre. Nous insistons `a pr´esent sur l’ajustement des longueurs
de branches `a une topologie donn´ee ainsi que l’optimisation des param`etres du mod`ele.
En pratique, la vraisemblance d’une phylog´enie est une fonction trop complexe pour exhiber les ex- pressions analytiques des valeurs optimales des param`etres de nuisance. Ces valeurs sont donc obtenues
par optimisation num´erique. Les m´ethodes d’optimisation sont nombreuses (Press et al., 1988) et les
performances de celles-ci, mesur´ees par leur rapidit´e et leurs capacit´es d’ajustement, varient suivant la
nature de la fonction. Pour notre exemple, la fonction `a maximiser d´ecrit assur´ement un paysage com-
plexe (la surface de vraisemblance) et pr´esente g´en´eralement de multiples optima locaux (Steel, 1994), rendant difficile la recherche d’optima globaux. Les simulations r´ealis´ees par Rogers et Swofford (1999) indiquent cependant que de tels optima sont pratiquement absents lorsque les phylog´enies consid´er´ees
sont proches de l’arbre ayant servi `a engendrer les donn´ees. Ceci signifie que l’ajustement des param`etres
libres du mod`ele de substitution et des longueurs de branches pour une topologie proche ou identique `a
celle de l’arbre vrai ne n´ecessite g´en´eralement pas de recourir `a des m´ethodes d’optimisation permettant
lnL
xi yi a zi
Fig. 3.4 – Encadrement d’un maximum par le triplet (xi, yi, zi). L’axe des abscisses reporte les
valeurs du param`etre `a ajuster. L’axe des ordonn´ees indique les valeurs du logarithme de la vraisemblance,
lnL. Le triplet de points (xi, yi, zi) encadre un maximum de la fonction. a est un nouveau point, et
constitue un ´el´ement du triplet suivant, (xi+1, yi+1, zi+1), dans le processus d’ajustement (voir texte). `A
chaque ´etape de l’optimisation, la distance sur l’axe des abscisses entre a et xi est ´egale `a la distance
entre yi et zi.