• Aucun résultat trouvé

Crit`ere du maximum de vraisemblance

3.2 M´ethodes bas´ees sur la vraisemblance

3.2.1 Crit`ere du maximum de vraisemblance

Reprenons les notations du chapitre pr´ec´edent. T est la phylog´enie consid´er´ee et T , sa topologie. Υ est le vecteur des param`etres de nuisance. Ce dernier se d´ecompose en l, le vecteur de longueurs de branches, et m le vecteur des param`etres libres du mod`ele de substitution (par exemple, le ratio

transition/transversion). La phylog´enie la plus vraisemblable, not´ee bT , est d´efinie de la fa¸con suivante :

b

T = argmax

{T ,l,m}(L(T , l, m, D))

Ici, l’approche exhaustive consiste `a trouver, pour chaque topologie, les valeurs des longueurs de branches

et des param`etres libres du mod`ele de substitution qui maximisent la vraisemblance de la phylog´enie. Ainsi, les m´ethodes fond´ees sur le principe du maximum de vraisemblance, tout comme les m´ethodes de distances, reposent sur un algorithme d’exploration des topologies et le calcul d’un crit`ere pour chacune de celles-ci.

Une premi`ere estimation de la phylog´enie est g´en´eralement obtenue par insertions successives d’UEs suivant le mˆeme principe que celui utilis´e dans le cadre des approches globales pour les m´ethodes de distances. Le crit`ere des moindres carr´es est simplement remplac´e ici par celui de la vraisemblance. L’ordre d’insertion des UEs est g´en´eralement dict´e par celui d’apparition des s´equences homologues dans le fichier analys´e. Or, deux permutations de ce classement n’aboutissent pas n´ecessairement `a la mˆeme phylog´enie. La plupart des programmes impl´ementant cette approche proposent donc la possibilit´e d’it´erer

Une approche agglom´erative est aussi envisageable : les deux UEs s´electionn´ees `a chaque ´etape cor- respondent au couple qui maximise la vraisemblance de la phylog´enie en cours de construction. Mais, il

semble que le principe du maximum de vraisemblance s’accorde mal `a une approche de type locale. En

effet, les performances de cette m´ethode, en termes de fiabilit´e des topologies inf´er´ees, sont inf´erieures `a la pr´ec´edente (Adachi et Hasegawa, 1996, p. 48).

Les m´ethodes bas´ees sur les quartets permettent aussi d’estimer une premi`ere phylog´enie en s’inspi- rant du principe de vraisemblance maximale (Strimmer et von Haeseler, 1996). Un quartet est un arbre `

a quatre UEs. Le calcul de la vraisemblance d’une telle structure est tr`es rapide et peut ˆetre r´ealis´e pour l’ensemble des quartets d´eduits des n s´equences homologues analys´ees. Pour r´esumer, les UEs sont ins´er´ees

successivement et le point d’insertion correspond `a la position la moins conflictuelle vis `a vis des quar-

tets inf´er´es, pond´er´es par leurs vraisemblances respectives. La fiabilit´e des topologies inf´er´ees par cette

approche est similaire, voir inf´erieure, `a celle de NJ, pour des temps de calculs bien sup´erieurs (Ranwez

et Gascuel, 2001). Ces performances d´ecevantes compar´ees `a celles de l’approche d’insertion classique s’expliquent probablement par la simple constatation que les fondements de cette approche ne sont pas

ceux du maximum de vraisemblance. Bien que les arbres `a quatre UEs soient inf´er´es suivant ce principe,

la proc´edure d’insertion utilis´ee ne vise pas `a maximiser la probabilit´e des donn´ees conditionnellement `a

la phylog´enie. De plus, l’inf´erence d’arbres `a quatre UEs est particuli`erement sensible `a l’attraction des

longues branches, un artefact bien connu en phylog´enie, pouvant engendrer des erreurs dans l’estima- tion de la topologie (voir Felsenstein, 1978 et Philippe, 2000 pour une description du probl`eme et de ses cons´equences).

Les m´ethodes d’exploration de topologies d’arbres venant g´en´eralement compl´eter celles d´ecrites ci-

dessus, sont discut´ees plus loin dans ce chapitre. Nous insistons `a pr´esent sur l’ajustement des longueurs

de branches `a une topologie donn´ee ainsi que l’optimisation des param`etres du mod`ele.

En pratique, la vraisemblance d’une phylog´enie est une fonction trop complexe pour exhiber les ex- pressions analytiques des valeurs optimales des param`etres de nuisance. Ces valeurs sont donc obtenues

par optimisation num´erique. Les m´ethodes d’optimisation sont nombreuses (Press et al., 1988) et les

performances de celles-ci, mesur´ees par leur rapidit´e et leurs capacit´es d’ajustement, varient suivant la

nature de la fonction. Pour notre exemple, la fonction `a maximiser d´ecrit assur´ement un paysage com-

plexe (la surface de vraisemblance) et pr´esente g´en´eralement de multiples optima locaux (Steel, 1994), rendant difficile la recherche d’optima globaux. Les simulations r´ealis´ees par Rogers et Swofford (1999) indiquent cependant que de tels optima sont pratiquement absents lorsque les phylog´enies consid´er´ees

sont proches de l’arbre ayant servi `a engendrer les donn´ees. Ceci signifie que l’ajustement des param`etres

libres du mod`ele de substitution et des longueurs de branches pour une topologie proche ou identique `a

celle de l’arbre vrai ne n´ecessite g´en´eralement pas de recourir `a des m´ethodes d’optimisation permettant

lnL

xi yi a zi

Fig. 3.4 – Encadrement d’un maximum par le triplet (xi, yi, zi). L’axe des abscisses reporte les

valeurs du param`etre `a ajuster. L’axe des ordonn´ees indique les valeurs du logarithme de la vraisemblance,

lnL. Le triplet de points (xi, yi, zi) encadre un maximum de la fonction. a est un nouveau point, et

constitue un ´el´ement du triplet suivant, (xi+1, yi+1, zi+1), dans le processus d’ajustement (voir texte). `A

chaque ´etape de l’optimisation, la distance sur l’axe des abscisses entre a et xi est ´egale `a la distance

entre yi et zi.

Documents relatifs