• Aucun résultat trouvé

L’estimation de param`etres de nuisance est, par d´efinition, indispensable `a l’inf´erence de topologies d’arbres. Les m´ethodes bas´ees sur la vraisemblance (le maximum de vraisemblance et l’inf´erence baye-sienne) approximent la fiabilit´e d’une topologie (par sa vraisemblance ou sa probabilit´ea posteriori) en fonction des valeurs des longueurs de branches et des param`etres libres du mod`ele de substitution. En re-vanche, les m´ethodes de distances ne fournissent pas«naturellement»un cadre m´ethodologique int´egrant l’estimation des param`etres de substitution et la construction d’une topologie. Nous proposons ici une solution `a ce probl`eme pour l’estimation du param`etre de forme de la loi gamma, mod´elisant la variabilit´e des vitesses d’´evolution entre sites. La m´ethode propos´ee repose sur une mesure de l’arboricit´e des dis-tances estim´ees pour diff´erentes valeurs de ce param`etre. Les simulations r´ealis´ees d´emontrent l’efficacit´e de cette mesure : les topologies des arbres reconstruits `a partir de la valeur estim´ee du param`etre sont plus fiables que celles reconstruites `a partir de la valeur sous-jacente aux s´equences analys´ees.

De mani`ere g´en´erale, les valeurs estim´ees par notre approche conduisent `a sous-estimer, de mani`ere non-lin´eaire, les distances ´evolutives. Ce ph´enom`ene est d’autant plus important que l’´ecart `a l’horloge

- Param`etres de nuisance et inf´erence de topologies d’arbres

-mol´eculaire est faible. Quelques arguments th´eoriques permettent d’expliquer les r´esultats obtenus. Cepen-dant, aucune d´emonstration formelle n’a pu ˆetre propos´ee jusqu’ici. Sur ce point, l’approche d´evelopp´ee par Rzhetsky et Sitnikova (1996) m´eriterait d’ˆetre consid´er´ee attentivement. Ces auteurs exhibent des expressions analytiques des probabilit´es d’estimer correctement la topologie d’un arbre `a quatre UEs,

`

a partir de distances estim´ees sous le vrai mod`ele et sous un mod`ele faux, fournissant des estimations biais´ees. Si cette approche peut ˆetre g´en´eralis´ee `a d’autres mod`eles et un nombre de s´equences sup´erieur

`

a quatre, elle permettrait d’expliquer de mani`ere formelle les r´esultats issus de nos simulations.

De mani`ere g´en´erale, le probl`eme abord´e ici s’inscrit dans le cadre du choix du mod`ele de substitution le plus adapt´e `a l’estimation de topologies d’arbres fiables. Pour les m´ethodes de distances, de nombreuses simulations (Saitou et Nei, 1987; Sourdis et Krimbas, 1987; Tajima et Takezaki, 1994) indiquent que s´electionner un mod`ele conduisant `a des variances des estimateurs de distances inf´erieures aux variances d´eduites du vrai mod`ele, est plutˆot b´en´efique lorsque l’´ecart `a l’horloge mol´eculaire est faible ou nul (ce qui est conforme aux pr´edictions de Steel et Penny, 2000). Les travaux de Yang (1997b) aboutissent

`

a des conclusions similaires lorsque les phylog´enies sont inf´er´ees par maximum de vraisemblance : un mod`ele ignorant la variabilit´e des vitesses entre sites, pourtant pr´esente au sein des s´equences g´en´er´ees, autorise l’estimation de topologies d’arbres plus fiables que celles d´eduites du mod`ele correct. Ce r´esultat concerne des arbres `a quatre UEs respectant l’horloge mol´eculaire. Cependant, il est probable que cette tendance s’observe ´egalement pour des arbres plus r´ealistes, pr´esentant un nombre d’UEs sup´erieur `a quatre et ne respectant pas exactement l’horloge mol´eculaire. En effet, une analyse partielle de nos jeux de donn´ees simul´ees `a vingt s´equences montre que la valeur efficace du param`etre de forme de la loi gamma, telle qu’elle est estim´ee par notre approche, est plus appropri´ee que la vraie valeur pour l’inf´erence de topologies d’arbres par maximum de vraisemblance (r´esultats non pr´esent´es). Ces observations montrent qu’une solution efficace pour le choix du mod`ele pourrait ˆetre ind´ependante de la m´ethode utilis´ee pour l’inf´erence phylog´en´etique (maximum de vraisemblance ou distances).

En 1996, Rzhetsky et Sitnikova affirmaient que«[...] dans un futur proche, le choix arbitraire d’un mo-d`ele pour chaque cas particulier sera remplac´e par des algorithmes math´ematiques rigoureux impl´ement´es au sein de logiciels d’utilisation ais´ee». Mˆeme si nos travaux vont dans ce sens, aucun de ces algorithmes g´en´eriques n’a encore vu le jour `a notre connaissance. La question du choix d’un mod`ele de substitution adapt´e `a l’inf´erence de topologies d’arbres reste un probl`eme ouvert.

Une nouvelle approche pour l’am´ elioration it´ erative de la

vraisemblance

Le principe du maximum de vraisemblance constitue un cadre th´eorique bien connu, et son applica-tion `a la phylog´enie mol´eculaire est une avanc´ee importante dans le domaine. Malheureusement, cette approche est coˆuteuse en temps de calculs et la plupart des algorithmes classiques (DNAML (Felsenstein, 1993), fastDNAml (Olsen et al., 1994), PAML (Yang, 1997c), MOLPHY (Adachi et Hasegawa, 1996)) sont limit´es `a l’analyse de jeux de donn´ees de tailles r´eduites (<100 UEs par arbre). Nous proposons ici une nouvelle m´ethode d’inf´erence d’arbres de vraisemblances maximales, bas´ee sur un algorithme d’am´eliora-tions it´eratives de la phylog´enie. L’id´ee est ici d’appliquer simultan´ement plusieurs modificad’am´eliora-tions locales de la topologie, tout en ajustant l’ensemble des longueurs de branches. Des simulations et l’analyse de jeux de donn´ees r´eels d´emontre l’efficacit´e de cette approche tant en termes de fiabilit´e des topologies estim´ees que de temps de calcul et de capacit´e `a maximiser la vraisemblance.

Dans un premier temps, nous donnons une description des grandes lignes de l’algorithme puis nous expliquons comment l’exploration de l’espace des topologies d’arbres est ici coupl´ee `a une proc´edure rapide de calcul de la vraisemblance et d’ajustement des longueurs de branches. L’algorithme est ensuite d´ecrit dans sa globalit´e. Enfin, la fiabilit´e des topologies inf´er´ees, les dur´ees d’ex´ecution et les vraisemblances des phylog´enies inf´er´ees par cette approche sont compar´ees aux performances obtenues `a partir des m´ethodes actuelles. Ces travaux seront publi´es dans la revue«Systematic Biology».

5.1 Une premi` ere description de l’algorithme

La plupart des m´ethodes d’am´eliorations it´eratives actuelles distinguent clairement les perturbations topologiques de l’ajustement des longueurs de branches. Nous l’avons vu au chapitre 3 : l’approche standard consiste `a modifier la topologie puis ´evaluer la phylog´enie correspondant apr`es avoir optimis´e les longueurs de branches et, ´eventuellement, les param`etres libres du mod`eles de substitution. De plus,

- Une nouvelle approche pour l’am´elioration it´erative de la vraisemblance -PSfrag replacements

(a) (b) (c)

La Ra Lb Rb Lc Rc

U U

U u v V u v V u v V

X X

X

Y

Y

Y W W

W

z

z z x

x

x

y

y

y w w

w

Z Z

Z lx

ly

lw

lz

lx

ly

lw

lz

lx

ly

lw

lz

lv

la lb lc

Fig. 5.1 – Arbre mod`ele. Ces trois arbres correspondent aux configurations topologiques qu’il est possible d’atteindre `a partir d’un NNI sur la branche joignantuetv.la,lb et lc sont les trois longueurs maximisant la vraisemblance de la phylog´enie lorsque seule cette branche est ajust´ee (voir texte).W,X, Y et Z sont trois sous-arbres dontw,x, y etzsont les racines respectives.

pour ces algorithmes, les perturbations de la topologie s’effectuent s´equentiellement. Ainsi, NNIs, SPRs ou TBRs sont appliqu´es `a partir de chaque branche interne de l’arbre successivement.

La m´ethode d´ecrite dans ce chapitre diff`ere des approches classiques sur ces deux points. En effet, longueurs de branches et topologies sont ici optimis´ees simultan´ement. De mˆeme, les perturbations topolo-giques interviennent parall`element autour de diff´erentes branches internes. Les trois ´etapes de l’algorithme sont les suivantes : (1) pour chaque branche interne, calculer la vraisemblance de la phylog´enie dans les trois configurations topologiques obtenues par NNI («Nearest Neighbor Interchange», voir chapitre 3).

Dans ces trois cas, seule la longueur de la branche interne est ajust´ee. (2) Appliquer simultan´ement la majorit´e des modifications de topologies et de longueurs de branches conduisant `a une augmentation de la vraisemblance. (3) R´ep´eter les ´etapes (1) et (2) jusqu’`a l’obtention d’une phylog´enie de topologie et longueurs de branches stables.

Le mouvement ´el´ementaire sur lequel repose cette approche est le NNI. Nous d´ecrivons dans la partie suivante les avantages offerts par ce mouvement du point de vue de la rapidit´e du calcul de la vraisemblance d’une phylog´enie dans diff´erentes configurations topologiques.

Dans le document Docteur de l’Universit´ e Montpellier II (Page 91-94)