• Aucun résultat trouvé

35 Felsenstein )Supposonsquelavraiephylog´enied’ungroupede4taxonssoit: Inconsistancedumod`eledeparsimonieConsistanced’unem´ethoded’estimation:Capacit´e`aconvergerversunebonnevaleur(ici,levraiarbredephylog´enie)avecl’augmentationdesdonn´ees.Enconsid´erantu

N/A
N/A
Protected

Academic year: 2022

Partager "35 Felsenstein )Supposonsquelavraiephylog´enied’ungroupede4taxonssoit: Inconsistancedumod`eledeparsimonieConsistanced’unem´ethoded’estimation:Capacit´e`aconvergerversunebonnevaleur(ici,levraiarbredephylog´enie)avecl’augmentationdesdonn´ees.Enconsid´erantu"

Copied!
6
0
0

Texte intégral

(1)

Inconsistance du mod`ele de parsimonie

Consistance d’une m´ethode d’estimation: Capacit´e `a converger vers une bonne valeur (ici, le vrai arbre de phylog´enie) avec

l’augmentation des donn´ees.

En consid´erant un mod`ele d’´evolution simple, la m´ethode de parsimonie peut entrainer une fausse estimation de l’arbre (Felsenstein)

Supposons que la vraie phylog´enie d’un groupe de 4 taxons soit:

(2)

A A

A A (3)A (2) GC

AA

GG GA

(1) Type de motif (4)

I Non−informatif (constant) II Non−informatif

III Non−informatif IV Information fausse

(A)

Taille des branches refl`ete le taux d’´evolution. Taux d’´evolution acc´el´er´e pour les branches menant `a (1) et (4). Les deux autres branches si

courtes qu’il n’y a presque pas de difference entre (2) et (3).

4 classes possibles pour les nucl´eotides de (1) et (4). I, II, III ne

fournissent aucune information permettant de clairement favoriser cet arbre par rapport `a tous les autres. IV: seule classe permettant de favoriser un arbre particulier. Malheureusement, favorise le mauvais arbre:

(3)

(1)

(4)

(2)

(3) (3)

(2)

(1) (4)

(B) (C)

Felsenstein appelle une telle situation positively misleading car plus on a de caract`eres (plus les s´equences sont longues), plus on est sur d’obtenir un arbre faux.

Lorsqu’on est dans la zone Felsenstein, le seul espoir d’obtenir un bon arbre est de s´equencer suffisamment peu de caract`eres, de sorte `a ˆetre induit en erreur le moins possible. Ph´enom`ene appel´e attraction des longues branches.

(4)

Diff´erence entre parsimonie et likelihood Arbre non-enracin´e:

1 2

Temps

A A A

A A A A A C G (A)

Comment deviner le nucl´eotide de l’ancˆetre (1)?

Algorithme de Fitch: On peut attribuer `a (1) n’importe lequel des nucl´eotides A, C ou G avec un poids de 2 pour l’arbre. T augmente ce poids de 1.

D’autre part, une nouvelle s´equence avec C, A, ou G peut ˆetre ins´er´ee avec un poids de 2 `a n’importe quelle branche. ´Egalement, nouvelle s´equence contenant T peut ˆetre ins´er´ee avec un poids de 3

(5)

`

a n’importe quelle branche. Dans tous les cas, s´equence non informative (ne favorise aucun arbre)

A C C G

A C

G A

C C G

C (D)

(C) (B)

Maximum de vraisemblance: Choisir l’hypoth`ese qui maximise la probabilit´e d’observer le nucl´eotide obtenu.

Mod`ele d’´evolution choisit: Taux de substitution identique pour tous les nucl´eotides; nombre moyen de substitutions le long d’une branche proportionnel ´a la longueur de la branche.

Observation: Tous les descendants de (2) ont des A. Donc, taux de mutation faible. D’o`u, phylog´enie entrainant peu de mutations plus probable que phylog´enie entrainant beaucoup de mutations. Donc,

(6)

pr´esence d’un A `a l’ancˆetre (2) beaucoup plus probable que

pr´esence d’un C, G ou T (mais hypoth`ese d’un C,G,T non rejet´ee).

Nucl´eotide `a l’ancˆetre 1? A, C ou G? Supposons un A `a (2). Plus probable que la substitution ait eu lieu sur la branche longue.

Donc, plus probable d’avoir un A en (1). Plus g´en´eralement, ordre de probabilit´e: A > C > G > T.

Rajout d’une s´equence avec un C: arbre (C) plus probable que les autres, car pour les arbres (B) et (D), deux substitutions A → C seraient n´ecessaires.

La taille des branches est une information importante pour la m´ethode de maximum likelihood, et donc pas de probl`eme

d’attraction des longues branches. Dans ce cas, arbre (8B) tr`es probable.

Références

Documents relatifs

(2012), Comparaison de diff´ erents plans de sondage et construction de bandes de confiance pour l’estimation de la moyenne de donn´ ees fonctionnelles : une illustration sur

Utiliser les dipˆ oles passifs et actifs. Analyser un circuit en temporel On consid` ere le circuit ci-dessous.. 1.. Ainsi k

Bien que la syntaxe soit incorpor´ ee par leur pr´ e- entraˆınement non supervis´ e ou l’architecture du r´ eseau, nous pr´ etendons que CoNLL03 et OntoNotes ´ evaluent mal

Calculer, en chaque point de leur domaine de d´efinition, les d´eriv´ees partielles de premier ordre pour les fonctions suivantesa. Calculer pour chacune des fonctions suivantes

Nous proposons ici un al- gorithme de d´etermination d’une capacit´e pour l’int´egrale de Choquet 2-additive `a partir d’une information ordinale fournie par le

− d’appliquer des patrons (motifs) de conception et de programmation (idiomes) donn´ es dans le but d’am´ eliorer la qualit´ e du logiciel 2.. Qualit´ e logicielle et

— Thermo´ elasticit´ e : influence de la variation instationnaire des propri´ et´ es des mat´ eriaux sur leur d´ eformations ; mise en place du torseur des efforts et des

[r]