Phylogénie moléculaire

(1)

Phylogénie moléculaire

L3S5

LBO-SVT

Céline Poux

celine.poux@univ-lille1.fr Bât. SN2 porte 107bis

Cours à télécharger sur le site du GEPV

http://gepv.univ-lille1.fr/ (ressources pédagogiques)

(2)

Phylogénie moléculaire

Plan général:

1. Un préambule phylogénétique

2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques

5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres

7. Exemples d’application des phylogénies

Cours 1

05/10

L3S5

LBO-SVT

Cours 2

07/10

Cours 3

14/10

Cours 4

19/10

Cours largement inspiré de: Phylogénie moléculaire dir. E. Douzery ( Biologie évolutive Thomas/Lefèvre/Raymond)

(3)

4. Les inférences phylogénétiques

L’inférence phylogénétique repose:

• sur des caractères: morpho-anatomiques, embryologiques, cytologiques ou moléculaires.

• sur des outils méthodologiques qui synthétisent l’information évolutive portée par les caractères.

• Point de départ: un ensemble de séquences d’ADN ou de protéines homologues alignées.

• Résultat du processus: un arbre phylogénétique exprimant les relations évolutives entre les séquences étudiées.

Phylogénie moléculaire

C2

(4)

C2

4.1 L’alignement des séquences moléculaires

4. Les inférences phylogénétiques

S1 = A T G C T A A G G G C A G T C S2 = A T G C T G A G G T C A G T C

S3 = A T G T C G G G C A C T C S4 = A T G T C A G G T C A C T C S5 = A T G T C A G G G C A G T C

(5)

C2

4.1 L’alignement des séquences moléculaires

4. Les inférences phylogénétiques

4.1.1. La qualité de l’alignement est essentielle

Chaque colonne de l’alignement (site) doit contenir des

résidus homologues (nucléotides, aminoacides) qui partagent un ancêtre commun.

S1 = A T G C T A A G G G C A G T C S2 = A T G C T G A G G T C A G T C

S3 = A T G T C G - G G - C A C T C S4 = A T G T C A G G - T C A C T C S5 = A T G T C A G G G - C A G T C

(6)

C2

4.1 L’alignement des séquences moléculaires

4. Les inférences phylogénétiques

4.1.1. La qualité de l’alignement est essentielle

=> Les parties non fiables de l’alignement doivent être retirées de l’analyse phylogénétique.

S1 = A T G C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C

(7)

4. Les inférences phylogénétiques

4.1.2. Les brèches ou « gaps »

La plupart des méthodes ne tiennent compte que des substitutions;

Les brèches ou gaps (événements d’insertion/délétion) ne sont pas utilisées.

C2

4.1 L’alignement des séquences moléculaires

Xenopus GGAGTTGGTGTCggtCCAAACAGCGTT---GGCTCTCTA Gallus GCAGGAGGTAGC---CAAAATAACACCaacATGCAAATG Bos GCAGGAGGTAGCagtCAAAACAGCACC---GTGCAAATG Homo GCAGGAGGTAGCagtCAAAACAGCACC---GTGCAAATG Mus GCAGGAGGTAGCactCAAAACAGCACC---GTGCAAATG Rattus GCGGGAGGTAGCtctCAAAACAGCACC---GTGCAAATG

(8)

4. Les inférences phylogénétiques C2

4.1 L’alignement des séquences moléculaires

Xenopus GGAGTTGGTGTCCCAAACAGCGTTGGCTCTCTA Gallus GCAGGAGGTAGCCAAAATAACACCATGCAAATG Bos GCAGGAGGTAGCCAAAACAGCACCGTGCAAATG Homo GCAGGAGGTAGCCAAAACAGCACCGTGCAAATG Mus GCAGGAGGTAGCCAAAACAGCACCGTGCAAATG Rattus GCGGGAGGTAGCCAAAACAGCACCGTGCAAATG

Alignement non ambigu

Plusieurs approches disponibles pour retracer l’histoire évolutive de ces séquences

(9)

4. Les inférences phylogénétiques C2

Les trois écoles de systématique phylogénétique

(10)

4. Les inférences phylogénétiques C2

Quatre familles principales de méthodes :

• La cladistique et la parcimonie maximale

• Les méthodes de distance

• Les méthodes probabilistes

=> Méthodes de maximum de vraisemblance

=> Méthodes bayésiennes

(11)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

Willi Hennig (1966)

Entomologiste

Approche: Etablir les relations de parenté entre organismes en identifiant les synapomorphie

(12)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

La cladistique travaille sur des caractères:

- Variables: présence d’au moins 2 états de caractères - Informatifs: chacun de ces 2 états de caractère doit être présent chez au moins deux taxons

1. A 2. A 3. A 4. T

1. C 2. C 3. G 4. G 1.

2.

3.

4.

C <=> G

A <=> T

(13)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

C T

G A

C C

D

T T T T 5

G C C C 6

C T

C A

C

G A

G C

E

C T

G A

B

C T

G A

A

4 3

2

1

(14)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

G T

G A

C C

D

T T T T 5

C C C C 6

C T

C A

C

G A

G C

E

C T

G A

B

C T

G A

A

4 3

2 1

Conflit d’information

(15)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

C T

G A

C C

D

T T T T 5

G C C C 6

C T

C A

C

G A

G C

E

C T

G A

B

C T

G A

A

4 3

2 1

Conflit d’information A

B

D E

A <=> C T <=> A C <=>G

C

G <=> C

5 pas A

B

D C

A <=> C T <=> A C <=>G

E

G <=> C

A <=> C T <=> A C <=>G

7 pas

(16)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

G T

G A

C C

D

T T T T 5

C C C C 6

C T

C A

C

G A

G C

E

C T

G A

B

C T

G A

A

4 3

2

1

Solution qui implique le

moins d’homoplasie

Principe de

« maximum de parcimonie »

A B

D E

A <=> C T <=> A C <=>G

C

G <=> C

5 pas

(17)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.1 La double optimisation

L’approche de maximum de parcimonie peut être vu comme le produit d’une double optimisation.

• La première optimisation établie pour chaque caractère le

scénario évolutif impliquant le moins de changements possibles.

(18)

4. Les inférences phylogénétiques

C2

(19)

4. Les inférences phylogénétiques

C2

(20)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

L’approche de maximum de parcimonie peut être vu le produit d’une double optimisation.

• La première optimisation établie pour chaque caractère le

scénario évolutif impliquant le moins de changements possibles.

• La deuxième optimisation est le choix du meilleur arbre parmi toutes les topologies optimisées.

(21)

4. Les inférences phylogénétiques

C2

(22)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

Conclusion: La double optimisation consiste à identifier la topologie (parmi toutes celles possibles) minimisant le nombre d’homoplasie pour l’ensemble des caractères, chaque caractère

ayant lui même été optimisé sur chaque topologie.

Cette optimisation exhaustive n’est possible que pour un nombre réduit de taxons terminaux

(23)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.2 Notion de « DELTRAN » et d’«ACCTRAN »

DELTRAN: Delayed TRANsformation ACCTRAN: ACCelerated TRANsformation

Favorise les convergences Favorise les réversions

(24)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction

Un algorithme est une suite finie et non-ambiguë d’opérations ou d'instructions permettant de résoudre un problème

=> c’est une méthode.

Algorithmes exacts => algorithmes heuristiques

exhaustifs « branch & bound » 10-20 taxons 50 taxons

150 taxons

(25)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

Méthode exhaustive

Après avoir évalué tous les arbres on choisit le ou les plus courts

(26)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction Méthode « Branch & Bound »:

• la recherche exhaustive est contrôlée en référence à un arbre donné dont on calcule le nombre de pas.

• l'arbre minimal ne pourra excéder la longueur de cet arbre de référence.

964 pas

1302 1305 838

981

1354 964

1113

951

(27)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

Méthodes heuristiques

• Matrice des données trop importante pour l’usage d’un

algorithme exact => Evaluation d’un échantillon des topologies possibles.

1. Reconstruction rapide d’un arbre par une méthode de distance.

⇒ Résultat sensible à l’ordre d’introduction des taxons terminaux.

2. Réarrangement des branches (« branch swapping ») pour améliorer l’arbre initial.

(28)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

Méthode heuristiques

Réarrangement local: échange du voisin le plus proche entre 4 taxons (NNI, Nearest Neighbor Interchanges)

(29)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

Réarrangement global: élagage et greffe de sous arbres (SPR, Subtree Pruning and Regrafting)

=> Chaque sous arbre possible est retiré de l’arbre et réinséré à toutes les positions possibles.

(30)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

Réarrangement global: bissection et reconnexion (TBR, Tree Bissection Reconnexion )

⇒ un arbre est coupé en deux le long d’une branche, donnant ainsi deux sous arbres qui

sont ensuite reconnectés à toutes les branches possibles de l’arbre.

(31)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

Méthodes heuristiques

• Evaluation d’un échantillon des topologies possibles.

• On espère avoir capturé la topologie optimale

• La confiance dans le résultat augmente lorsque la topologie de l’arbre identifié comme optimal reste identique pour chaque

recherche heuristique indépendante lancée à partir d’un arbre de départ indépendant.

(32)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.4 L’artefact d’attraction des longues branches

Taxons non apparentés évoluent rapidement Augmentation de la probabilité d’homoplasie

Attirance l’un vers l’autre des taxons avec des branches terminales plus longues

Plus économique d’interpréter des convergences non détectées comme des synapomorphies apparentes

(33)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.4 L’artefact d’attraction des longues branches

(34)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.5 Les biais de composition en base

(A) La phylogénie présumée correcte.

(B) Artefact de reconstruction courant où les bactéries mésophiles avec un % en GC similaire se regroupent (de même pour les bactéries thermophiles GC riches). Les pourcentages indiquent la teneur en GC de chaque espèce.

ARN 16S

Blanquart et Lartillot 2006

(35)

Les méthodes phénétiques

Robert Sokal

1957: « taxinomie numérique »

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

Approche: Etablir les relations de parenté entre organismes en utilisant leur similitude globale.

(36)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.1 Distances évolutives et séquences

La distance évolutive entre deux séquences est le nombre moyen de substitutions par site qui est survenu depuis leur divergence.

S1 = AGAATAGCCA S2 = AGGATAGGTA

d(S1,S2) ≥ nbDiffObs(S1,S2) / nbSites

d(S1,S2) ≥ 0.3

Evènements évolutifs directement observables

(37)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

S1 = AGAATAGCCA S2 = AGGATAGGTA

d(S1,S2) ≥ nbDiffObs(S1,S2) / nbSites

d(S1,S2) ≥ 0.3

Evènements évolutifs directement observables A

A

G

T Substitution multiple à un même site

(38)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

Modèles mathématiques d’évolution des séquences d(S₁,S₂)’ = 2mt = -b ln (1 - 2 )

Distance observée Distance corrigée

m = Probabilité de changement d’un état de caractère X à un état de caractère Y

t = le temps

b = valeur qui dépend du modèle d’évolution choisi

S₁ S₂

S_A

d(S₁,S₂) b

(39)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

Par exemple pour le modèle de Jukes et Cantor (1969) Π_A = Π_T = Π_G = Π_C P_xy = α

4

(

(40)

4. Les inférences phylogénétiques C2

Π_A ≠ Π_T ≠ Π_G ≠ Π_C

Π_A = Π_T = Π_G = Π_C

α = Transition β = Transversion

(41)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.2 Distances et temps: l’hypothèse de l’horloge moléculaire

Cette hypothèse n’est valable que si:

- les séquences comparées évoluent à la même vitesse - cette vitesse est constante tout au long de l’évolution

S₁

S₂ S_A

S₃

d(S₁,S₃)/2 = d(S_A,S₁) = V * t V = vitesse d’évolution t = temps

(42)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.3 Principes et limites de l’UPGMA

(Unweighted Pair Group Method With Arithmetic Mean)

• Méthode d’agglomération des séquences

• Il existe une variante WPGMA (Weighted Pair Group Method With Arithmetic Mean). Dans cette variante, l’influence d’une distance est pondérée par la taille du groupe associé.

• les phénogrammes reconstruits par UPGMA et WPGMA sont

ultramétriques : leurs feuilles se situent toutes à égale distance de la racine. Cette particularité refléte le fait qu’ils obéissent à l’hypothèse d’horloge moléculaire.

(43)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

(Unweighted Pair Group Method With Arithmetic Mean) 1

2

(44)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4

(45)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

6

(46)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

(Unweighted Pair Group Method With Arithmetic Mean)

La principale limite des approches WPGMA / UPGMA réside dans le fait que contraindre l’horloge moléculaire sur des

données qui ne la respectent pas conduit à inférer de mauvaises topologies et de mauvaises longueurs de branches.

(47)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.4 Fitch et NJ: deux approches sans horloges

FITCH:

• mesurer les distances patristiques: distances entre chaque couple de feuilles (X, Y) = la somme des longueurs de branches qui séparent les feuilles

• une nouvelle matrice de distances qui correspondent aux distances observée sur l’arbre proposé

• cherchent l’arbre dont la matrice de distances patristiques est la plus proche possible de la matrice de distances initiales, par exemple sous un critère des moindres-carrés => Pas d’hypothèse d’horloge moléculaire.

(48)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.4 Fitch et NJ: deux approches sans horloges

NJ (Neighbor Joining):

• méthode d’agglomération

• critères qui prennent en compte le fait que la vitesse d’évolution peut

varier d’un taxon à l’autre. Les vitesses relatives des taxons sont obtenues en calculant pour chaque taxon t la somme des distances d(t, X) qui

séparent t des autres taxons

• Une des méthodes de distance les plus utilisées

(49)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

(50)

4. Les inférences phylogénétiques

C2

(51)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.5 Utilisation actuelle des méthodes par distance

Aujourd’hui utilisation principalement des méthodes probabilistes, cependant les méthodes par distance:

• sont rapides et peuvent traiter de très grands jeux de données

• proposent des topologies correctes notamment quand le degré de divergence entre séquences reste faible.

• permettent de définir une topologie de base pour de nombreuses méthodes probabilistes qui procèdent par amélioration successive d’un arbre de départ.

(52)

Phylogénie moléculaire

Plan général:

1. Un préambule phylogénétique

2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques

5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres

7. Exemples d’application des phylogénies

Cours 1

05/10

L3S5

LBO-SVT

Cours 2

07/10

Cours 3

14/10

Cours 4

19/10