Phylogénie moléculaire
L3S5
LBO-SVT
Céline Poux
celine.poux@univ-lille1.fr Bât. SN2 porte 107bis
Cours à télécharger sur le site du GEPV
http://gepv.univ-lille1.fr/ (ressources pédagogiques)
Phylogénie moléculaire
Plan général:
1. Un préambule phylogénétique
2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques
5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres
7. Exemples d’application des phylogénies
Cours 1
05/10
L3S5
LBO-SVT
Cours 2
07/10
Cours 3
14/10
Cours 4
19/10
Cours largement inspiré de: Phylogénie moléculaire dir. E. Douzery ( Biologie évolutive Thomas/Lefèvre/Raymond)
4. Les inférences phylogénétiques
L’inférence phylogénétique repose:
• sur des caractères: morpho-anatomiques, embryologiques, cytologiques ou moléculaires.
• sur des outils méthodologiques qui synthétisent l’information évolutive portée par les caractères.
• Point de départ: un ensemble de séquences d’ADN ou de protéines homologues alignées.
• Résultat du processus: un arbre phylogénétique exprimant les relations évolutives entre les séquences étudiées.
Phylogénie moléculaire
C2
C2
4.1 L’alignement des séquences moléculaires
4. Les inférences phylogénétiques
S1 = A T G C T A A G G G C A G T C S2 = A T G C T G A G G T C A G T C
S3 = A T G T C G G G C A C T C S4 = A T G T C A G G T C A C T C S5 = A T G T C A G G G C A G T C
C2
4.1 L’alignement des séquences moléculaires
4. Les inférences phylogénétiques
4.1.1. La qualité de l’alignement est essentielle
Chaque colonne de l’alignement (site) doit contenir des
résidus homologues (nucléotides, aminoacides) qui partagent un ancêtre commun.
S1 = A T G C T A A G G G C A G T C S2 = A T G C T G A G G T C A G T C
S3 = A T G T C G - G G - C A C T C S4 = A T G T C A G G - T C A C T C S5 = A T G T C A G G G - C A G T C
C2
4.1 L’alignement des séquences moléculaires
4. Les inférences phylogénétiques
4.1.1. La qualité de l’alignement est essentielle
=> Les parties non fiables de l’alignement doivent être retirées de l’analyse phylogénétique.
S1 = A T G C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C
4. Les inférences phylogénétiques
4.1.2. Les brèches ou « gaps »
La plupart des méthodes ne tiennent compte que des substitutions;
Les brèches ou gaps (événements d’insertion/délétion) ne sont pas utilisées.
C2
4.1 L’alignement des séquences moléculaires
Xenopus GGAGTTGGTGTCggtCCAAACAGCGTT---GGCTCTCTA Gallus GCAGGAGGTAGC---CAAAATAACACCaacATGCAAATG Bos GCAGGAGGTAGCagtCAAAACAGCACC---GTGCAAATG Homo GCAGGAGGTAGCagtCAAAACAGCACC---GTGCAAATG Mus GCAGGAGGTAGCactCAAAACAGCACC---GTGCAAATG Rattus GCGGGAGGTAGCtctCAAAACAGCACC---GTGCAAATG
4. Les inférences phylogénétiques C2
4.1 L’alignement des séquences moléculaires
Xenopus GGAGTTGGTGTCCCAAACAGCGTTGGCTCTCTA Gallus GCAGGAGGTAGCCAAAATAACACCATGCAAATG Bos GCAGGAGGTAGCCAAAACAGCACCGTGCAAATG Homo GCAGGAGGTAGCCAAAACAGCACCGTGCAAATG Mus GCAGGAGGTAGCCAAAACAGCACCGTGCAAATG Rattus GCGGGAGGTAGCCAAAACAGCACCGTGCAAATG
Alignement non ambigu
Plusieurs approches disponibles pour retracer l’histoire évolutive de ces séquences
4. Les inférences phylogénétiques C2
Les trois écoles de systématique phylogénétique
4. Les inférences phylogénétiques C2
Quatre familles principales de méthodes :
• La cladistique et la parcimonie maximale
• Les méthodes de distance
• Les méthodes probabilistes
=> Méthodes de maximum de vraisemblance
=> Méthodes bayésiennes
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
Willi Hennig (1966)
Entomologiste
Approche: Etablir les relations de parenté entre organismes en identifiant les synapomorphie
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
La cladistique travaille sur des caractères:
- Variables: présence d’au moins 2 états de caractères - Informatifs: chacun de ces 2 états de caractère doit être présent chez au moins deux taxons
1. A 2. A 3. A 4. T
1. C 2. C 3. G 4. G 1.
2.
3.
4.
C <=> G
A <=> T
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
C T
G A
C C
D
T T T T 5
G C C C 6
C T
C A
C
G A
G C
E
C T
G A
B
C T
G A
A
4 3
2
1
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
G T
G A
C C
D
T T T T 5
C C C C 6
C T
C A
C
G A
G C
E
C T
G A
B
C T
G A
A
4 3
2 1
Conflit d’information
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
C T
G A
C C
D
T T T T 5
G C C C 6
C T
C A
C
G A
G C
E
C T
G A
B
C T
G A
A
4 3
2 1
Conflit d’information A
B
D E
A <=> C T <=> A C <=>G
C
G <=> C
G <=> C
5 pas A
B
D C
A <=> C T <=> A C <=>G
E
G <=> C
A <=> C T <=> A C <=>G
7 pas
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
G T
G A
C C
D
T T T T 5
C C C C 6
C T
C A
C
G A
G C
E
C T
G A
B
C T
G A
A
4 3
2
1
Solution qui implique lemoins d’homoplasie
Principe de
« maximum de parcimonie »
A B
D E
A <=> C T <=> A C <=>G
C
G <=> C
G <=> C
5 pas
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.1 La double optimisation
L’approche de maximum de parcimonie peut être vu comme le produit d’une double optimisation.
• La première optimisation établie pour chaque caractère le
scénario évolutif impliquant le moins de changements possibles.
4. Les inférences phylogénétiques
C2
4. Les inférences phylogénétiques
C2
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.1 La double optimisation
L’approche de maximum de parcimonie peut être vu le produit d’une double optimisation.
• La première optimisation établie pour chaque caractère le
scénario évolutif impliquant le moins de changements possibles.
• La deuxième optimisation est le choix du meilleur arbre parmi toutes les topologies optimisées.
4. Les inférences phylogénétiques
C2
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.1 La double optimisation
Conclusion: La double optimisation consiste à identifier la topologie (parmi toutes celles possibles) minimisant le nombre d’homoplasie pour l’ensemble des caractères, chaque caractère
ayant lui même été optimisé sur chaque topologie.
Cette optimisation exhaustive n’est possible que pour un nombre réduit de taxons terminaux
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.2 Notion de « DELTRAN » et d’«ACCTRAN »
DELTRAN: Delayed TRANsformation ACCTRAN: ACCelerated TRANsformation
Favorise les convergences Favorise les réversions
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.3 Algorithmes de reconstruction
Un algorithme est une suite finie et non-ambiguë d’opérations ou d'instructions permettant de résoudre un problème
=> c’est une méthode.
Algorithmes exacts => algorithmes heuristiques
exhaustifs « branch & bound » 10-20 taxons 50 taxons
150 taxons
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.3 Algorithmes de reconstruction
Méthode exhaustive
Après avoir évalué tous les arbres on choisit le ou les plus courts
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.3 Algorithmes de reconstruction Méthode « Branch & Bound »:
• la recherche exhaustive est contrôlée en référence à un arbre donné dont on calcule le nombre de pas.
• l'arbre minimal ne pourra excéder la longueur de cet arbre de référence.
964 pas
1302 1305 838
981
1354 964
1113
951
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.3 Algorithmes de reconstruction
Méthodes heuristiques
• Matrice des données trop importante pour l’usage d’un
algorithme exact => Evaluation d’un échantillon des topologies possibles.
1. Reconstruction rapide d’un arbre par une méthode de distance.
⇒ Résultat sensible à l’ordre d’introduction des taxons terminaux.
2. Réarrangement des branches (« branch swapping ») pour améliorer l’arbre initial.
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.3 Algorithmes de reconstruction
Méthode heuristiques
Réarrangement local: échange du voisin le plus proche entre 4 taxons (NNI, Nearest Neighbor Interchanges)
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.3 Algorithmes de reconstruction
Méthode heuristiques
Réarrangement global: élagage et greffe de sous arbres (SPR, Subtree Pruning and Regrafting)
=> Chaque sous arbre possible est retiré de l’arbre et réinséré à toutes les positions possibles.
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.3 Algorithmes de reconstruction
Méthode heuristiques
Réarrangement global: bissection et reconnexion (TBR, Tree Bissection Reconnexion )
⇒ un arbre est coupé en deux le long d’une branche, donnant ainsi deux sous arbres qui
sont ensuite reconnectés à toutes les branches possibles de l’arbre.
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.3 Algorithmes de reconstruction
Méthodes heuristiques
• Evaluation d’un échantillon des topologies possibles.
• On espère avoir capturé la topologie optimale
• La confiance dans le résultat augmente lorsque la topologie de l’arbre identifié comme optimal reste identique pour chaque
recherche heuristique indépendante lancée à partir d’un arbre de départ indépendant.
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.4 L’artefact d’attraction des longues branches
Taxons non apparentés évoluent rapidement Augmentation de la probabilité d’homoplasie
Attirance l’un vers l’autre des taxons avec des branches terminales plus longues
Plus économique d’interpréter des convergences non détectées comme des synapomorphies apparentes
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.4 L’artefact d’attraction des longues branches
4. Les inférences phylogénétiques C2
4.2. La cladistique et la parcimonie maximale
4.2.5 Les biais de composition en base
(A) La phylogénie présumée correcte.
(B) Artefact de reconstruction courant où les bactéries mésophiles avec un % en GC similaire se regroupent (de même pour les bactéries thermophiles GC riches). Les pourcentages indiquent la teneur en GC de chaque espèce.
ARN 16S
Blanquart et Lartillot 2006
Les méthodes phénétiques
Robert Sokal
1957: « taxinomie numérique »
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
Approche: Etablir les relations de parenté entre organismes en utilisant leur similitude globale.
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.1 Distances évolutives et séquences
La distance évolutive entre deux séquences est le nombre moyen de substitutions par site qui est survenu depuis leur divergence.
S1 = AGAATAGCCA S2 = AGGATAGGTA
d(S1,S2) ≥ nbDiffObs(S1,S2) / nbSites
d(S1,S2) ≥ 0.3
Evènements évolutifs directement observables
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.1 Distances évolutives et séquences
S1 = AGAATAGCCA S2 = AGGATAGGTA
d(S1,S2) ≥ nbDiffObs(S1,S2) / nbSites
d(S1,S2) ≥ 0.3
Evènements évolutifs directement observables A
A
G
T Substitution multiple à un même site
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.1 Distances évolutives et séquences
Modèles mathématiques d’évolution des séquences d(S1,S2)’ = 2mt = -b ln (1 - 2 )
Distance observée Distance corrigée
m = Probabilité de changement d’un état de caractère X à un état de caractère Y
t = le temps
b = valeur qui dépend du modèle d’évolution choisi
S1 S2
SA
d(S1,S2) b
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.1 Distances évolutives et séquences
Par exemple pour le modèle de Jukes et Cantor (1969) ΠA = ΠT = ΠG = ΠC Pxy = α
4
(
4. Les inférences phylogénétiques C2
ΠA ≠ ΠT ≠ ΠG ≠ ΠC
ΠA = ΠT = ΠG = ΠC
α = Transition β = Transversion
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.2 Distances et temps: l’hypothèse de l’horloge moléculaire
Cette hypothèse n’est valable que si:
- les séquences comparées évoluent à la même vitesse - cette vitesse est constante tout au long de l’évolution
S1
S2 SA
S3
d(S1,S3)/2 = d(SA,S1) = V * t V = vitesse d’évolution t = temps
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.3 Principes et limites de l’UPGMA
(Unweighted Pair Group Method With Arithmetic Mean)
• Méthode d’agglomération des séquences
• Il existe une variante WPGMA (Weighted Pair Group Method With Arithmetic Mean). Dans cette variante, l’influence d’une distance est pondérée par la taille du groupe associé.
• les phénogrammes reconstruits par UPGMA et WPGMA sont
ultramétriques : leurs feuilles se situent toutes à égale distance de la racine. Cette particularité refléte le fait qu’ils obéissent à l’hypothèse d’horloge moléculaire.
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.3 Principes et limites de l’UPGMA
(Unweighted Pair Group Method With Arithmetic Mean) 1
2
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.3 Principes et limites de l’UPGMA
(Unweighted Pair Group Method With Arithmetic Mean) 3
4
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.3 Principes et limites de l’UPGMA
(Unweighted Pair Group Method With Arithmetic Mean) 5
6
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.3 Principes et limites de l’UPGMA
(Unweighted Pair Group Method With Arithmetic Mean)
La principale limite des approches WPGMA / UPGMA réside dans le fait que contraindre l’horloge moléculaire sur des
données qui ne la respectent pas conduit à inférer de mauvaises topologies et de mauvaises longueurs de branches.
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.4 Fitch et NJ: deux approches sans horloges
FITCH:
• mesurer les distances patristiques: distances entre chaque couple de feuilles (X, Y) = la somme des longueurs de branches qui séparent les feuilles
• une nouvelle matrice de distances qui correspondent aux distances observée sur l’arbre proposé
• cherchent l’arbre dont la matrice de distances patristiques est la plus proche possible de la matrice de distances initiales, par exemple sous un critère des moindres-carrés => Pas d’hypothèse d’horloge moléculaire.
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.4 Fitch et NJ: deux approches sans horloges
NJ (Neighbor Joining):
• méthode d’agglomération
• critères qui prennent en compte le fait que la vitesse d’évolution peut
varier d’un taxon à l’autre. Les vitesses relatives des taxons sont obtenues en calculant pour chaque taxon t la somme des distances d(t, X) qui
séparent t des autres taxons
• Une des méthodes de distance les plus utilisées
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4. Les inférences phylogénétiques
C2
4. Les inférences phylogénétiques C2
4.3. Les méthodes de distance
4.3.5 Utilisation actuelle des méthodes par distance
Aujourd’hui utilisation principalement des méthodes probabilistes, cependant les méthodes par distance:
• sont rapides et peuvent traiter de très grands jeux de données
• proposent des topologies correctes notamment quand le degré de divergence entre séquences reste faible.
• permettent de définir une topologie de base pour de nombreuses méthodes probabilistes qui procèdent par amélioration successive d’un arbre de départ.
Phylogénie moléculaire
Plan général:
1. Un préambule phylogénétique
2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques
5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres
7. Exemples d’application des phylogénies
Cours 1
05/10
L3S5
LBO-SVT
Cours 2
07/10
Cours 3
14/10
Cours 4
19/10