Phylogénie moléculaire
L3S5
LBO-SVT
Céline Poux
celine.poux@univ-lille1.fr Bât. SN2 porte 107bis
Cours à télécharger sur le site du GEPV
http://gepv.univ-lille1.fr/ (ressources pédagogiques)
Phylogénie moléculaire
Plan général:
1. Un préambule phylogénétique
2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques
5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres
7. Exemples d’application des phylogénies
Cours 1
05/10
L3S5
LBO-SVT
Cours 2
07/10
Cours 3
14/10
Cours 4
19/10
Cours largement inspiré de: Phylogénie moléculaire dir. E. Douzery ( Biologie évolutive Thomas/Lefèvre/Raymond)
C3
S1 = A T A C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C
Est-ce que la topologie reconstruite reflète bien le signal évolutif présent dans les séquences ?
S3 S4 S5 S2 S1
5. La fiabilité des reconstructions phylogénétiques
C3 5. La fiabilité des reconstructions phylogénétiques
5.1 Le bootstrap mesure la solidité des noeuds
Matrice originale 9 sites informatifs MP
NJ ML
C3 5. La fiabilité des reconstructions phylogénétiques 5.1 Le bootstrap mesure la solidité des noeuds
I) Perturbation des caractères de départ => pseudo-matrices.
II) Reconstruction d’un nouvel arbre (même procédure d’inférence phylogénétique que pour l’analyse initiale).
III) Les 2 étapes précédentes sont répétées (100-1000 fois).
Matrice originale
C3 5. La fiabilité des reconstructions phylogénétiques
1
2 2
3
C3 5. La fiabilité des reconstructions phylogénétiques
5.1 Le bootstrap mesure la solidité des noeuds
Arbre de
consensus de bootstrap
Arbre reconstruit à partir de la matrice originale
Report des valeurs de bootstrap
Les 2 arbres n’ont pas nécessairement la même
topologie!
70 60
C3 5. La fiabilité des reconstructions phylogénétiques
5.1 Le bootstrap mesure la solidité des noeuds
Interprétation des valeurs de bootstrap
• Statistiquement => 95% (seuil classique de 5%) Il y a 5 chances sur 100 de se tromper en disant que la monophylie n'existe pas. Un peu trop sévère.
• En pratique 1=> nœud intéressant si majoritaire.
Une BP de 51% peut masquer une alternative à 49%!
• En pratique 2=> un BP de 85% correspond à un
probabilité élevé.
C3 5. La fiabilité des reconstructions phylogénétiques
5.1 Le bootstrap mesure la solidité des noeuds
Interprétation des valeurs de bootstrap
• Mesurer la solidité des nœuds d’une phylogénie par bootstrap revient à apprécier la différence de BP
entre les nœuds majoritaires et leurs alternatives minoritaires.
• Le seuil de BP retenu dépend très probablement de
la taille du jeu de données.
C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité
des noeuds.
Arbre le plus parcimonieux: 15 pas
C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité
des noeuds.
Glaucomys Mus Homo
Equus
Echinops Arbre le plus parcimonieux: 15 pas
Arbre un peu moins parcimonieux: 16 pas
+1 pas
C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité
des noeuds.
• L’indice de Bremer (« decay index ») se calcule par le nombre minimum de pas à ajouter à la longueur totale d’un arbre pour faire disparaître le nœud considéré (Bremer 1988).
• Un nœud sera d’autant plus solide qu’il faudra ajouter un nombre important de pas.
1
C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité
des noeuds.
• Il faut identifier la meilleure topologie ne satisfaisant pas à la présence du nœud considéré.
Glaucomys Mus Homo
Equus
Echinops
Glaucomys Mus Homo
Equus
Echinops
16 pas 17 pas
C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité
des noeuds.
• L’indice de Bremer peut être standardisé par rapport à la longueur de l’arbre minimal.
Arbre de 10 pas Arbre de 100 pas
IB=5 IB=5
IBs=0.5 IBs=0.05
C3 5. La fiabilité des reconstructions phylogénétiques 5.3. Relation entre le pourcentage de boostrap
et l’indice de Bremer.
Douady et al. 2003
7 jeux de données 102 noeuds
C3 5. La fiabilité des reconstructions phylogénétiques 5.3. Relation entre le pourcentage de boostrap
et l’indice de Bremer.
Douady et al. 2003
7 jeux de données 102 noeuds
IB et BP :
- positivement corrélés
- ne sont pas clairement liés
C3 5. La fiabilité des reconstructions phylogénétiques 5.3. Relation entre le pourcentage de boostrap
et l’indice de Bremer.
Douady et al. 2003
7 jeux de données 102 noeuds
Si IB > 7 => BP > 95%
Nœud solide
C3 5. La fiabilité des reconstructions phylogénétiques
5.4 Comparaison de phylogénie concurrentes.
=> Permet de comparer différents scénarios évolutifs.
Cervidés: - mammifères ruminants
- appendices crâniens caducs ramifiés
Hydropote (Hydropotes inermis) Cerf elaphe (Cervus elaphus)
C3 5. La fiabilité des reconstructions phylogénétiques 5.4 Comparaison de phylogénie concurrentes.
=> Permet de comparer différents scénarios évolutifs.
Douzery & Randi 1997
Région de contrôle mt
C3 5. La fiabilité des reconstructions phylogénétiques 5.4 Comparaison de phylogénie concurrentes.
=> Permet de comparer différents scénarios évolutifs.
Douzery & Randi 1997
Région de contrôle mt
Utilisation du test Kishino-Hasegawa:
Basé sur la différence du logarithme des vraisemblances:
δ = ln LMeilleur - ln Lalterntif
La topologie alternative est
statistiquement plus mauvaise que la topologie la plus vraisemblable
Il y a eu perte des bois chez Hydropotes
C3 5. La fiabilité des reconstructions phylogénétiques
5.5. Densité de l’échantillonnage taxonomique.
Pour améliorer la fiabilité des inférences phylogénétiques on peut:
- augmenter le nombre de caractères - augmenter le nombre de taxons
S1 = A T A C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C
caractères
taxons
C3 5. La fiabilité des reconstructions phylogénétiques
Phylogénie des angiospermes Pour chacun des 357 taxons:
- Calcule la distance évolutive qui le sépare de la racine de l’arbre
- Compte le nombre de nœuds qui le sépare de la racine de l’arbre
C3 5. La fiabilité des reconstructions phylogénétiques 5.5. Densité de l’échantillonnage taxonomique.
Augmentation des distances évolutives inférées en fonction de la densité des évènements de cladogénèse.
C3 5. La fiabilité des reconstructions phylogénétiques 5.5. Densité de l’échantillonnage taxonomique.
Un meilleur échantillonnage
taxonomique permet de détecter plus d’évènements évolutifs
Permet de mieux repérer les évènements de substitutions multiples ayant pu avoir lieu à chacun des sites de l’alignement
C3 5. La fiabilité des reconstructions phylogénétiques
5.5. Densité de l’échantillonnage taxonomique.
Phylogénie des Artiodactyles et des Cétacés CYB - 9 taxons - 49 sites informatifs
Daim Cochon Dauphin Rhino Vache Baleine
Pécari Cerf Souris
Quartettes:
Ruminant (daim ou vache ou cerf) Suiforme (cochon ou pécari)
Cétacé (baleine ou dauphin)
Groupe externe (rhino ou souris)
C3 5. La fiabilité des reconstructions phylogénétiques
5.5. Densité de l’échantillonnage taxonomique.
CYB - 9 taxons - 49 sites informatifs
Daim Cochon Dauphin Rhino Vache Baleine
Pécari Cerf Souris
13 SI 7 SI 13 SI
C3 5. La fiabilité des reconstructions phylogénétiques 5.5. Densité de l’échantillonnage taxonomique.
CYB - 9 taxons - 49 sites informatifs
Seul un nombre accru d’espèces permet de détecter les remplacements multiples.
C3 5. La fiabilité des reconstructions phylogénétiques
5.6. Corroborer les résultats.
Le résultat d’une inférence phylogénétique est difficile à évaluer
=> La phylogénie inférée est vrai ou non ? Gènes nucléaires
Gènes mitochondriaux
Gènes chloroplastiques S3
S4 S5 S2 S1
C3 5. La fiabilité des reconstructions phylogénétiques
5.6. Corroborer les résultats.
Le résultat d’une inférence phylogénétique est difficile à évaluer
=> La phylogénie inférée est vrai ou non ? Gènes nucléaires
Gènes mitochondriaux
Gènes chloroplastiques S3
S4 S5 S2 S1
C3 5. La fiabilité des reconstructions phylogénétiques
5.7. Les différents types d’erreur.
1. L’erreur stochastique: la taille de l’échantillon est trop petite
L’échantillon choisi ne reflète pas de manière fidèle le signal phylogénétique contenu dans le génome.
S1 = A T A C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C
=> Ici 10 caractères seulement
Cf sondage
C3 5. La fiabilité des reconstructions phylogénétiques
5.7. Les différents types d’erreur.
2. Erreur systématique: la méthode d’inférence est inconsistante - Horloge moléculaire n’est pas constante (Méthode UPGMA) - Attraction des longues branches (Maximum de Parcimonie) - Violation du modèle d’évolution des séquences (Méthodes probabilistes)
C3 5. La fiabilité des reconstructions phylogénétiques
5.7. Les différents types d’erreur.
3. Erreur « biologique »: la phylogénie inférée est correcte, elle reflète bien l’évolution du gène étudié mais pas celle des espèces.
- Duplication de gènes - Transfert horizontal
- Tri incomplet des lignées ancestrales
C3 5. La fiabilité des reconstructions phylogénétiques
5.8. Détecter le signal non-phylogénétique.
5.8.1. Augmentation du nombre de caractères et d’espèces.
S1 = A T A C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C
caractères
taxons
Pour l’erreur stochastique
Pour l’erreur systématique
C3 5. La fiabilité des reconstructions phylogénétiques
5.8. Détecter le signal non-phylogénétique.
5.8.1. Augmentation du nombre de caractères et d’espèces.
Limites de l’augmentation du nombre de caractères:
=> Le génome complet
Limites de l’augmentation du nombre de taxons:
⇒ La faible biodiversité existant dans certaines lignées (taux de diversification / taux d’instinction)
⇒ Le temps de calcul
C3 5. La fiabilité des reconstructions phylogénétiques
5.8. Détecter le signal non-phylogénétique.
5.8.2. Vers de meilleurs modèles d’évolution des séquences.
=> Modèles biologiquement plus réalistes
C3 5. La fiabilité des reconstructions phylogénétiques
5.8. Détecter le signal non-phylogénétique.
5.8.3. Trier les données.
Pour réduire le signal non-phylogénétique
⇒ Retirer des matrices de caractères les éléments qui
évoluent le plus vite (espèces, sites, gènes).
C3 5. La fiabilité des reconstructions phylogénétiques
5.8. Détecter le signal non-phylogénétique.
5.8.3. Trier les données.
Retirer les espèces qui violent l’hypothèse d’horloge moléculaire (Test du taux relatif, « Relative rate test »).
O
dOA = dOB ?
Peut être déduit de:
dOA - dOB = dCA-dCB Si le taux d’évolution est constant: dCA = dCB
C3 5. La fiabilité des reconstructions phylogénétiques
5.8. Détecter le signal non-phylogénétique.
5.8.3. Trier les données.
La troisième position des codons évolue plus vite car
le code génétique est redondant
Retirer les troisièmes positions du codon de
l’analyse.
C3 5. La fiabilité des reconstructions phylogénétiques
5.8. Détecter le signal non-phylogénétique.
+ de sites + d’espèces
+ de signal phylogénétique - de signal non-phylogénétique
Meilleure extraction du signal phylogénétique Modèles + complexes et + réalistes
Temps de calculs informatiques +++
C3 5. La fiabilité des reconstructions phylogénétiques 5.9. Phylogénie de gènes et phylogénie d’espèces.
Hypothèse que l’histoire des gènes est identique à l’histoire des
organismes qui les portent
Phylogénie de gènes = phylogénie d’espèces
C3 5. La fiabilité des reconstructions phylogénétiques
5.9. Phylogénie de gènes et phylogénie d’espèces.
5.9.1. Paralogie cachée.
Conservation possible des copies si:
- Avantage à produire plus de protéines - phénomène de sous-fonctionnalisation - phénomène de néo-fonctionnalisation
=> Constitution de familles de gènes
Si une seule copie est conservée et reste fonctionnelle l’autre devient inactive et accumule les mutations
=> pseudogène => disparition.
C3 5. La fiabilité des reconstructions phylogénétiques
5.9. Phylogénie de gènes et phylogénie d’espèces.
5.9.2. Transfert horizontal.
Chez les procaryotes, échange d’ADN possible entre individus même éloignés
phylogénétiquement
Si le gène transféré procure un avantage sélectif (résistance à un antibiotique) il
remplacera le gène original
C3 5. La fiabilité des reconstructions phylogénétiques
5.9. Phylogénie de gènes et phylogénie d’espèces.
5.9.3. Polymorphisme ancestral et le tri incomplet des lignées.
Le polymorphisme présent dans l’espèce ancestrale est en grande
partie hérité par les espèces filles
Les espèces filles vont fixer le
polymorphisme de manière indépendante
C3 5. La fiabilité des reconstructions phylogénétiques
5.9. Phylogénie de gènes et phylogénie d’espèces.
5.9.4. Comment éviter les erreurs?
Gène 1 Gène 2 Gène 3 Gène 4 Gène 5 Gène 6
Construction d’une phylogénie des espèces Concaténation dans un super alignement
=> Les phylogénies des 6 gènes ne sont pas toutes biaisées dans une direction particulière.
Phylogénie moléculaire
Plan général:
1. Un préambule phylogénétique
2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques
5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres
7. Exemples d’application des phylogénies
Cours 1
05/10
L3S5
LBO-SVT
Cours 2
07/10
Cours 3
14/10
Cours 4
19/10