• Aucun résultat trouvé

Phylogénie moléculaire

N/A
N/A
Protected

Academic year: 2022

Partager "Phylogénie moléculaire"

Copied!
45
0
0

Texte intégral

(1)

Phylogénie moléculaire

L3S5

LBO-SVT

Céline Poux

celine.poux@univ-lille1.fr Bât. SN2 porte 107bis

Cours à télécharger sur le site du GEPV

http://gepv.univ-lille1.fr/ (ressources pédagogiques)

(2)

Phylogénie moléculaire

Plan général:

1. Un préambule phylogénétique

2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques

5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres

7. Exemples d’application des phylogénies

Cours 1

05/10

L3S5

LBO-SVT

Cours 2

07/10

Cours 3

14/10

Cours 4

19/10

Cours largement inspiré de: Phylogénie moléculaire dir. E. Douzery ( Biologie évolutive Thomas/Lefèvre/Raymond)

(3)

C3

S1 = A T A C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C

Est-ce que la topologie reconstruite reflète bien le signal évolutif présent dans les séquences ?

S3 S4 S5 S2 S1

5. La fiabilité des reconstructions phylogénétiques

(4)

C3 5. La fiabilité des reconstructions phylogénétiques

5.1 Le bootstrap mesure la solidité des noeuds

Matrice originale 9 sites informatifs MP

NJ ML

(5)

C3 5. La fiabilité des reconstructions phylogénétiques 5.1 Le bootstrap mesure la solidité des noeuds

I) Perturbation des caractères de départ => pseudo-matrices.

II) Reconstruction d’un nouvel arbre (même procédure d’inférence phylogénétique que pour l’analyse initiale).

III) Les 2 étapes précédentes sont répétées (100-1000 fois).

Matrice originale

(6)

C3 5. La fiabilité des reconstructions phylogénétiques

1

2 2

3

(7)

C3 5. La fiabilité des reconstructions phylogénétiques

5.1 Le bootstrap mesure la solidité des noeuds

Arbre de

consensus de bootstrap

Arbre reconstruit à partir de la matrice originale

Report des valeurs de bootstrap

Les 2 arbres n’ont pas nécessairement la même

topologie!

70 60

(8)

C3 5. La fiabilité des reconstructions phylogénétiques

5.1 Le bootstrap mesure la solidité des noeuds

Interprétation des valeurs de bootstrap

• Statistiquement => 95% (seuil classique de 5%) Il y a 5 chances sur 100 de se tromper en disant que la monophylie n'existe pas. Un peu trop sévère.

• En pratique 1=> nœud intéressant si majoritaire.

Une BP de 51% peut masquer une alternative à 49%!

• En pratique 2=> un BP de 85% correspond à un

probabilité élevé.

(9)

C3 5. La fiabilité des reconstructions phylogénétiques

5.1 Le bootstrap mesure la solidité des noeuds

Interprétation des valeurs de bootstrap

• Mesurer la solidité des nœuds d’une phylogénie par bootstrap revient à apprécier la différence de BP

entre les nœuds majoritaires et leurs alternatives minoritaires.

• Le seuil de BP retenu dépend très probablement de

la taille du jeu de données.

(10)

C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité

des noeuds.

Arbre le plus parcimonieux: 15 pas

(11)

C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité

des noeuds.

Glaucomys Mus Homo

Equus

Echinops Arbre le plus parcimonieux: 15 pas

Arbre un peu moins parcimonieux: 16 pas

+1 pas

(12)

C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité

des noeuds.

• L’indice de Bremer (« decay index ») se calcule par le nombre minimum de pas à ajouter à la longueur totale d’un arbre pour faire disparaître le nœud considéré (Bremer 1988).

• Un nœud sera d’autant plus solide qu’il faudra ajouter un nombre important de pas.

1

(13)

C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité

des noeuds.

• Il faut identifier la meilleure topologie ne satisfaisant pas à la présence du nœud considéré.

Glaucomys Mus Homo

Equus

Echinops

Glaucomys Mus Homo

Equus

Echinops

16 pas 17 pas

(14)

C3 5. La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité

des noeuds.

• L’indice de Bremer peut être standardisé par rapport à la longueur de l’arbre minimal.

Arbre de 10 pas Arbre de 100 pas

IB=5 IB=5

IBs=0.5 IBs=0.05

(15)

C3 5. La fiabilité des reconstructions phylogénétiques 5.3. Relation entre le pourcentage de boostrap

et l’indice de Bremer.

Douady et al. 2003

7 jeux de données 102 noeuds

(16)

C3 5. La fiabilité des reconstructions phylogénétiques 5.3. Relation entre le pourcentage de boostrap

et l’indice de Bremer.

Douady et al. 2003

7 jeux de données 102 noeuds

IB et BP :

- positivement corrélés

- ne sont pas clairement liés

(17)

C3 5. La fiabilité des reconstructions phylogénétiques 5.3. Relation entre le pourcentage de boostrap

et l’indice de Bremer.

Douady et al. 2003

7 jeux de données 102 noeuds

Si IB > 7 => BP > 95%

Nœud solide

(18)

C3 5. La fiabilité des reconstructions phylogénétiques

5.4 Comparaison de phylogénie concurrentes.

=> Permet de comparer différents scénarios évolutifs.

Cervidés: - mammifères ruminants

- appendices crâniens caducs ramifiés

Hydropote (Hydropotes inermis) Cerf elaphe (Cervus elaphus)

(19)

C3 5. La fiabilité des reconstructions phylogénétiques 5.4 Comparaison de phylogénie concurrentes.

=> Permet de comparer différents scénarios évolutifs.

Douzery & Randi 1997

Région de contrôle mt

(20)

C3 5. La fiabilité des reconstructions phylogénétiques 5.4 Comparaison de phylogénie concurrentes.

=> Permet de comparer différents scénarios évolutifs.

Douzery & Randi 1997

Région de contrôle mt

Utilisation du test Kishino-Hasegawa:

Basé sur la différence du logarithme des vraisemblances:

δ = ln LMeilleur - ln Lalterntif

La topologie alternative est

statistiquement plus mauvaise que la topologie la plus vraisemblable

Il y a eu perte des bois chez Hydropotes

(21)

C3 5. La fiabilité des reconstructions phylogénétiques

5.5. Densité de l’échantillonnage taxonomique.

Pour améliorer la fiabilité des inférences phylogénétiques on peut:

- augmenter le nombre de caractères - augmenter le nombre de taxons

S1 = A T A C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C

caractères

taxons

(22)

C3 5. La fiabilité des reconstructions phylogénétiques

Phylogénie des angiospermes Pour chacun des 357 taxons:

- Calcule la distance évolutive qui le sépare de la racine de l’arbre

- Compte le nombre de nœuds qui le sépare de la racine de l’arbre

(23)

C3 5. La fiabilité des reconstructions phylogénétiques 5.5. Densité de l’échantillonnage taxonomique.

Augmentation des distances évolutives inférées en fonction de la densité des évènements de cladogénèse.

(24)

C3 5. La fiabilité des reconstructions phylogénétiques 5.5. Densité de l’échantillonnage taxonomique.

Un meilleur échantillonnage

taxonomique permet de détecter plus d’évènements évolutifs

Permet de mieux repérer les évènements de substitutions multiples ayant pu avoir lieu à chacun des sites de l’alignement

(25)

C3 5. La fiabilité des reconstructions phylogénétiques

5.5. Densité de l’échantillonnage taxonomique.

Phylogénie des Artiodactyles et des Cétacés CYB - 9 taxons - 49 sites informatifs

Daim Cochon Dauphin Rhino Vache Baleine

Pécari Cerf Souris

Quartettes:

Ruminant (daim ou vache ou cerf) Suiforme (cochon ou pécari)

Cétacé (baleine ou dauphin)

Groupe externe (rhino ou souris)

(26)

C3 5. La fiabilité des reconstructions phylogénétiques

5.5. Densité de l’échantillonnage taxonomique.

CYB - 9 taxons - 49 sites informatifs

Daim Cochon Dauphin Rhino Vache Baleine

Pécari Cerf Souris

13 SI 7 SI 13 SI

(27)

C3 5. La fiabilité des reconstructions phylogénétiques 5.5. Densité de l’échantillonnage taxonomique.

CYB - 9 taxons - 49 sites informatifs

Seul un nombre accru d’espèces permet de détecter les remplacements multiples.

(28)

C3 5. La fiabilité des reconstructions phylogénétiques

5.6. Corroborer les résultats.

Le résultat d’une inférence phylogénétique est difficile à évaluer

=> La phylogénie inférée est vrai ou non ? Gènes nucléaires

Gènes mitochondriaux

Gènes chloroplastiques S3

S4 S5 S2 S1

(29)

C3 5. La fiabilité des reconstructions phylogénétiques

5.6. Corroborer les résultats.

Le résultat d’une inférence phylogénétique est difficile à évaluer

=> La phylogénie inférée est vrai ou non ? Gènes nucléaires

Gènes mitochondriaux

Gènes chloroplastiques S3

S4 S5 S2 S1

(30)

C3 5. La fiabilité des reconstructions phylogénétiques

5.7. Les différents types d’erreur.

1. L’erreur stochastique: la taille de l’échantillon est trop petite

L’échantillon choisi ne reflète pas de manière fidèle le signal phylogénétique contenu dans le génome.

S1 = A T A C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C

=> Ici 10 caractères seulement

Cf sondage

(31)

C3 5. La fiabilité des reconstructions phylogénétiques

5.7. Les différents types d’erreur.

2. Erreur systématique: la méthode d’inférence est inconsistante - Horloge moléculaire n’est pas constante (Méthode UPGMA) - Attraction des longues branches (Maximum de Parcimonie) - Violation du modèle d’évolution des séquences (Méthodes probabilistes)

(32)

C3 5. La fiabilité des reconstructions phylogénétiques

5.7. Les différents types d’erreur.

3. Erreur « biologique »: la phylogénie inférée est correcte, elle reflète bien l’évolution du gène étudié mais pas celle des espèces.

- Duplication de gènes - Transfert horizontal

- Tri incomplet des lignées ancestrales

(33)

C3 5. La fiabilité des reconstructions phylogénétiques

5.8. Détecter le signal non-phylogénétique.

5.8.1. Augmentation du nombre de caractères et d’espèces.

S1 = A T A C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C

caractères

taxons

Pour l’erreur stochastique

Pour l’erreur systématique

(34)

C3 5. La fiabilité des reconstructions phylogénétiques

5.8. Détecter le signal non-phylogénétique.

5.8.1. Augmentation du nombre de caractères et d’espèces.

Limites de l’augmentation du nombre de caractères:

=> Le génome complet

Limites de l’augmentation du nombre de taxons:

⇒ La faible biodiversité existant dans certaines lignées (taux de diversification / taux d’instinction)

⇒ Le temps de calcul

(35)

C3 5. La fiabilité des reconstructions phylogénétiques

5.8. Détecter le signal non-phylogénétique.

5.8.2. Vers de meilleurs modèles d’évolution des séquences.

=> Modèles biologiquement plus réalistes

(36)

C3 5. La fiabilité des reconstructions phylogénétiques

5.8. Détecter le signal non-phylogénétique.

5.8.3. Trier les données.

Pour réduire le signal non-phylogénétique

⇒ Retirer des matrices de caractères les éléments qui

évoluent le plus vite (espèces, sites, gènes).

(37)

C3 5. La fiabilité des reconstructions phylogénétiques

5.8. Détecter le signal non-phylogénétique.

5.8.3. Trier les données.

Retirer les espèces qui violent l’hypothèse d’horloge moléculaire (Test du taux relatif, « Relative rate test »).

O

dOA = dOB ?

Peut être déduit de:

dOA - dOB = dCA-dCB Si le taux d’évolution est constant: dCA = dCB

(38)

C3 5. La fiabilité des reconstructions phylogénétiques

5.8. Détecter le signal non-phylogénétique.

5.8.3. Trier les données.

La troisième position des codons évolue plus vite car

le code génétique est redondant

Retirer les troisièmes positions du codon de

l’analyse.

(39)

C3 5. La fiabilité des reconstructions phylogénétiques

5.8. Détecter le signal non-phylogénétique.

+ de sites + d’espèces

+ de signal phylogénétique - de signal non-phylogénétique

Meilleure extraction du signal phylogénétique Modèles + complexes et + réalistes

Temps de calculs informatiques +++

(40)

C3 5. La fiabilité des reconstructions phylogénétiques 5.9. Phylogénie de gènes et phylogénie d’espèces.

Hypothèse que l’histoire des gènes est identique à l’histoire des

organismes qui les portent

Phylogénie de gènes = phylogénie d’espèces

(41)

C3 5. La fiabilité des reconstructions phylogénétiques

5.9. Phylogénie de gènes et phylogénie d’espèces.

5.9.1. Paralogie cachée.

Conservation possible des copies si:

- Avantage à produire plus de protéines - phénomène de sous-fonctionnalisation - phénomène de néo-fonctionnalisation

=> Constitution de familles de gènes

Si une seule copie est conservée et reste fonctionnelle l’autre devient inactive et accumule les mutations

=> pseudogène => disparition.

(42)

C3 5. La fiabilité des reconstructions phylogénétiques

5.9. Phylogénie de gènes et phylogénie d’espèces.

5.9.2. Transfert horizontal.

Chez les procaryotes, échange d’ADN possible entre individus même éloignés

phylogénétiquement

Si le gène transféré procure un avantage sélectif (résistance à un antibiotique) il

remplacera le gène original

(43)

C3 5. La fiabilité des reconstructions phylogénétiques

5.9. Phylogénie de gènes et phylogénie d’espèces.

5.9.3. Polymorphisme ancestral et le tri incomplet des lignées.

Le polymorphisme présent dans l’espèce ancestrale est en grande

partie hérité par les espèces filles

Les espèces filles vont fixer le

polymorphisme de manière indépendante

(44)

C3 5. La fiabilité des reconstructions phylogénétiques

5.9. Phylogénie de gènes et phylogénie d’espèces.

5.9.4. Comment éviter les erreurs?

Gène 1 Gène 2 Gène 3 Gène 4 Gène 5 Gène 6

Construction d’une phylogénie des espèces Concaténation dans un super alignement

=> Les phylogénies des 6 gènes ne sont pas toutes biaisées dans une direction particulière.

(45)

Phylogénie moléculaire

Plan général:

1. Un préambule phylogénétique

2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques

5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres

7. Exemples d’application des phylogénies

Cours 1

05/10

L3S5

LBO-SVT

Cours 2

07/10

Cours 3

14/10

Cours 4

19/10

Références

Documents relatifs

Par ailleurs, l’hypothèse de la variabilité des taux de substitution au cours du temps a été très tôt évoquée pour expliquer la présence dans les séquences d’un nombre

Cependant, en pratique, le calcul des probabilités postérieures des arbres phylogénétiques étant ana- lytiquement impossible, il a été nécessaire d’implé- menter des

Under suitable non-degeneracy hypotheses we prove that the empirical measures of the trajectories of the pair (velocity field, particle) satisfy the LDP with a good rate

Ce genre est séparé en deux sous-genres : le sous-genre Quercus s.l et le sous-genre Cyclobalanopsis (cette hypothèse provenant des travaux issus de la botanique mais également

Fondé sur les bases théoriques des normes transactionnelles collaboratives et des approches philosophiques sur les vertus cardinales de justice, de courage, de prudence et

2.1 Caractéristiques générales des arbres Arbre phylogénétique ≠  Arbre généalogique.. Réseau Arbre

Conclusion: La double optimisation consiste à identifier la topologie (parmi toutes celles possibles) minimisant le nombre d’homoplasie pour l’ensemble des caractères,

Concensus d’arbres: rechercher l’arbre le plus représentatif d’une collection d’arbres sources tous définis sur le même ensemble de feuilles.. • L’arbre de consensus strict