• Aucun résultat trouvé

Phylogénie moléculaire

N/A
N/A
Protected

Academic year: 2022

Partager "Phylogénie moléculaire"

Copied!
52
0
0

Texte intégral

(1)

Phylogénie moléculaire

L3S5

LBO-SVT

Céline Poux

celine.poux@univ-lille1.fr Bât. SN2 porte 107bis

Cours à télécharger sur le site du GEPV

http://gepv.univ-lille1.fr/ (ressources pédagogiques)

(2)

Phylogénie moléculaire

Plan général:

1. Un préambule phylogénétique

2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques

5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres

7. Exemples d’application des phylogénies

Cours 1

05/10

L3S5

LBO-SVT

Cours 2

07/10

Cours 3

14/10

Cours 4

19/10

Cours largement inspiré de: Phylogénie moléculaire dir. E. Douzery ( Biologie évolutive Thomas/Lefèvre/Raymond)

(3)

4. Les inférences phylogénétiques

L’inférence phylogénétique repose:

• sur des caractères: morpho-anatomiques, embryologiques, cytologiques ou moléculaires.

• sur des outils méthodologiques qui synthétisent l’information évolutive portée par les caractères.

• Point de départ: un ensemble de séquences d’ADN ou de protéines homologues alignées.

• Résultat du processus: un arbre phylogénétique exprimant les relations évolutives entre les séquences étudiées.

Phylogénie moléculaire

C2

(4)

C2

4.1 L’alignement des séquences moléculaires

4. Les inférences phylogénétiques

S1 = A T G C T A A G G G C A G T C S2 = A T G C T G A G G T C A G T C

S3 = A T G T C G G G C A C T C S4 = A T G T C A G G T C A C T C S5 = A T G T C A G G G C A G T C

(5)

C2

4.1 L’alignement des séquences moléculaires

4. Les inférences phylogénétiques

4.1.1. La qualité de l’alignement est essentielle

Chaque colonne de l’alignement (site) doit contenir des

résidus homologues (nucléotides, aminoacides) qui partagent un ancêtre commun.

S1 = A T G C T A A G G G C A G T C S2 = A T G C T G A G G T C A G T C

S3 = A T G T C G - G G - C A C T C S4 = A T G T C A G G - T C A C T C S5 = A T G T C A G G G - C A G T C

(6)

C2

4.1 L’alignement des séquences moléculaires

4. Les inférences phylogénétiques

4.1.1. La qualité de l’alignement est essentielle

=> Les parties non fiables de l’alignement doivent être retirées de l’analyse phylogénétique.

S1 = A T G C T C A G T C S2 = A T G C T C A G T C S3 = A T G T C C A C T C S4 = A T G T C C A C T C S5 = A T G T C C A G T C

(7)

4. Les inférences phylogénétiques

4.1.2. Les brèches ou « gaps »

La plupart des méthodes ne tiennent compte que des substitutions;

Les brèches ou gaps (événements d’insertion/délétion) ne sont pas utilisées.

C2

4.1 L’alignement des séquences moléculaires

Xenopus GGAGTTGGTGTCggtCCAAACAGCGTT---GGCTCTCTA Gallus GCAGGAGGTAGC---CAAAATAACACCaacATGCAAATG Bos GCAGGAGGTAGCagtCAAAACAGCACC---GTGCAAATG Homo GCAGGAGGTAGCagtCAAAACAGCACC---GTGCAAATG Mus GCAGGAGGTAGCactCAAAACAGCACC---GTGCAAATG Rattus GCGGGAGGTAGCtctCAAAACAGCACC---GTGCAAATG

(8)

4. Les inférences phylogénétiques C2

4.1 L’alignement des séquences moléculaires

Xenopus GGAGTTGGTGTCCCAAACAGCGTTGGCTCTCTA Gallus GCAGGAGGTAGCCAAAATAACACCATGCAAATG Bos GCAGGAGGTAGCCAAAACAGCACCGTGCAAATG Homo GCAGGAGGTAGCCAAAACAGCACCGTGCAAATG Mus GCAGGAGGTAGCCAAAACAGCACCGTGCAAATG Rattus GCGGGAGGTAGCCAAAACAGCACCGTGCAAATG

Alignement non ambigu

Plusieurs approches disponibles pour retracer l’histoire évolutive de ces séquences

(9)

4. Les inférences phylogénétiques C2

Les trois écoles de systématique phylogénétique

(10)

4. Les inférences phylogénétiques C2

Quatre familles principales de méthodes :

• La cladistique et la parcimonie maximale

• Les méthodes de distance

• Les méthodes probabilistes

=> Méthodes de maximum de vraisemblance

=> Méthodes bayésiennes

(11)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

Willi Hennig (1966)

Entomologiste

Approche: Etablir les relations de parenté entre organismes en identifiant les synapomorphie

(12)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

La cladistique travaille sur des caractères:

- Variables: présence d’au moins 2 états de caractères - Informatifs: chacun de ces 2 états de caractère doit être présent chez au moins deux taxons

1. A 2. A 3. A 4. T

1. C 2. C 3. G 4. G 1.

2.

3.

4.

C <=> G

A <=> T

(13)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

C T

G A

C C

D

T T T T 5

G C C C 6

C T

C A

C

G A

G C

E

C T

G A

B

C T

G A

A

4 3

2

1

(14)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

G T

G A

C C

D

T T T T 5

C C C C 6

C T

C A

C

G A

G C

E

C T

G A

B

C T

G A

A

4 3

2 1

Conflit d’information

(15)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

C T

G A

C C

D

T T T T 5

G C C C 6

C T

C A

C

G A

G C

E

C T

G A

B

C T

G A

A

4 3

2 1

Conflit d’information A

B

D E

A <=> C T <=> A C <=>G

C

G <=> C

G <=> C

5 pas A

B

D C

A <=> C T <=> A C <=>G

E

G <=> C

A <=> C T <=> A C <=>G

7 pas

(16)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

G T

G A

C C

D

T T T T 5

C C C C 6

C T

C A

C

G A

G C

E

C T

G A

B

C T

G A

A

4 3

2

1

Solution qui implique le

moins d’homoplasie

Principe de

« maximum de parcimonie »

A B

D E

A <=> C T <=> A C <=>G

C

G <=> C

G <=> C

5 pas

(17)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.1 La double optimisation

L’approche de maximum de parcimonie peut être vu comme le produit d’une double optimisation.

• La première optimisation établie pour chaque caractère le

scénario évolutif impliquant le moins de changements possibles.

(18)

4. Les inférences phylogénétiques

C2

(19)

4. Les inférences phylogénétiques

C2

(20)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.1 La double optimisation

L’approche de maximum de parcimonie peut être vu le produit d’une double optimisation.

• La première optimisation établie pour chaque caractère le

scénario évolutif impliquant le moins de changements possibles.

• La deuxième optimisation est le choix du meilleur arbre parmi toutes les topologies optimisées.

(21)

4. Les inférences phylogénétiques

C2

(22)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.1 La double optimisation

Conclusion: La double optimisation consiste à identifier la topologie (parmi toutes celles possibles) minimisant le nombre d’homoplasie pour l’ensemble des caractères, chaque caractère

ayant lui même été optimisé sur chaque topologie.

Cette optimisation exhaustive n’est possible que pour un nombre réduit de taxons terminaux

(23)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.2 Notion de « DELTRAN » et d’«ACCTRAN »

DELTRAN: Delayed TRANsformation ACCTRAN: ACCelerated TRANsformation

Favorise les convergences Favorise les réversions

(24)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction

Un algorithme est une suite finie et non-ambiguë d’opérations ou d'instructions permettant de résoudre un problème

=> c’est une méthode.

Algorithmes exacts => algorithmes heuristiques

exhaustifs « branch & bound » 10-20 taxons 50 taxons

150 taxons

(25)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction

Méthode exhaustive

Après avoir évalué tous les arbres on choisit le ou les plus courts

(26)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction Méthode « Branch & Bound »:

• la recherche exhaustive est contrôlée en référence à un arbre donné dont on calcule le nombre de pas.

• l'arbre minimal ne pourra excéder la longueur de cet arbre de référence.

964 pas

1302 1305 838

981

1354 964

1113

951

(27)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction

Méthodes heuristiques

• Matrice des données trop importante pour l’usage d’un

algorithme exact => Evaluation d’un échantillon des topologies possibles.

1. Reconstruction rapide d’un arbre par une méthode de distance.

⇒ Résultat sensible à l’ordre d’introduction des taxons terminaux.

2. Réarrangement des branches (« branch swapping ») pour améliorer l’arbre initial.

(28)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction

Méthode heuristiques

Réarrangement local: échange du voisin le plus proche entre 4 taxons (NNI, Nearest Neighbor Interchanges)

(29)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction

Méthode heuristiques

Réarrangement global: élagage et greffe de sous arbres (SPR, Subtree Pruning and Regrafting)

=> Chaque sous arbre possible est retiré de l’arbre et réinséré à toutes les positions possibles.

(30)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction

Méthode heuristiques

Réarrangement global: bissection et reconnexion (TBR, Tree Bissection Reconnexion )

⇒ un arbre est coupé en deux le long d’une branche, donnant ainsi deux sous arbres qui

sont ensuite reconnectés à toutes les branches possibles de l’arbre.

(31)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.3 Algorithmes de reconstruction

Méthodes heuristiques

• Evaluation d’un échantillon des topologies possibles.

• On espère avoir capturé la topologie optimale

• La confiance dans le résultat augmente lorsque la topologie de l’arbre identifié comme optimal reste identique pour chaque

recherche heuristique indépendante lancée à partir d’un arbre de départ indépendant.

(32)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.4 L’artefact d’attraction des longues branches

Taxons non apparentés évoluent rapidement Augmentation de la probabilité d’homoplasie

Attirance l’un vers l’autre des taxons avec des branches terminales plus longues

Plus économique d’interpréter des convergences non détectées comme des synapomorphies apparentes

(33)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.4 L’artefact d’attraction des longues branches

(34)

4. Les inférences phylogénétiques C2

4.2. La cladistique et la parcimonie maximale

4.2.5 Les biais de composition en base

(A) La phylogénie présumée correcte.

(B) Artefact de reconstruction courant où les bactéries mésophiles avec un % en GC similaire se regroupent (de même pour les bactéries thermophiles GC riches). Les pourcentages indiquent la teneur en GC de chaque espèce.

ARN 16S

Blanquart et Lartillot 2006

(35)

Les méthodes phénétiques

Robert Sokal

1957: « taxinomie numérique »

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

Approche: Etablir les relations de parenté entre organismes en utilisant leur similitude globale.

(36)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.1 Distances évolutives et séquences

La distance évolutive entre deux séquences est le nombre moyen de substitutions par site qui est survenu depuis leur divergence.

S1 = AGAATAGCCA S2 = AGGATAGGTA

d(S1,S2) ≥ nbDiffObs(S1,S2) / nbSites

d(S1,S2) ≥ 0.3

Evènements évolutifs directement observables

(37)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.1 Distances évolutives et séquences

S1 = AGAATAGCCA S2 = AGGATAGGTA

d(S1,S2) ≥ nbDiffObs(S1,S2) / nbSites

d(S1,S2) ≥ 0.3

Evènements évolutifs directement observables A

A

G

T Substitution multiple à un même site

(38)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.1 Distances évolutives et séquences

Modèles mathématiques d’évolution des séquences d(S1,S2)’ = 2mt = -b ln (1 - 2 )

Distance observée Distance corrigée

m = Probabilité de changement d’un état de caractère X à un état de caractère Y

t = le temps

b = valeur qui dépend du modèle d’évolution choisi

S1 S2

SA

d(S1,S2) b

(39)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.1 Distances évolutives et séquences

Par exemple pour le modèle de Jukes et Cantor (1969) ΠA = ΠT = ΠG = ΠC Pxy = α

4

(

(40)

4. Les inférences phylogénétiques C2

ΠA ≠ ΠT ≠ ΠG ≠ ΠC

ΠA = ΠT = ΠG = ΠC

α = Transition β = Transversion

(41)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.2 Distances et temps: l’hypothèse de l’horloge moléculaire

Cette hypothèse n’est valable que si:

- les séquences comparées évoluent à la même vitesse - cette vitesse est constante tout au long de l’évolution

S1

S2 SA

S3

d(S1,S3)/2 = d(SA,S1) = V * t V = vitesse d’évolution t = temps

(42)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.3 Principes et limites de l’UPGMA

(Unweighted Pair Group Method With Arithmetic Mean)

• Méthode d’agglomération des séquences

• Il existe une variante WPGMA (Weighted Pair Group Method With Arithmetic Mean). Dans cette variante, l’influence d’une distance est pondérée par la taille du groupe associé.

• les phénogrammes reconstruits par UPGMA et WPGMA sont

ultramétriques : leurs feuilles se situent toutes à égale distance de la racine. Cette particularité refléte le fait qu’ils obéissent à l’hypothèse d’horloge moléculaire.

(43)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.3 Principes et limites de l’UPGMA

(Unweighted Pair Group Method With Arithmetic Mean) 1

2

(44)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.3 Principes et limites de l’UPGMA

(Unweighted Pair Group Method With Arithmetic Mean) 3

4

(45)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.3 Principes et limites de l’UPGMA

(Unweighted Pair Group Method With Arithmetic Mean) 5

6

(46)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.3 Principes et limites de l’UPGMA

(Unweighted Pair Group Method With Arithmetic Mean)

La principale limite des approches WPGMA / UPGMA réside dans le fait que contraindre l’horloge moléculaire sur des

données qui ne la respectent pas conduit à inférer de mauvaises topologies et de mauvaises longueurs de branches.

(47)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.4 Fitch et NJ: deux approches sans horloges

FITCH:

• mesurer les distances patristiques: distances entre chaque couple de feuilles (X, Y) = la somme des longueurs de branches qui séparent les feuilles

• une nouvelle matrice de distances qui correspondent aux distances observée sur l’arbre proposé

• cherchent l’arbre dont la matrice de distances patristiques est la plus proche possible de la matrice de distances initiales, par exemple sous un critère des moindres-carrés => Pas d’hypothèse d’horloge moléculaire.

(48)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.4 Fitch et NJ: deux approches sans horloges

NJ (Neighbor Joining):

• méthode d’agglomération

• critères qui prennent en compte le fait que la vitesse d’évolution peut

varier d’un taxon à l’autre. Les vitesses relatives des taxons sont obtenues en calculant pour chaque taxon t la somme des distances d(t, X) qui

séparent t des autres taxons

• Une des méthodes de distance les plus utilisées

(49)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

(50)

4. Les inférences phylogénétiques

C2

(51)

4. Les inférences phylogénétiques C2

4.3. Les méthodes de distance

4.3.5 Utilisation actuelle des méthodes par distance

Aujourd’hui utilisation principalement des méthodes probabilistes, cependant les méthodes par distance:

• sont rapides et peuvent traiter de très grands jeux de données

• proposent des topologies correctes notamment quand le degré de divergence entre séquences reste faible.

• permettent de définir une topologie de base pour de nombreuses méthodes probabilistes qui procèdent par amélioration successive d’un arbre de départ.

(52)

Phylogénie moléculaire

Plan général:

1. Un préambule phylogénétique

2. La représentation phylogénétique 3. Les caractères: des indices évolutifs 4. Les inférences phylogénétiques

5. La fiabilité des constructions phylogénétiques 6. Des arbres aux superarbres

7. Exemples d’application des phylogénies

Cours 1

05/10

L3S5

LBO-SVT

Cours 2

07/10

Cours 3

14/10

Cours 4

19/10

Références

Documents relatifs

Pour chaque ensemble, écris le nombre d'objets.. Pour chaque ensemble, écris le nombre

Une conique étant inscrite à un quadrilatère, on sait que le triangle K i K i K^ ayant pour côtés les trois diago- nales du quadrilatère, est conjugué par rapport à la courbe :

Université Mohammed V Série N°4 SMP5 Sections A/B/C Faculté des Sciences, Rabat Contre réaction Année 2015/2016 Exercice 1 : L’amplificateur de la figure 1 utilise deux transistors

2.1 Caractéristiques générales des arbres Arbre phylogénétique ≠  Arbre généalogique.. Réseau Arbre

La fiabilité des reconstructions phylogénétiques 5.2 L’indice de Bremer mesure aussi la solidité..

Concensus d’arbres: rechercher l’arbre le plus représentatif d’une collection d’arbres sources tous définis sur le même ensemble de feuilles.. • L’arbre de consensus strict

Lors d’une séance de travaux pratiques, les élèves découvrent des flacons de liquides sans étiquette et un métal de couleur gris.. Ils doivent identifier les espèces chimiques

Corollaire 3.14. Si V est une affectation satisfaisant T, elle satisfait aussi les axiomes, qui sont valides, et donc, de l`a, toute formule prouvable `a partir de T et des axiomes.