• Aucun résultat trouvé

D.2 Liste des tableaux

1.3.7 Les méthodes probabilistes

Ces méthodes sont basées sur une conception probabiliste de l’évolution, selon laquelle les mo- difications observées au cours de l’évolution ne sont ni déterminées, ni complètement aléatoires, mais que leur apparition peut être modélisée par des lois de probabilités. Utilisées principalement dans l’étude de l’évolution des séquences nucléotidiques, elles permettent d’intégrer explicitement des hypothèses évolutives dans l’inférence phylogénétique. On distingue deux catégories princi- pales de méthodes probabilistes. Les méthodes dites de maximum de vraisemblance102cherchent 100.↑ Cet exemple ne montre qu’un seul groupe externe, mais il est nécessaire de faire appel à plusieurs groupes externes pour lever toute ambiguïté [107, pp. 46–49].

101.↑ Une autre possibilité serait que le bois secondaire ait disparu chez l’ancêtre du brome, du crocus et de

la bruyère, puis ait réapparu chez la bruyère. Dans les deux cas, deux changements d’états sont nécessaires. 102.↑ Maximum likelihood, en anglais.

C1: 0 → 1 C3: a → b C4: b → a C5: 0 → 1 C3: b → c C3: b → c C5: 0 → 1 C1: 0 → 1 C3: a → b C4: b → a C4: b → a C5: 0 → 1 C3: b → c Arbre 1 7 changements d'états Arbre 2 6 changements d'états

Pin blanc de Provence

Pinus halepensis Bruyère callune Calluna vulgaris Brome dressé Bromus erectus Crocus d'automne Crocus nudiflorus C1 : Fleurs C2: Feuilles C4 : Type de sol 0 1 1 1 0 0 0 0 b c c a a b a b C5 : Bois secondaire 0 1 1 0 C3 : Nombre de cotylédons dans l'embryon état a : >2 état b: 2 état c : 1 état a : acide état b : basique état 0 : présence état 1 : absence état 0 : absence état 1 : présence état 0 : présence Caractères ↓ Taxons → Matric e de car actèr es État ancestral (plésiomorphe) État dérivé (apomorphe)

Partage d'un état dérivé (synapomorphie) Gr oupe e xter ne (e xtragr oupe) Transformation du caractère Cn: passage de l'état x à l'état y Cn: x → y

Fig. 1.4 : Exemple d’analyse cladistique. La partie supérieure de la figure montre la matrice décrivant les états pris par cinq caractères (C1 à C5) chez quatre taxons (dans ce cas des espèces végétales). La partie inférieure montre deux propositions d’arbre schématisant les relations d’apparentement entre les taxons, ainsi que les changements d’états de caractères nécessaires pour expliquer dans chacun de ces deux cas les observations de la matrice de caractères. Le caractère « type de sol » est un caractère de nature écologique désignant le type de sol sur lequel pousse préférentiellement l’espèce. J’ai choisi de le présenter dans cet exemple car c’est un caractère manifestement convergent. En pratique les caractères écologiques sont rarement utilisés dans l’inférence phylogénétique. Les sources des image utilisées dans cete figure sont données dans le tableau de l’annexeDpage457.

Fig. 1.5 : Déroulement d’une analyse cladistique. Cette figure présente les grandes étapes d’une analyse cladistique ainsi que les principaux concepts et méthodes qui y sont associés. Figure réalisée principalement d’après les explications de Darlu et Tassy [107]. Les références des citations renvoient aux travaux de Darlu et Tassy [107], Archie [9] et Farris [A133].

à trouver l’arbre dont la probabilité d’engendrer (sous un certain modèle d’évolution choisi a

priori) les données observées est la plus grande. Les méthodes d’inférence bayésienne cherchent

en revanche à évaluer la probabilité de différentes hypothèses évolutives à partir des données observées.

1.3.7.1 Les méthodes de maximum de vraisemblance

Ces méthodes [116] définissent une fonction de vraisemblance, qui exprime la probabilité d’ob- tenir le jeu de données observé en fonction des différentes hypothèses évolutives envisagées. Ces hypothèses portent à la fois sur l’histoire évolutive des taxons considérés (topologieet longueur des branches de l’arbre phylogénétique) et sur les modalités d’évolution du matériau considéré. Lorsqu’il s’agit, comme c’est souvent le cas, de séquences nucléotidiques, ces modalités incluent par exemple les probabilités de substitution entre les nucléotides, ou encore l’hétérogénéité des taux de substitution selon les régions de l’arbre.

1.3.7.2 L’inférence bayésienne

Principe général. Cette méthode103 est fondée sur le théorème de Bayes, qui permet d’ex- primer la probabilité d’un événement Ai en sachant qu’un événement B est vrai en fonction de

la probabilité que l’événement B soit observé selon les différentes possibilités offertes par des événements Aj mutuellement incompatibles et couvrant l’ensemble des possibles [117] :

P (Ai|B) =

P (B|Ai) × P (Ai)

P

jP (B|Aj× P (Aj)

(1.1) où P (X) représente la probabilité de l’événement X et P (X|Y ) la probabilité de X sachant Y.

Cette méthode cherche à calculer la probabilité d’un ensemble d’hypothèses évolutives en prenant en compte le fait que les données issues du terrain sont effectivement observées et donc nécessairement « vraies »104. D’après le théorème de Bayes, cette probabilité sachant les données peut être calculée à partir de la probabilité d’observer ces données selon toutes les hypothèses en- visageables. Encore une fois, les hypothèses évolutives peuvent inclure non seulement la topologie et les longueurs de branches de l’arbre phylogénétique, mais aussi les modalités d’évolution du matériau étudié. Il s’agit alors de trouver l’ensemble d’hypothèses évolutives dont la probabilité

sachant les données est la plus grande.

Analyse bayésienne empirique. Dans le cas de l’analyse bayésienne empirique, les moda-

lités d’évolution sont choisies a priori, par exemple à l’aide d’une estimation par maximum de vraisemblance. Seul l’arbre phylogénétique est inféré par la méthode bayésienne.

103.↑ Un exemple d’inférence bayésienne est présenté en détail dans le chapitre5pages155à185.

Analyse bayésienne hiérarchique. En revanche, dans le cas de l’analyse bayésienne hiérar- chique, les modalités d’évolution du matériau sont aussi estimées par la méthode bayésienne. On

cherche donc à inférer à la fois l’arbre phylogénétique et les paramètres évolutifs (vitesse d’évo- lution, …). Il faudrait donc calculer la probabilité d’obtenir les données observées pour tous les paramètres possibles du modèle d’évolution. Cependant le nombre de combinaisons possibles des différents paramètres est très grand et le calcul est impossible, même avec un petit jeu de données. La solution la plus courante pour contourner ce problème est d’utiliser laméthode de Monte- Carlo par chaînes de Markov (MCMC)105. Cette méthode repose sur le principe de la marche guidée106: les hypothèses sont choisies arbitrairement, puis modifiées à chaque étape selon des critères permettant d’optimiser les chances de trouver l’ensemble d’hypothèses de probabilité maximale107.