Méthodes de détection de la coévolution basées sur la phylogénie

Revenons à notre test statistique introduisant cette section (voir 3.1.1). Nous avons vu que de simples tests permettaient d’avoir une première idée de la corrélation qui peut exister entre deux sites, au sein d’un MSA. La figure 3.3 montre l’application d’un tel test, et nous éclaire sur l’influence que peut avoir l’histoire phylogénétique sur l’histoire évolutive commune (Felsenstein, 1983). Dans ce cas particulier, nous avons un alignement pour 8 individus (de a à h), pour une séquence de taille 5. Un test de 2 sur la table de contingence associée aux colonnes (donc aux sites) 1 et 5 nous renvoie une p-value significative. Or, en observant l’arbre phylogénétique associé, nous remarquons que ce signal de coévolution est principalement porté par la phylogénie.

En particulier, calculer un coefficient de corrélation sur une table de contingence construite à partir d’un MSA ne nous renseigne pas sur la part de la phylogénie dans la corrélation constatée. Il peut donc s’avérer important de prendre en compte celle-ci pour détecter la coévolution et éliminer certains faux-positifs, comme cela a été montré plus en détail par Pagel (2000) et Dutheil (2012).

La seconde classe de méthodes que nous exposons donc dans cette introduction est celle des techniques utilisant l’information phylogénétique explicitement pour inférer la coévolution. Nous détaillerons ici une méthode en particulier (Dutheil et al., 2005), qui a inspiré une partie du travail présenté dans ce document, ainsi qu’une catégorie plus générale de méthodes, très utilisée, y compris par nous-même dans la deuxième partie de cette thèse.

Figure 3.3 – Exemple d’arbre phylogénétique associé à un alignement, la table de contingence associée pour les sites 1 et 5, p-value associée à un test du 2 d’indépendance.

G A C 4 0 T 0 4 Table de contingence a b c d e f g h χ2: p-value = 0.0047 A₁ → G₁ C₅ → T₅ AATAC 1 2 3 4 5 a G A T A C b G A T A C c G A T A C d G A T A C e A A T A T f A A T A T g A A T A T h A A T A T

3.4.1 Une m´ethode non-param´etrique (Dutheil et al., 2005)

Cette méthode est très importante pour la suite de cette thèse. En e↵et, toute la première partie de notre travail peut être vue comme une extension de cette méthode, puisque nous partons des mêmes bases (conversion des données dans un formalisme d’algèbre bilinéaire, calcul de statistiques à partir de ce formalisme), en ajoutant certains aspects clefs de notre étude, en l’occurrence la temporalité et le calcul analytique, donc exact, de p-values.

Cette méthode, décrite dans Dutheil et al. (2005) consiste tout d’abord à traduire dans un vecteur les positions des mutations dans l’arbre. Considérons alors l’arbre phylogénétique et les longueurs de branches associées. Nous appelons “branches” les arêtes de l’arbre. Cette méthode situe dans un premier temps les positions des mutations le long des branches de l’arbre (“à la branche près”, la position exacte sur chaque branche n’est pas nécessaire). Numérotons les branches de l’arbre entre 1 et n, où n est le nombre de branches. Nous pouvons construire, pour chaque site, le vecteur mutationnel ei correspondant, pour lequel

la keme` composante contient le nombre de mutations pour le site i, sur la branche k. Ce vecteur représente donc les positions des substitutions sur l’arbre phylogénétique, pour chaque site.

La corrélation entre chaque paire de sites est donnée par le produit scalaire normalisé entre les deux vecteurs de substitution d’intérêt. Cela revient exactement à calculer le cosinus de l’angle entre ces deux vecteurs. Ainsi, un angle petit correspond à deux vecteurs pour lesquels les mutations tendent à se concentrer dans le mêmes composantes, donc dans les mêmes branches de l’arbre. A contrario, un grand angle correspond au cas où les mutations ont tendance à se situer dans des branches di↵érentes pour l’un et l’autre des sites de la paire étudiée. Ainsi, les paires sélectionnées comme coévoluant sont celles minimisant cette angle. Cette méthode a été étendue par Dutheil et Galtier (2007) en rassemblant les paires de vecteurs dans des clusters concentrés dans de faibles intervalles d’angles, c’est à dire en des ensembles de sites coévoluant en groupe.

Cette méthode est donc très efficace en termes de temps de calculs, ainsi qu’en termes de précision, mais elle détecte principalement des paires de sites en très forte coévolution, puisque le signal qu’elle capture est intégralement constitué de paires dont les mutations sont situées sur les mêmes branches.

3.4.2 M´ethodes utilisant la vraisemblance

Cette classe de techniques nous intéresse tout particulièrement, puisqu’elle fait appel à des outils que nous avons utilisés pour développer la seconde partie de notre méthode, qui sera exposée ultérieurement. Comme pour la reconstruction phylogénétique et la reconstruction des états ancestraux, ces méthodes reposent tout d’abord sur des modèles, en l’occurrence ici sur des modèles de coévolution. Une fonction de vraisemblance est associée à ce modèle, permettant l’optimisation des paramètres de ce modèle, de fa¸con à ce qu’ils expliquent au mieux les données. Une fois le modèle mathématique correctement spécifié, cette méthode a pour avantage d’être puissante et de pouvoir caractériser des scénarios de coévolution entre sites, par le biais de paramètres optimaux estimés. Par ailleurs, la méthode de MCMC permet à nouveau d’échantillonner le paysage de vraisemblance, donc de donner un aper¸cu plus ou moins exhaustif (selon la longueur de la chaˆıne) des di↵érents scénarios possibles.

Comme vu précédemment, ce type de méthode peut s’avérer très coûteuse, selon le modèle utilisé, et bien sûr, plus le modèle est complexe (i.e. plus le nombre de paramètres est grand), plus ce coût est important. C’est par exemple le cas du modèle décrit par Pagel (1994). Celui-ci décrit en e↵et l’évolution conjointe pour une paire de sites en déterminant une matrice de

transition, pour chaque paire d’états possibles. Par exemple, dans un exemple à deux loci et deux états 0 et 1, les paires possibles sont (0, 0), (1, 0), (0, 1) et (1, 1). Ainsi, la matrice de transition correspondant à ce système dépend de 8 paramètres, puisque qu’une transition est définie comme un changement d’état sur un seul locus (la transition (0, 0)! (1, 1) n’est donc pas autorisée).

Estimer 8 paramètres revient donc à explorer un espace à 8 dimensions défini par la fonction de vraisemblance associée à ce modèle. Le temps de calcul nécessaire à cette optimisation est déjà important, donc si l’on multiplie le nombre de sites et le nombre d’états (disons par exemple que nous avons besoin d’au moins 4 états A, C, G et T pour l’étude de séquences d’ADN), alors ce temps de calcul augmente drastiquement, puisque cette fois, ce sont 48 paramètres qu’il faut optimiser pour seulement 2 sites. Cette méthode est donc principalement à utiliser pour des cas très limités, est et difficile à adapter à des jeux de données plus fournis (Pagel et Meade, 2006).

Motivation `a d´evelopper une nouvelle

m´ethode

Cette section aurait aussi pu être titrée “Un bref historique de mon doctorat”, tant la construction des outils et méthodes présentés les parties suivante de cette thèse ont évolué et été construits progressivement, en même temps que sa problématique s’affinait. Bien sûr, je ne vais pas exposer ici de fa¸con exhaustive les divers tâtonnements qui ont conduit à la conclusion de ces années de travail, que vous lisez actuellement, mais il me semblait important d’en parler, au moins pour les grandes lignes.

4.1 La premi`ere question

Notre question initiale, au début de cette thèse, était motivée principalement par la considération de deux des exemples cités au cours de cette introduction, les Compensated Pathogenous De-viations et le travail de Dan Weinreich sur les paysages adaptatifs. Au vu de ces exemples, il paraˆıt clair qu’il existe des mécanismes qui contraignent suffisamment les mutations pour favoriser, voire interdire, certains ordres. Les contraintes stériques au sein d’une molécule en sont un exemple, mais on peut imaginer que des contraintes telles que la perturbation d’une chaˆıne métabolique conduit à privilégier certains chemins évolutifs plutôt que d’autres. La question était la suivante : quelles contraintes pour l’ordre des mutations ? L’idée était donc de développer un outil à même de déterminer quelles mutations, dans une séquence, sont liées dans le temps, voire nécessairement ordonnées. Par ailleurs, en sus de la détection de la coévolution, il était aussi intéressant de pouvoir la quantifier. Nous nous étions fixé

pour but de construire une méthode efficace en termes de temps de calcul, capable de traiter d’importants jeux de données, de fa¸con à pouvoir estimer, parmi une grande masse de sites, quelle proportion de paires étaient associées de fa¸con privilégiée.

Dans le document Inférence des interactions entre processus évolutifs (Page 44-49)