• Aucun résultat trouvé

M´ethodes de d´etection de la co´evolution bas´ees sur la phylog´enie

Revenons `a notre test statistique introduisant cette section (voir 3.1.1). Nous avons vu que de simples tests permettaient d’avoir une premi`ere id´ee de la corr´elation qui peut exister entre deux sites, au sein d’un MSA. La figure 3.3 montre l’application d’un tel test, et nous ´eclaire sur l’influence que peut avoir l’histoire phylog´en´etique sur l’histoire ´evolutive commune (Felsenstein, 1983). Dans ce cas particulier, nous avons un alignement pour 8 individus (de a `a h), pour une s´equence de taille 5. Un test de 2 sur la table de contingence associ´ee aux colonnes (donc aux sites) 1 et 5 nous renvoie une p-value significative. Or, en observant l’arbre phylog´en´etique associ´e, nous remarquons que ce signal de co´evolution est principalement port´e par la phylog´enie.

En particulier, calculer un coefficient de corr´elation sur une table de contingence construite `a partir d’un MSA ne nous renseigne pas sur la part de la phylog´enie dans la corr´elation constat´ee. Il peut donc s’av´erer important de prendre en compte celle-ci pour d´etecter la co´evolution et ´eliminer certains faux-positifs, comme cela a ´et´e montr´e plus en d´etail par Pagel (2000) et Dutheil (2012).

La seconde classe de m´ethodes que nous exposons donc dans cette introduction est celle des techniques utilisant l’information phylog´en´etique explicitement pour inf´erer la co´evolution. Nous d´etaillerons ici une m´ethode en particulier (Dutheil et al., 2005), qui a inspir´e une partie du travail pr´esent´e dans ce document, ainsi qu’une cat´egorie plus g´en´erale de m´ethodes, tr`es utilis´ee, y compris par nous-mˆeme dans la deuxi`eme partie de cette th`ese.

Figure 3.3 – Exemple d’arbre phylog´en´etique associ´e `a un alignement, la table de contingence associ´ee pour les sites 1 et 5, p-value associ´ee `a un test du 2 d’ind´ependance.

G A C 4 0 T 0 4 Table de contingence a b c d e f g h χ2: p-value = 0.0047 A1 → G1 C5 → T5 AATAC 1 2 3 4 5 a G A T A C b G A T A C c G A T A C d G A T A C e A A T A T f A A T A T g A A T A T h A A T A T

3.4.1 Une m´ethode non-param´etrique (Dutheil et al., 2005)

Cette m´ethode est tr`es importante pour la suite de cette th`ese. En e↵et, toute la premi`ere partie de notre travail peut ˆetre vue comme une extension de cette m´ethode, puisque nous partons des mˆemes bases (conversion des donn´ees dans un formalisme d’alg`ebre bilin´eaire, calcul de statistiques `a partir de ce formalisme), en ajoutant certains aspects clefs de notre ´etude, en l’occurrence la temporalit´e et le calcul analytique, donc exact, de p-values.

Cette m´ethode, d´ecrite dans Dutheil et al. (2005) consiste tout d’abord `a traduire dans un vecteur les positions des mutations dans l’arbre. Consid´erons alors l’arbre phylog´en´etique et les longueurs de branches associ´ees. Nous appelons “branches” les arˆetes de l’arbre. Cette m´ethode situe dans un premier temps les positions des mutations le long des branches de l’arbre (“`a la branche pr`es”, la position exacte sur chaque branche n’est pas n´ecessaire). Num´erotons les branches de l’arbre entre 1 et n, o`u n est le nombre de branches. Nous pouvons construire, pour chaque site, le vecteur mutationnel ei correspondant, pour lequel

la keme` composante contient le nombre de mutations pour le site i, sur la branche k. Ce vecteur repr´esente donc les positions des substitutions sur l’arbre phylog´en´etique, pour chaque site.

La corr´elation entre chaque paire de sites est donn´ee par le produit scalaire normalis´e entre les deux vecteurs de substitution d’int´erˆet. Cela revient exactement `a calculer le cosinus de l’angle entre ces deux vecteurs. Ainsi, un angle petit correspond `a deux vecteurs pour lesquels les mutations tendent `a se concentrer dans le mˆemes composantes, donc dans les mˆemes branches de l’arbre. A contrario, un grand angle correspond au cas o`u les mutations ont tendance `a se situer dans des branches di↵´erentes pour l’un et l’autre des sites de la paire ´etudi´ee. Ainsi, les paires s´electionn´ees comme co´evoluant sont celles minimisant cette angle. Cette m´ethode a ´et´e ´etendue par Dutheil et Galtier (2007) en rassemblant les paires de vecteurs dans des clusters concentr´es dans de faibles intervalles d’angles, c’est `a dire en des ensembles de sites co´evoluant en groupe.

Cette m´ethode est donc tr`es efficace en termes de temps de calculs, ainsi qu’en termes de pr´ecision, mais elle d´etecte principalement des paires de sites en tr`es forte co´evolution, puisque le signal qu’elle capture est int´egralement constitu´e de paires dont les mutations sont situ´ees sur les mˆemes branches.

3.4.2 M´ethodes utilisant la vraisemblance

Cette classe de techniques nous int´eresse tout particuli`erement, puisqu’elle fait appel `a des outils que nous avons utilis´es pour d´evelopper la seconde partie de notre m´ethode, qui sera expos´ee ult´erieurement. Comme pour la reconstruction phylog´en´etique et la reconstruction des ´etats ancestraux, ces m´ethodes reposent tout d’abord sur des mod`eles, en l’occurrence ici sur des mod`eles de co´evolution. Une fonction de vraisemblance est associ´ee `a ce mod`ele, permettant l’optimisation des param`etres de ce mod`ele, de fa¸con `a ce qu’ils expliquent au mieux les donn´ees. Une fois le mod`ele math´ematique correctement sp´ecifi´e, cette m´ethode a pour avantage d’ˆetre puissante et de pouvoir caract´eriser des sc´enarios de co´evolution entre sites, par le biais de param`etres optimaux estim´es. Par ailleurs, la m´ethode de MCMC permet `a nouveau d’´echantillonner le paysage de vraisemblance, donc de donner un aper¸cu plus ou moins exhaustif (selon la longueur de la chaˆıne) des di↵´erents sc´enarios possibles.

Comme vu pr´ec´edemment, ce type de m´ethode peut s’av´erer tr`es coˆuteuse, selon le mod`ele utilis´e, et bien sˆur, plus le mod`ele est complexe (i.e. plus le nombre de param`etres est grand), plus ce coˆut est important. C’est par exemple le cas du mod`ele d´ecrit par Pagel (1994). Celui-ci d´ecrit en e↵et l’´evolution conjointe pour une paire de sites en d´eterminant une matrice de

transition, pour chaque paire d’´etats possibles. Par exemple, dans un exemple `a deux loci et deux ´etats 0 et 1, les paires possibles sont (0, 0), (1, 0), (0, 1) et (1, 1). Ainsi, la matrice de transition correspondant `a ce syst`eme d´epend de 8 param`etres, puisque qu’une transition est d´efinie comme un changement d’´etat sur un seul locus (la transition (0, 0)! (1, 1) n’est donc pas autoris´ee).

Estimer 8 param`etres revient donc `a explorer un espace `a 8 dimensions d´efini par la fonction de vraisemblance associ´ee `a ce mod`ele. Le temps de calcul n´ecessaire `a cette optimisation est d´ej`a important, donc si l’on multiplie le nombre de sites et le nombre d’´etats (disons par exemple que nous avons besoin d’au moins 4 ´etats A, C, G et T pour l’´etude de s´equences d’ADN), alors ce temps de calcul augmente drastiquement, puisque cette fois, ce sont 48 param`etres qu’il faut optimiser pour seulement 2 sites. Cette m´ethode est donc principalement `a utiliser pour des cas tr`es limit´es, est et difficile `a adapter `a des jeux de donn´ees plus fournis (Pagel et Meade, 2006).

Motivation `a d´evelopper une nouvelle

m´ethode

Cette section aurait aussi pu ˆetre titr´ee “Un bref historique de mon doctorat”, tant la construction des outils et m´ethodes pr´esent´es les parties suivante de cette th`ese ont ´evolu´e et ´et´e construits progressivement, en mˆeme temps que sa probl´ematique s’affinait. Bien sˆur, je ne vais pas exposer ici de fa¸con exhaustive les divers tˆatonnements qui ont conduit `a la conclusion de ces ann´ees de travail, que vous lisez actuellement, mais il me semblait important d’en parler, au moins pour les grandes lignes.

4.1 La premi`ere question

Notre question initiale, au d´ebut de cette th`ese, ´etait motiv´ee principalement par la consid´eration de deux des exemples cit´es au cours de cette introduction, les Compensated Pathogenous De-viations et le travail de Dan Weinreich sur les paysages adaptatifs. Au vu de ces exemples, il paraˆıt clair qu’il existe des m´ecanismes qui contraignent suffisamment les mutations pour favoriser, voire interdire, certains ordres. Les contraintes st´eriques au sein d’une mol´ecule en sont un exemple, mais on peut imaginer que des contraintes telles que la perturbation d’une chaˆıne m´etabolique conduit `a privil´egier certains chemins ´evolutifs plutˆot que d’autres. La question ´etait la suivante : quelles contraintes pour l’ordre des mutations ? L’id´ee ´etait donc de d´evelopper un outil `a mˆeme de d´eterminer quelles mutations, dans une s´equence, sont li´ees dans le temps, voire n´ecessairement ordonn´ees. Par ailleurs, en sus de la d´etection de la co´evolution, il ´etait aussi int´eressant de pouvoir la quantifier. Nous nous ´etions fix´e

pour but de construire une m´ethode efficace en termes de temps de calcul, capable de traiter d’importants jeux de donn´ees, de fa¸con `a pouvoir estimer, parmi une grande masse de sites, quelle proportion de paires ´etaient associ´ees de fa¸con privil´egi´ee.