• Aucun résultat trouvé

De la construction de statistiques

´

Evidemment la construction d’un tel formalisme et des statistiques associ´ees n’est pas imm´ediate, nous avons dˆu tˆatonner avant de pouvoir conclure sur une th´eorie rigoureuse. La base sur la-quelle nous nous sommes appuy´es au d´epart est somme toute assez classique, il s’agit d’´etudier des expressions de la forme attendu observ´e

N . Cette grandeur nous permet typiquement d’esti-mer l’´ecart entre les donn´ees que l’on observe directement avec ce qu’on attendrait sous une hypoth`ese H0 o`u ces processus seraient ind´ependants, o`u N est un facteur de normalisa-tion, qui nous autorise `a comparer les paires entre elles. Nous avons donc dans un premier temps d´evelopp´e un ensemble de statistiques vari´ees, plus ou moins sous cette forme, et plus ou moins empiriques. Malgr´e tout, ce n’´etait pas compl`etement satisfaisant, puisque nous cherchions `a unifier ces statistiques dans un formalisme ´el´egant, et surtout formel.

Nous avons d´evelopp´e un formalisme matriciel, qui traduit dans une matrice la topologie de l’arbre, selon diverses contraintes d´evelopp´ees plus loin. Dans le mˆeme esprit, les longueurs de branches ainsi que les positions des occurrences de chaque ´ev`enement sont traduits dans des vecteurs. `A partir de l`a, nous pouvons calculer efficacement, et surtout analytiquement,

des z scores ainsi que des p values sous l’hypoth`ese d’ind´ependance H0, nous permettant d’une part de classer les paires selon leur int´erˆet relatif `a notre question (quelle d´ependance ?) et d’autre part d’estimer la confiance que nous pouvions avoir en nos r´esultats.

Enfin, nous avons bien entendu test´e cette m´ethode, sur des donn´ees biologiques, mais tout d’abord par simulation, pour v´erifier la puissance de celle-ci, et sa robustesse relativement `a di↵´erents param`etres (taux d’occurrence, forme de l’arbre, etc). Nous avons donc d´evelopp´e en parall`ele un mod`ele d’interaction entre deux processus ´evolutifs, ou nous contrˆolons l’am-plitude de la co´evolution. Les v´erifications d’usages ´etaient probantes et la m´ethode efficace et robuste, mais malgr´e tout, elle ne restait pas compl`etement satisfaisantes. Il est int´eressant de d´etecter la co´evolution, mais est-il possible de la mesurer ? Nous nous sommes rendus compte qu’`a partir de ce mod`ele de co´evolution, il est tout `a fait possible de calculer une fonction de vraisemblance, qui nous permet, par le biais de son optimisation, d’estimer les param`etres du mod`ele expliquant le mieux les donn´ees, et ainsi d’estimer le sc´enario de co´evolution le plus probable (relativement `a notre mod`ele).

M´ethode non-param´etrique

5.1 Introduction et r´esum´e des r´esultats

Dans ce premier article, nous exposons une m´ethode non-param´etrique de d´etection de la co´evolution. Les donn´ees trait´ees par cette m´ethode sont un arbre phylog´en´etique ainsi que les positions des occurrences de deux ´ev`enements ´evolutifs sur celui-ci. Les ´ev`enements en question peuvent donc ˆetre de natures tr`es vari´ees, tant qu’ils sont ponctuels et que l’on peut replacer leurs occurrences sur une phylog´enie. Ainsi, nous pouvons appliquer cette m´ethode `a des mutations sur des sites particuliers d’un g´enome, mais aussi au gain/perte d’un g`ene ou mˆeme d’une fonction biologique.

Pour une paire d’occurrences de chacun des deux ´ev`enements consid´er´es, on dira qu’elle forme une cooccurrence si ces elles sont sur une mˆeme branche de l’arbre, et une chronologie si elles sont situ´ees sur deux branches distinctes d’une mˆeme lign´ee (i.e. d’une mˆeme suite de branches allant de la racine de l’arbre `a une de ses branches terminales). La notion de cooccurrences d´ecrit les interactions fortes, puisque les ´ev`enements en questions sont proches dans le temps, mais ne permet pas de les ordonner. A contrario, la notion de chronologie d´ecrit des interactions a priori plus mod´er´ee, mais pour lesquels nous connaissons l’ordre entre les ´ev`enements, puisqu’ils sont situ´es sur des branches distinctes.

D’un point de vue technique, cette m´ethode traduit la position relative des branches de l’arbre dans di↵´erentes matrices S et Id. Nous d´efinissons aussi le vecteur des longueurs de branches et, pour chaque ´ev`enement Ei, le vecteur eid´ecrivant les positions de ses occurrences sur les branches de l’arbre. Ainsi, tout le syst`eme consid´er´e est d´ecrit dans un formalisme matriciel, qui nous permet, pour deux ´ev`enements ´evolutifs, d’une part de compter le nombre

de cooccurrences (resp. de chronologies) qu’ils forment `a l’aide de la formule g´en´erale eT 1M e2, qui a pour valeur le nombre de cooccurrences dans lesquels la paire (E1; E2) est impliqu´ee si M = Id (la matrice identit´e), et le nombre de chronologies si M = S. Cette mˆeme formule permet aussi de compter `a la fois les cooccurrences et les chronologies si M = S + Id.

Par la suite, ce formalisme permet de calculer les moments exactes de ces comptages (esp´erance, variance) sous une hypoth`ese d’ind´ependance H0. Sous cette mˆeme hypoth`ese, nous pouvons calculer analytiquement une p-value associ´ee `a ce comptage. Ceci nous permet de rejeter ou non l’hypoth`ese H0, avec un seuil de confiance a priori (typiquement, 95%).

Nous avons test´e avec des r´esultats satisfaisants cette m´ethode sur des donn´ees simul´ees grˆace `a un mod`ele de co´evolution que nous avons d´evelopp´e, et ´etabli des courbes de puissance nous donnant un bon aper¸cu des forces et des limites de la m´ethode. Enfin, nous avons test´e la m´ethode sur un exemple biologique, en ´etudiant le lien qui pouvait exister entre (i) la perte du flagelle chez certaines souches d’Escherichia coli et (ii) le passage dans un milieu de vie intracellulaire. Nous avons montr´e que l’intracellularit´e pr´ec`ede probablement la perte du flagelle.