• Aucun résultat trouvé

Correctement interpr´eter les r´esultats

La derni`ere ´etape d’une ´etude utilisant la m´ethode d´ecrite dans cette th`ese est bien en-tendu l’interpr´etation des r´esultats. C’est l`a qu’`a partir de l’output abstrait renvoy´e par la m´ethode, nous pouvons d´eduire une “histoire” biologique coh´erente et cr´edible, appuy´ee par les r´esultats. En ce sens, l’un des principaux avantages de la m´ethode que nous exposons ici est le calcul exact des statistiques (z-scores et p-values sous l’hypoth`ese d’ind´ependance H0). Nous tirons de ce fait un avantage important : les p-values sont exactes et non pas calcul´ees

par simulation. La m´ethode gagne donc en efficacit´e en termes de temps de calcul, puisque le calcul analytique nous ´epargne de fastidieuses simulations qui renvoient par ailleurs un r´esultat dont la pr´ecision d´epend du nombre de simulations engag´ees.

Par ailleurs, nous avons fait le choix d’un mod`ele simple `a 4 param`etres pour le calcul de vraisemblance. Ce mod`ele certes simpliste, a plusieurs avantages importants par rapport aux mod`eles utilisant un nombre important de param`etres, comme par exemple celui de Pagel et Meade (2006) :

— Il limite consid´erablement les temps de calcul, puisqu’il restreint le nombre de pa-ram`etres `a optimiser (voir la comparaison des di↵´erentes m´ethodes mettant en jeu des calculs de vraisemblance, en introduction).

— Il permet d’obtenir des r´esultats plus fiables avec des jeux de donn´ees restreints. En e↵et, un mod`ele qui repose sur plus de param`etres n´ecessitera plus de donn´ees pour que le signal soit suffisant pour tous les optimiser.

— Il permet d’ais´ement interpr´eter les r´esultats, notamment parce qu’il met en jeu deux param`etres rassemblant l’essentiel de l’information port´ee par le mod`ele, i.e. les in-ductions 1 et 2 qui repr´esentent l’intensit´e de la co´evolution.

Devant cette vari´et´e de r´esultats di↵´erents accessibles, il ne faut surtout pas n´egliger l’im-portance des plus basiques, c’est `a dire du comptage en soi. Imaginons par exemple le cas de figure o`u, lors de l’´etude d’une s´equence nucl´eotidique, une paire de sites est retenue, pour laquelle est associ´ee une p-value tr`es significative. Estimer la pertinence de cette paire par cette valeur, ou par le z-score associ´e est certes pertinent, mais pas suffisant. En e↵et, nous pouvons facilement imaginer le cas o`u cette paire correspond `a une unique cooccurrence sur une tr`es petite branche, auquel cas cette association est en e↵et tr`es significative, mais `a relativiser par rapport `a d’autres paires qui pourraient ˆetre tout aussi significatives mais associ´ees `a des comptages plus importants. Dans tous les cas de figures, il faut bien entendu retenir les paires significatives, mais c’est `a l’utilisateur d’avoir le dernier mot et d’interpr´eter les r´esultats selon le contexte biologique de l’´etude en question.

Perspectives

Pour conclure cette th`ese, parlons des perspectives d’am´elioration des outils d´ecrits dans cette th`ese, et de correction de certains biais. Plusieurs pistes existent, que nous nous e↵or¸cons de lister ici.

11.1 Traiter des graphes qui ne sont pas des arbres

Une premi`ere piste consisterait `a travailler non pas seulement sur des arbres phylog´en´etiques, mais aussi sur des graphes plus g´en´eraux, ou r´eseaux, de plus en plus souvent rencontr´es dans la litt´erature. Un arbre est par d´efinition un graphe non-orient´e, acyclique et connexe. En l’absence de la propri´et´e de connexit´e, il suffit de travailler s´epar´ement sur les composantes connexes de ce graphe, puisque ce sont elles qui, individuellement, repr´esentent une histoire partag´ee par leurs feuilles. L’aspect non-orient´e n’est pas non plus discutable ici, puisque nous consid´erons, dans le cas des arbres, qu’il existe une racine, qui sert de point de d´epart pour l’axe temporel, lui aussi n´ecessaire pour ´etablir la notion de chronologie entre les ´ev`enements. En r´ealit´e, nous travaillons donc avec des arbres enracin´es, donc pour lesquels le sens dans lequel le temps se d´eroule est fix´e.

C’est donc l’hypoth`ese d’acyclicit´e qui pourrait ˆetre relax´ee, de fa¸con `a ce que la m´ethode soit applicable `a des r´eseaux, par exemple des arbres pour lesquels nous ajoutons des relations entre des nœuds autres que la descendance, typiquement les transferts horizontaux ou les recombinaisons. La v´eritable difficult´e ici est de traiter les cycles de fa¸con `a ce que la notion de temporalit´e ne soit pas perdue. Ce n’est pas forc´ement le cas, puisqu’`a partir du moment o`u nous pouvons par exemple orienter les transferts horizontaux, nous avons la garantie de

connaˆıtre le sens du temps sur tout l’arbre. Notons que la matrice d’adjacence A que nous d´ecrivons dans le premier article de cette th`ese se construit de la mˆeme fa¸con pour un graphe poss´edant des cycles, la principale di↵´erence venant du fait que dans ce cas, cette matrice n’est plus triangulaire, ce qui encore une fois ne change rien aux calculs, tant qu’aucun cycle n’est pr´esent dans le r´eseau.