• Aucun résultat trouvé

Ainsi, l’hypoth`ese dite “nulle”, qu’on appelle ici H0, d´ecoule `a la fois du mod`ele math´ematique et statistique, des outils d´evelopp´es, mais aussi des arguments biologiques sous-jacents. Il ´etait donc important de consacrer une section `a cette hypoth`ese, qui a ´et´e longuement discut´ee, modifi´ee et travaill´ee au cours de ce travail de th`ese.

La premi`ere fa¸con que nous avons eue d’envisager H0 a ´et´e de simplement l’appeler “hy-poth`ese d’ind´ependance”, sans la questionner plus avant. Il est assez naturel de la consid´erer ainsi, puisque finalement, les tests statistiques que nous avons d´evelopp´es ont pour but de rejeter ou non l’ind´ependance entre les processus ´evolutifs. Mais cette d´efinition purement math´ematique n’est pas suffisante `a partir du moment o`u nous mettons en perspective l’aspect biologique des donnes trait´ees. En e↵et, les points sur un arbre, qui finalement constituent les donn´ees que nous traitons `a l’aide de notre m´ethode, proviennent de donn´ees biologiques qu’il convient de mieux pr´eciser.

La distribution des occurrences des ´ev`enements sur l’arbre phylog´en´etique peut d´ependre d’un a priori sur les di↵´erentes branches de l’arbre, ce qui peut poser probl`eme, et nous a amen´es `a mieux sp´ecifier H0. Nous avons, au fur de notre avanc´ee, identifi´e un ´ecueil principal qu’il convient de citer ici. Il est possible d’abaisser artificiellement la p-value, pour une paire d’´ev`enements, si l’on a un a priori sur les taux d’occurrences de ces ´ev`enements sur certaines parties de l’arbre. Ceci peut ˆetre caract´eris´e de deux fa¸cons di↵´erentes.

La premi`ere fa¸con de voir ici les choses est de consid´erer un arbre pour lequel on connaˆıt des r´egions (en g´en´eral des sous-arbres, ou au moins des ensembles de branches) dans lesquels l’un ou l’autre des ´ev`enements (ou les deux) sera absent. C’est typiquement le cas lorsque l’on ´etudie certains clades particuliers qui poss`edent une fonction biologique (par exemple la mobilit´e chez Escherichia coli ) en sachant `a l’avance que cette mˆeme fonction est absente dans le reste de l’arbre. Ainsi, l’´ev`enement qui correspond au gain de cette fonction n’est pr´esent que dans certaines parties de l’arbre, ce qui peut ais´ement g´en´erer des cooccurrences ou des chronologies avec d’autres ´ev`enements ´evolutifs qui n’auraient pas lieu d’ˆetre significatives si l’on se restreint aux parties de l’arbre o`u cette fonction est potentiellement pr´esente. Notons aussi que la longueur totale de l’arbre a une influence notable sur la significativit´e des r´esultats, puisqu’elle entre en compte lors de la normalisation des longueurs de branches, elles-mˆemes prises en compte lors du calcul des p-values ou de la vraisemblance des donn´ees. Le deuxi`eme type de connaissances a priori que l’on peut avoir `a propos des donn´ees ´etudi´ees – et qui encore une fois fausse la m´ethode – correspond au cas o`u certaines lign´ees sont connues pour porter plus d’´ev`enements que d’autres. Encore une fois, cela peut passer l’enrichissement de l’´echantillon d’esp`eces ´etudi´ees, en ajoutant par exemple `a l’arbre phylog´en´etique des lign´ees privil´egi´ee quant `a l’apparition d’occurrences de tel ou tel ´ev`enement. L’accumulation de mutations conduit au comptage de cooccurrences et de chronologies qui n’apparaissent pas n´ecessairement dans le reste de l’arbre, et ainsi `a des p-values plus faibles.

Nous avons donc d´efini avec bien plus de pr´ecision notre hypoth`ese de travail qui est alors ”Pour deux ´ev`enements ´evolutifs, les processus conduisant `a la distribution des points sur l’arbre ont des intensit´es constantes dans tout l’arbre, et sont ind´ependants l’un de l’autre.”. Cette l´eg`ere modification sous-entend `a pr´esent que nous n’avons pas d’a priori sur les variations de taux le long des lign´ees, et donc, concernant les positions des occur-rences des ´ev`enements sur l’arbre, pas d’a priori sur (i) leur pr´esence/absence et (ii) sur leur concentration.

Les biais

Dans ce chapitre, nous nous attacherons `a d´ecrire et discuter divers biais - principalement statistiques - que nous avons rencontr´es au cours de cette th`ese. Il va sans dire que certains d’entre eux ´etaient attendus, puisqu’`a partir du moment o`u nous appliquons des m´ethodes statistiques et abstraites `a des donn´ees r´eelles, la transition donn´ees! formalisme implique n´ecessairement la d´efinition d’hypoth`eses (comme nous avons par exemple pu le voir plus haut avec la description de l’hypoth`ese d’ind´ependance H0), d’approximations, et tout simplement de calculs qui par essence ne nous donnent qu’une version probable de l’histoire pass´ee. Le concept mˆeme de certitude absolue nous est compl`etement inaccessible, et ainsi, il est important de comprendre d’o`u provient cette incertitude.

Bien que nous partions du principe que, pour deux ´ev`enements ´evolutifs donn´es, l’input pour notre m´ethode est constitu´e d’un arbre phylog´en´etique et des positions des occurrences des ´ev`enements sur cet arbre, nous nous devons de d´etailler un minimum les biais dus `a la construction de tels jeux de donn´ees.

9.1 Les biais dus aux donn´ees brutes

Un premier degr´e d’incertitude se situe au niveau des donn´ees brutes. En e↵et, les arbres phylog´en´etiques et les positions des ´ev`enements d’int´erˆet d´ependent fondamentalement de la qualit´e des donn´ees. Avant mˆeme de reconstruire les historiques mutationnels, il arrive que des erreurs de s´equen¸cage ou de manipulation conduisent `a fausser les donn´ees. Il convient donc de v´erifier la qualit´e des donn´ees en amont. Ces erreurs peuvent se manifester de di↵´erentes fa¸cons, selon le type et la nature des donn´ees trait´ees, et peuvent ainsi g´en´erer di↵´erentes

erreurs d’analyse.

Les alignements multiples de s´equences sont souvent le mat´eriel de d´epart lors de la recons-truction des arbres phylog´en´etiques et des ´etats ancestraux. Ainsi, une erreur de s´equen¸cage aura pour cons´equence de fausser un ´etat au niveau d’une feuille de l’arbre phylog´en´etique, d’o`u un biais `a ce niveau, qui peut ˆetre transpos´e aux niveaux sup´erieurs de cet arbre, en remontant les lign´ees jusqu’`a sa racine. Par ailleurs, dans un jeu de donn´ee biologique o`u les s´equences divergent peu, les mutations sont g´en´eralement rares. Une telle erreur peut donc avoir un impact non n´egligeable. Malgr´e tout, ce type d’erreur peut ˆetre parfois “noy´e” dans la masse, si la s´equence ´etudi´ee est suffisamment longue, par exemple.

Nous pouvons aussi rencontrer des erreurs au niveau de l’observation de telle ou telle fonction biologique chez une esp`ece ´etudi´ee. L’erreur typique peut ˆetre un caract`ere not´e absent alors qu’il est pr´esent. Dans ce cas, l’impact est d’autant plus grand que nous ne parlons plus ici d’une erreur ponctuelle le long d’une s´equence de parfois plusieurs centaines voire milliers de loci, mais d’une erreur sur un trait, qui sera, nous l’avons vu plus haut et nous y reviendrons en fin de partie, g´en´eralement ´etudi´e dans le cadre d’une seule paire pr´ecise.