• Aucun résultat trouvé

I.10.1 Base de données pour l’arbre des espèces

Dans la suite de ce travail nos arbres d’espèces sont ceux de la base de donnée Ensembl. Cette base de donnée incorpore les arbres des espèces du NCBI et les estimations des dates de spéciations du projet Timetree [Hedges et al., 2015].

I.10.2 Base de données pour nos génomes et pour les

arbres de gènes

Nous utiliserons par la suite les génomes de la base de donnée Ensembl ainsi que les arbres de gènes correspondants, reconstruits par l’équipe Ensembl Compara [Vilella et al., 2009]. Les arbres téléchargés ont été édités de manière à déplacer chaque nœud de duplication vers les feuilles tant que le score de consistance du noeud est inférieur à un seuil. Le score de consistance (« consistancy score ») d’un nœud de duplication est égal au nombre d’espèces modernes qui possèdent chacune des descendants des deux gènes post-duplications divisés par le nombre total d’espèces qui possèdent chacune au moins un descendant d’un des deux gènes post-duplication. Plusieurs seuils sont testés et le seuil retenu est celui qui édite les arbres de manière à maximiser le nombre d’adjacences conservées entre les espèces. Plus exactement il s’agit du seuil qui édite les arbres de manière à ce que la méthode de reconstruction de génomes ancestraux AGORA [Muffato, 2010] infère, à partir des arbres édités, les chromosomes ancestraux les plus longs (en gènes). Le seuil optimal est de 30% et par conséquent, avec nos arbres édités, parmi les espèces qui possèdent au moins un descendant d’un gène post-duplication, pas moins de 30% de celles-ci ont chacune des descendants des deux gènes post-duplications.

Grâce aux définitions fondamentales précédentes nous définirons dans le prochain chapitre les segments conservés, qui nous seront d’une grande aide dans notre étude des réarrangements.

Chapitre II

Les segments conservés

Of all natural systems, living matter is the one which, in the face of great transformations, preserves inscribed in its organization the largest amount of its own past history. Using Hegel’s expression we may say that there is no other system that is better aufgehoben (constantly abolished and simultaneously preserved). We may ask the questions where in the now living systems the greatest amount of their past history has survived and how it can be extracted.

Emile Zuckerkandl et Linus Pauling,

Molecules as documents of evolutionary history, 1965

II.1 Vestiges de génomes ancestraux

Les génomes actuels sont issus d’une succession de réplications et de mutations qui dure depuis des milliards d’années. Malgré l’ensemble des altérations qui ont eu lieu, ces génomes ont néanmoins conservé de nombreux vestiges des génomes ancestraux.

Prenons le cas d’une séquence dans le génome du MRCA de deux espèces modernes S1 et S2. Convenons que cette séquence est conservée tant qu’elle ne subit que des mutations ponctuelles et s’il est continuellement possible de l’identifier par similarité de séquence avant et après chaque mutation1. Ces conditions excluent que la séquence subisse de grands réarrangements, par exemple la délétion d’un long segment de nucléotides. Si la séquence est conservée durant son évolution jusqu’aux deux espèces modernes S1 et

1Les éléments ultraconservés [Bejerano et al., 2004] sont des cas extrêmes où les séquences sont, comme leurs noms l’indique, parfaitement conservées.

S2, leurs deux génomes contiennent l’un et l’autre un vestige de la séquence ancestrale et, selon les taux de mutations des lignées, la séquence héritée dans le premier génome sera plus ou moins similaire à la séquence du deuxième génome. Ainsi, en prenant le cas d’une séquence conservée de 100 paires de bases, si dans chaque lignée il y a eu, en moyenne, 0, 2 substitutions/bp, les séquences modernes auront chacune une séquence qui sera similaire à la séquence ancestrale avec au moins 80% de similarité1. Par conséquent la similarité des deux séquences modernes sera au minimum égale à 60%.

À partir de maintenant oublions cette histoire évolutive. Dans la réalité, nous n’avons accès qu’aux génomes modernes S1 et S2. Admettons que nous savons qu’il y a eu, en moyenne, 0, 2 substitution/bp dans chaque lignée depuis le dernier ancêtre commun de S1 et S2. Séquences dupliquées mises à part, deux séquences, l’une dans le génome de S1 et l’autre dans le génome de

S2, toutes les deux de 100 bp et similaires entre elles à 65%, semblent a priori être les vestiges d’une séquence commune qui existait dans le génome de leur ancêtre commun. Néanmoins, en toute rigueur, une deuxième explication pourrait également expliquer autrement la similarité des séquences modernes. Il se pourrait en effet que les séquences n’aient pas d’origine commune et qu’elles proviennent par exemple de deux séquences ancestrales dissemblables2, qui ont, après substitutions, atteint une similarité de 65%. Si les séquences de départ ne sont similaires que de 25% cela requiert que les 20 substitutions de chaque lignée aient fait converger 40 nucléotides qui différaient à l’origine. En partant du principe que les mutations se font aléatoirement, cette dernière explication est très improbable, en tout cas moins probable que l’hypothèse d’une origine commune. En validant l’origine commune des deux séquences modernes nous prenons un faible risque et étant donné l’histoire que nous avons présentée, nous aurions même raison ici. Dans d’autres cas il est beaucoup plus difficile de trancher entre les deux explications. Par exemple, quelle conclusion tirer si les deux séquences modernes de 100 bp sont similaires à 40% ? Quel risque prenons nous d’affirmer qu’elles sont toutes les deux les vestiges d’une même séquence ancestrale ?

Sans nous étendre davantage sur les nombreuses difficultés qui pourraient entraver le raisonnement précédent, nous considérerons malgré tout qu’il con-stitue une méthode fiable pour retrouver les vestiges des génomes ancestraux à partir des génomes modernes. Ce pourquoi il a été au cœur de plus de 30 années de recherches en génomique comparative, lors desquels il a justifié de multiples usages de l’algorithme BLAST (Basic Local Alignment Search Tool)

1La similarité est ici le pourcentage de paires de nucléotides de mêmes rangs qui sont identiques.

2La similarité attendue d’après une distribution aléatoire de nucléotides dans deux séquences de longueur 100 bp est de 25%.

[Altschul et al., 1990] pour identifier des séquences d’ancestralité commune. Généralisons la logique précédente à d’autres entités qu’aux séquences. Pour retrouver les vestiges de ces entités nous procéderons à chaque fois à un raisonnement en cinq étapes.

1. Premièrement nous définirons les entités dans un génome ancestral. 2. Deuxièmement nous définirons les conditions nécessaires pour qu’une

entité soit conservée durant l’évolution du génome ancestral et malgré les mutations qui peuvent l’altérer. Une entité qui a été conservée depuis un ancêtre sera appelée un vestige de l’entité ancestrale. Un vestige d’une entité ancestrale sera parfois nommé l’instance de cette entité dans le génome qui la contient.

3. Troisièmement nous expliquerons ce qu’implique la conservation de chaque entité durant l’évolution, depuis un ancêtre jusqu’à plusieurs espèces modernes. Ceci permettra d’expliciter les conditions nécessaires pour que des entités modernes (possiblement dans différents génomes) soient toutes les vestiges d’une même entité ancestrale. Si des entités modernes satisfont ces conditions, nous dirons qu’elles semblent être les vestiges d’une entité ancestrale commune, ou qu’elles semblent descendre d’une même entité ancestrale.

4. Quatrièmement, en utilisant les conditions nécessaires de conservation, nous identifierons dans les génomes modernes les entités qui semblent être les vestiges d’une même entité ancestrale. À la fin de cette étape nous aurons donc plusieurs ensembles d’entités qui correspondent chacun à une entité ancestrale.

5. Enfin, cinquièmement, si cela est possible, nous validerons ou nous rejetterons par différents critères les semblants d’origines communes.

La validation peut se faire de différentes manières. Elle peut être statis-tique, elle peut être effectuée par parcimonie ou par optimisation d’un coût et elle peut aussi se faire par une linéarisation de graphe. Dans l’exemple précédent, les deux séquences modernes semblent être les vestiges d’une même entité ancestrale et pour valider cette hypothèse nous effectuons une compara-ison de probabilités. Étant donné le modèle d’évolution des séquences, ici les taux de substitutions, la quantification qui sert de critère est la différence entre p1, la probabilité que les séquences modernes semblent conservées car elles descendent effectivement d’une même entité ancestrale (hypothèse H1) moins p0, la probabilité que les séquences modernes semblent conservées alors

qu’elles ne descendent pas d’une même entité ancestrale (hypothèse H0). Si la différence est supérieure à un seuil, la parenté commune est validée, sinon elle est rejetée ou considérée comme indécise. Le risque de se tromper est d’autant plus faible que le seuil est haut. Celui-ci quantifie en quelque sorte le risque de faux positifs. Au cours du chapitre nous donnerons d’autres exemples qui illustreront d’autres types de validations.

Nous dirons que la validation statistique est analytique si elle est effectuée à l’aide d’une formule mathématique. Dans le cas contraire la validation peut être basée sur des simulations de l’évolution in silico.

Nous avons vu que l’entité dont nous étudions les vestiges peut être une séquence dont les nucléotides mutent. Dans la suite nous nous intéresserons à des entités dans lesquelles la localisation des gènes peut varier.