• Aucun résultat trouvé

Nombre d’évènements géniques le long de chaque branche . 99

III.2 Inférence des paramètres d’une histoire évolutive à partir des

III.2.2 Nombre d’évènements géniques le long de chaque branche . 99

Inférence des nombres d’évènements géniques

Pour chaque branche de l’arbre des espèces simulées, nous comparons les gènes présents dans le génome parent avec les gènes présents dans le génome

enfant. Les gènes du génome enfant qui ne font pas partie d’une famille de gène du génome parent sont considérés comme des gènes issus de naissances

de novo. Si un gène ancestral du parent est présent en plusieurs copies dans

le génome enfant, nous considérons qu’il y a eu un nombre de duplications égal au nombre de descendants du gène ancestral moins 1 (le gène ancestral lui-même). Enfin, nous inférons autant de délétions qu’il y a de gènes du parent, sans descendant, dans le génome de l’enfant. Nous expliquons ces choix par ce qui suit.

Choix des scénarios les plus simples entre scénarios géniques équiv-alents

Les nombres de duplications, de délétions et de naissances de novo que nous avons inférés correspondent à une évolution idéale lors de laquelle, le long d’une branche, les gènes dupliqués ou issus d’une duplication n’ont pas été supprimés et dans laquelle les gènes nés de novo ne sont ni supprimés ni dupliqués. Il est certain que l’évolution réelle ne s’est pas déroulée comme cela et que le long d’une branche de nombreuses copies de gènes ont été insérées puis supprimées. Ce phénomène semble d’autant plus courant que suite à une duplication une des deux copies est souvent sujette à un relâchement de la pression de sélection et, par conséquent, l’une des deux copies peut facilement être perdue. De même, de nombreux gènes nés de novo au milieu d’une branche ont probablement été dupliqués ou supprimés le long de la même branche. Néanmoins ces évènements précédents, s’ils ont eu lieu ne changeront pas nos résultats. Une analyse fine des arbres de gènes permettrait de les identifier mais ces successions d’évènements seraient par la suite difficiles à reproduire et il nous semble que les simuler complexifierait le simulateur démesurément par rapport à l’apport en réalisme qui en résulterait. En bref, dans notre étude, mis à part pour les nombres de naissances et de duplications par branche, cela ne change rien qu’un gène ait été inséré par une naissance

de novo le long d’une branche ou qu’il ait été inséré suite à la duplication

d’un gène qui venait de naître précédemment, lui aussi dans la même branche. Nous nous permettons donc de prendre en compte ces éventuelles duplications comme autant de naissances de novo. Nous devrons néanmoins garder en mémoire que le nombre de naissances de novo que nous inférons le long d’une branche diffère probablement du nombre réel. Il correspond en fait au nombre de descendants de gènes nés de novo qui ont été conservés dans l’enfant. De même les nombres de délétions inférés correspondent aux gènes ancestraux du parent qui ont été supprimés et les suppressions de gènes, insérés à la suite d’une duplication ou d’une naissance de novo, ne sont pas comptabilisées si la duplication ou la naissance à eu lieu dans la même branche que la délétion.

Enfin, le nombre de duplications dans une branche correspond au nombre de descendants d’un gène ancestral moins un, pour ne pas comptabiliser le gène ancestral dans l’éventualité où il ait été conservé. Là encore il se pourrait que dans la réalité le gène ancestral ait été supprimé et que seules ses copies aient été conservées dans l’enfant. Enfin, comme nous le disions, les autres duplications de familles de gènes nés dans la branche, sont comptabilisées comme des naissances de novo si ces nouvelles copies de gènes sont conservées jusqu’à l’enfant.

Comme nous le verrons, notre simulateur a été conçu de manière à repro-duire ces évolutions géniques simples.

Nombre de duplications en tandem sur chaque branche

En nous basant sur les arbres de gènes et sur les génomes réels des espèces que nous souhaitons simuler nous avons appliqué une méthode très simple pour estimer le nombre de duplications en tandem dans chaque branche de l’arbre des espèces. Dans une branche, le gène initial est copié lors d’une duplication et la copie est insérée dans le génome. Si la duplication est en tandem, la copie est insérée près (séparée par moins de 10 gènes) du gène initial, sinon elle est insérée loin sur le même chromosome ou sur un autre chromosome. Ainsi nous estimons que la duplication a eu lieu en tandem si au moins un descendant du gène initial est proche d’un descendant du gène inséré dans les espèces modernes, en aval de l’évènement.

III.2.3 Probabilité qu’un gène inséré par une

duplica-tion en tandem ait la même orientaduplica-tion que le

gène dupliqué

Si une duplication en tandem a lieu, le gène inséré (la copie) peut avoir la même orientation que le gène copié ou une orientation différente. Dans les génomes modernes, il est souvent impossible de savoir lequel des deux gènes en tandem est le gène ancestral et les deux copies sont donc considérées toutes les deux comme l’éventuel gène ancestral. Si les deux copies ont la même orientation nous pouvons inférer l’orientation du gène ancestral par parcimonie. Dans le cas contraire, les deux gènes ont des orientations différentes et nous n’avons pas de raison d’assigner une orientation au gène ancestral plutôt qu’une autre. De manière générale, quelque soit le nombre de copies dans les clusters de gènes dupliqués en tandem; le nombre d’orientations des gènes ancestraux, à l’origine des clusters, qui peuvent être inférées, dépend de la fréquence à laquelle les copies, insérées par duplications en tandem, se sont

insérées avec la même orientation que le gène dupliqué. Plus particulièrement, simuler de manière réaliste les orientations de gènes dupliqués en tandem est déterminant pour évaluer la fréquence des erreurs d’identification d’inversions mono-géniques (figure II.13). Estimons donc la probabilité, ptandem, qu’un gène dupliqué en tandem soit inséré avec la même orientation que le gène d’origine.

Cette estimation est effectuée en comparant plusieurs simulations1 à la réalité. Chaque simulation a une probabilité ptandem différente que le gène dupliqué ait la même orientation. À la fin de chaque simulation les clusters de gènes dupliqués en tandem sont comparés aux clusters réels. La comparaison se fait via le calcul d’une statistique, s. Nous considérons que la simulation dont la statistique est la plus proche de la statistique réelle correspond à la simulation la plus réaliste. La probabilité ptandem utilisée pour effectuer la simulation la plus réaliste sera notre estimation de la probabilité ptandem réelle. Nous expliquons la statistique s qui a été utilisée pour comparer une simulation à la réalité.

Considérons un ensemble de clusters dont le nombre total de duplications est G, le nombre de gènes dans les clusters moins le nombre de clusters. Pour chaque cluster nous notons g le nombre de ses gènes et nous définissons, g+ (resp. g) les nombres de gènes orientés positivement (resp. négativement),

p+ = g+

g , la fraction de gènes orientés positivement et p = g

g , la fraction de gènes orientés négativement. La probabilité qu’une duplication de ce cluster ait inséré un nouveau gène avec la même orientation que le gène copié peut être estimée par

p = p+× g+− 1

g − 1 + p× g− 1

g − 1 (III.1)

La statistique s est une estimation de la probabilité ptandem,

s =X