• Aucun résultat trouvé

Nous avons testé de nombreuses distributions de tailles de segments inversés et nous détaillons les résultats pour la distribution avec laquelle nous avons obtenu nos meilleurs résultats. Il s’agit une distribution gamma avec un paramètre de forme α = 0.1, un paramètre d’échelle θ = 800 gènes et une longueur maximale d’inversion égale à 1330 gènes (figure III.2d). Les nombres d’évènements que nous avons obtenus sont visibles sur l’arbre de la figure III.3.

Les écarts à la réalité ont été quantifiés grâce aux calculs précédents (sec-tion III.5) et quelques exemples d’écarts sont donnés dans le tableau III.1. À titre de comparaison, les écarts à la réalité obtenus avec les mêmes paramètres et une distribution uniforme des tailles d’inversions sont également fournis. Les écarts types sont les écarts types classiques lorsque le calcul de la moyenne est arithmétique (c’est le cas pour les écarts absolus, les ∆), ce sont les écarts types géométriques lorsque les moyenne correspondantes sont calculée de manière géométrique [Kirkwood, 1979] (pour les écarts relatifs, les ρ). Les écarts en nombres de chromosomes (statistiques c) sont nuls. Ce résultat était attendu car nous avons fixé les nombres de fusions et de fissions de manière à obtenir le même nombre de chromosomes que dans la réalité. De plus la taille minimale des chromosomes a été fixée à 1 gène pour qu’aucun chromosome ne soit supprimé à cause des délétions géniques. Les écarts en nombres de segments conservés (b) sont quasi-nuls car l’optimisation sur le nombre d’inversions et de translocation nous assure que les nombres de segments correspondent à la réalité. Par contre l’écart des distributions des tailles de segments conservés (β) varie fortement selon la distribution des inversions. Comme attendu, la distribution uniforme ne fait pas assez de petites inversions et par conséquent ρβ est très petit. La distribution Γ génère beaucoup plus de petites inversions (III.2d) et par conséquent la distribution des tailles de ses segments conservés est plus proche de la distribution réelle.

Le tableau III.1 nous montre que quantitativement, le défaut majeur de notre simulateur concerne la distribution des tailles de chromosomes simulés, car dans les deux cas, ργ est au moins égal à 3.8. Prenons le cas de la distribution des tailles de chromosomes de l’humain (γh). L’égalité

ργh = 4.19 peut s’interpréter par le fait qu’il y a, en moyenne, 4.19 fois plus de petits chromosomes (de tailles ≤ W ) dans les simulations que dans la réalité. Par conséquent, malgré nos choix de sélections de chromosomes réarrangés, de manière à uniformiser la distribution des tailles de chromosomes (section III.4.4), nos simulations ont encore des petits chromosomes trop petits par rapport à la réalité. Par ailleurs, les grands chromosomes simulés sont la plupart du temps trop grands par rapport aux grands chromosomes réels

ρ ρc ργ ρb ρβ ∆(ch) ρ(γh) ∆(bh,s) ρ(βh,s) moyenne 2.37 1.01 3.84 1.01 8 0 3.26 -0.28 0.02 écart type 2.44 1.01 1.96 1.01 2.59 0 1.78 7.46 1.83

(a) Écarts à la réalité avec une distribution uniforme des tailles d’inversions.

ρ ρc ργ ρb ρβ ∆(ch) ρ(γh) ∆(bh,s) ρ(βh,s)

moyenne 1.52 1.01 4.14 1.01 1.27 0 4.19 -0.63 0.8 écart type 1.8 1.01 1.89 1.01 1.11 0 1.45 13.82 1.05

(b) Écarts à la réalité avec des tailles d’inversions données par la loi de probabilité Γ(α = 0.1, θ = 800) tronquée pour que la taille maximale des inversions soit de 1330 gènes.

Tableau III.1 – Écarts à la réalité de deux paramétrages du simu-lateur. La nomenclature des écarts correspond à celle que nous avons définie

précédemment (section III.5). Les exposants h et s font référence à l’humain et à la souris. ρ, l’écart relatif général, est plus proche de 1 avec la distribution Γ qu’avec la distribution uniforme; ce qui signifie, qu’avec les statistiques que nous considérons, ce paramétrage est plus réaliste. ∆(ch) = 0 signifie qu’il y a exactement les mêmes nombres de chromosomes modernes dans les simulations que dans la réalité. Dans le cas de la distribution uniforme,

ρ(βh,s) = 0.02 signifie que, dans les simulations, le nombre de segments con-servés mono-géniques (entre l’humain et la souris) représente, en moyenne, 2% du nombre de segment conservés mono-géniques dans la réalité. Il s’agit des segments conservés mono-géniques car dans ce cas W = 1 (voir section III.5.3). Dans le cas de la distribution Γ, ρ(βh,s) = 0.8 signifie que cette fois-ci il n’y a, en moyenne, que 20% de segments conservés humain-souris (de tailles ≤ W gènes) en moins dans les simulations que dans la réalité. Là encore le maximum de l’écart relatif est souvent atteint pour une taille de 1 gène,

(analyse non développée ici).

La figure III.6 représente une distribution βh,s obtenue avec la distribution Γ. La distribution des tailles de segments conservés dans la réalité y est juxtaposée.

Simulation Gamma(shape=0.1, scale=800) Réalité

longueurs des segments conservés en gènes

nombr

e de segm

ents conservé

s

Figure III.6 – Distributions des tailles de segments conservés en-tre l’humain et la souris βh,s. En noir la distribution des segments

con-servés entre les génomes réels de l’humain et de la souris (βrh,s) et en bleu la même distribution entre les génomes simulés (βi,sh,s) avec la distribution Γ(α = 0.1, θ = 800), tronquée à 1330 gènes.

Les figures III.7 et III.8 représentent respectivement les matrices d’homologies, réelle et simulée (avec la distribution Γ), de la comparaison des génomes de l’humain et de la souris.

humain

souris

1 2 11 7 1 4 5 9 6 8 3 10 17 15 X 14 13 19 12 16 18 Y 2 11 19 17 3 12 6 7 5 16 9 10 4 X 8 14 15 20 22 13 18 21Y

Figure III.7 – Matrice d’homologies de la comparaison du génome réel de l’humain et du génome réel de la souris.

humain

souris

16 0 8 6 7 9 18 4 17 13 19 20 10 5 12 16 15 23 3 21 24 9 6 20 11 17 10 18 7 3 0 14 12 5 21 15 8 4 1 24 19232

Figure III.8 – Matrice d’homologies de la comparaison du génome simulé de l’humain et du génome simulé de la souris.

Dans la figure III.8, mis à part les tailles des chromosomes aux bords de la matrice (les petits et les grands chromosomes), nous constatons que la dis-persion des segments conservés et que les inversions semblent qualitativement proches de la réalité. Nous constatons néanmoins ce qui semble être un excès de petites inversions, ou, peut-être, une distribution trop uniforme des petites inversions le long des chromosomes. Il se pourrait que, dans la réalité, les petites inversions soient statistiquement localisées plus proches les unes des autres que dans nos simulations. Nous reviendrons plus en détail sur ce point par la suite (section III.8 et section D.3).