• Aucun résultat trouvé

Représentation d’un chromosome

I.7.1 Distances et gaps entre deux gènes

Le gap entre deux gènes d’un chromosome est égal au nombre de gènes qu’il y a entre eux. La distance entre ces deux gènes est égale au gap qui les sépare plus un. Deux gènes adjacents sont séparés par un gap nul et ils sont à une distance de un gène.

I.7.2 Clusters de gènes dupliqués en tandem

Si un gène est dupliqué en tandem de nombreuses fois et si ses copies en tandem sont elles aussi copiées de nombreuses fois en tandem, l’ensemble de ces gènes paralogues sont proches les uns des autres autour du gène d’origine et nous écrirons qu’il forment un cluster de gènes dupliqués en tandem. De manière

A B C D E F point de cassure flanc droit de la cassure (C, e) C D (D, s) flanc gauche de la cassure

Figure I.13 – Point de cassure et ses deux flancs.

A B C cassure D (D, s) D E F A B C E F A B C A B C Y K.a E F A B C C (C, e) C (C, e) C (C, e) C (C, e) C (C, e) évolution du génome vestige du flanc gauche de la cassure D (D, s) E (E, s) E (E, s) E F K.a temps après fission évènements délétion de gène duplication de gène disperse naissance de gène de novo E (E, s) A B C D E F A B C D E F D E F C.a C.a C.a C.a C.a C.a duplication de gène en tandem génome initial fission vestige du flanc droit de la cassure

Figure I.14 – Évolution des vestiges de deux flancs d’une même cassure. Une cassure a lieu entre les extrémités de gènes ancestraux (C, e)

et (D, s). Par la suite plusieurs évènements géniques altèrent les régions cassées. Après chaque évènement, dans la colonne de gauche l’extrémité du gène ancestral (C,e) reste le vestige du flanc gauche de la cassure. Dans la colonne de droite, l’extrémité du gène ancestral (D,s) est initialement le vestige du flanc droit de la cassure. Lorsque ce gène est supprimé, l’extrémité du gène ancestral le plus proche, (E,s), devient le vestige du flanc droit de la cassure. Les insertions de nouveaux gènes n’altèrent pas les vestiges de flancs de cassures.

générale, un cluster de duplications en tandem de gaps ≤ tandemGapM ax (une valeur entière arbitraire) est un ensemble de gènes de la même famille dont chacun des gènes est séparé d’un autre gène du cluster par au plus

tandemGapM ax gènes qui ne sont pas de la famille. Nous ne considérons

que les clusters maximaux, les gènes d’un cluster d’une famille ne sont pas inclus dans un autre cluster de cette famille. Dans les génomes modernes il y a de nombreux clusters de duplications en tandem et nous en déduisons donc qu’il y a eu de nombreuses duplications en tandem. La figure I.15 détaille la fréquence des duplications en tandem qui se sont produites depuis Amniota (il y a environ 325 Millions d’années) et que l’on retrouve encore en tandem dans les génomes de cinq espèces modernes descendantes, en fonction du paramètre tandemGapM ax croissant.

tandemGapMax en gènes

duplcia

tions en tandem

/duplica

tions

Figure I.15 – Fraction des duplications qui ont eu lieu en tandem depuis 325 millions d’années jusqu’à cinq espèces modernes. Le

nom-bre de duplications en tandem qui ont donné naissance à un cluster de gènes de la même famille est estimé par le nombre de gènes dans le cluster moins un (le gène à l’origine du cluster). La fraction des gènes dupliqués en tandem varie substantiellement d’une lignée à l’autre (de environ 40% à 70%).

I.7.3 Réécriture d’un chromosome en tandem blocs

Dans ce paragraphe nous réécrivons les chromosomes de manière à ne conserver qu’un seul gène par cluster de gènes dupliqués en tandem, qui sera représentatif du gène à l’origine de chaque cluster. Dans un premier temps les clusters sont formés en regroupant tous les gènes d’une même famille séparés par au plus

chaque cluster est réduit à une unique entité, appelée tandem bloc [Lucas

et al., 2014]. Intuitivement un tandem bloc représente le gène à l’origine

du cluster : il est situé à la localisation du gène ancestral et il a la même orientation que le gène ancestral. Néanmoins, dans les faits, il n’est pas toujours possible de déterminer la localisation du gène à l’origine du cluster ni l’orientation de ce gène. Sans informations suffisantes pour déterminer la véritable localisation, celle-ci sera donc choisie arbitrairement comme la localisation du premier gène du cluster, selon l’ordre du chromosome. Si tous les gènes du cluster ont la même orientation, le gène d’origine avait a priori la même orientation aussi et l’orientation du tandem bloc est choisie identique à cette orientation consensuelle. Par contre si au moins un des gènes du cluster a une orientation opposée à l’orientation d’un autre gène du cluster, nous considérons que l’orientation du gène ancestral n’est pas identifiable et nous attribuons une orientation « inconnue » (∅) au tandem bloc. Les gènes d’un tandem bloc sont les gènes du cluster que le tandem bloc représente. La taille d’un tandem bloc est égale au nombre de gènes de celui-ci. Un tandem bloc est en relation d’homologie avec un deuxième tandem bloc si leurs gènes font partie de la même famille.

La figure I.16 illustre la réécriture d’un chromosome en tandem blocs avec un tandemGapM ax = 1. Un gène qui ne faisait pas partie d’un cluster est considéré comme un tandem bloc de taille 1 après la réécriture. Nous verrons plus tard l’utilité de cette réécriture pour identifier les segments conservés à partir de comparaisons de génomes d’espèces modernes (section II.4.1).

En réalité cette étape de réécriture, bien qu’elle soit très utile, n’est pas non plus sans défaut. Durant la réécriture, le gène à l’origine du cluster est positionné arbitrairement là où se situe le premier gène du cluster et par conséquent le résultat de la réécriture peut varier selon l’orientation de référence du chromosome avant réécriture, figure I.16B et I.16C.

Dans notre précédent travail [Lucas et al., 2014] un « tandem bloc » était un cluster de gènes dupliqués en tandem avec des gaps nuls, c’est à dire un segments de gènes adjacents qui sont tous de la même famille. Dans le travail présent un tandem bloc peut correspondre à un cluster qui contient des gaps non nuls si le tandemGapM ax utilisé lors de la réécriture est supérieur à zéro.

Une fois les chromosomes réécrits, les tandems blocs d’un chromosome peuvent être considérés comme des gènes. Comme pour ces derniers, nous écrirons que le gap entre deux tandems blocs est égal au nombre de tandems blocs qu’il y a entre eux et la distance entre ces deux tandems blocs sera égale au gap qui les sépare plus un.

A B C D C D E F

1

C 1A 1B 3C 2D 1E 1F

tandemGap entre

le premier gène C et le deuxième gène C

1A 1B 1E 1F 3C 2D

A

B

C

Figure I.16 – Réécriture en tandem blocs avec un tandemGapM ax =

1. Le panel A détaille le processus de réécriture du chromosome humain en réduisant les clusters de gènes dupliqués en tandem. Si tandemGapM ax = 1 il y a deux clusters, un de 3 gènes de la famille C et un autre cluster de 2 gènes de la famille D. Les trois gènes C forment un cluster car pas plus de

tandemGapM ax autres gènes séparent chaque paire de gènes C voisins. Tous

les gènes d’un cluster sont réduits à un unique gène positionné là où se trouve le premier gène du cluster, comme indiqué par la flèche jaune. Le cluster de gènes de la famille D subit le même traitement. Le panel B montre le résultat de la réécriture précédente. Le tandem bloc du cluster de gènes C contient 3 gènes et il a une orientation positive, comme tous les gènes qu’il contient. Le tandem bloc du cluster de gènes D n’a pas d’orientation car ses gènes ont des orientations opposées. Les autres gènes qui ne faisaient pas partie d’un cluster sont des tandems blocs de taille un. Le panel C donne l’exemple de la réécriture du chromosome si l’orientation de référence inverse du chromosome d’origine avait été choisie. Nous constatons que l’ordre relatif des tandem blocs n’est plus le même que précédemment.