• Aucun résultat trouvé

éléments de la même famille) et donne naissance aux solo-LTR (Devos, Brown, & Bennetzen, 2002). La variation de la taille des génomes de plante est donc due à la balance entre accumulation et perte des ET.

La distribution de certaines familles d’ET le long des chromosomes peut être très hétérogène avec une tendance générale à l'accumulation des ET dans les régions centromériques comme décrit chez le sorgho et A. thalinana (Arabidopsis Genome Initiative, 2000; Paterson et al., 2009a) (Figure 6). Ainsi, si le contenu en gène reste similaire entre les espèces, le pourcentage de ET varie significativement et une corrélation forte existe entre la taille des génomes de plantes et leur contenu en LTR-rétrotransposons (Tenaillon et al., 2010) (Figure 7).

1.3 La distribution des gènes dans l'espace génique

1.3.1 Variation de la densité de gènes

L'espace génique est définit comme la distribution des gènes le long des chromosomes (Barakat, Carels, & Bernardi, 1997). En 2004, l’espace génique est redéfinit en référence à la portion de l’ADN codant des gènes actifs et ainsi qu’à la distribution des gènes actifs dans un génome (Scott Jackson, Barbara Hass Jacobus, & Janice Pagel, 2004). Plus généralement, l’espace génique se rapporte à de grandes régions riches en gènes, séparées par de grandes régions pauvres en gènes (Varshney, Hoisington, & Tyagi, 2006).

Chez les plantes, le contenu en gènes est relativement constant : entre 16 036 chez Chlamydomonas reinhardtii (algue verte ; (Merchant et al., 2007)) et 66 153 chez Glycine max (soja ; (Schmutz et al., 2010)), soit une variation d'un facteur de 4,12 (Lee, Tang, Wang, & Paterson, 2012) alors que leur génome représentent respectivement 121 Mb et 1,1 Gb (Tableau 1).

Par ailleurs, l'ordre des gènes (ou colinéarité) est conservé entre les génomes apparentés (G Moore, Devos, Wang, & Gale, 1995). Toutefois, les gènes ne sont pas distribués aléatoirement et une structuration de l'espace génique a été décrite en fonction de la taille des génomes (D’Hont et al., 2012; International Brachypodium Initiative, 2010; International Rice Genome Sequencing Project, 2005; Paterson et al., 2009a; Schnable et al., 2009). Pour les génomes de taille inférieure à 500 Mb environ, la distribution des gènes a tendance à être uniforme. C'est le cas pour les génomes de C. reinhardtii (121 Mb; (Merchant et al., 2007), A. thaliana (125 Mb; (Arabidopsis Genome Initiative, 2000), B. distachyon (272 Mb ; (International Brachypodium Initiative, 2010)) et du riz (389 Mb ; (International Rice Genome Sequencing Project, 2005)). En revanche, chez le maïs (2,3 Gb ; (Schnable et al., 2009)), le

A

B

Figure 8 : Densité de gènes le long des chromosomes 5 et 6 du riz, et 1 et 2 du maïs.

(A) densité de gènes pour les chromosomes 5 et 6 du riz, sur une fenêtre glissante de 0,35 Mb. D’après (http://rice.plantbiology.msu.edu/)

(B) densité de gènes pour les chromosomes 1 et 2 du maïs, sur une fenêtre glissante de 3 Mb. D’après (http://ensembl.gramene.org/Zea_mays/Info/Index)

Figure 9 : Illustration de la

fonction de densité des distances intergéniques. Pour les quatre génomes de plante, le trait plein représente la densité exponentielle qui est rapportée au maximum de vraisemblance, et en pointillé est représentée l'estimation de la densité non paramétrique. D'après (Gottlieb et al. 2013).

11 sorgho (730 Mb ; (Paterson et al., 2009a)), ou encore l'orge (5,1 Gb ; (International Barley Genome Sequencing Consortium et al., 2012)), une augmentation de la densité de gènes dans les parties distales des chromosomes a été mise en évidence. Par exemple la densité en gènes des chromosomes de riz varie entre 14 et 16 gènes par Mb alors qu'elle varie de 0,5 à 5 gènes par Mb chez le maïs (Figure 8).

1.3.2 L'organisation en insulas et gènes co-exprimés

Au delà du gradient de densité en gènes observé le long des chromosomes chez les génomes de grande taille, à une échelle plus fine, une tendance au regroupement des gènes en îlots a été décrit chez plusieurs espèces (Par exemple : le blé : Devos et al. 2005; Choulet et al. 2010; Rustenholz et al. 2011 ; le coton : (W. Guo et al., 2008)). Chez le coton, le critère choisi pour définir des îlots de gènes est une distance intergénique inférieure à 5 kb. Chez le blé, c’est la valeur médiane des distances intergéniques qui a été choisie comme seuil. Plus récemment, une approche statistique pour définir les îlots a été proposée (Gottlieb et al., 2013). En se basant sur un échantillon de séquences de BAC d'Ae. tauschii, les auteurs ont définit l'hypothèse nulle suivante : les gènes sont répartis aléatoirement sur les chromosomes suivant une distribution uniforme, apparentée à une loi de Poisson, supposant que les gènes sont localisés indépendamment les uns des autres. Le pendant de cette hypothèse est que la densité des distances intergéniques suit une distribution exponentielle. Cette étude a montré que pour les génomes compacts, comme ceux du riz et de B. distachyon, il n'y a pas de différence significative entre les densités de gènes observées et celles proposées par le model exponentiel, alors que cette différence est significative pour les génomes plus grands du sorgho et d'Ae. tauschii (Figure 9). La dénomination « d’insulae » (insula) a ainsi été proposée pour décrire un cluster de gènes proches.

Précédemment, nous avons montré que la taille des génomes était fortement impactée par les ET. En effet, les génomes qui ont peu de régions denses en gènes ont un faible pourcentage de rétroéléments, comme celui du riz (35% ; (International Rice Genome Sequencing Project, 2005)) ou de B. distachyon (21.4% ; (International Brachypodium Initiative, 2010)), à la différence de celui du sorgho (61% ; (Paterson et al., 2009b)), du maïs (>75% ; (Schnable et al., 2009)) où d'Ae. tauschii (65,9% ; (Jia et al., 2013)).

Les gènes retrouvés en insula sont généralement aussi retrouvés co-exprimés. Chez A. thaliana 10% des gènes sont co-exprimés, avec une partie important sont des gènes dupliqués (Zhan, Horrocks, & Lukens, 2006). Cependant la duplication seule des gènes ne suffit pas à expliquer le pourcentage de gènes retrouvés co-exprimés. Les auteurs indiquent que les gènes qui ne partagent pas d’homologie et qui sont transcrits simultanément,

12 partagent des fonctions, et sont retrouvés proches à une fréquence deux fois supérieur à l’attendue. Dans cette étude, il est suggéré qu’il y a deux niveaux de régulation des gènes chez A. thaliana (Zhan et al., 2006). Un niveau de régulation local, où les éléments de régulation dupliqués en tandem ou bien qui partagent des éléments de régulation, contribuent à un fort niveau d’expression similaire pour un petit nombre de gènes voisins. Puis, à une échelle plus globale, de larges régions impliquant un état chromatinien ouvert ou fermé, et qui donc diffèrent entre les conditions expérimentales, ce qui peut expliquer le faible niveau de co-expression entre les grands groupes de gènes. Ce qui implique que les plantes vont pouvoir s’adapter aux changements d’environnement extrêmes (comme par exemple la sécheresse) (Zhan et al., 2006).

1.3.3 La duplication des gènes

La duplication des gènes est un mécanisme important de l'évolution et de l'adaptation des plantes à leur environnement. Plusieurs mécanismes peuvent être impliqués dans les duplications de gènes (Magadum, Banerjee, Murugan, Gangapur, & Ravikesavan, 2013) : (i) les « cossing-overs » inégaux, qui conduisent à la formation de séquences répétées en tandem à partir de deux chromosomes homologues ou deux chromatides sœurs.

(ii) la rétrotransposition d'un transcrit.

(iii) la transposition duplicative : via la recombinaison homologue non allélique (NAHR) à partir de deux séquences homologues de deux chromosomes non homologues ou la réparation des cassures double brin via le mécanisme de « Synthetis Dependent Strand Annealing » (SDSA) (non homologous end joining, NHEJ). Cette voie a été suggérée suite à une étude sur le génome humain, montrant que dans certains cas il n’y avait pas d’implication d’une séquence répétée d’ADN ou bien de grandes parties de séquences homologues au niveau des points de cassures (Linardopoulou et al., 2005). La différence entre ces deux procédés réside dans l’utilisation de la séquence homologue durant la réparation de la cassure double brin.

(iv) la polyploïdisation.

Et les conséquences de la duplication d’un gène sont multiples : une copie d'un gène nouvellement dupliqué peut soit : conserver sa fonction, soit devenir non fonctionnelle (=pseudogénisation), soit être sélectionnée pour l'acquisition d'une nouvelle fonction (néo- ou sous-fonctionnalisation) (Magadum et al., 2013; Rensing, 2014). La néo-fonctionnalisation correspondant à l’acquisition d’une nouvelle fonction à partir de la duplication d’un gène. La sous-fonctionalisation correspondant à la conservation par un gène dupliqué d’une fonction ou bien d’un composant commun à la fonction originel (Comai, 2005).

A

B

Figure 10 : Edition de l’ARN entraine un changement de nucléotides.

A : La substitution de C en U entrain un changement d’acide aminé, et peut entrainer l’apparition d’un codon START ou STOP.

B : Chez les plantes, l’édition des ARN entraine le changement d’une base C en U dans les mitochondries et les plastes. Chez les algues vertes, l’édition des ARN n’a pas été observé. Chez les plantes hépatiques (ou « liverworts ») (Marchantiophyta), l’édition des ARN a été perdue. Le nombre de sites d’édition est donné pour chaque espèce. D’après (Takenaka et al. 2013).

13 Les gènes dupliqués en tandem représentent entre 10 et 20% du contenu en gènes dans les génomes du riz et A. thaliana (Rizzon, Ponger, & Gaut, 2006). Par ailleurs, une corrélation entre proportion de gènes dupliqués en tandem et taux de recombinaison méiotique a été décrite, suggérant un rôle majeur des mécanismes de recombinaison homologues dans la duplication de gènes (Rizzon et al., 2006). D’un point de vu fonctionnel, il a été montré que les gènes dupliqués en tandem les plus fréquemment maintenus dupliqués au cours de l'évolution étaient impliqués dans des fonctions extracellulaires et de réponses aux stress (Rizzon et al., 2006). Chez le soja (Glycine max), dont le génome a subit deux évènements de polyploïdisation différents (13 et 59 millions d’années), 75% des gènes ont été retrouvés présents en plus de une copie (Roulin et al., 2012). L’analyse de données RNA-Seq issues de 7 tissus, a permis de montrer que pour un sous set de 18 000 gènes, 50% des paralogues ont une expression différentielle et sont donc sous-fonctionnalisés. L'analyse de l'ontologie de ces gènes montre que seulement une petite proportion des gènes dupliqués issus de WGD ont été néo-fonctionnalisés (Roulin et al., 2012).

En ce qui concerne les gènes dupliqués en tandem par un mécanisme de duplication, chez le riz et A. thaliana, il a été montré qu’il y avait une corrélation positive entre la densité de gènes dupliqués en tandem et le taux de recombinaison (Rizzon et al., 2006).

2 La notion de gène et ses évolutions