• Aucun résultat trouvé

CHAPITRE I : RECENSEMENT DES MEMBRES DE LA FAMILLE TaNAC CHEZ

3. Distribution génomique et duplication de la famille TaNAC

3.2. Duplications au sein de la famille TaNAC – Exemple de la région 4B-5A

84

gènes TaNAC chez le blé tendre est élevé par rapport aux autres espèces végétales proches, et

que ceci serait dû en partie à la nature hexaploïde du blé mais serait aussi le résultat d’importants

événements de duplication chez cette espèce.

3. Distribution génomique et duplication de la famille TaNAC

3.1. Distribution génomique

Parmi les 488 séquences TaNAC, 478 gènes ont été ancrés sur les 21 chromosomes du blé

tendre ; les 10 dernières séquences ne présentent pas d'information de localisation

chromosomique sur la base de données IWGS RefSeq v1.0. Les chromosomes 2 et 7

contiennent le plus grand nombre de gènes TaNAC avec respectivement 120 et 105 membres,

ce qui représente 24,6% et 21,5% de la famille. Au contraire, le chromosome 1 est celui portant

le moins de séquences TaNAC, avec seulement 21 gènes (4,3%) (Figure 46). Les gènes TaNAC

sont répartis de manière homogène entre les sous-génomes A, B et D, qui portent 33,6%, 32,8%

et 31,6% des membres de la famille respectivement, les séquences restantes ne sont pas ancrées

sur un chromosome.

Les gènes TaNAC sont distribués de manière inégale le long de chacun des chromosomes. En

effet, ils se situent majoritairement dans leurs régions distales (Figure 46). En outre, certains

d’entre eux apparaissent comme structurés en clusters. Par exemple, TraesCS4B01G328600,

TraesCS4B01G328700, TraesCS4B01G328800, TraesCS4B01G328900 et

TraesCS4B01G329100 sont côte-à-côte sur 347,276 kb du chromosome 4B. De même,

TraesCS4A01G419900, TraesCS4A01G420000, TraesCS4A01G420100,

TraesCS4A01G420200, TraesCS4A01G420900, TraesCS4A01G421000,

TraesCS4A01G421100, TraesCS4A01G421200 et TraesCS4A01G421300 sont aussi

étroitement liés sur 796,023 kb du chromosome 4A, comme ils le sont sur l’arbre

phylogénétique.

3.2. Duplications au sein de la famille TaNAC – Exemple de la région 4B-5A

Plusieurs gènes TaNAC appartenant à des chromosomes différents forment des clusters sur les

chromosomes du blé tendre et sont également regroupés dans un même clade au sein de l'arbre

Figure 47 : Diagramme Circa des 7 chromosomes des génomes A, B et D. Chacun des 7

chromosomes est représenté par une portion d’une couleur différente sur le cercle. Les traits

jaunes sur ces chromosomes indiquent la présence d'un gène TaNAC. Les bandes au centre

relient 2 régions chromosomiques qui sont d’une longueur minimale de 3 kb et présentant plus

de 90% d'identité.

Figure 48 : Conservation structurelle entre les 2 régions génomiques des chromosomes 4B

et 5A, révélée par une analyse DotPlot. La localisation, le sens et l’identifiant de chaque gène

TaNAC ancré sur ces régions génomiques sont représentés sur les axes x et y par une flèche

bleue. La flèche grise indique la présence d’un gène autre qu’un TaNAC. Les points verts et

85

phylogénétique. Ce constat suggère que l'expansion de la famille TaNAC pourrait être le

résultat d'événements de duplication locaux et interchromosomiques. Pour tester cette

hypothèse, nous avons souhaité en premier lieu avoir un aperçu des duplications existantes à

l’échelle du génome entier. Pour cela, chacun des 3 sous-génomes a été aligné sur lui-même et

les fragments présentant une identité d'au moins 90% sur un minimum de 3 kb ont été conservés.

En utilisant ces critères,

- 318 fragments dupliqués ont été identifiés dans le sous-génome A, avec une longueur

moyenne de 5,75 kb et une longueur médiane de 5,255 kb. Le plus gros fragment est de

13,093 kb,

- 207 fragments dupliqués ont été détectés dans le sous-génome B, avec une longueur

moyenne égale à 5,546 kb, et une longueur médiane de 5,146 kb. Le plus grand fragment

dupliqué est de 10,009 kb,

- 428 fragments dupliqués ont été détectés dans le sous-génome D, avec une longueur

moyenne de 5,639 kb et une longueur médiane de 5,332 kb. Le plus grand fragment

dupliqué est de 9,947 kb (Figure 47, le détail des données utilisées pour générer la figure

est fourni en Supplemental Table S4 de la publication Guérin et al. (2019)).

Afin d’avoir des indications sur le schéma d'expansion de la famille TaNAC, nous nous sommes

ensuite concentrés sur un clade en particulier, détaillé à droite de l’arbre dans la Figure 45. Ce

clade a été choisi car il contient des gènes TaNAC portés par 3 régions génomiques ancrées sur

chacun des 3 sous-génomes, et que les gènes étudiés sont tous voisins sur ces 3 régions

génomiques. Ainsi, il nous permet d’étudier la présence de duplications au sein de chaque

sous-génome et entre les sous-sous-génomes.

Ces régions contiennent 11 gènes TaNAC ancrés sur les chromosomes 4B, 4D et 5A et

physiquement étroitement liés (voisins ou séparés par un gène au maximum). Leurs séquences

codantes sont structurellement proches puisqu’ils sont regroupés sur un clade de l’arbre

phylogénétique, mais leur structure génomique est aussi similaire car ils possèdent tous 2 exons

et 1 intron. Pour éviter les relations d'homéologie entre les sous-génomes pouvant masquer les

duplications, le sous-génome 4D contenant 2 gènes TaNAC a été écarté de l’analyse. En

utilisant une fenêtre de +/- 25 kb autour des gènes TaNAC les plus distaux de chacun des 2

locus restants, nous avons retenu un premier locus de 396,990 kb sur le sous-génome 4B

(coordonnées sur la pseudomolécule : 619563787 à 619960777) et contenant 5 gènes TaNAC ;

Figure 49 : Longueur des fragments génomiques (seuil minimum à 2 kb) présentant au

moins 80% d’homologie entre eux, résultant du blast entre les régions chromosomiques 4B

et 5A. La taille maximale détectée est de 9006 pb.

Figure 50 : Diagramme Circa des régions génomiques des chromosomes 4B (en rouge ;

396,990 kb) et 5A (en bleu ; 209,278 kb) contenant 9 gènes TaNAC (traits jaunes). Chaque

bande verte relie 2 régions chromosomiques présentant plus de 80% d’identité sur une

longueur minimale de 2 kb.

0

5

10

15

20

25

30

35

40

45

2-3Kb 3-4Kb 4-5Kb 5-6Kb 6-7Kb 7-8Kb 8-9Kb 9+Kb

Nom

b

re

de

qu

e

n

ce

s

86

et un second locus de 209,278 kb sur le sous-génome 5A (coordonnées sur la pseudomolécule :

666499425 à 666708703) et contenant 4 gènes TaNAC.

Un dot-plot de ces 2 régions génomiques (Figure 48

)

a mis en évidence de nombreux fragments

dupliqués en orientation sens (vert) et anti-sens (rouge). Pour clarifier la nature et l'amplitude

des duplications, nous avons aligné ces séquences par paires en utilisant l'algorithme YASS

(Noé et Kucherov 2005), ce qui nous a permis d’identifier tous les fragments dupliqués de ces

régions, d’une longueur minimale de 2 kb et présentant au moins 80% d'identité entre eux. Un

total de 119 fragments dupliqués non-chevauchants ont été identifiés, parmi lesquels 54

fragments correspondent à des duplications intra-chromosomiques (31 sur le chromosome 4B

et 23 sur le chromosome 5A). Les 65 fragments dupliqués restants correspondent à des

duplications interchromosomiques. La majorité de ces duplications (66,7%) possèdent une

longueur inférieure à 4 kb, mais un fragment possède la taille maximale de 9006 pb (Figure 49).

Les fragments dupliqués entre les loci de ces régions génomiques sont présentés sur la Figure

50

.

41% de ces fragments (c'est-à-dire 49) sont dupliqués dans l'orientation sens et les fragments

restants (c'est-à-dire 70) sont dupliqués en orientation anti-sens (Supplemental Table S5 de la

publication Guérin et al. (2019)).