• Aucun résultat trouvé

Criblage in silico des PLD végétales

Dans le document The DART-Europe E-theses Portal (Page 136-143)

3. Résultats & discussion

3.1. Chapitre 1 : Analyse théorique et expérimentale de la relation structure-fonction des

3.1.1. Mutagenèse dirigée de la PLD d’Arabidopsis thaliana

3.1.1.1. Criblage in silico des PLD végétales

Toutes les séquences obtenues, leur base de donnée de provenance et leur identifiant sont indiquées en Tableau 7 en Annexe.

De façon à cibler les résidus les plus conservées chez les PLDα végétales au cours de l’évolution, nous avons rassemblé un maximum de séquences issues des bases de données.

En utilisant la séquence de l’AtPLDα nous avons effectué un tBLASTn de la base de données du NCBI (cf. 2.2.1.1. Recherche de séquences). Nous avons effectué une recherche de séquence protéique avec le mot-clé « PLD » dans la base de données PhytosomeDB v12.1. Les séquences, qui correspondent à 45,5 % (95/209) du nombre total de séquences, nous ont alors permis de déterminer des critères pour discriminer les PLDα des autres isoformes dont l’annotation en base de données n’est pas toujours juste :

- Le premier critère pour sélectionner les séquences est la longueur en acides aminés. Ne sont conservées dans notre criblages que les séquences comprises entre 800 et 840 résidus, entre la méthionine initiale et le codon stop. Ainsi tous les fragments de séquence sont exclus et ceci explique l’absence de séquences protéiques de certains organismes comme Secale cereale dont seuls des fragments de PLDα existent.

- Le second critère a été plus compliqué à établir puisqu’il s’agit de séquences reconnaissables spécifiques à l’isoforme α des PLD végétales qui nous permettent donc d’exclure les autres isoformes. Ainsi de l’amino-terminal au carboxy-terminal :

- (a) l’isoforme α des PLD végétales contient une séquence consensus HGX5I en aval de la méthionine initiale,

- (b) entre les résidus 220 et 240 l’isoforme présente une séquence de type (I/V)(Y/C)(I/V)XGWS(V/I),

- (c) puis une séquence de type (M/V)XT(H/G)D, - (d) un premier site catalytique HKD de type HXKX4D,

136

- (e) un motif conservé (F/Y)(I/V)Y(I/V)ENQYF(L/I)GX4W autour du résidu 520 avec une séquence caractéristique (Y/F)(I/V)XAIRXA en amont,

- (f) un second site catalytique HKD de type HXKX4D - (g) une séquence consensus finale PX2(L/I)T(T/S).

- Le troisième et dernier critère est l’épissage des séquences. La séquence d’une enzyme active est connue et les premiers alignements confirment la position relative des exons que l’on peut trouver en base de données où l’épissage est réalisé automatiquement. Il se trouve que pour certaines séquences cet épissage in silico est mal réalisé et des introns subsistent. Quand ceux-ci sont identifiables nous avons donc corrigé manuellement les séquences. C’est le cas pour vingt-cinq séquences telles que :

o Aegilops sharonensis et A. speltoides, Triticum durum et T. monoccocum, Cannabis sativa, Dianthus caryophyllus, Oryza punctata et Pinus taeda. Pour ces séquences les mêmes introns ont été retirés en N-terminal et en aval du second motif catalytique.

o Pour Aquilegia coerulea, Citrullus lanatus et Ipomoea trifida, un intron en N-terminal a été retiré.

o Des fragments de séquences ont été assemblés pour construire les séquences d’Arabis alpina, Digitalis purpurea, Dioscorea villosa, Hevea brasiliensis, Picea sitchensis et Valeriana officinalis.

o Pour Arachis duranensis, un fragment manquant en N-terminal a été ajouté à partir d’une autre séquence codante trouvée dans la même base de données.

o La séquence de Pimpinella brachycarpa a été mal épissée : un intron remplace la séquence consensus (F/Y)(I/V)Y(I/V)ENQYF(L/I)Gx4W (dont l’occurrence dépasse le seul cadre des PLD végétales). Cette erreur a donc été corrigée en remplaçant l’intron par la séquence manquante trouvée dans la même base de données.

o Certaines séquences contiennent des X en lieu et place de certains résidus. C’est le cas pour Chenopodium quinoa, Gincko biloba, Nelumbo nucifera et Nicotiana tabacum.

Nous avons donc remplacé ces X par le résidu correspondant dans la séquence génomique.

o Enfin, les séquences d’Oryza glumipatula et Quercus rubra contiennent certes la bonne méthionine mais l’épissage fait commencer la séquence avec une méthionine située en amont. Dans ce cas-là le peptide qui ne s’aligne pas correctement avec le reste des séquences est retiré.

137

Les séquences qui n’ont pas pu être corrigées ou pour lesquelles des informations de séquences sont manquantes n’ont pas été utilisées.

Dans le cas où plusieurs séquences de PLDα sont trouvées dans un même organisme, nous avons choisi de ne garder que l’isoforme le plus proche en termes d’identité de séquence de notre modèle chez A. thaliana. Ainsi, nous ne gardons qu’un seul représentant par organisme, de façon à ne pas influencer la séquence consensus construite à partir de l’alignement.

Notons ici qu’au cours de nos recherches de PLDα végétales, une séquence extrêmement similaire à celle de PLDα de chou a été trouvé dans le génome de la chauve-souris Rhinolophus sinicus (Dong et al., 2017). Cette séquence, qui répond donc parfaitement aux critères établis ci-dessus n’existe pas de près ou de loin dans d’autres chauves-souris ni d’autres mammifères.

Par ailleurs, la chauve-souris Rhinolophus sinicus présente des séquences de PLD typiques des mammifères. Nous pensons donc qu’il s’agit d’une contamination survenue lors du séquençage.

Cette séquence n’existe pas chez un végétal que nous avons criblé ; or il semble clair qu’il s’agit d’une PLDα végétale et que nous sommes en présence d’une nouvelle séquence que la phylogénie place parmi les brassicaceae (Figure 22). Nous l’avons donc gardée dans notre sélection car elle apporte plus de diversité dans notre échantillon, même si son origine demeure inconnue.

Ainsi, ce criblage comporte des séquences de PLDα présentes chez différentes familles de végétaux comme les mousses, les hépatiques, les gymnospermes ou encore les angiospermes.

Des fragments ont aussi été trouvés dans les fougères, témoignant ainsi de la remarquable conservation de la séquence de la PLDα au sein des organismes végétaux (Figure 22).

Les plus nombreux représentants de notre base de données sont les Poaceae (bleu clair) puis les Solenaceae (rouge), les Fabaceae (violet), les Brassicaceae (jaune) et les Orchidaceae (vert). Il n’est pas question ici de discriminer les organismes où la PLD serait présente de ceux dans lesquels elle ne le serait pas. À notre connaissance, une PLDα entière ou fragmentaire a été retrouvée dans tous les génomes complets séquencés de végétaux sans exceptions. En réalité nous avons criblé les bases de données à notre disposition, et force est de constater que celle-ci sont riches d’organismes à « visée agricole ». Notre criblage est donc influencé par le nombre de végétaux séquencés et nos critères établis pour sélectionner les séquences de PLD. À quelques exceptions près, les familles sont rassemblées entre elles au sein de l’arbre, démontrant la forte homologie de séquence entre les PLD. Les séquences les plus éloignées sont celles à gauche de l’arbre, à savoir Sphagnaceae, Funariaceae, Marchantiaceae,

138

Sellaginellaceae et Coccomyxaceae. Cette dernière est la plus éloignée de ses congénères mais partage tout de même 50 % d’identité de séquence protéique avec l’AtPLDα. Nous développerons son clonage et son expression recombinante au cours du chapitre 3. Enfin, dans certains cas nous ne possédons la séquence que d’un seul représentant d’une famille. C’est le cas pour les séquences les moins conservées citées ci-dessus. C’est aussi le cas pour les Papaveraceae, ou les Amaranthaceae.

Cette étude phylogénétique nous permet donc de présupposer l’occurrence du gène codant la PLDα dans tous les organismes végétaux.

L’alignement des 209 séquences nous permet de construire une séquence consensus de 924 caractères dont 808 sont effectivement des résidus d’acide aminé et 116 sont des trous de séquence. Sur 924 positions, 138 (15 %) sont strictement conservées dans les 209 séquences, 376 (41 %) sont conservées à plus de 95 % et 479 (52 %) sont conservés à plus de 90 %. Cet alignement nous permet donc de déterminer, grâce à la séquence consensus et à la représentation du « poids » de chaque résidu, les zones les plus conservées au sein des PLDα végétales.

La position relative des CR pour conserved regions ou régions conservées est décrite en Introduction en Figure 7.

139

Figure 22 : Relation phylogénétique et diversité des PLDα végétales.

La PLDα d’A. thaliana est indiquée par une flèche.

140

Figure 23 : Conservation des résidus au sein des PLDα végétales.

L’histogramme de la séquence consensus indique le score de conservation de chaque résidu dans l’alignement des 209 séquences de PLDα végétales. Les positions mutées dans l’AtPLDα sont indiquées par des étoiles rouges et les résidus mutés dans la suite de ces travaux sont indiqués en dessous.

141 L’analyse se déroule du N-terminal au C-terminal.

On note en premier lieu un motif conservé LHGTLH directement en aval de la méthionine initiale (Figure 23).

À la suite de ce motif se trouve une zone très particulière puisqu’elle constitue la zone la moins conservée en termes de longueur, de quantité de trous et d’occurrences répétées de résidus particuliers dans toute la séquence consensus. Nous nous sommes beaucoup intéressés à cette zone car un site de clivage récurrent chez les PLD végétales s’y trouve. Nous aurons l’opportunité de se pencher plus longuement sur cette zone au cours de nos travaux décris dans le chapitre 2 (cf. 3.2.2. Étude de la partie amino-terminale de la PLD d’Arabidopsis thaliana).

Un cluster plus conservé autour de la position 90 laisse directement place à une courte zone peu conservée. Et ainsi de suite durant tout le domaine C2, des zones conservées font place à des zones qui le sont moins (position 20 à 210, Figure 23). Le domaine C2 domaine régulateur des PLDα qui fixe le Ca2+ est la zone la moins conservée dans toutes les séquences de notre crible.

Ce n’est qu’en C-terminal de ce domaine régulateur que le restant de la séquence est remarquablement bien conservé et peu de zones varient. Un premier motif "LIYITGWS" en position 280-287 constitue un cluster important dans l’identification des PLD végétales et des PLD de façon plus générale car c’est l’un des motifs typiques (CR Ia) décrits dans la littérature (cf. 1.3.3.1. Les PLD à motifs HKD et Figure 7). Directement en aval un motif très basique

"LLKKK" est bien conservé en position 313-317 et correspond au CR IIa. En amont du motif HKD N-terminal se situe une séquence de type "GLMATHD" en position 347-353. Le premier site catalytique HKD "HHQKIVVVD" en position 395-203 (CR IIIa) est entouré de deux courtes zones peu conservées, mettant en lumière comme un îlot important l’état de conservation de ce motif HKD. La fin de ce motif n’est pas accolée comme dans les autres PLD du vivant. En effet, chez les végétaux il existe une insertion d’une dizaine de résidus mettant à distance du motif HKD le motif GG/GRY (position 427-428 et 434-436) normalement étroitement associé (CR IVa). On retrouve aussi des motifs décrits dans la littérature comme

"PREPWHDIH" en position 474-482, un cluster de cinq résidus parfaitement conservés

"FRSID" (position 563-570) et un motif conservé "HAIRRAKMFIYIENQYFKG" (position 601-620) chez les PLD eucaryotes (CR Ib). On retrouve un autre motif basique "FTVYVVV"

(CR IIb) (position 662-668) puis un second site HKD C-terminal de type

"YVHTKMMIVDDEYIIIGSANINQRSMDGARDESEIAMG" (CR IIIb et IVb) (position 761-799) cette fois-ci plus long et plus conservé que le premier motif et enfin une séquence

142

consensus finale "PPILTT" (position 919-924) caractéristique de l’isoforme α des PLD végétales.

Les deux motifs HKD ne sont pas strictement équivalent dans leur longueur et leur composition au-delà du HXKX4D. On observe en réalité que, d’une part l’environnement du second motif catalytique est plus conservé que le premier là où en eux-mêmes les résidus catalytiques ont le même niveau de conservation, et d’autre part, que le second motif semble plus étendu que le premier comme nous le montrerons par la suite avec notre étude de mutagenèse dirigée.

Dans le document The DART-Europe E-theses Portal (Page 136-143)