• Aucun résultat trouvé

CHAPITRE 1 : CONSTRUCTION ET ANALYSE DE 3 BANQUES TRANSCRIPTOMIQUES

1 Exploitation de trois banques normalisées d’ADNc de plantes produisant des furanocoumarines

1.1.3 Approche bioinformatique

1.1.3.4 Identification des séquences codant pour des cytochromes P450 NADPH réductase

- Chez C. cinereum, les 31 séquences complètes représentent 6 clans différents. Le clan 71 est largement représenté avec les sous-familles CYP71AN, BE, BF, CYP73A, CYP75B, CYP76B, E et X, CYP81E, CYP82A, CYP83E, CYP89A, CYP92A, CYP93B et C, CYP706J. Le clan 85 est le deuxième caractérisé par les sous-familles CYP85A, CYP88A et CYP716D. Le clan 86 est quant à lui représenté par des membres des sous-familles CYP86A et CYP94A. Enfin, les clans 51, 72, 74 et 07 ne sont représentés que par une seule séquence appartenant respectivement à CYP51G, CYP72A, CYP74B et CYP97A.

Cette approche de recherche par similarité de séquences classe de nombreuses séquences dans des familles voire des sous-familles différentes de celles obtenues avec la recherche des champs GO. Ces observations ne sont pas surprenantes dans la mesure où de nombreuses séquences disponibles dans la banque de données privée de David Nelson n’ont pas encore été rendues publiques. A titre d’exemple, chez le panais, l’annotation avec les termes GO plaçait les contigs P_sat_rep_c588 et c729 dans la sous -famille des CYP83B, alors que l’identification par similarité de séquences les placent dans la sous-famille des CYP71AZ (Annexe 12, p. 311-310). Ces deux séquences ont été soumises au Dr. Nelson afin de les classer dans la nomenclature officielle et correspondent aujourd’hui respectivement à CYP71AZ4 et CYP71AZ3. Dix autres séquences complètes isolées chez la rue sont également classées dans la nomenclature officielle : R_gra_c149 (CYP71BE20), c578 (CYP92A53), c643 (CYP71BE21), c1542 (CYP72A279), c1672 (CYP82D46), c1737 (CYP71AT56), c2181 (CYP71AT57), c3135 (CYP92A52), c3823 (CYP72A278) et c7149 (CYP72A277).

Enfin plusieurs raisons peuvent expliquer que certaines séquences candidates n’ont pu être classées avec l’approche par similarité de séquences : ces séquences sont soit trop courtes, soit comportent des séquences correspondant aux régions 5’ et 3’-UTR, soit contiennent un ou plusieurs changements de cadre de lecture. L’utilisation de la suite logicielle blast2GO n’a pas non plus permis d’obtenir plus d’informations sur ces séquences vu qu’elles sont annotées avecles champs GO ‘cytochrome p450’ ou ‘ cytochrome p450 like_tbp’.

1.1.3.4 Identification des séquences codant pour des cytochromes P450 NADPH réductase

Les cytochromes P450 sont des enzymes membranaires qui, chez les végétaux du moins, sont étroitement associées à des NADPH cytochromes P450 réductases (CPR). Ces enzymes permettent le transfert d’électrons vers les P450s et sont donc essentielles à leur bon fonctionnement. Les données disponibles dans la littérature indiquent que, contrairement aux cytochromes P450, ces enzymes sont

143

très peu variables. Ainsi il est généralement admis que pour une plante donnée il n’y a qu’une poignée de CPRs qui fonctionnent de manière unilatérale avec l’ensemble des P450s présents ce qui sous-entend que cette enzyme doit être exprimée en grande quantité pour subvenir aux besoins de tous les P450s présents dans une plante. L’interaction entre le P450 et la CPR est un élément essentiel au bon fonctionnement des enzymes. Certains travaux démontrent que dans le cadre d’expression hétérologue, les P450s peuvent être plus actifs lorsqu’ils sont associés avec une CPR issue de son organisme d’origine. Pour disposer d’un dispositif de caractérisation fonctionnelle optimisé associant un P450 et une CPR d’une plante donnée, nous avons effectué une recherche de gène codant pour les CPRs au sein des trois banques qui ont été générées au laboratoire. La recherche des termes IPR et des annotations des champs GO correspondant à des CPRs a permis de mettre en évidence un total de 17 contigs chez

P. sativa, 13 chez R. graveolens et 9 chez C. cinereum.

P. sativa R. graveolens C. cinereum

Pourcentage d’identité (%) Maximum 95,8 98,8 96,2 Minimum 72,8 81,4 57,6 Moyenne 85,5 89,3 83,4 E-value E < 10-35 13 10 9 10-35 < E < 10-10 4 3 0 Longueur (en nt) Maximum 2701 2421 2548 Minimum 327 442 569 Moyenne 654 886 1190

Tableau 11: Caractéristiques des séquences identifiées à partir des trois banques d’ADNc codant pour des CPRs.

Annotations GO P.sativa R. graveolens C. cinereum

nadph cytochrome p450 reductase 15 5 3

cytochrome p450 reductase 1

nadph-ferrihemoprotein reductase 1 1

nadph-cytochrome p450 oxydoreductase 4

nadph--cytochrome p450 reductase-like 3 4

nadph:p450 redutase 1

nadph-dependent cytochrome p450 reductase 1

Tableau 12 : Annotations des champs de Gene Ontology obtenus pour les séquences correspondant à des CPRs identifiées à partir des trois banques d’ADNc.

144

Ces séquences présentent un minimum d’identité de 57,6 –81,4 %, un maximum d’identité de 95,8 - 98,8 % et une moyenne de 83,4 –89,3 % d’identité avec la séquence la plus proche contenue dans la banque publique NCBI nr (Tableau 11, p. 143). Parmi toutes les séquences codant pour des CPRs, la majorité voire la totalité d’entre elles sont identifiées avec un score très élevé (E < 10-35) démontrant ainsi une conservation importante de ces protéines entre les différentes espèces végétales (Tableau 11, p. 143). Chez P. sativa et la rue, on retrouve quelques séquences identifiées avec un score moyen (10-35

< E < 10-10) (Tableau 11, p. 143). La taille moyenne de ces séquences est de 654 nucléotides (nt) chez

P. sativa, 886 nt chez R. graveolens et 1190 nt chez C. cinereum (Tableau 11, p. 143). Chez le panais et la rue, les séquences les plus courtes ne mesurent que 327 et 442 nt alors que la séquence la plus courte chez C. cinereum est de 569 nt (Tableau 11, p. 143). Les séquences les plus longues codants pour des CPRs mesurent entre 2421 nt et 2701 nt et devraient contenir la totalité de la séquence codante, car la longueur moyenne d’un gène codant pour une CPR est d’environ 2100 nt (Tableau 11, p. 143).

Toutes les séquences identifiées comme codant pour des CPRs ont obtenu des annotations de champs de Gene Ontology. Au total, 7 champs GO différents sont identifiés dont 3 chez P. sativa, 4 chez la rue et chez C. cinereum (Tableau 12, p. 143).

Terme IPR Désignation terme IPR P. sativa R. graveolens C. cinereum

IPR001094 flavodoxin 4 3 2

IPR001433 Oxidoreductase

FAD/NAD(P)-binding 3 4 2

IPR001709 Flavoprotein pyridine nucleotide cytochrome reductase 3 4 3

IPR003097 FAD-binding, type 1 6 3 4

IPR008254 Flavodoxin/nitric oxide synthase 4 5 2

IPR017927 Ferredoxin reductase-type

FAD-binding domain 2 1

IPR017938 Riboflavin synthase-like beta-barrel 5 3 3

IPR023173

NADPH-cytochrome p450 reductase, FAD-binding, alpha-helical domain-3

2 3 2

Tableau 13 : Annotations des termes IPR obtenus pour les séquences codant pour des CPRs identifiées à partir des trois banques d’ADNc.

La majorité des séquences identifiées comme correspondant à des CPRs se sont vues assignées un ou des termes IPR (Tableau 13, p. 144). La recherche des termes IPR001094 et IPR023173 a permis de mettre en évidence un certain nombre de séquences (Tableau 13, p. 144). Par contre, aucune séquence

145

n’est identifiée avec les termes IPR023206 (‘Bifunctional cytochrome P450/NADPH--cytochrome P450 reductase’) ou IPR023208 (‘NADPH-cytochrome P450 reductase’) utilisés pour la recherche de séquences codant pour des CPRs. Par contre, certaines de ces séquences ont également reçu des termes IPR qui n’avaient pas été utilisés pour la recherche de gènes candidats (IPR001433, IPR001709, IPR003097, IPR008254, IPR017938, IPR017927) (Tableau 13, p. 144).

Parmi toutes les séquences identifiées comme des CPRs, une seule est prédite complète dans chacune des trois banques d’ADNc. Chez le panais, il s’agit du contig P_sat_rep_c249. Malheureusement, cette séquence comporte un changement de cadre de lecture : le début de la séquence codante est dans le cadre de lecture 3, puis au niveau des nucléotides en position 1125 à 1129 la lecture s’effectue dans le cadre 1. De plus, deux méthionines (indiquées en rouge dans l’Annexe 13, p. 313) en début de séquence peuvent correspondre au codon initiateur, la longueur de la séquence protéique peut donc être de 696 ou 709 aa. La séquence peptidique de 709 aa est représentée dans l’Annexe 13 (p. 313). L’acide aminé en position 316 au niveau du changement de cadre de lecture est indiqué en vert dans l’Annexe 13 (p. 313) et correspond soit à une phénylalanine (F, cadre de lecture 3) soit à une leucine (L, cadre de lecture 1). Cette séquence de 709 aa présente respectivement 60,8 % et 72,1 % d’identité avec les séquences des CPRs ATR1 et ATR2 d’A. thaliana. Néanmoins, il reste nécessaire de confirmer par des approches expérimentales la nature exacte de cette séquence codante.

Chez la rue, il s’agit du contig R_gra_c3549 composé de 2421 nt. Deux méthionines (indiquées en rouge dans l’Annexe 13, p. 313) sont présentes en début de séquence et peuvent correspondre au codon intiateur. La séquence protéique peut donc être de 703 ou de 713 acides aminés. La séquence peptidique de 713 aa est représentée dans l’Annexe 13 (p. 313). Elle présente respectivement 62 %, 72 % et 64,5 % d’identité avec les séquences des CPRs ATR1 et ATR2 d’A. thaliana et celle identifiée chez P. sativa. Enfin chez C. cinereum le contig P_cin_c6685 de 2548 nt est prédit complet. Deux méthionines (indiquées en rouge dans l’Annexe 13, p. 313) sont présentes en début de séquence et peuvent correspondre au codon intiateur. La séquence protéique peut donc être de 690, mais au vu d’alignement de séquences il est plus probable qu’elle soit de 704 acides aminés. La séquence peptidique de 704 aa est représentée dans l’Annexe 13 (p. 313). Elle présente respectivement 61,7 %, 71,3 %, 74 % et 76,3 % d’identité avec les séquences des CPRs ATR1 et ATR2 d’A. thaliana et celles identifiées chez P. sativa et chez R. graveolens.

146