• Aucun résultat trouvé

D.2 Analyse et annotation des séquences

D.2.4 Northern électronique

Cette méthode d’estimation du niveau d’expression des transcrits entre plusieurs banques a été appliquée aux banques de racines stressées et contrôles. Cette approche repose sur le nombre d’EST séquencés pour un gène donné. Pour estimer correctement l’expression d’un gène, il faudra être en mesure d’identifier quels sont les EST issus des transcrits de ce gène. Une première hypothèse possible est de considérer que chaque contig constitue un gène différent, ce qui soulève trois incertitudes majeures :

• Nous avons vu que l’assemblage repose sur la similarité des séquences et les zones de recouvrement entre EST pour la génération des clusters et des contigs. Il est donc possible que les transcrits d’un même gène soient répartis dans deux contigs distincts si aucune séquence ne permet de relier les deux alignements.

• Concernant les singletons, une situation similaire peut se présenter. Une séquence est classée dans les singletons si elle n’a pu être alignée avec d’autres séquences. Cela ne signifie pas pour autant que nous soyons en présence d’un gène supplémentaire. Les

Répartition des contigs différentiellement exprimés en catégories fonctionnelle 1, 4 4, 7 4, 3 6,2 22 ,7 9, 0 1, 4 2,8 6, 2 11 ,4 10, 4 19 ,4 0,0 5,0 10,0 15,0 20,0 25,0 Communication/ Transduction du signal Croissance cellulaire, division Devenir des protéines

Energie Métabolisme Organisation cellulaire Transport Traffic intracellulaire Transcription Synthèse de protéines Réponse au Stress Non-classé Catégories fonctionelles %

Figure D-16 : Répartition en catégories fonctionnelles des contigs détectés comme différentiellement exprimés

EST des transcrits d’un gène peuvent être regroupés au sein d’un contig mais ne couvrir que sa partie 5’. Un transcrit pour lequel l’EST est positionné en 3’ sera alors considéré comme un singleton.

• La situation inverse est également possible, les EST de différents membres d’une

famille multigénique peuvent être groupés sous le même contig avec d’autant plus de risques que la séquence en 3’ n’est pas connue. Dans ces situations, l’estimation de l’expression du gène par comptage sera biaisée.

L’analyse statistique par IDEG6 a été réalisée en utilisant comme jeu de données les EST issus de racines en éliminant l’intégralité des singletons et des éventuelles séquences multiples d’un même clone. Le comptage des EST de chaque banque (stressé vs contrôle) a été fait en se plaçant au niveau du contig. Dans ce cas, nous considérons qu’un contig correspond à un gène, et aucune distinction n’est faite entre les EST du consensus primaire et ceux des éventuels consensus alternatifs. Le tableau Ax-1 (voir en annexe) donne la liste des 279 contigs détectés comme différentiellement exprimés par au moins un des tests statistiques sur les 2022 contigs analysés. Ils sont classés des plus fortes surexpressions dans la librairie 1 (racines contrôle) aux plus fortes sous expressions. La première constatation concerne le faible nombre d’EST par banque constituant les contigs. On peut se poser la question de la représentativité des données pour un décompte qui dépasse rarement 6 EST. Lorsque la normalisation (sur le nombre d’EST de chaque banque) est appliquée et qu’aucun EST n’a été obtenu dans une des banques, les différences d’expression sont artificiellement très élevées. Il faut donc prendre les résultats avancés avec précaution.

La figure D-16 nous présente les catégories fonctionnelles auxquelles les contigs détectés appartiennent. Par comparaison avec la répartition en catégories fonctionnelles de l’ensemble des EST (Fig. D-14), il apparaît que la proportion de « gènes » des classes « métabolisme », « organisation cellulaire » et « croissance cellulaire/ division » est plus élevée dans les « gènes » détectés comme différentiellement exprimés. A l’inverse, les classes « devenir des protéines », « transport » et « non-classé » sont sous-représentées.

Plusieurs contigs ont des annotations pouvant avoir un rôle dans la réponse au stress hydrique. Cependant, des transcrits de fonctions généralement mises en évidence lors du stress hydrique sont ici détectés comme plus abondants dans la banque de racines contrôles.

Nous avons l’Inositol 1-alpha-galactosyltransférase (EC 2.4.1.123) (CT469) avec un ratio de plus de 25 fois supérieur dans le contrôle. Cet enzyme permet la conversion du

myo-Résultats & Discussion

Inositol en Galactinol qui est un précurseur de la voie des RFO qui, comme nous l’avons vu, peuvent être accumulés lors du stress. La surexpression chez les racines contrôles ne va donc pas dans ce sens. C’est aussi le cas des contigs (CT477) et (CT219), avec respectivement des facteurs de 14 et 7 fois, homologues à des facteurs de liaison aux éléments de réponse à l’éthylène (EREBF). Une LEA (CT276) semble aussi régulée par un facteur 2.45 en faveur des contrôles. La prévention des oxydations est représentée par plusieurs peroxydases (CT168, CT1176 et CT235) et une L-ascorbate peroxydase (CT529) ainsi qu’une Flavonoide 3’,5’-hydroxylase (CT1039) et « Metallothionein-like protein EMB30 » (CT431). Si ces fonctions ne sont pas des marqueurs spécifiques de la réponse au stress hydrique, il est courant de les mettre en évidence en situation de stress hydrique qui engendre aussi un stress

oxydatif (Rabbani et al. 2003). Les peroxydases, comme les laccases peuvent également

intervenir dans la polymérisation des monolignols en lignine et donc avoir un rôle dans la synthèse des parois. La sous-expression lors du stress d’un transcrit homologue à une « Metallothionein-like protein EMB30 » conforte les résultats de Dubos et al. sur les racines de pins maritime en stress osmotique (Dubos and Plomion 2003). Nous pourrons enfin citer une Polcalcin (T56), un précurseur d’Alpha-expansin (CT859) et une Défensine (CT166) qui sont des acteurs de la réponse au stress pour respectivement la transduction du signal, l’extensibilité des parois et le système de défense contre les pathogènes.

A l’opposé, parmi les contigs comportant plus de séquences de la banque stressée, nous trouvons également une liste de fonctions intéressantes concordant plus avec le sens de variation attendu en condition de stress hydrique. Parmi les plus forts ratios d’expression, nous retrouvons une LEA (CT275), des protéines de liaison au calcium (CT59)(CT60) et une Flavonoide 3’,5’-hydroxylase (CT346). Les contigs en rapport avec la réponse à l’oxydation et à la détoxication sont plus abondants ce qui concorderait avec l’hypothèse d’un stress oxydatif plus fort chez les plants en stress hydrique. Les représentants sont des « Metallothionein-like protein » (CT312 et CT314), des sous-unités du complexe endopeptidase du Proteasome (CT1596 et CT1609) ainsi qu’un précurseur de « cathepsin B-like cysteine proteinase » (CT1841) qui est une protéine localisée dans le lysosome. Des enzymes intervenant à plusieurs niveaux dans la voie de synthèse des Flavonoïdes sont également détectés avec une 3’,5’-hydroxylase (EC 1.14.13.88) (CT346, CT342, CT344) et une Flavonol 3-O-glucosyltransférase 5 (EC 2.4.1.91) (CT1670) (

http://www.genome.ad.jp/dbget-bin/show_pathway?map00941+1.14.13.88+2.4.1.91). Dubos et al. avaient également trouvé une

accumulation de transcrits homologues à la Flavonoïde 3’,5’-hydroxylase (EC 1.14.13.21). Nous trouvons aussi des fonctions en rapport avec la structure des parois, comme une 127

Xyloglucan:xyloglucosyl transferase (CT1600) et un précurseur de la Glucan endo-1,3-beta-glucosidase (CT1704), ce qui concorderait avec une modification des parois cellulaires lors d’un stress hydrique. Le contig CT1153 homologue à une sous unité zeta-1 du Coatamer pourrait indiquer une activité plus importante de glycosylation des protéines au niveau du Golgi, se répercutant par un nombre de vésicule plus important en condition de stress. On pourra également noter que les transcrits de l’histone H1 (CT1938 et CT994) ainsi que l’histone H3 (CT1610) seraient plus abondant en condition de stress alors que l’Histone H4 (CT309) était détectée plus exprimé dans la banque contrôle. Une différence sur le niveau de compaction de l’ADN est donc possible entre la condition de stress et la condition contrôle. Nous terminerons en constatant que des facteurs de transcription, des protéines de réponse aux hormones et des protéines impliqués dans la transduction du signal, sont détectés dans la banque stressée. La liste comporte une protéine en doigt de zinc (CT934 et CT1822), un facteur de transcription WRKY (CT1598), une protéine homéobox-leucine zipper (CT1556), une « ABA stress ripening protein » (CT132), une protéine de membrane induite par l’ABA (CT1850) et une MAP kinase (CT1805). Ces résultats souligneraient une régulation de la transcription plus active dans les plantes exposées au stress hydrique.

Nous avons évoqué la problématique associée à l’identification des EST des transcrits d’un gène et le possible regroupement des EST d’un même gène dans plus d’un contig, ou à l’inverse, la distinction possible des membres de familles multigéniques à l’échelle des consensus. Nous avons donc essayé d’identifier les EST issus d’un gène à partir du regroupement le plus strict représenté par les consensus. Puis nous avons regroupé les EST de plusieurs CN en tenant compte de leur appartenance à un CT, à un CL et à leurs annotations. Le résultat du Northern électronique des 2097 « gènes » obtenus est donné dans le tableau Ax-2. 247 gènes sont détectés. Si les valeurs des tests changent, dans l’ensemble nous retrouvons le même type de fonctions que dans l’analyse précédente. Les gènes connus pour leur implication dans le stress hydrique que l’on trouvait plus abondants dans la banque contrôle ne sont pratiquement plus détectés tandis que ceux de la banque stressée le sont toujours. Cette seconde approche à l’échelle des consensus avec regroupement sur les annotations, quoi que plus subjective donne des résultats plus en accord avec les résultats attendus sur la réponse au stress hydrique.

L’analyse des résultats de ce Northern in silico a mis en évidence des contigs

Résultats & Discussion

Toutefois, certains d’entre eux sont détectés pour leur abondance dans les EST de la banque contrôle. L’explication de ce résultat peut tenir aux biais possibles de l’approche technique. Nous avons évoqué les biais bioinformatiques, mais la création même de la banque n’est pas exempte de biais. En effet, un biais peut exister à la création de la banque au moment de l’extraction et de la transcription inverse, mais aussi la facilité d’insertion de l’insert dans le vecteur qui dépendra de la taille et de l’abondance des transcrits, et de la réussite du clonage. La taille des inserts influe sur la facilité de transformation des bactéries, leur croissance et l’amplification des inserts par PCR. En terme d’abondance relative des transcrits, la représentativité du transcriptome par les séquences finalement obtenues n’est pas garantie. Les plants en hydroponie utilisés pour la création de la banque peuvent également présenter un stress en condition de contrôle différent (ex : anoxie, oxydatif, pathogène …) de celui appliqué par ajout de PEG.