• Aucun résultat trouvé

C.4 Analyse d’expression

C.4.2 Microréseaux à ADNc

C.4.2.1 Réalisation de l’Unigène

L’Unigène représente l’ensemble non-redondant des gènes contenus dans les banques d’ADNc. Chaque membre peut se définir comme la sélection d’une (ou plusieurs) séquence représentative d’un gène unique. Les possibilités techniques des microarrays utilisées sont de l’ordre de 20000 dépôts par lame. L’objectif était de réduire de façon conséquente le coût et le nombre de sondes à déposer tout en conservant le maximum d’information biologique.

Nous avons exploité les données bioinformatiques disponibles dans nos bases de séquences de pin maritime à la date du 22 septembre 2003. Les résultats d’assemblage (Fig. C-18) semblaient montrer que les séquences d’un même gène appartenaient au même consensus. Nous avons donc considéré que chaque consensus représentait un gène différent et choisi un représentant unique par consensus (cf. C.6.1).

Dans le cas des singletons, chaque séquence doit, par définition, correspondre à une séquence unique. Cependant, certains singletons peuvent appartenir au même gène, mais n’ont pu être regroupés. Nous avons fait le choix d’écarter ces "doublons" de l’Unigène. Pour cela, les singletons ont été comparés sur la base du résultat de la recherche d’homologie obtenue par la stratégie multiBlast du pipeline (cf chapitres suivants) avec un seuil de significativité placé à 10-7. Les singletons ne comportant aucune homologie avec un score inférieur à cette valeur seuil sont intégrés directement à l’Unigène. Dans le cas contraire, les singletons ayant au moins un résultat commun entre eux parmi les 5 premiers résultats (Blast) inférieurs au seuil, sont considérés comme similaires et un seul représentant du groupe est retenu.

Pour choisir un représentant de chaque consensus, nous avons essayé d’homogénéiser la taille des fragments déposés. En effet, à nombre de copies et teneur en GC identique, la fluorescence produite par la cible dépend de la longueur du fragment. Un fragment long incorpore plus de dNTP fluorescents qu’un fragment court. Cependant, nous ne disposions pas de la longueur réelle des inserts correspondant aux EST. Nous avons donc calculé une

longueur théorique à partir des données de bioinformatique. Les séquences ont été obtenues par séquençage d’EST en 5’. Les EST sont des ADNc issus d’ARNm, or les EST correspondent rarement à l’ARNm pleine longueur (Fig. C-15). En effet, la transcription inverse produit un fragment d’ADNc débutant en région 3’ de l’ARNm (queue polyA) qui se termine souvent avant la fin de la région 5’. De plus, le fragment d’ADNc peut se casser avant ou pendant son insertion dans le vecteur de clonage. Il résulte de ces événements un fragment partiel de l’ARNm de départ.

Ainsi, après l’assemblage des EST en contigs, permettant d’en déduire des séquences consensus (CN), on peut calculer une longueur théorique pour chaque insert (Fig. C-15):

Longueur Théorique de l’insert = Longueur du Consensus – nb bases entre l’extrémité 5’ de l’EST et l’extrémité 5’du Consensus

Dans le cas des contigs, nous avons adopté la stratégie suivante pour choisir le clone représentatif du contig (Fig. C-16) :

• Choix des inserts situés au plus proche de la région 3’ du gène, afin de garantir une spécificité accrue. En effet, la différenciation au niveau des membres d’une famille multigénique se fait généralement dans la partie 3’ de la séquence. C’est la zone la plus variable.

• Choix des inserts les plus proches d’une longueur théorique définie (borne),

garantissant une hybridation correcte des cibles sur les sondes, en termes de spécificité et d’homogénéité de quantité de cibles fixées. La longueur théorique doit également être comprise entre un seuil minimum et un seuil maximum. Nous avons opté pour une longueur théorique d’environ 500 pb (paires de bases), un seuil minimum de 200 pb et un seuil maximum de 800 pb.

Ces deux critères de choix engendrent plusieurs cas possibles (Figure C-16):

1) la longueur théorique de l’insert est comprise entre 500 pb et 650 pb.

Il s’agit du cas le plus intéressant pour notre stratégie (le meilleur intervalle de longueur théorique), c’est pourquoi seulement dans ces cas nous avons choisi l’insert dont l’EST était le plus proche de la queue polyA.

2) la longueur théorique de l’insert est comprise entre 450 pb et 500 pb.

Choix de l’EST avec le plus faible écart (Δ) entre la longueur théorique de l’insert et la valeur 500 pb.

ARNm pleine longueur

5’ AAAAAAA 3’

Transcription inverse imparfaite avec amorces polyT + site Xho1

3’ 3’ AAAAAAA 3’ 5’ 5’ 5’ TTTTTTT+XhoI 5’ TTTTTTT+XhoI 5’ 3’ TTTTTTT+XhoI 5’ 3’ 3’ TTTTTTT+XhoI 5’ TTTTTTT+XhoI 5’ 3’ TTTTTTT+XhoI 5’ 3’ 3’

Insertion orientée dans un vecteur et clonage puis

séquençage d’ESTs sur 200 à 800 pb

TTTTTTT+XhoI 5’ TTTTTTT+XhoI 5’ 3’ TTTTTTT+XhoI 5’ 3’ 3’ TTTTTTT+XhoI 5’ TTTTTTT+XhoI 5’ 3’ TTTTTTT+XhoI 5’ 3’ 3’ 5’ AAAAAA +Xho13’ Consensus (CN) ESTs ESTs ESTs insert insert insert L Longueur théorique n

Figure C-15 : Conséquences de la rétrotranscription imparfaite et du clonage sur les ESTs générés en 5’. Les

ESTs obtenus (en bleu) ne commencent pas tous à l’extrémité 5’ correspondant à l’ARNm pleine longueur. Les zones de recouvrement entre ESTs (entourées) permettent par assemblage bioinformatique de retrouver l’intégralité de la séquence du transcrit (consensus). Nous avons défini la longueur théorique d’un EST comme étant la longueur du consensus (L) moins le nombre de paires de bases (n) entre l’extrémité 5’ du consensus et 5’ de l’EST. 4 2 1 3 5 5

CN

5’ 3’ 0 650 500 450 200 800 pb AAAA 4 2 1 3 5 5

CN

4 2 1 3 5 5

CN

5’ 3’ 0 650 500 450 200 800 pb AAAA 5’ 3’ 0 650 500 450 200 800 pb AAAA AAAA

Figure C-16 : Sélection des clones pour l’Unigène. Stratégie adoptée pour le choix du clone représentatif d’un

contig sur la base de la longueur théorique de l’insert. Dans l’ordre de priorité :

1. S’il existe un insert de longueur théorique comprise entre 500 et 650 pb, choix du clone pour lequel l’EST est le plus proche de l’extrémité 3’

2. Insert compris entre 450 et 500 pb, choix du clone avec l’insert le plus proche de 500 pb 3. Insert entre 650 et 800 pb, choix du clone avec l’insert le plus proche de 650 pb

4. Insert entre 200 et 450 pb, choix du clone avec l’insert le plus proche de 450 pb 5. Choix du clone dont l’insert est le plus proche de 500 pb

3) la longueur théorique de l’insert est comprise entre 650 pb et 800 pb.

Choix de l’EST avec le plus faible Δ.

4) la longueur théorique de l’insert est comprise entre 200 pb et 450 pb.

Choix de l’EST avec le plus faible Δ.

5) la longueur théorique de l’insert est inférieur à 200 pb ou supérieur à 800 pb.

Choix de l’EST avec le plus faible Δ.

Nous avons également ajouté à cet Unigène, une sélection de clones issus des banques

américaines de Pinus taeda dont les inserts codaient des enzymes impliqués dans le

métabolisme des sucres et de l’azote et pour lesquels nous ne disposions pas de séquences de pin maritime. L’effet du PEG sur l’expression de ces gènes avait été étudié lors du développement d’embryons somatiques de Picea glauca (Stasolla et al. 2003). Des contrôles positifs et négatifs issus des études d’expressions sur la formation du bois ont aussi été inclus.

Nous avons déposé des séquences de : 4CL (4-coumarate-CoA ligase (E.C.

2.1.1.14)(AL751056)), 5P, Cytochrome P450 (BX255398), Desmine, GP (glycine rich protein (BX000600)), G3PDH (Glycéraldéhyde 3-phosphate déshydrogénase), HSP (Class I LMW heat shock protein (BX000656)), Luciférase (1,3,5,12), Ras, Thioredoxin H (BX000658), Tubuline alpha chain (BX000608), Ai6V(gène d’aiguille différentiellement exprimé lors d’une expérience d’exposition au vent), X42 et X46 (gènes différentiellement exprimés lors d’études sur la formation du bois en ADNc-AFLP).