• Aucun résultat trouvé

C.6 Analyses Bioinformatiques

C.6.1 Analyse et Assemblage des séquences

Les électrophorégrammes ont été analysés par le logiciel « Phred » qui détecte la séquence en acides nucléiques et génère un score de qualité global de la séquence et un score qualité individuel par base. Un outil de comparaison rapide de deux lots de séquence, inclus dans un script Perl écrit par J-M. Frigerio, permet d’enlever les séquences du vecteur pour éditer rapidement et manuellement chaque séquence et obtenir un score Phred 20 de qualité global de la séquence supérieur à 85%. Dans une séquence, Phred attribue à chaque pic de l’électrophorégrammes une probabilité que la base nucléotidique détectée soit réellement la bonne. Le score est généralement un nombre entre 1 et 40 où le nombre représente la puissance de 10. Un score Phred 20 signifie qu’une base n’est pas la bonne une fois sur 100 (102) et un score Phred moyen de 20 signifie que la séquence est mauvaise une fois sur 100.

Le principe de l’assemblage bioinformatique d’EST est basé sur le fait que nous ne disposons que de courts fragments de séquences du transcrit d’un gène. En effet, comme nous l’avons déjà évoqué, si l’on considère les transcrits d’un gène disponibles après extraction, tous ne seront pas pleine longueur et donneront donc des ADNc partiels. De plus, la transcription inverse utilise comme amorces des polyT qui vont se fixer sur la queue polyA des ARNm, mais la réaction n’est pas parfaite et produit des ADNc incomplets dans la partie 5’ (Fig. C-15). Etant donné que nous avons choisi un séquençage d’EST en 5’, nous obtiendrons en général les 600-700 premières paires de bases en 5’. Il en résulte une série de fragment de séquences réparties le long du gène. L’objectif de l’assemblage est de rechercher les homologies de séquences entre EST pour reconstituer la séquence complète du gène à partir des fragments de séquences. Cela est rendu possible de proche en proche grâce aux zones de recouvrements des différents EST. Si des séquences se recouvrent en 5’ et d’autres en 3’ mais qu’aucune séquence n’est disponible pour la partie centrale, alors deux groupes d’EST seront générés pour un même gène. Plus le nombre de séquences disponibles pour un gène est élevé, plus on a de chance de reconstituer l’intégralité du gène. Les séquences qui n’ont pas de régions suffisamment spécifiques homologues à d’autres EST donneront des singletons. Pour éviter de regrouper les EST sur la base de régions de faibles complexité (ex : régions répétées comme les microsatellites), il est indispensable d’effectuer un masquage de ces régions.

Les séquences de bonne qualité sont injectées dans une suite logicielle nommée EPA, développée et testée en collaboration avec le CBiB (Centre de Bioinformatique de Bordeaux).

Matériel & Méthodes

Cet outil est construit autour d’une base de donnée MySQL et du module StackPackTM

(Electric Genetics www.egenetics.com) qui permet un assemblage rapide et un alignement des séquences. Les séquences sont analysées par le programme RepeatMasker

(http://www.repeatmasker.org/) pour masquer les zones de faible complexité comme par exemple

les queues polyA ou les microsatellites. Les séquences sont tout d’abord regroupées en cluster (CL) par le module D2cluster (Burke et al. 1999) qui découpe les séquences en motifs hexanucléotidiques et recherche une suite de motifs identiques entre les séquences (Fig.

C-18). Ce premier regroupement permet un assemblage plus fin en contigs (CT) par le

programme Phrap (http://www.phrap.org/). Des séquences consensus (CN) sont alors générées par le module CRAW (Burke et al. 1998) qui va analyser les alignements produits par Phrap. Seul le consensus primaire (CN primaire) est conservé pour l’étape d’annotation.

Les EST qui n’ont pu être rapproché d’un contig sont appelés singletons.

A titre de comparaison, la stratégie adoptée par le TIGR (http://www.tigr.org/tgi/faq2.shtml) commence par un contrôle et nettoyage de la présence de séquences de vecteur, E. coli et/ou poly A/T. Les séquences de taille inférieure à 100 pb ou comportant plus de 3% de N ne sont pas prises en compte. Pour l’assemblage, les EST sont clustérisés sur la base d’un minimum de 40 bases homologues, plus de 94 % d’identité dans la zone de recouvrement et une région d’un maximum de 30 paires de bases n’alignant pas avec les autres EST clustérisés. Le programme utilisé pour la création des séquences TC (Tentative Consensus) est « Paracel Transcript Assembler »

La structure de la base de données donne la possibilité de travailler sur des lots de séquences organisés en projets. Dans notre cas, un premier projet regroupe l’ensemble des séquences de la banque « xylème » (projet « Pinus Pinaster xylem EST ») et un second projet regroupe celles de racines (projet « Pinus Pinaster root EST »). Puis un projet global rassemble l’intégralité des séquences (« Pinus Pinaster Total »).

Avec le CBiB nous avons développé une interface web disponible pour les projets publics à l’adresse (http://cbi.labri.fr/outils/SPAM/COMPLETE/). Elle offre un accès commun aux requêtes et résultats d’homologie (Blast), aux informations de séquences des EST et consensus, ainsi qu’aux annotations fonctionnelles comme KEGG (Kyoto Encyclopedia of Genes and Genomes), FunCat (The Functional Catalogue) et GO (Gene Ontology).

ESTs CL1 CL2 CL3 CL… CLx CT22 CT23 CT24 CN158 CN159 CN160 CN161 D2 cluster Phrap Craw

Figure C-18 : Différents niveaux de regroupement des ESTs lors de l’assemblage bioinformatique. Les ESTs

sont regroupés en « clusters » (CL) par le programme D2 cluster. L’alignement des ESTs de chaque CL est analysé par le programme Phrap qui génère des « contigs » (CT). Le programme Craw va déterminer une séquence consensus (CN) à partir des ESTs de chaque contig. Si une seule séquence consensus ne peut être déduite, des consensus alternatif sont générés.

Matériel & Méthodes

Les homologies de séquence des EST et des séquences consensus ont été recherchées dans les différentes bases nucléiques et protéiques publiques. Une stratégie en cascade a été utilisée pour diminuer les temps de calcul. Une première requête BlastX contre la base SwissProt est testée et les meilleurs résultats sont conservés. Si aucune homologie n’est trouvée avec un indice de confiance (E-Value) ≤ 10-5, la même requête est testée su la base TrEMBL et si toujours aucune homologie n’est trouvée avec une E-Value ≤ 10-5, le résultat de la requête Blastn contre la base EMBL est retenu.