Algorithme d‘analyse et d‘extraction de données

Dans le document Contributions algorithmiques à la conception de sondes pour biopuces à ADN en environnements parallèles (Page 128-132)

Chapitre III : Matériels et méthodes

2. Système d’information pour la conception de sondes pour biopuces à ADN

2.1. Algorithme d‘analyse et d‘extraction de données

L‘algorithme proposé ici consiste à utiliser la banque de données internationale EMBL en extrayant des informations d‘annotations précises des fiches EMBL des séquences biologiques. Le programme est entièrement développé en BioPerl (www.bioperl.org). Dans le cadre de l‘étude de la biodiversité microbienne dans les environnements complexes, toutes les classes de données EMBL et les divisions taxonomiques qui représentent les populations microbiennes de ces environnements à savoir les champignons (FUN), les procaryotes (PRO) et les échantillons environnementaux (ENV) ont été considérées (voir section I.3.1). Le processus est composé des étapes principales suivantes.

2.1.1. Téléchargement des données

Une connexion FTP est ouverte vers le site de téléchargement des dernières mises à jour des fichiers EMBL compressés au format « .dat.gz » à l‘aide du module NET::FTP de BioPerl. Ensuite, sont téléchargées toutes les fiches EMBL compressées qui correspondent aux divisions et aux classes définies au préalable. Les noms de fichiers à télécharger sont uniques et sont décrit de la manière suivante (à part les fichiers WGS de la forme « wgs_alphabet_div[_nb].dat.gz ») : rel_class_div_nb_relnu.dat.gz

Où « class » : est l‘abréviation correspondant à la classe des données ; « div » : est l‘abréviation correspondant à la division des données ; « nb » : est le numéro du fichier de même type ;

Mohieddine MISSAOUI Page 128

2.1.2. Décompression des fichiers

Chaque fichier téléchargé est ensuite décompressé pour être traité. Il donne lieu à une fiche EMBL qui contient une ou plusieurs entrées. La taille totale des données téléchargées est de 15Go de fichiers compressés pour la version 97. Le Tableau 10 récapitule le nombre d‘entrées pour chaque division taxonomique en prenant en compte toutes les classes. Après décompression, l‘extension des fichiers est « .dat ». Ils sont identifiables par leurs caractéristiques décrits plus haut.

Tableau 10: Nombre de séquences et de nucléotides dans la base EMBL correpondants aux divisions microbiennes (version 97).

Division Entrées Nucléotides --- ENV: Echantillons d’environnement 24 455 401 14 345 781 152 FUN: Champignons 2 816 771 4 738 183 474 PRO: Procaryotes 918 456 6 290 377 815 --- --- Total 28 190 628 25 374 342 441

2.1.3. Traitement des entrées EMBL

Cette étape consiste à extraire les informations d‘annotation enregistrées dans les fiches. Une entrée correspond suivant son type à une séquence génomique, à un génome ou à une simple séquence issue d‘un séquençage d‘ADNc ou de produits PCR. L‘algorithme s‘intéresse plus particulièrement aux séquences codantes (CDS) des microorganismes appartenant aux divisions taxonomiques choisies. Pour chaque entrée EMBL, l‘algorithme compte le nombre de régions codantes en repérant dans les fiches les coordonnées des CDSs s‘ils existent. Dans le cas ou aucun CDS n‘a été trouvé, la séquence n‘est pas prise en compte. Dans le cas contraire, chaque élément « feature » correspondant à un CDS est parcouru pour en extraire les données nécessaires à l‘identification de la séquence. Ces informations sont signalées par des balises « tag » décrivant la molécule en question. Les éléments correspondant à « source » sont parcourus pour en extraire le nom de l‘organisme d‘origine de la molécule (l‘entrée) traitée et son type. Un CDSs est caractérisé par sa séquence génique, ses coordonnées sur la séquence complète de la fiche EMBL, la fonction du produit du CDS, l‘identifiant protéique, et la séquence protéique correspondantes. Le CDS peut se trouver sur le brin (+) ou le brin (-) (désigné par le mot clé « complement ») d‘un gène annoté. L‘algorithme localise chaque CDS dans l‘entrée EMBL pour en extraire les positions relatives et en cas de besoin faire une traduction de la séquence nucléique

Mohieddine MISSAOUI Page 129 pour obtenir la protéine correspondante. La Figure 26 représente une entrée EMBL de la division des Procaryotes WGS décrivant la séquence AAZV01000021 qui représente de l‘ADN génomique et se trouve dans le fichier wgs_aazv_pro.dat.gz téléchargé précédemment. Les coordonnées du CDS indiquent les positions « start » et « end » dans la séquence nucléique signalée par « SQ » de l‘entrée EMBL en cours. La fonction de la protéine est donnée par le champ « product », son identifiant est donné par le champ « db_xref » et sa séquence est donnée par le champ « translation ».

Figure 26: Exemple d’entrée EMBL.

2.1.4. Extraction et contrôle des séquences

Les séquences visées par l‘approche implémentée par l‘algorithme sont les séquences transcrites (tous les ARN messagers). L‘objectif étant d‘utiliser la biopuce fonctionnelle dans une approche de type métatranscriptomique. La reconstruction des séquences se fait en ajoutant aux CDS les régions non traduites – potentiellement transcrites – appelées UTR (Untranslated Region) composées des UTR 5‘ et UTR 3‘. La longueur des UTRs (qui correspondent aux opérons pour les procaryotes) a été fixée à « utr_length » égale à 300 bases. De plus, comme pour l‘extraction du CDS, les UTRs sont extraits à partir de la séquence nucléique correspondant à l‘entrée EMBL en cours de traitement sur le brin portant le CDS. La Figure 27 montre un

Mohieddine MISSAOUI Page 130 exemple de cas particuliers qui peuvent se présenter lors de la recherche des régions transcrites mais non traduites (le CDS2 est extrait par l‘algorithme). Les séquences obtenues par concaténation des CDSs et de leurs UTRs correspondants sont ensuite contrôlées par le programme en substituant les insertions erronées d‘acides nucléiques inconnues lors de la procédure d‘annotation par des ‗N‘. Les traductions correspondantes sont également vérifiées en remplaçant les acides aminés inconnus par des ‗X‘.

Figure 27: Extraction des séquences à partir d’une fiche EMBL.

2.1.5. Sélection et sauvegarde des séquences

La dernière étape consiste à vérifier les séquences construites dans l‘étape précédente en éliminant celles qui sont courtes et qui présentent un nombre élevé d‘insertion (‗N‘ et ‗X‘) et en tronquant celles qui présentent une terminaison 3‘ de mauvaise qualité c'est-à-dire admettant plusieurs ‗N‘. Les informations collectées par l‘algorithme sont ensuite préparées pour être intégrées dans une base de données relationnelle pour une meilleure visibilité et plus de facilité d‘intégration et d‘utilisation. Chaque séquence nucléique est caractérisée par un identifiant, un numéro d‘accession, un libellé, un CDS, une position de début, une position de fin, un type de molécule et une taxonomie. De même, une séquence protéique est caractérisée par une séquence nucléique, un identifiant, un numéro d‘accession et un nom de produit. Ces informations permettront une flexibilité dans le choix des bases de données de référence pour la conception de sondes ADN spécifiques en appliquant des critères de sélection précis. La conception de sondes oligonucléotides peut être réalisée à partir des séquences nucléiques en se basant uniquement sur le CDS repéré par les positions relatives de début et de fin sur les séquences sauvegardées ou à partir des séquences protéiques en effectuant une traduction inverse pour reconstruire les séquences nucléiques potentielles correspondantes. Afin de stocker ces données, une démarche

Mohieddine MISSAOUI Page 131 de génie logiciel a été adoptée en utilisant SysML pour modéliser une base de données relationnelle utile pour l‘intégration et la centralisation de ces données.

Dans le document Contributions algorithmiques à la conception de sondes pour biopuces à ADN en environnements parallèles (Page 128-132)