Les données de génomique - : Contexte et problématique biologique

Chapitre I : Contexte et problématique biologique

3. Les données de génomique

3.1. Généralités

Les masses de données générées par les approches de génomique ont nécessité le développement d‘outils de bioinformatique permettant d‘exploiter efficacement les données biologiques et plus particulièrement les séquences nucléotidiques et protéiques. La bioinformatique est une discipline récente qui combine les mathématiques, les statistiques, et les technologies de l‘information pour extraire de nouvelles connaissances à partir des données disponibles dans les banques de données. Aujourd‘hui, près de 60 000 références bibliographiques sont répertoriées dans la base de données PubMed (gérée par le NCBI (National Center for Biotechnology Information) comportant le mot « bioinformatics », c‘est dire l‘importance de cette discipline qui date seulement des années 80.

3.2. Bases de données génomiques

Il existe 3 banques généralistes majeures répertoriant les séquences des acides nucléiques: l‘EMBL (European Molecular Biology Laboratory) de l‘EBI (European Bioinformatics Institute), GenBank (National Institue of Health genetic sequence database) et la DDBJ (DNA DataBank of Japan) 1. Ces banques contiennent une description détaillée des données (fiches descriptives associées aux séquences nucléiques). Toutes les données sont échangées quotidiennement entre les groupes cités précédemment. Malgré une explosion des quantités de données génomiques, des efforts supplémentaires sont faits pour enregistrer les données provenant du séquençage à ultra haut-débit grâce aux nouvelles technologies (Cochrane et al, 2008). La taille de données stockées dans la base de données a augmenté de manière exponentielle depuis la création des banques de données (Figure 2).

Ces données sont organisées suivant une charte internationale permettant une compréhension universelle des différents éléments de description et d‘annotation des séquences disponibles. Pour la banque de données EMBL, une table de référence est mise à disposition des chercheurs afin de faciliter la compréhension de la structuration de la base et des données. Les données génomiques stockées dans la banque de données EMBL sont définies suivant des classes de données préétablies. Elles décrivent généralement l‘origine de la séquence enregistrée et la méthode qui a permis son obtention (Tableau 1).

—————————

Mohieddine MISSAOUI Page 45 Figure 2: Nombre de nucléotides dans la base EMBL en 2008.

(Source: http://www.ebi.ac.uk/embl/Services/DBStats/)

Tableau 1: Types de classes de données EMBL.

(Source: http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html)

Classe Définition

CON Entry constructed from segment entry sequences, drawing annotation from segment entries

ANN Entry constructed from segment entry sequences with its own annotation PAT Patent

EST Expressed Sequence Tag GSS Genome Survey Sequence

HTC High Throughput CDNA sequencing HTG High Throughput Genome sequencing MGA Mass Genome Annotation

WGS Whole Genome Shotgun TPA Third Party Annotation STS Sequence Tagged Site

STD Standard (all entries not classified as above)

Par ailleurs, des conventions ont été établies telles que l‘orientation des séquences. Les séquences sont toujours présentées par convention dans le sens 5‘ – 3‘ et elles sont numérotées à

Mohieddine MISSAOUI Page 46 partir du début 5‘ de la séquence. Pour faciliter l‘exploitation de ces informations les entrées ont été organisées sous forme de fiches (fichiers formatés) bien structurées. Les entrées EMBL sont tout d‘abord groupées sous formes de divisions taxonomiques (Tableau 2). De plus, dans chaque fiche la classification taxonomique de l‘organisme étudié est décrite complètement si elle est connue.

Tableau 2: Types de divisions taxonomiques des données EMBL.

(Source: http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html)

Division Code

Bacteriophage PHG

Environmental Sample ENV

Fungal FUN

Human HUM

Invertebrate INV

Other Mammal MAM

Other Vertebrate VRT

Mus musculus MUS

Plant PLN

Prokaryote PRO

Other Rodent ROD

Synthetic SYN

Transgenic TGN

Unclassified UNC

Viral VRL

Chaque séquence est représentée par un numéro d‘accession unique permettant de l‘identifier dans la banque de données. Par ailleurs, un format EMBL est utilisé pour représenter les données sous forme textuelle (Figure 3). Chaque ligne du fichier commence par un code déterminant le type de données que va contenir la ligne. Par exemple, si la ligne commence par OS, le reste de la ligne contiendra le nom de l‘organisme auquel appartient la séquence. Il existe des lignes obligatoires pour toutes les fiches EMBL telles que ID (Identifiant de la séquence), AC (Accession number : numéro d‘accession), OC (Classification de l‘organisme), ou encore SQ (la séquence proprement dite). Chaque entrée se termine par un « // ». Les lignes FT (features : caractéristiques) peuvent contenir des clés qui représentent des caractéristiques de la molécule décrite. Chaque clé peut être définie par plusieurs qualifiants d‘une fiches EMBL (les mots clés

Mohieddine MISSAOUI Page 47 « /organism », « /mol_type »,… par exemple dans la Figure 3). Toutes les clés sont détaillées sur le site officiel de l‘EBI : http://www.ebi.ac.uk/embl/WebFeat/.

ID DQ417694_1; parent: DQ417694 AC DQ417694; FT source 1..579 FT /organism="Crassostrea gigas" FT /organelle="mitochondrion" FT /isolate="Rochelle1_1" FT /mol_type="genomic DNA" FT /country="France" FT /lat_lon="46.23 N 1.27 E"

FT /isolation_source="Atlantic east coast" FT /collection_date="2003"

FT /note="PCR_primers=fwd_name: LCO1490, rev_name: HCO2198" FT /db_xref="taxon:29159"

SQ Sequence 579 BP;

gctgttcttg cgggaactag gtttaggtct cttattcgtt ggagacttta taaccctgga 60 gctaagtttt tagaccccgt gacttataat gcagttgtaa ctaggcatgc gttggttatg 120 atttttttct ttgttatacc tgtaataatt ggggggtttg gtaactggct tatccctttg 180 atgcttctag tagcagacat gcaatttcct cgattaaatg catttagatt ttgagttttg 240 ccagggtctc tttatcttat gcttatgtct aacattgtag aaaacggagt tggggcaggg 300 tgaacaattt accctccttt atcaacttac tcttatcatg gagtttgtat agaccttgca 360 attctaagcc ttcaccttgc tggtattagc tctattttca ggtcaattaa tttcatagta 420 acgattagaa atatgcgatc tgttgggggc catttactag cactattccc ttgatctatt 480 aaggttactt cattcttgct tttgactact ctcccagtgt tagctggagg tcttactata 540 cttttgactg atcgtcattt taatacctct ttttttgac 579

Figure 3: Exemple de fiche EMBL.

La quantité importante de données enregistrées dans les banques de données génomiques internationales représente un défi majeur dans la sélection de sondes pour les biopuces à ADN. En effet, il est nécessaire de gérer correctement à l‘aide d‘algorithmes efficaces toutes ses données afin d‘obtenir des oligonucléotides spécifiques et sensibles. Dans les parties suivantes, nous évoqueront la difficulté de la détermination de sondes in silico nécessitant une attention particulière du point de vue performances et conception.

Mohieddine MISSAOUI Page 48

4. Détermination de sondes pour biopuces à

Dans le document Contributions algorithmiques à la conception de sondes pour biopuces à ADN en environnements parallèles (Page 45-49)