• Aucun résultat trouvé

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

N/A
N/A
Protected

Academic year: 2022

Partager "présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :"

Copied!
186
0
0

Texte intégral

(1)

N° Ordre

de la Thèse

THÈSE

présentée

DEVANT L’UNIVERSITÉ DE RENNES 1

pour obtenir

le grade de : DOCTEUR DE L’UNIVERSITÉ DE RENNES 1 Mention : BIOLOGIE

PAR Emilie GUÉRIN

Équipe d’accueil : INSERM Unité 522, Rennes École Doctorale : Vie-Agronomie-Santé Composante universitaire : Université de Rennes 1, S.V.E.

TITRE DE LA THÈSE :

I I NT N TÉ É G G RA R A T T IO I O N N DE D E DO D O NN N NÉ ÉE ES S P PO O UR U R L L’ ’A A NA N AL LY YS SE E D DE E T T RA R AN NS SC CR RI I P P T T OM O ME E : :

MI M IS SE E E E N N Œ Œ UV U VR RE E P PA AR R L L’ ’E E NT N T RE R EP PÔ Ô T T G G E E DA D AW W ( ( G G EN E NE E E E XP X PR RE ES SS SI IO ON N D D A A TA T A W W AR A RE EH H OU O U SE S E ) )

SOUTENUE LE 19 DÉCEMBRE 2005 devant la commission d’Examen

COMPOSITION DU JURY :

M P. BESSIÈRES Directeur de Recherches à l’INRA, Jouy en Josas Rapporteur Mme M.D. DEVIGNES Chargée de Recherches au LORIA, Nancy Rapporteur M J. LÉGER Directeur de Recherches à l’INSERM Unité 533, Nantes Examinateur Mme F. MOUSSOUNI Maître de Conférences à l’Université de Rennes 1 Examinateur

M D. LAVENIER Directeur de Recherches à l’IRISA, Rennes Co-Directeur de thèse Mme C. GUILLOUZO Directeur de Recherches à l’INSERM Unité 522, Rennes Directeur de thèse

3282

(2)

R R E E M M E E R R C C I I E E M M E E N N T T S S

Je tiens à exprimer ma reconnaissance à Madame Christiane Guillouzo pour m’avoir accueillie dans son laboratoire et avoir accepté de diriger mes travaux durant ces quatre années de thèse.

Je remercie également Monsieur Dominique Lavenier pour avoir accepté de co- encadrer cette thèse et pour m’avoir fait part de ses remarques pour mener à bien mes recherches.

Je souhaite exprimer ma gratitude à Monsieur Pierre Brissot pour m’avoir accueillie si chaleureusement dans son équipe de recherche.

Je remercie très sincèrement Madame Marie-Dominique Devignes et Monsieur Philippe Bessières pour avoir accepté de juger mon travail en qualité de rapporteurs. Je remercie également Monsieur Jean Léger d’avoir accepter d’examiner mon travail.

J’exprime toute ma profonde et sincère reconnaissance à Olivier Loréal. Je te dois beaucoup, en particulier mon entrée à l’INSERM U522 et ton investissement remarquable dans mon travail. Merci pour ton soutien régulier, tes compétences, ainsi que ton intérêt pour la bioinformatique qui auront fortement contribué à l’aboutissement de ma thèse.

Je remercie Fouzia Moussouni pour avoir confié GEDAW à une apprentie bio- informaticienne. Merci de m’avoir si bien initiée à l’informatique et de m’avoir toujours fait confiance.

Merci à tous les membres de l’INSERM U522 pour leur accueil et leur sympathie. Je remercie tout particulièrement mes collègues biologistes du groupe « Fer Foie », pour leur écoute attentive mais quelques fois perplexe du vendredi matin. Merci à Marie-Bérengère Troadec pour son aide et ses conseils tout au long de ce travail.

Merci à Claude Boisseau et Christian Delamarche avec qui j’ai eu l’honneur de travailler dans le cadre de mes enseignements dispensés à l’Université de Rennes 1. Merci de m’avoir si bien accueillie dans vos équipes et de m’avoir donné goût à l’enseignement.

Merci à Anita Burgun pour nos discussions et nos collaborations bioinfo-médicales.

Merci aux filles, Gwenaëlle Marquet, Julie chabalier et Fleur Mougin pour leur aide et leur précieux soutien amical.

A mes compagnons de thèse devenus amis, Brice, Fabrice et Virginie. Je me souviendrai des pauses café mémorables, pas toujours scientifiques d’ailleurs, et de nos nombreuses soirées. Je nous souhaite encore plein de bons moments à partager, en compagnie de Céline, Mickaëlle et Faustine.

Merci à mes amis de toujours, Isa, Liz, Sim, Greg et So, Raf, Matthieu, Alex et Fanny. Vos séjours bretons et mes retours normands auront été oh combien réconfortants.

Merci à Michel, Christine, Galou et Sara pour votre soutien permanent.

A mes parents, merci de m’avoir encouragée à faire des études, je crois que c’est chose faite. Merci à vous ainsi qu’à François et Charlotte pour le réconfort familial permanent que vous m’apportez, et ce malgré la distance.

A Yohann, d’être là tout simplement. Merci pour ton amour, ton soutien et ta confiance qui m’ont rassuré et permis d’avancer durant ces quatre années de thèse. Ton attention et ta

(3)

S S O O M M M M A A I I R R E E

(4)

I I N N T T R R O O D D U U C C T T I I O O N N

I. DE L’AVÈNEMENT DE LA POST-GÉNOMIQUE À L’EXPLOSION DES SOURCES ... 1

1. DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE ... 1

1.1. Naissance de la génomique ... 1

1.2. Séquençage des génomes ... 2

1.3. Prochain enjeu : donner un sens au génome... 3

1.3.1. Identifier les gènes ... 4

1.3.2. Rechercher la fonction des gènes... 5

1.3.3. Besoin de la post-génomique... 5

2. LA PROFUSION DES SOURCES DE DONNÉES ... 8

2.1. Naissance des banques généralistes... 8

2.2. Émergence des banques spécialisées ... 9

II. VERS L’INTÉGRATION DES SOURCES DE DONNÉES ... 11

1. DES DONNÉES AUX CONNAISSANCES... 11

2. LES DÉFIS DE L’INTÉGRATION DE DONNÉES BIOLOGIQUES ... 12

2.1. Diversité des données biologiques à intégrer... 12

2.2. Autonomie et hétérogénéité des sources de données ... 13

2.2.1. Autonomie des sources... 13

2.2.2. Hétérogénéité des sources ... 13

3. ÉLÉMENTS DE STANDARDISATION... 16

3.1. XML... 16

3.1.1. Définition... 16

3.1.2. Utilisation de XML en bioinformatique... 17

3.2. Ontologies... 18

3.2.1. Définitions d’Ontologie ... 18

3.2.2. Ontologies dans le domaine biomédical ... 18

3.3. Nomenclature fournie par le HGNC... 26

III. LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE ... 28

1. POINTS DE VARIATION ENTRE LES APPROCHES D’INTÉGRATION... 28

1.1. Formats des données intégrées : structurées, semi-structurées ou non-structurées ... 28

1.2. Intégration serrée versus intégration lâche ... 29

1.2.1. L’intégration serrée... 29

1.2.2. L’intégration lâche ... 29

1.3. Le modèle de données du système d’intégration... 30

1.4. Les types d’intégration sémantique ... 30

1.5. Le niveau de transparence ... 30

1.6. Ascendante (Bottom-up) versus descendante (top-down) ... 31

1.7. Intégration virtuelle versus matérialisée ... 31

1.8. Accès aux données ... 31

2. LES APPROCHES EN BIOINFORMATIQUE ... 32

2.1. L’approche non matérialisée... 32

2.1.1. La médiation ... 32

2.1.2. L’approche navigationnelle... 37

2.2. L’approche matérialisée : entrepôt de données ... 44

2.2.1. Principe de l’approche entrepôt de données... 44

2.2.2. Les entrepôts de données en bioinformatique ... 55

3. DISCUSSION SUR LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE... 59

IV. INTÉGRATION POUR L’ANALYSE DU TRANSCRIPTOME... 62

1. PUCES À ADN POUR L’ANALYSE DE TRANSCRIPTOME... 62

1.1. Définition des puces à ADN... 62

(5)

1.3. Technologies des puces à ADN ... 64

2. ÉTAPES REQUISES POUR L’ANALYSE DES DONNÉES ... 64

2.1. Acquisition des données d’expression ... 65

2.1.1. Traitement des images par logiciel d’analyse d’images... 65

2.1.2. Traitement des données primaires... 65

2.1.3. Mise en évidence de gènes différentiellement exprimés ... 66

2.2. Gestion et partage des données... 67

2.2.1. Gestion des données ... 67

2.2.2. Partage des données ... 67

2.3. Analyse des données d’expression ... 69

2.3.1. Classification des données d’expression ... 69

2.3.2. Extraction de connaissance ... 70

C C AD A DR RE E E E T T B BU UT TS S D D U U T TR RA AV V A A IL I L

PPaaggee 7766--7777

B B I I O O M M E E KE K E

I. BIOMEKE POUR L’ANNOTATION BIOMÉDICALE DE GÈNES ... 78

1. INTRODUCTION ... 78

2. MISE EN ŒUVRE ET DISCUSSION ... 78

ARTICLE 1………79

BioMeKE: a UMLS-based system useful for biomedical annotation of genes

L' L 'E EN NT TR RE E P P Ô Ô T T G GE ED D A A W W

II. INTÉGRATION DE DONNÉES DANS L’ENTREPÔT GEDAW ... 89

1. INTRODUCTION ... 89

2. MISE EN ŒUVRE ET DISCUSSION ... 89

ARTICLE 2…...………...……….………91

Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW III. EXTRACTION DE CONNAISSANCES À PARTIR DE GEDAW... 107

1. INTRODUCTION ... 107

2. MISE EN ŒUVRE ET DISCUSSION ... 107

ARTICLE 3………..…...…………109 Data warehouse approach to extract knowledge from microarray data

DI D IS S C C U U SS S SI IO O N N

P

Paaggeess 113366--114422

G G LO L OS SS SA AI IR RE E

P

Paaggeess 114433--114488

BI B IB BL LI IO OG GR RA AP PH HI IE E

PPaaggeess 114499--115588

RÉ R ÉF FÉ É R R E E N N C C E E S S I IN N T T ER E RN NE ET T

PPaaggeess 115599--116611

LI L IS S T T E E D DE ES S PU P UB BL LI IC CA AT TI IO ON NS S P PE ER R S S O O N N N N E E LL L LE ES S

PPaaggeess 116622--116633

(6)

I I N N D D E E X X D D E E S S F F I I G G U U R R E E S S E E T T D D E E S S T T A A B B L L E E S S

F F I I G G U U R R E E S S

Figure 1……….…….……….……… page 2 La double hélice d’ADN

Figure 2…………...……….………page 4 Objectif de la détection de gènes

Figure 3……….……….………..page 6 Le fonctionnement cellulaire : de l’ADN aux protéines

Figure 4……….……….……..page 9 Croissance de la banque de données GenBank de 1982 à 2004

Figure 5……….…………..………...page 20 Extrait du graphe orienté acyclique de Gene Ontology

Figure 6…….………..……….. page 22 Domaines biomédicaux intégrés dans l’UMLS

Figure 7…...……….. page 23 Représentation schématique de la transferrine dans l’UMLS

Figure 8……...……….. page 27 Exemple de résultat de requête effectuée sur Genew

Figure 9…………...……….. page 33 Architecture d’un système médiateur

Figure 10………...……….page 34 Les approches GAV (Global As View) et LAV (Local As View)

Figure 11………...……….…page 37 Connection entre deux sources via une référence

Figure 12………...……….…page 38 Graphe de liens entre les sources du NCBI

Figure 13………...……….…page 39 Les cinq chemins (C1 à C5) depuis OMIM jusque PubMed en utilisant le graphe de la figure 13

Figure 14………...……….…page 41 Exemple de schéma de médiation

Figure 15………...………… page 43 Niveaux de représentation dans BioNavigation et correspondances entre entités biologiques et sources de données

Figure 16………...……….…………page 46 Architecture d’un entrepôt de données

(7)

Figure 17………...…… page 47 Architecture des données dans un entrepôt

Figure 18………page 48 Exemple de cube de données

Figure 19………...……….………page 49 Les différents schémas pour la représentation de données multidimensionnelles

Figure 20………page 51 La rotation

Figure 21……….. ……….………page 51 L’extraction

Figure 22……...……….………page 52 Application des opérations roll-up et drill-down sur la dimension Protéine

Figure 23………...……….………page 54 Vue opérationnelle des composants utilisés pour la construction d’entrepôts de données

Figure 24………...……….………page 58 Schéma étoile de Columba

Figure 25………...……….…………page 63 Principe de l’étude de transcriptome par la technologie des puces à ADN

Figure 26…………...……….………page 68 Relations entre les projets MIAME, MAGE et MGED Ontology

T T AB A BL LE E S S

Table 1……….………...……page 10 Catégories de banques de données

Table 2……….………...……page 14 Conflit nom d’attribut valeur d’attribut

Table 3……….………...……page 21 Origine de l’annotation des produits de gènes

Table 4……….………...……page 25 Liste des ontologies biomédicales OBO

Table 5……….………...……page 60 Table récapitulative des systèmes d’intégration décrits en section III.2 et de leurs points de variation

(8)

A A B B R R É É V V I I A A T T I I O O N N S S

ADN: Acide DésoxyriboNucléique

ADNc: Acide DésoxyriboNucléique complémentaire API: Application Programming Interface

ARN: Acide RiboNucléique

ARNm: Acide RiboNucléique messager ASN.1: Abstract Syntax Notation 1

BACIIS: Biological and Chemical Information Integration System BASE: BioArray Software Environment

BLAST: Basic Local Alignment Search Tool BSML: Bioinformatic Sequence Markup Language CL: Cell type ontology

CPL: Collection Programming Language CUI: Concept Unique Identifier

DAG: Directed Acyclic Graph

dbEST: Expressed Sequence Tags database DDBJ: DNA Data Bank of Japan

DTD: Document Type Definition EBI: European Bioinformatics Institute EcoCyc: Encyclopedia of Escherichia coli EMBL: European Molecular Biology Laboratory ExPASy: Expert Protein Analysis System FDBS: Federated DataBases System GAV: Global As View

GDB: human Genome DataBase GEO: Gene Expression Omnibus GNU: GNU's Not UNIX

GO: Gene Ontology

GOA: Gene Ontology Annotation

GONG : Gene Ontology Next Generation GUS: Genomics Unified Schema

HGNC: HUGO Gene Nomenclature Committee HOLAP : Hybrid On Line Analytical Processing HPG: Human Genome Project

HTML: HyperText Markup Language HUGO: Human Genome Organisation

ICARUS: Interpreter of Commands And Recursive Syntax K2MDL : K2 Mediator Definition Language

KEGG: Kyoto Encyclopedia of Genes and Genomes KEGG: Kyoto Encyclopedia of Genes and Genomes LAV: Local As View

MAGE-ML: MicroArray and Gene Expression-Markup Language

(9)

MeSH: Medical Subject Headings MGD :Mouse Genome Database

MGED: Microarray Gene Expression Data MGI: Mouse Genome Informatics

MOLAP: Multidimensionnal On Line Analytical Processing NCBI : National Center for Biotechnology Information NIH: National Institutes of Health

NLM: National Library of Medicine OBO : Open Biomedical Ontologies ODL : Object Definition Language OLAP: On Line Analytical Processing OLTP: On Line Transactionnel Processing OMIM: Online Mendelian Inheritance in Man OOLAP: Object On Line Analytical Processing OQL: Object Query Language

OWL : Web Ontology Language PCA: Principal Component Analysis PCR: Polymerase Chain Reaction PDB : Protein DataBank

RDF: Resource Description Framework

RDFS: Resource Description Framework Schema RMN: Résonance Magnétique Nucléaire)

ROLAP: Relational On Line Analytical Processing SAGE: Serial Analysis of Gene Expression SBML: Systems Biology Markup Language SCOP : Structural Classification Of Proteins SGBD: Système de Gestion de Base de Données SGD: Saccharomyces Genome Database

SMD: Stanford Microarray Database

SNOMED : Systematized Nomenclature of Medicine SO: Sequence Ontology

SOM: Self Organizing Map SQL: Structured Query Language SRS: Sequence Retrieval System TaO: TAMBIS Ontology

UBC: University of British Columbia

UBiC: University of British Columbia Bioinformatics Center UMLS: Unified Medical Language System

UTR: Untranslated Terminal Region UWDA : UW Digital Anatomist W3C: World Wide Web Consortium XML: eXtensible Markup Language

(10)

I I N N T T R R O O D D U U C C T T I I O O N N

(11)

I. DE L’AVÈNEMENT DE LA POST- GÉNOMIQUE À L’EXPLOSION DES

SOURCES

1. DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE

1.1. NAISSANCE DE LA GÉNOMIQUE

La génétique moderne remonte aux travaux de Mendel, qui le premier établit les lois de l'hérédité. Il publie ses résultats en 1866, mais ils passent alors à peu près inaperçus. Leur redécouverte n'aura lieu qu'en 1900 (Fincham, 1990). Ce sont les travaux de Morgan, sur la drosophile, qui conduisent au développement de la théorie chromosomique de l'hérédité (Morgan et al., 1915). Les gènes sont alors localisés sur les chromosomes, et avec Sturtevant, ils pourront même y être ordonnés, constituant les premières cartes génétiques (Sturtevant, 1913). C'est encore dans le laboratoire de Morgan que sont développées les procédures de mutagenèse expérimentales par Muller (Muller, 1927).

Si la présence des gènes sur les chromosomes est alors établie, rien n'est connu de la nature des gènes ou de leur mode d'action. La première relation entre un gène et un enzyme est établie en 1902 par Garrod, à partir d'une observation portant sur une maladie génétique humaine : l’alcaptonurie (anomalie d'excrétion, affectant le métabolisme de la tyrosine et de la phénylalanine ; OMIM 203500) (Garrod, 1923). Beadle et Tatum approfondissent cette relation sur un système accessible à l'expérimentation, le champignon Neurospora crassa (Beadle and Tatum, 1941). L'ensemble de ces travaux aboutissent finalement à la conclusion que les gènes contrôlent la synthèse des enzymes, et que chaque protéine est codée par un gène différent. Le premier phénomène qui allait permettre de progresser dans l'identification du support de l'hérédité est celui de la transformation bactérienne, rapporté en 1928 par l'anglais Griffith. Ce phénomène représente alors un test d'activité biologique, grâce auquel il est possible de déterminer la nature du matériel génétique. Ce test ne sera pas mis à profit par Griffith lui même, mais par Avery qui l'utilise pour élucider la nature biochimique du matériel génétique : il s'agit de l'ADN (Acide DésoxyriboNucléique) (Avery et al., 1944). Cette découverte est toutefois accueillie avec beaucoup de scepticisme. Il faudra de nombreux autres travaux pour que cette réalité soit acceptée : en particulier ceux de Chargaff (Chargaff, 1950) ou de Hershey (Hershey and Chase, 1952). L'acceptation définitive ne viendra qu'avec l'élucidation de la structure de l'ADN par Watson et Crick en 1953 (Watson and Crick, 1953) (Figure 1).

(12)

Figure 1 - La double hélice d’ADN (extrait de U.S. Department of Energy Office of Science1) La double hélice d’ADN se compose d’une suite de nucléotides*. Chaque nucléotide est dénommé par l’initiale du nom de la base azotée spécifique qui le compose, et l’information portée par le génome est contenue dans ce long texte – près de 4 milliards pour l’homme –, écrit dans l’alphabet de 4 lettres A (Adénine), C (Cytosine), G (Guanine) et T (Thymine).

Depuis cette découverte, puis celle du mécanisme de la régulation génétique, énoncée initialement par Crick et révélée par Jacques Monod, François Jacob et André Wolf en 1965, un virage s’est opéré en biologie. Savoir que l’information génétique de tout organisme vivant est contenue dans une séquence nucléique, l’ADN, ouvre les portes de nombreuses recherches en génétique.

Depuis les dernières trente années, avec l’essor du génie génétique, ou ensemble de techniques de la biologie moléculaire visant à étudier les gènes et leur régulation, la génétique s’est étendue à la génomique. Ainsi, les avancées en biologie moléculaire ont notamment permis d’isoler, de cloner et de séquencer les gènes.

1.2. SÉQUENÇAGE DES GÉNOMES

Le séquençage des acides nucléiques débute en 1977 avec l’apparition de deux techniques que sont la méthode enzymatique de Frédérick Sanger (Sanger et al., 1977) et l’approche chimique de Walter Gilbert et Allan Maxam (Maxam and Gilbert, 1977). La première, grâce aux connaissances qui seront acquises sur les enzymes, va prendre le pas sur la seconde (trop toxique). En 1984, la mise au point de la technique d’amplification génétique ou PCR*

(Polymerase Chain Reaction) est un progrès technique important pour le développement des méthodes de séquençage (Mullis et al., 1986). Cette technique, permettant l’amplification sélective de séquence nucléique, constitue immédiatement un outil puissant et indispensable au séquençage des génomes*. En 1985, à l'Imperial Cancer Research (ICR) de Londres, naît pour la première fois l'idée de décrypter les trois milliards de bases du génome humain.

L'objectif du déchiffrage de notre « patrimoine génétique » et ses retombées scientifiques et médicales annoncées (fonctionnement de l'organisme, évolution, diagnostic génétique et

1

(13)

thérapie géniques, nouveaux médicaments ...) décidèrent les parlementaires du Congrès des Etats-Unis à affecter les 100 ou 200 millions de dollars annuels nécessaires à ce projet. En 1987, le premier séquenceur est commercialisé. En 1988, l'organisation internationale des scientifiques impliqués dans le projet du génome humain (HUGO, Human Genome Organization2) est fondée pour coordonner les efforts de cartographie et de séquençage entrepris dans le monde (McKusick, 1989).

En 1990, le Projet Génome Humain (HGP3, Human Genome Project) voit le jour. Ce projet international coordonné par la DOE4 (Department Of Energy) et la NIH5 (National Institutes of Health), établit un plan sur 15 ans pour cartographier le génome humain et analyser les génomes d’organismes modèles.

En 1995, l’équipe de Craig Venter au TIGR6 (The Institute for Genome Research) publie la séquence complète du premier génome complet, celui de la bactérie Haemophilus influenzae, grâce à la technique dite de shotgun, de séquençage aléatoire et de reconstitution in silico du génome (Fleischmann et al., 1995). Suivent rapidement les séquençages d’autres génomes, celui de la levure Saccharomyces cerevisiae (The yeast genome directory, 1997), du ver nématode Caenorhabditis elegans (The C.elegans Sequencing Consortium, 1998), de la drosophile Drosophila melanogaster (Adams et al., 2000) et de la plante Arabidopsis thaliana (The Arabidopsis genome initiative, 2000).

En 1998, Craig Venter, PDG de l’entreprise Celera Genomics®, annonce le séquençage du génome humain pour 2001. Le HGP, en réponse à cette annonce propose la publication de 90% du séquençage humain pour 2000. C’est finalement en février 2001 que la séquence de 95% de notre génome est publiée, fruit des travaux de HGP (International Human Genome Sequencing Consortium, 2001) et de Celera Genomics® (Venter et al., 2001). Enfin, en avril 2003, la séquence précise de 99,99% du génome humain est publiée (Schmutz et al., 2004).

1.3. PROCHAIN ENJEU : DONNER UN SENS AU GÉNOME

La mise à disposition publique des séquences de génomes marque le début d’un long travail d’analyse de ces données et ouvre de nouveaux horizons de recherche en génomique. Il faut en effet associer aux données brutes de séquences des informations pertinentes d’un point de vue biologique, il s’agit de l’annotation des génomes. Cette annotation exhaustive requiert l’aide de solutions bioinformatiques (Lewis et al., 2000), et n’est pas triviale (Claverie et al., 1997).

2 http://www.gene.ucl.ac.uk/hugo/

3 http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml

4 http://www.energy.gov/engine/content.do

5 http://www.nih.gov/

6 http://www.tigr.org/

(14)

1.3.1. Identifier les gènes

Il faut dans un premier temps identifier les gènes contenus dans les génomes, c’est ce qu’on appelle la détection ou la prédiction de gènes. La détection de gènes consiste à identifier l’ensemble des protéines potentiellement produites à partir d’une séquence d’ADN génomique. La séquence étant représentée par une succession de lettres A, C, G et T, l’objectif est de déterminer pour chaque gène de la séquence, la position de début et de fin des séquences codantes ou régions transcrites à l’origine de la production des protéines.

Les régions transcrites sont entourées de séquences intergéniques, contenant des éléments cis-regulateurs tels que les promoteurs qui contrôlent la transcription* en région 5’ du gène.

Les régions transcrites sont composées d’exons et d’introns, les derniers étant éliminés au cours de l’épissage* conduisant à la production de l’ARNm mature. Dans l’ARNm mature, des régions transcrites non codantes ou UTRs (Untranslated Terminal Regions) se trouvent en amont du site d’initiation de la traduction* (UTR 5’) et en aval du site de terminaison de la traduction* (UTR 3’). Ces régions jouent un rôle dans la régulation post-transcriptionnelle de l’expression génique (Mignone et al., 2002). A l’intérieur ou à l’extrémité de ces régions se trouvent des sites fonctionnels, ou signaux, impliqués dans différentes phases de l’expression génique telles que la transcription* (facteurs de transcription et boîtes TATA*), l’épissage, la polyadénylation* (sites polyA) et la traduction* (site d’initiation de la traduction, codons STOP).

Un logiciel de détection de gène prend en entrée une séquence d’ADN génomique et produit en sortie une annotation, c'est-à-dire une structure de gènes (les positions sur la séquence génomique des exons prédits) (Figure 2).

Figure 2 – Objectif de la détection de gènes

A partir d’une séquence génomique brute (en haut), identifier sa structure génique (en bas).

Les méthodes utilisées pour la détection de gènes sont de deux types (Mathe et al., 2002).

On distingue les méthodes extrinsèques qui utilisent la recherche d’homologie entre une séquence de fonction inconnue, et les séquences connues répertoriées dans les banques de données publiques (Borodovsky et al., 1994). Un des outils pouvant être utilisé pour détecter de telles similarités entre séquences est BLAST (Basic Local Alignment Sequence Tool), mis au point par le NCBI7 (National Center for Biotechnology Information) (Altschul et al., 1990).

Aujourd’hui de nombreux programmes sont disponibles, la plupart d’entre eux sont référencés sur le site Web maintenu à jour par Wentian Li (http://www.nslij-genetics.org/dnacorr/).

7

(15)

Les méthodes extrinsèques ne permettant pas la détection de tous les gènes, d’autres méthodes, dites intrinsèques ou prédictives sont utilisées (Fickett, 1996). Ces méthodes prédictives consistent à analyser le contenu de la séquence et à détecter soit des signatures codantes (introns et exons), soit la présence de signaux (ou sites fonctionnels, décrits plus haut) (Mathe et al., 2002).

A l’issue du séquençage, le nombre de gènes constituant notre génome a été estimé à 35000 (Hogenesch et al., 2001), même si aujourd’hui de nouvelles estimations réduisent ce chiffre à 20000 – 25000 (International Human Genome Sequencing Consortium, 2004). Mais cette annotation syntaxique de la séquence d'ADN ainsi obtenue n'est que le préalable à une mission encore beaucoup plus ambitieuse : déterminer la fonction des gènes.

1.3.2. Rechercher la fonction des gènes

La démarche suivie pour découvrir la fonction d’un gène consiste à rechercher, par criblage de banques de données, des gènes de fonction connue ayant une séquence similaire à celle étudiée. Ainsi, ce sont les données issues des séquençages et des outils de recherche de similarité tel que BLAST (Altschul et al., 1990) qui sont utilisés pour prédire la fonction des gènes. Une similarité de séquence reflète souvent l'existence d'un gène ancestral commun et peut se traduire par une fonction analogue, l'homologie de structure appelant potentiellement une homologie de fonction.

La comparaison du génome humain avec celui d’organismes modèles tels que celui de la drosophile ou de la souris ont permis de mettre en évidence des régions conservées, à l’origine d’hypothèses sur la fonctions de gènes (Jackson, 2001).

Une autre méthode permettant de prédire la fonction des gènes est la prise en compte de l’ensemble des informations disponibles sur le gène étudié et son environnement. C’est là tout l’apport de l’intégration de données, développé tout au long de ce manuscrit.

1.3.3. Besoin de la post-génomique

Le manque d’homogénéisation des banques de données et la complexité des génomes eucaryotes nuisent à l’automatisation systématique de la prédiction de la fonction des gènes (Birney et al., 2001).

De plus, la représentation de la cellule à laquelle donne accès la génomique structurale telle que nous l’avons vu jusque là est statique, et ne prend pas en compte le fonctionnement dynamique de la cellule au cours du temps (figure 3, au dos).

C'est pour compléter cette approche que s'est développée la génomique fonctionnelle*. Elle correspond, à ce qu’on appelle la post-génomique et cherche à identifier quand, où et dans quelles conditions un gène identifié s’exprime. Il faut de plus caractériser l’activité des protéines produites ainsi que leurs interactions.

La post génomique passe par l’étude du transcriptome* et du protéome*, définissant respectivement l’ensemble des ARNm et des protéines que produit le génome à un moment, un lieu et des conditions données.

(16)

Figure 3 – Le fonctionnement cellulaire : de l’ADN aux protéines (extrait de U.S. Department of Energy Office of Science)

L’expression des gènes débute dans le noyau par la production d’ARNm à partir de l’ADN. C’est la transcription. Les ARNm sont ensuite exportés vers le cytoplasme pour subir la traduction en protéine. Le ribosome lit le code génétique de l’ARNm et les ARN de transfert apportent les acides aminés spécifiques au ribosome pour la synthèse de la chaîne protéique.

1.3.3.1. Analyser le transcriptome

A l’inverse du génome qui est le même dans toutes les cellules d'un organisme donné, le transcriptome varie selon le stade de développement de la cellule, le type cellulaire et la situation physiologique (état sain ou pathologique) : il est dynamique. Chez l’homme, sur environ 200 000 ARNm transcrits, seuls 10 000 à 20 000 sont exprimés dans une cellule spécialisée, et parmi ces transcrits, 4 000 à 6 000 semblent spécifiques de ce type cellulaire.

Ainsi, l’étude du transcriptome offre la possibilité de mieux comprendre le fonctionnement des cellules.

Plusieurs techniques ont été développées pour étudier le transcriptome. Les premières approches proposées sont le Southern blot* et le Northern blot*. Elles permettent d’identifier et de localiser une séquence nucléotidique (respectivement l’ADN et l’ARN) dans un génome entier, ou tout mélange complexe d’ADN (Southern, 1975). Ces techniques se limitent à l’analyse d’un petit nombre de gènes et ne permettent pas d’appréhender la complexité au niveau cellulaire. Aussi, d’autres techniques plus globales permettant l’analyse de l’expression de milliers de gènes en simultané vont se développer. La technique SAGE* (Serial Analysis of Gene Expression) consiste à réaliser un inventaire des transcrits par séquençage en série de courts fragments d’ADNc (ADN complémentaire) (9 à 14 paires de bases) (Velculescu et al., 1995). Rapidement, la technologie des puces à ADN* fait son apparition, offrant plus de perspectives d’applications (Lockhart et al., 1996; Schena et al., 1995). Les puces à ADN permettent non seulement l’étude du niveau d’expression de milliers de gènes dans un type cellulaire et un contexte donné (sain ou pathologique), mais aussi d’étudier la séquence des gènes, les mutations et le polymorphisme.

(17)

1.3.3.2. Analyser le protéome

Les protéines sont les acteurs principaux de la vie cellulaire, elles assurent les principales fonctions biologiques. Aussi, l’étude du protéome, qui étudie la quantité de protéines présentes à un instant donné dans une cellule et leurs activités, permet de suivre au plus près le fonctionnement cellulaire (Pandey and Mann, 2000). Ceci est d’autant vrai que le niveau des ARNm n’est pas toujours corrélé avec le niveau des protéines, et que l’analyse du transcriptome ne suffit donc pas (Gygi et al., 1999). Tout comme le transcriptome, le protéome évolue au cours du développement cellulaire et dépend de la cellule qui le produit.

Différentes techniques sont employées pour étudier le protéome. L'électrophorèse bidimensionnelle sur gel* et la spectrométrie de masse* visent à déterminer la nature et la quantité, ainsi que les variations de quantité, des protéines présentes dans un échantillon biologique. La technique de « double hybride* » est quant à elle employée pour étudier les interactions entre protéines (Fields and Song, 1989).

1.3.3.3. Simuler les réseaux d’interaction

Tous les mécanismes cellulaires résultent d'interactions moléculaires, que ce soit entre protéine et ADN (régulation de l'expression des gènes), entre différentes protéines, ou entre protéine et ARN (par exemple, lors de la traduction). Ainsi, même si l’étude du transcriptome et du protéome apportent des informations précieuses : quels gènes sont exprimés simultanément dans des conditions précises et quelles protéines interagissent ; connaître les réseaux d'interaction qui connectent les différents acteurs de ces mécanismes ouvre la voie à la compréhension du fonctionnement des organismes. Différents outils mathématiques utilisent les données de transcriptome et de protéome pour simuler les interactions et gèrent la complexité créée par l'existence fréquente de boucles de rétroaction, positive ou négative, reliant les différentes molécules.

1.3.3.4. Prédire la structure tridimensionnelle des protéines

La structure tridimensionnelle d'une protéine est l'un des principaux éléments qui détermine sa fonction. C'est pourquoi la connaissance de cette structure constitue également un enjeu majeur en génomique fonctionnelle. Des programmes ont été développés pour la détermination de structures 3D de protéines. Ces programmes utilisent les données structurales de protéines issues des technologies de cristallographie aux rayons X* ou spectrométrie RMN* (Résonance Magnétique Nucléaire), stockées dans des banques de structure 3D telles que PDB8 (Protein structure DataBank) ; et tentent de prédire la structure de protéines par une recherche de similarité de séquence. Parmi ces outils, on peut citer Swiss-Model9 (Schwede et al., 2003), Geno3D10 (Combet et al., 2002).

8 http://www.rcsb.org/pdb

9 http://swissmodel.expasy.org//SWISS-MODEL.html

10 http://geno3d-pbil.ibcp.fr/

(18)

2. LA PROFUSION DES SOURCES DE DONNÉES

Face à la croissance exponentielle des données issues de la génomique et de la post- génomique, générées à la fois par les technologies à haut débit et par les outils bioinformatiques nécessaires à l’annotation des génomes, les technologies de gestion de l’information et de l’Internet* sont venues à la rencontre de la biologie, pour gérer et structurer les données.

2.1. NAISSANCE DES BANQUES GÉNÉRALISTES

Les premières banques de données à apparaître sont des banques de séquences qui voient le jour dans les années 80 parallèlement à l’amélioration des techniques de séquençage.

L’EMBL11 (European Molecular Biology Laboratory), créée en Europe, est la première banque de séquences nucléiques (Hamm and Cameron, 1986; Kanz et al., 2005). Ensuite, du coté américain, soutenue par le NIH12 (National Institute of Health), la banque nucléique GenBank13 est créée à Los Alamos (Benson et al., 2005; Bilofsky et al., 1986). Cette banque de données était distribuée par la société IntelliGenetics et est maintenant diffusée par le NCBI. La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est étendue en 1987 avec la participation de la banque de données du Japon DDBJ14 (DNA Data Bank) (Tateno et al., 2005) pour finalement donner naissance en 1990, à un format unique pour la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques. Aujourd’hui, les banques de données EMBL, GenBank et DDBJ regroupent à elles trois, cent gigabases de séquences.

Complémentairement aux banques nucléiques, les banques protéiques voient le jour. La première, sous l’influence du NBRF15 (National Biomedical Research Foundation) est la PIR- PSD16 (Protein Information Resource-International Protein Sequence Database) (George et al., 1986), la deuxième est Swiss-Prot17, constituée à l’université de Genève, elle regroupe les séquences annotées de la PIR-PSD et les séquences traduites de l’EMBL (Bairoch and Boeckmann, 1993). Depuis 2002, les groupes Swiss-Prot et TrEMBL (translated EMBL entries) du SIB18 (Swiss Institute of bioinformatics), l’EBI19 (European Bioinformatics Institute) et PIR du NBRF ont uni leurs efforts pour former le consortium UniProt20 (Universal Protein Resource) (Bairoch et al., 2005).

11 http://www.embl-heidelberg.de/

12 http://www.nih.gov/

13 http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide

14 http://www.ddbj.nig.ac.jp/

15 http://pir.georgetown.edu/nbrf/

16 http://pir.georgetown.edu/pirwww/search/textpsd.shtml

17 http://www.expasy.org/sprot/

18 http://www.isb-sib.ch/

19

(19)

2.2. ÉMERGENCE DES BANQUES SPÉCIALISÉES

Devant la croissance exponentielle des données contenues dans les banques de séquences (exemple, GenBank, Figure 4) et devant la diversité des données contenues dans ces mêmes sources, de nombreuses banques de données se sont développées.

Figure 4 – Croissance de la banque de données GenBank de 1982 à 2004 (extrait du site Web de GenBank)

Il s’agit de banques publiques ou privées qui se sont constituées autour de thématiques biologiques ou d’espèces données, afin de satisfaire des besoins plus spécifiques. Elles sont qualifiées de banques de données spécialisées par opposition aux banques de données généralistes. En 2005, on compte au moins 719 banques de données, soit 171 de plus que l’an passé (Galperin, 2005). Ces banques de données se répartissent en 14 catégories, soit 3 de plus qu’en 2004 (Table 1, au dos). Parmi les principales catégories de banques, outre les banques de séquences, citons des banques de structures, des banques métaboliques, de maladies, d’expression des gènes, de données protéomiques ou immunologiques.

(20)

Table 1 – Catégories de banques de données (adpaté de (Galperin, 2005))

CatégorieExempleNom ou descriptionURL GenBank®Toutes séquences nucléotidiques connueshttp://www.ncbi.nlm.nih.gov/Entrez TRANSFACTranscritpion factors and binding siteshttp://transfac.gbf.de/TRANSFAC/index.html Banques de séquences d'ARNHuSiDaHuman siRNA databasehttp://itb1.biologie.hu-berlin.de/~nebulus/sirna/ UniProtUniversal protein knowledgebase: merged data from Swiss- Prot, TrEMBL and PIR protein sequence databaseshttp://www.uniprot.org/ PROSITEBiologically significant protein patterns and profileshttp://www.expasy.org/prosite ChEBIChemical entities of biological interesthttp://www.ebi.ac.uk/chebi/ PDBProtein structure databankhttp://www.rcsb.org/pdb Banques génomiques (non humaines)FlyBaseSéquences et informations génomiques de la drosophilehttp://flybase.bio.indiana.edu/ BRENDANoms d'enzymes et propriétés biochimiqueshttp://www.brenda.uni-koeln.de/ KEGG PathwayRéseaux métoboliques et de régulationhttp://www.genome.jp/kegg/pathway.html Génomes humains et d'autres vertébrésPhenomicDBComparaison de phénotypes de gènes orthologues chez l'humain et des organismes modèleshttp://www.phenomicdb.de/ Gènes et maladies (humain)OMIMOnline Mendelian inheritance in man, un catalogue des troubles génétiques humainshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM Banques d'expression de gènes et données de puces à ADNArrayExpressDonnées d'expression de puces à ADNhttp://www.ebi.ac.uk/arrayexpress Banques protéomiques2D-PAGEBanque de protéomehttp://www.mpiib-berlin.mpg.de/2D-PAGE Autres banques de biologie moléculairePubMedCitations et résumés de litérature biomédicalehttp://pubmed.gov/ Banques d'organelleHMPDHuman mitochondrial protein databasehttp://bioinfo.nist.gov:8080/examples/servlets/index.html FLAGdb++Banque intégrée sur les génomes de planteshttp://genoplante-info.infobiogen.fr/FLAGdb/ TAIRThe Arabidopsis information resourcehttp://www.arabidopsis.org/ Banques immunologiquesIMGTInternational immunogenetics information systemhttp://imgt.cines.fr/

Banques de plantes

Banques de séquences nucléotidiques Banques de séquences protéiques Banques de structures Réseaux métaboliques et enzymes

(21)

II. VERS L’INTÉGRATION DES SOURCES DE DONNÉES

1. DES DONNÉES AUX CONNAISSANCES

Dès les premiers jours de l’ère de la génomique, la quantité de données a cru de manière exponentielle, conduisant à une émergence extraordinaire du nombre et du contenu des sources de données. L’ouverture de ces sources sur Internet les a rendues disponibles au plus grand nombre, ouvrant ainsi de belles perspectives en recherche.

La diffusion des sources sur le Web*, s’est faite de manière indépendante, en séparant les données par entité biologique (ADN, ARN, Protéine), par niveau d’organisation différent (cellules, tissus, organe, organisme, espèce) et par technologie différente (analyse du transcriptome, du protéome). Mais c’est la confrontation de toutes ces données diverses émanant de sources variées et jusqu’alors indépendantes qui va permettre de répondre à des questions biologiques complexes. L’effort consiste à intégrer des données hétérogènes afin d’en extraire de nouvelles connaissances, qui mènent à la découverte :

Données D Information D Connaissance D Découverte

La biologie prend ainsi une nouvelle dimension, anciennement divisée en plusieurs disciplines, elle devient intégrative et offre de belles perspectives d’appréhension de la complexité du monde vivant (Blagosklonny and Pardee, 2002).

Les phénomènes biologiques sont complexes et nécessitent la confrontation de différentes données. Ainsi, la compréhension des phénotypes* normaux et pathologiques implique une prise en compte de données expérimentales, de données génomiques, de données issues des analyses bioinformatiques et de données de la littérature.

D’ores et déjà des études ont démontré l’apport de l’intégration de différents types de données en recherche. Ainsi, Mootha et al. ont découvert un des gènes responsable du syndrome de Leigh (trouble neurodégénératif ; OMIM 256000), en intégrant des données d’expression, des données génomiques et de localisation sub-cellulaire (Mootha et al., 2003).

Dans un autre exemple, Stuart et al. ont déduit des fonctions de gènes à partir de données de puces à ADN disponibles sur plusieurs espèces (Stuart et al., 2003).

D’autre part, Kaplan souligne l’intérêt de confronter des données génomiques, protéiques, épidémiologiques ainsi que des outils d’analyses génétiques pour la compréhension des maladies polygéniques et le développement de nouveaux outils diagnostiques et thérapeutiques (Kaplan, 2002).

(22)

Hui Ge et al. soulignent l’importance de prendre en compte l’ensemble des données issues de la post-génomique pour la compréhension des réseaux d’interaction moléculaires et le fonctionnement des systèmes biologiques (Ge et al., 2003).

2. LES DÉFIS DE L’INTÉGRATION DE DONNÉES BIOLOGIQUES

Les enjeux scientifiques actuels visent à interpréter, valoriser et confronter des sources de données. Aussi, il ne faut plus désormais se contenter de collecter des données mais fournir en parallèle des moyens pour leur interprétation. Ceci passe par une intégration des sources dans une représentation unifiée, offrant ainsi une plate-forme générique, qui permet de formuler des requêtes globales sur l'ensemble des informations disponibles via le système. Le but de ce processus d'intégration consiste à rendre possible la détection de nouvelles corrélations, parmi une masse de données qui n'étaient jusqu'alors pas reliées dans un même système pour l'interrogation.

Il y a de nombreux défis à l’intégration de données provenant de différentes sources biologiques. Ces défis ont pour origine la diversité des données elles-mêmes et l’autonomie ainsi que l’hétérogénéité, tant sur le plan syntaxique que sémantique, des sources développées pour la mise à disposition des données. Ces caractéristiques sont détaillées dans cette section.

2.1. DIVERSITÉ DES DONNÉES BIOLOGIQUES A INTÉGRER

Nous avons vu que les volumes de données engendrés par le développement de nouvelles technologies et par l’essor de la post-génomique sont gigantesques. Mais plus que les grands volumes de données, le plus complexe à traiter lors de l’intégration, c’est la diversité et la variabilité de ces données au sein des sources (Chung and Wooley, 2003).

La diversité des données stockées dans les différentes sources reflète la diversité des types biologiques et des technologies utilisées à ce jour, ainsi que la complexité des systèmes biologiques (Chung and Wooley, 2003). Ainsi, les données stockées sont de différentes natures et incluent entre autres, des données de séquences et d’expression de gènes, des caractéristiques de pathologies, des structures moléculaires, des données d’interactions protéiques.

Les sources stockent des données de différentes natures, qui varient selon leur taille et leur niveau de spécialisation (Hernandez and Kambhampati, 2004). Par exemple, la banque de données UniProt stocke des informations sur les séquences protéiques alors que ArrayExpress21 (Parkinson et al., 2005a; Sarkans et al., 2005) stocke des données expérimentales provenant de la technologie des puces à ADN.

La diversité des données est d’autant plus grande qu’il existe une grande variabilité individuelle et inter-espèce entraînant la variabilité des données. Par exemple, la structure et la fonction d’un organe varient selon l’âge, le genre et l’espèce.

(23)

2.2. AUTONOMIE ET HÉTÉROGÉNÉITÉ DES SOURCES DE DONNÉES

Plusieurs caractéristiques des sources de données biologiques font obstacle à l’intégration de données dans un même environnement, il s’agit de leur autonomie, de leur présence sur le Web et de leur hétérogénéité, qui se situe à différents niveaux.

2.2.1. Autonomie des sources

La plupart des sources fonctionnent de manière autonome, ce qui signifie que leurs structures et/ou leurs schémas* peuvent être modifiés, que leurs contenus peuvent changer ou que certains peuvent être supprimés sans aucune notification publique. Les accès aux sources peuvent également se retrouver bloqués pour maintenance. De plus, les sources ne sont pas toujours au fait de toutes les sources qui les référencent, ou de tous les systèmes qui s’y connectent (Hernandez and Kambhampati, 2004).

Cette instabilité est d’autant plus grande que ces sources sont sur le Web, et que leur accès est donc contraint aux encombrements de réseau.

La principale conséquence à l’autonomie des sources, c’est le perpétuel dynamisme de celles-ci. En effet, les nouvelles données expérimentales et les nouvelles découvertes vont perpétuellement être répercutées dans les sources, changeant ainsi leur contenu. Cet aspect implique que des mises à jour soient régulièrement opérées dans les systèmes qui utilisent ces sources dynamiques.

2.2.2. Hétérogénéité des sources

L’hétérogénéité dans la manière de représenter des données similaires dans différentes sources est la principale barrière à l’intégration de données en biologie (Sujansky, 2001).

Cette hétérogénéité se manifeste sur les plans de la syntaxe, de la sémantique et du contenu des sources.

2.2.2.1. Hétérogénéité syntaxique

(1) Hétérogénéité dans les formats

L’hétérogénéité syntaxique se manifeste tout d’abord au niveau des différents formats ou modèles de données* utilisés par les sources pour décrire leurs contenus. Par exemple, les données de la littérature scientifique sont très souvent représentées sous des formats non structurés (fichiers textes, fichiers HTML* (HyperText Markup Language)) ou semi-structurés (par exemple, XML* (eXtensible Markup Language)). D’autres formats semi-structurés sont utilisés, ainsi, le NCBI utilise ASN.1 (Abstract Syntax Notation 1), pour le stockage et la recherche des annotations sur les gènes et les protéines. C’est un format semi-structuré facilitant l’échange de données (Wheeler et al., 2005).

(24)

D’autres sources utilisent des formats structurés, avec un stockage des données dans des bases de données. A ce niveau, on trouve une diversité de modèles de données utilisés par les sources : principalement, le modèle relationnel* ou le modèle orienté objet*. Ainsi, au sein des sources, les entités biologiques ne sont pas représentées de la même manière, puisque chaque modèle offre sa propre sémantique aux concepts, c'est-à-dire sa propre représentation des relations entre les entités biologiques.

(2) Hétérogénéité schématique

L’hétérogénéité schématique apparaît lorsque des concepts équivalents sont représentés différemment dans des sources de données (Miller, 1998). Ce phénomène peut se produire même si les sources de données utilisent le même modèle de données. Par exemple, dans un schéma basé sur le modèle relationnel, trois types de conflits peuvent survenir : relation nom d’attribut, nom d’attribut valeur d’attribut et relation valeur d’attribut.

Un exemple de conflit de type nom d’attribut valeur d’attribut est représenté dans la table 2.

Dans le premier schéma, les noms des banques de données sont des attributs, alors que dans le second schéma, ils sont des valeurs de l’attribut ‘banque’.

Table 2 – Conflit nom d’attribut valeur d’attribut

(3) Hétérogénéité dans les modes d’accès aux données

Chaque source offre sa propre interface d’interrogation conduisant à une diversité des moyens d’accès aux données. Il peut s’agir de requêtes SQL (Structured Query Language) (dans le cas de bases de données relationnelles), de requêtes OQL (Object Query Language) (dans le cas de bases de données orientées objet), de recherches par mots clés, de formulaires ou de fonctions spécifiques comme par exemple une recherche d’homologie.

Cette diversité est un obstacle à la construction d’interfaces intégrées car chaque moyen d’interrogation offre différentes possibilités de récupération d’information. Notamment, certains moyens d’interrogation offrent des accès très limités aux données et font obstacle à une intégration systématique et accrue dans un même environnement.

2.2.2.2. Hétérogénéité sémantique

L’hétérogénéité sémantique des sources de données en génomique, recouvre plusieurs aspects.

Elle concerne en premier lieu le thème ou « focus ». En effet, chaque source se focalise sur un type d’entité biologique. Par exemple, le focus de Swiss-Prot est la protéine, celui de

N° Accession UniProt GenBank N° Accession Banque

NM_021175 X NM_021175 GenBank

BC020612 X BC020612 GenBank

P81172 X P81172 UniProt

(25)

Par ailleurs, les sources de données peuvent différer dans leur manière de représenter les concepts clés autour des entités décrites (Eckman et al., 2001). Ainsi, GenBank « représente un gène comme une annotation sur une séquence », un gène est donc vu comme une séquence qui le caractérise et sur laquelle on publie des informations, tandis que MGD22 (Mouse Genome Database) (Eppig et al., 2005) « représente un gène comme un locus qui confère un phénotype », un gène est donc vu comme une portion de chromosome (locus) qui peut être liée à un caractère morphologique observable ou à un syndrome clinique chez un individu (phénotype).

Ensuite, l’hétérogénéité sémantique concerne la diversité des valeurs pouvant être attribuées à des données sémantiquement équivalentes mais contenues dans des sources différentes.

Par exemple, la donnée associée à l’appartenance d’un gène à l’espèce humaine peut prendre les valeurs ‘Homo sapiens’ ou ‘Human’ selon la source de données. En génomique, ce type d’hétérogénéité est d’autant plus fréquent que l’on se trouve confronté au problème de la grande hétérogénéité dans la nomenclature des gènes. Un gène est identifié par son nom, son symbole et/ou un identifiant numérique (communément, numéro d’accession). Pour un même gène donné, ces identifiants sont soumis à variabilité :

En fonction des espèces – Des gènes orthologues* se voient souvent attribuer des identifiants et des noms différents.

En fonction des sources de données – Même au sein d’une même espèce, pour un gène donné, chaque source de données attribue ses propres numéros d’accession.

En fonction du type de séquence – Les différentes séquences associées à un même gène, c'est-à-dire les séquences génomiques, nucléiques ou protéiques, ont des numéros d’accession différents.

En fonction du temps – Au cours du temps, différents noms et symboles ont été attribués à un même gène.

Un autre type d’hétérogénéité sémantique survient lorsque les données dans les sources sont structurées. En effet, les composants servant à décrire la structuration des données au sein de la source, c'est-à-dire les éléments de son schéma, peuvent se voir attribuer différentes valeurs. On parle d’hétérogénéité des méta-données. En pratique, il existe différentes représentations, pour les sources structurées, qui sont le modèle relationnel, le modèle orienté objet ou le XML.

Dans chacune des représentations, on distingue des éléments et des structures : les relations dans le modèle relationnel, les objets et les associations dans le modèle orienté objet et les éléments et les sous-éléments dans le XML. Ces éléments et ces structures permettent de définir le concept biologique décrit dans la source. Ce sont les noms que portent ces attributs et ces relations qui apportent la sémantique au concept exprimé par le schéma. Chaque personne a sa propre interprétation des noms. Aussi, des conflits sémantiques peuvent survenir lorsque des noms équivalents dénotent différents concepts (homonymes) ou lorsque différents noms sont attribués pour un même concept (synonymes).

22 http://www.informatics.jax.org/

(26)

2.2.2.3. Hétérogénéité dans les contenus

Des différences de contenu apparaissent quand des données représentées dans une source ne sont pas directement représentées dans une autre, ces données sont soit implicites, dérivables ou manquantes.

Un exemple de donnée implicite pourrait être le type d’une séquence : ‘ADN’, ‘ARN’ ou

‘protéine’. Dans une banque de données généraliste de séquences nucléotidiques, telle que GenBank, il faut préciser le type de la séquence pour une entrée donnée (‘ARN’ ou ‘ADN’).

Dans une banque de séquences protéiques telle que UniProt, le qualificatif ‘protéine’ n’est pas requis, il est implicite.

Un exemple de donnée dérivable est ‘date de naissance’ versus ‘âge’. Chacun peut être dérivé de l’autre.

Un exemple de donnée manquante peut être illustré par la présence dans une fiche d’entrée Uniprot de la liste des synonymes associés au nom de la protéine, alors que dans la fiche de la même protéine délivrée par le NCBI, les synonymes ne sont pas fournis.

Cette hétérogénéité dans la représentation des sources soulève les problèmes d’identification des entités biologiques au sein des sources, de qualité des données, de redondance et de nettoyage lorsque l’on veut utiliser plusieurs sources pour l’intégration (Hernandez and Kambhampati, 2004; Sujansky, 2001).

3. ÉLÉMENTS DE STANDARDISATION

Face au besoin d’intégration de données hétérogènes pour exploiter les données issues de la génomique, des éléments de standardisation ont vu le jour pour ainsi faciliter la structuration des données et résoudre les problèmes de vocabulaire, de sémantique et d’interrogation évoqués ci-dessus. Le but ultime de ces éléments de standardisation est de faciliter la diffusion et l’échange d’informations entre les sources, c'est-à-dire de les rendre interopérables. Ces éléments de standardisation sont décrits dans les sections suivantes.

3.1. XML

3.1.1. Définition

XML (eXtensible Markup Language) a été mis au point en 1996 sous l’égide du W3C23 (World Wide Web Consortium). C’est un langage structuré de représentation de données pour un document. Plus précisément, c’est un métalangage permettant de rendre explicite la structure des données pour participer à l’interopérabilité* entre des données ou des applications.

Un document XML est composé d’un prologue et d’un corps. Le prologue d’un document XML

(27)

regroupe les méta-données portant sur le document. On y trouve en particulier la version d’XML, mais aussi éventuellement une représentation formelle de la grammaire du document sous forme directe ou par référence à un fichier externe. Les deux formats de représentation de grammaire aujourd’hui utilisés sont les DTD (Document Type Definition) qui ont une syntaxe propre, et les schémas dont la syntaxe est exprimée en XML.

Le corps d’un document XML est constitué d’une imbrication de balises délimitant les éléments. Par exemple : <sequence_type>mRNA</sequence_type>

De plus, un élément peut avoir des attributs qui sont utilisés pour représenter à la fois des propriétés et des relations. Cela permet de passer d’une structure hiérarchique d’éléments à une structure en graphe.

Un document XML dont la syntaxe est conforme aux principes précédents est un document bien formé. De plus si la structure de ses éléments est conforme à la grammaire définie ou référencée dans le prologue, le document est dit valide.

XML est donc bien adapté pour décrire explicitement la structure d’un document, il assure une interopérabilité syntaxique. Il faut donc se tourner vers des surcouches de XML, c’est-à-dire des éléments à la structure et au sens bien définis pour représenter la dimension sémantique.

RDF (Resource Description Framework), est un autre standard proposé par le W3C pour la description des sources sur le Web. Les descriptions se font en exprimant des propriétés et en leur attribuant des valeurs. Les schémas RDF, notés RDFS, servent à définir les termes et les relations qui interviennent dans ces descriptions. Cependant, le pouvoir sémantique de RDF se limite à la représentation de la structure de ces concepts, sans parvenir à rendre compte du sens qu’ils véhiculent. Ceci est le rôle des ontologies.

3.1.2. Utilisation de XML en bioinformatique

Les sources biologiques s’étant développées de manière indépendante et exponentielle, elles ont adopté différents systèmes de représentation. C’est pour pallier à cette hétérogénéité, qui fait obstacle à l’interopérabilité des sources, que le langage XML ainsi que ses dérivés ont fait leur apparition en bioinformatique.

Par exemple, MAGE-ML24 (MicroArray and Gene Expression-Markup Language) (Spellman et al., 2002), SBML25 (Systems Biology Markup Language) (Hucka et al., 2003) ou BSML™26 (Bioinformatic Sequence Markup Language) sont des langages basés sur XML, et dédiés à la biologie.

MAGE-ML vise à formaliser et faciliter la présentation des données issues des expériences de puces à ADN. L’une des applications intéressante est le transfert automatique des informations contenues dans des bases de données privées, vers des banques de données publiques d’expression de gènes telles que ArrayExpress ou GEO27 (Gene Expression Omnibus) (Barrett et al., 2005).

24 http://www.mged.org/Workgroups/MAGE/mage-ml.html

25 http://sbml.org/index.psp

26 http://www.bsml.org/

27 http://www.ncbi.nlm.nih.gov/geo/

Références

Documents relatifs

La memoire stable est un dispositif materiel propose pour fournir un support ecace a la recuperation arriere. Elle a notamment ete utilisee dans une architecture multiprocesseur a

Les informations contenues dans les interfaces d’un composant facilitent donc la v´ erification de l’interop´ erabilit´ e entre composants, et permettent ` a certaines propri´

Pour répondre à ces besoins, nous proposons de coupler la modélisation des processus d’entreprise à la modélisation de l’infrastructure distribuée pour établir des

Pour permettre l’étude de ce type de modèle, nous devons analyser la structure des stratégies optimales dans le cadre des jeux répétés avec manque d’information des deux

Par ailleurs, en raison des temps de changement de série élevés des entreprises du pôle de compétitivité Arve Industries, nous nous sommes interrogés sur la

Cette architecture en couches des langages permet de réduire simplement le fossé entre les abstractions du domaine et leurs implémentations, mais également de réutiliser le

Ces récepteurs sont surexprimés dans les cellules endothéliales tumorales et ils constituent donc l’une des cibles les plus prometteuses pour l’imagerie de l’angiogenèse

Le service d’allocation de ressources a été conçu en lien étroit avec le système d’information de façon à pouvoir allouer efficacement des ressources aux applications en prenant