• Aucun résultat trouvé

IV. INTÉGRATION POUR L’ANALYSE DU TRANSCRIPTOME

2. ÉTAPES REQUISES POUR L’ANALYSE DES DONNÉES

2.3. Analyse des données d’expression

2.3.2. Extraction de connaissance

L’obtention de listes de gènes différentiellement exprimés n’est qu’un premier pas vers l’analyse de données issues de l’étude de transcriptome. En effet, si l’obtention de données d’expression consolidées est nécessaire, c’est leur interprétation biologique qui va permettre de dégager de la connaissance des masses de données engendrées par la technologie des puces à ADN. Le but ultime étant la compréhension de la causalité des mécanismes de régulation et de la co-régulation, pour une meilleure connaissance du fonctionnement des gènes.

2.3.2.1. Confrontation des données

L’interprétation biologique des données d’expression passe par une confrontation des données expérimentales avec toute information disponible sur les gènes étudiés (Anderle et al., 2003; Cornell et al., 2003; Holloway et al., 2002; Lockhart and Winzeler, 2000; Piatetsky-Shapiro and Tamayo, 2003; Slonim, 2002). Parmi les données à prendre en considération, outre d’autres données d’expression, des données génomiques et biomédicales incluant les données de la bibliographie, les données sur les séquences, les informations sur l’homologie, la régulation, le phénotype et les fonctions.

Ainsi, l’ontologie GO est très largement utilisée pour l’annotation fonctionnelle des gènes. Elle permet de mettre en évidence des catégories fonctionnelles plus ou moins représentées dans les groupes de gènes. De nombreux outils se sont développés dans ce cadre qui varient selon le type de données en entrée, les organismes supportés, l’emploi ou non de statistiques et le type d’application (Pasquier et al., 2004). Parmi ces outils, on peut citer GOMiner82 (Zeeberg et al., 2005), OntoExpress83 (Draghici et al., 2003) et FatiGO84 (Al-Shahrour et al., 2004).

Les banques de données généralistes et spécialisées présentées en section I.2 se révèlent également comme une masse de données considérable utile pour enrichir l’information sur les groupes de gènes différentiels. Il faut notamment souligner l’importance :

Des sources de données bibliographiques – Aussi, la banque de données bibliographiques MEDLINE, principale source de littérature scientifique, est largement utilisée pour la recherche d’informations. Certains outils adaptés à l’annotation des gènes visent à étudier les co-occurrences de termes associés avec des noms de gènes dans les résumés d’articles scientifiques. Citons par exemple l’outil MedMiner (Tanabe et al., 1999) qui cherche dans GeneCards® et MEDLINE les informations de la littérature faisant référence à une combinaison de termes fournis par l’utilisateur (par exemple, tel gène et telle pathologie, ou tels gènes), ou encore l’outil PubGene™85 (PubGene Inc.86) qui recherche des co-citations de gènes dans MEDLINE.

82 http://discover.nci.nih.gov/gominer/

83 http://vortex.cs.wayne.edu/projects.htm

84 http://www.fatigo.org/

85

Des banques de données de séquences – Ces sources de données contiennent des informations permettant de fournir des explications à la co-régulation de gènes. En particulier, les banques de séquences fournissent les localisations chromosomiques ainsi que les séquences nucléiques des gènes. Or la co-localisation chromosomique peut être à l’origine de la co-expression de gènes. En effet, de nombreuses études chez les eucaryotes ont démontré que des gènes adjacents sur le génome présentent des profils d’expression similaires (chez l’homme (Caron et al., 1995; Lercher et al., 2002), la drosophile (Boutanaev et al., 2002;

Cohen et al., 2000; Spellman and Rubin, 2002), la levure (Cohen et al., 2000) et Caenorhabditis elegans (Lercher et al., 2003). Il y a plusieurs causes à la co-expression de gènes adjacents (Williams and Bowles, 2004).

La première cause est la duplication des gènes au cours de l’évolution. Elle entraîne la proximité de gènes dans le génome, et qui vont du fait de leur ancêtre commun, partager des profils d’expression similaires.

Il est également suggéré que chez les eucaryotes, les gènes impliqués dans un réseau métabolique particulier requérant une régulation coordonnée, se trouvent regroupés dans le génome, à la manière des génomes procaryotes où les gènes partageant la même fonction sont organisés en opérons*. Ce phénomène a été observé chez Arabidopsis thaliana pour des gènes impliqués dans le développement de la racine et dans la fonction mitochondriale (Birnbaum et al., 2003).

De plus, même en l’absence de régulation coordonnée, des gènes proches ou non dans les génomes peuvent partager des éléments cis-régulateurs communs et ainsi conduire à des profils d’expression similaires. Aussi, il est intéressant de disposer des séquences des gènes co-exprimés pour rechercher la présence d’éventuels éléments cis-régulateurs ou de sites de fixation de facteurs de transcription en commun pour ainsi interpréter la co-régulation.

Des banques de données d’expression – Les banques telles que GEO, ArrayExpress ou CIBEX décrites en section IV.2.2.2 offrent la possibilité de comparer les profils d’expression de gènes obtenus en réponse à diverses questions biologiques, et donc dans différentes conditions expérimentales. Elles permettent de dégager des informations complémentaires sur les gènes étudiés.

Des sources de données médicales – Les puces à ADN étant largement utilisées pour la caractérisation moléculaire de pathologies, les sources de données telles qu’OMIM™ et les ontologies telles que l’UMLS (défini en section II.3.2.2.2) se révèlent très utiles pour enrichir en données médicales la connaissance sur les gènes étudiés.

Des banques de données d’organismes – La confrontation de données d’expression obtenues chez des organismes complexes tels que l’homme avec des données provenant d’études sur des organismes modèles peut permettre d’inférer de la connaissance sur la fonction des gènes. C’est la génomique comparative. Il peut en effet exister des mécanismes d’expression analogues entre gènes orthologues*.

La confrontation des données expérimentales avec les sources de données publiques et complémentaires se révèle nécessaire à l’extraction de connaissances autour des données engendrées par la technologie des puces à ADN.

Leur mise en relation dans un environnement intégré est susceptible de participer à une meilleure compréhension du fonctionnement des gènes, et offre de belles perspectives dans la compréhension des systèmes biologiques (systems biology).

2.3.2.2. Entrepôts de données pour l’extraction de connaissances

Parmi les approches d’intégration définies en section III.2, c’est l’approche entrepôt de données, qui est la plus appropriée à l’intégration et à l’analyse de données autour du transcriptome.

En effet, les volumes de données engendrés par les puces à ADN étant déjà par nature importants, une réconciliation des annotations autour des gènes étudiés et leur présence en local favorise un accès plus rapide aux informations (Alkharouf et al., 2005). Bien que des approches telles que l’approche navigationnelle sont très intuitives et conviviales, l’analyse de données de puces à ADN requiert des solutions fiables. Dès lors, il faut prendre en considération les caractéristiques des sources publiques, c'est-à-dire, une faible capacité d’interrogation, des données chevauchantes, l’utilisation de différents vocabulaires, et proposer la solution la plus adéquate (Do et al., 2003). Ainsi, même si l’approche matérialisée pose de réels défis en informatique tels que la création d’un schéma global, l’intégration de données, la correspondance inter-schémas, et le nettoyage de données, elle se révèle plus adaptée.

De plus, les possibilités d’analyse proposées par l’approche entrepôt de données sont très puissantes. L’analyse multidimensionnelle ainsi que les techniques de data mining sont particulièrement bien adaptées à l’analyse des données de transcriptome.

Parmi les entrepôts de données déjà développés autour des données transcriptomiques, citons GIMS (Genome Information Management System) (Cornell et al., 2003), M-Chips (Multi-Conditional Hybridization Intensity Processing System) (Fellenberg et al., 2002), GenMapper (Do and Rahm, 2004) et GeWare (Kirsten et al., 2004).

(1) GIMS

GIMS87 (Genome Information Management System) (Cornell et al., 2003) est un entrepôt de données développé à l’Université de Manchester. Il intègre des données sur le génome de Saccharomyces cerevisiae ainsi que les données fonctionnelles associées. Plus précisément, il intègre des données privées sur le transcriptome, des données d’interactions protéine-protéine, des données phénotypiques, des données sur les séquences provenant de MIPS88 (Mewes et al., 1997; Tetko et al., 2005), des données fonctionnelles provenant de GO, et des données sur les réseaux métaboliques provenant de LIGAND89 (Goto et al., 2002).

GIMS repose sur un modèle orienté objet qui permet la liaison entre les données génomiques et fonctionnelles de l’espèce Saccharomyces cerevisiae (Paton et al., 2000).

87 http://www.cs.man.ac.uk/img/gims/index.html

88

L’entrepôt de données est implémenté avec le SGBDO (Système de Gestion de bases de Données Objet) FastObjects commercialisé par Versant90.

Une interface Java permet aux utilisateurs d’interroger l’entrepôt. Les requêtes effectuées sur les données intégrées dans GIMS peuvent être de simples recherches (par exemple, trouver les ARNms avec telle classification fonctionnelle) ou des recherches plus complexes (par exemple, trouver les ARNms qui sont sur-exprimés de tel niveau dans telle expérience et dont les produits ont telle localisation cellulaire). L’interface permet à la fois de naviguer au sein des informations stockées, mais également d’accéder à des requêtes plus complexes prédéfinies.

(2) M-Chips

M-Chips91 (Multi-Conditional Hybridization Intensity Processing System) (Fellenberg et al., 2002) a été réalisé au DKFZ (centre allemand de recherche sur le cancer) d’Heidelberg.

Cet entrepôt est spécialement dédié à l’analyse statistique de données issues des puces à ADN. Il est adapté à l’analyse de données issues de plusieurs organismes mais également à l’analyse de données générées par les diverses technologies des puces à ADN (radioactivité ou fluorescence, un fluorochrome ou deux).

Les données intégrées dans M-Chips sont de trois types, les intensités brutes d’expression, les annotations de gènes (numéros d’accession du gène et de la protéine encodée, localisation chromosomique) et les annotations sur les expériences (conditions environnementales, génotypes, données cliniques, types de tissus, etc …). Les annotations sur les expériences peuvent changer d’une espèce à une autre, mais la même structure de la base est utilisée afin de permettre l’utilisation des mêmes algorithmes d’analyse.

Les fonctions d’analyse dans M-Chips sont implémentées en C, Perl et MATLAB. Elles permettent la normalisation des données brutes et la classification des données d’expression.

(3) GenMapper et GeWare

GenMapper92 (Do and Rahm, 2004) et GeWare93 (Kirsten et al., 2004) sont deux entrepôts de données développés à l’Université de Leipzig.

GENMAPPER

GenMapper (Genetic Mapper) (Do and Rahm, 2004) intègre des données génomiques, biologiques et médicales provenant de 60 sources de données dont Entrez Gene, Unigene, Swiss-Prot, GO, InterPro, KEGG et OMIM™.

L’une des caractéristiques de GenMapper est d’être basé non pas sur un schéma global (de type étoile ou flocon), mais sur un schéma générique, appelé GAM (Generic Annotation

90 http://www.versant.com/

91 http://www.dkfz-heidelberg.de/mchips/

92 http://sun1.izbi.uni-leipzig.de:8080/GenMapper/

93 https://ducati.izbi.uni-leipzig.de/Geware

Management). Ce schéma permet une représentation uniforme de toutes les données intégrées dans l’entrepôt. En effet, le schéma repose sur deux classes principales que sont

‘Source’ et ‘Objet’, ce qui permet de représenter dans GAM chaque source comme associée à un ensemble d’objets (ou données contenues dans la source). Ainsi, le système est particulièrement bien adapté à l’ajout de nouvelles sources de données. Le réseau de cross-références existant entre les sources de données est exploité et contenu dans le schéma GAM.

GenMapper propose une interface conviviale de conception de requête, où l’utilisateur choisit son ou ses objets à analyser (par exemple, un ensemble de protéines). Il choisit ensuite les informations qu’il souhaite obtenir sur les objets de départ. Une vue sur GAM est générée et fournit à l’utilisateur une vision des données associées à ses objets de départ.

GenMapper n’intègre pas de données d’expression mais par ses capacités d’enrichissement de données, il est largement utilisé pour l’annotation et la recherche d’informations sur des groupes de gènes différentiellement exprimés.

GEWARE

GeWare (Gene Expression Warehouse) (Kirsten et al., 2004) est un entrepôt de données qui intègre des données d’expression issues des puces à ADN Affymetrix, des informations sur les expériences et des données sur les gènes étudiés. Il supporte différents types d’analyses telles que le traitement des données d’expression, la visualisation de données, la création de groupes de gènes et l’analyse de ces groupes, des analyses OLAP.

Il est basé sur un modèle multidimensionnel relationnel où la table centrale de faits correspond aux données d’expression et où les dimensions correspondent aux annotations et aux traitements pouvant être effectués dans l’entrepôt. Les dimensions sont organisées en hiérarchies, les analyses OLAP permettent ainsi d’effectuer des opérations de drill-down et de roll-up, pour accéder à différents niveaux d’annotations.

GeWare fournit une interface Web servant pour l’intégration des données et les analyses. Le modèle générique GAM, décrit précédemment dans le système GenMapper, est utilisé pour capturer les annotations sur les gènes étudiés dans GeWare, les données sont ensuite transférées de GAM à la dimension concernée de GeWare.

2.3.2.3. Discussion sur les entrepôts de données dédiés à l’analyse de transcriptome

Si les entrepôts de données décrits précédemment ont comme point commun le fait d’intégrer des données dans le but d’analyser le transcriptome, les approches utilisées sont différentes, chacune ayant ses avantages et ses inconvénients.

M-Chips permet l’analyse de données issues de l’étude de transcriptome de multiples espèces et couvre l’ensemble des technologies de puces à ADN. Il fournit un environnement de traitement des données primaires et de classification des données d’expression.

Cependant, il ne propose pas d’intégration d’informations complémentaires sur les gènes

GIMS intègre de multiples données génomiques et biologiques pour une meilleure compréhension du transcriptome de Saccharomyces cerevisiae, mais aucun processus d’intégration n’est décrit dans la littérature. Le système repose sur un modèle orienté objet pour une meilleure représentation des différents types de données intégrés. GIMS fournit une interface conviviale pour la visualisation de données et l’exécution de requêtes prédéfinies.

GenMapper intègre de nombreuses sources de données et tient son originalité de son modèle générique GAM particulièrement bien adapté à l’ajout de nouvelles sources de données et à l’exploitation des références internes et externes (cross-références) dans les sources.

L’inconvénient de l’utilisation du modèle GAM, c’est l’absence d’un schéma global unificateur.

Aussi, dans GenMapper, aucun processus de réconciliation des données n’est fourni, et l’utilisateur se trouve confronté à des données contradictoires et redondantes. Il doit également gérer les problèmes d’hétérogénéité sémantique entre les sources.

GeWare exploite l’organisation multidimensionnelle des données, caractéristique de l’approche entrepôt de données. Ainsi, les données d’expression peuvent être analysées selon différentes dimensions que sont les annotations sur les gènes, les annotations sur les expériences et les algorithmes d’analyse de données d’expression. Tout comme pour GenMapper, l’utilisation du modèle GAM pour capturer les annotations sur les gènes, prive le système d’un schéma global où toutes les annotations autour des gènes étudiés sont réconciliées.

C C A A D D R R E E E E T T B B U U T T S S D D U U T T R R A A V V A A I I L L

C C A A D D R R E E E E T T B B U U T T S S D D U U T T R R A A V V A A I I L L

L’étude du transcriptome hépatique a débuté à l’Unité INSERM 522 il y a plusieurs années, afin de préciser les mécanismes qui contrôlent l'équilibre fonctionnel de l'hépatocyte, et ainsi mieux comprendre les altérations qui surviennent dans certaines pathologies humaines, principalement les pathologies de surcharge en fer, les hépatites virales et la carcinogenèse hépatocellulaire. A mon arrivée en 2001, l’étude du transcriptome hépatique prenait une nouvelle dimension avec la mise en place de la technologie des puces à ADN.

Les données d’expression générées par une telle technologie sont considérables et requièrent des moyens bioinformatiques pour leur gestion et leur analyse. Cette analyse des données nécessite une prise en compte d’informations diverses et complémentaires sur les gènes en présence sur la puce à ADN. Celles-ci sont nombreuses et de natures variées. Il s’agit d’informations sur les séquences des gènes, leurs localisations chromosomiques, les protéines encodées, leurs distributions tissulaires, leurs implications dans des fonctions moléculaires et des processus biologiques, leurs implications cliniques, leurs niveaux d’expression dans différentes conditions physiopathologiques. Ajoutons à cela leur apparition croissante dans la littérature scientifique. Une analyse percutante des résultats expérimentaux se doit de considérer en plus des données d’expression, toute cette connaissance disponible sur les gènes exprimés.

Un des défis actuels de la bioinformatique est de fournir des moyens pour intégrer cette masse de données et de l’exploiter de façon automatique pour en extraire de nouvelles connaissances. Cette tâche n’est pas triviale et révèle de nombreuses difficultés. En effet, comme démontré en partie introductive de ce manuscrit, ces données sont réparties sur le Web dans une multitude de sources de données dynamiques et très hétérogènes. Si depuis quelques années des efforts ont été fourni par la communauté scientifique pour améliorer l’interopérabilité entre ces différentes sources par la définition de standards et la proposition de différentes approches d’intégration, la problématique reste entière.

Au cours de mon travail de thèse, mon objectif a été de fournir une solution d’intégration tenant compte des défis mentionnés ci-dessus et adaptée à notre contexte : l’analyse de transcriptome dans le cadre d’une recherche biomédicale. L’enjeu était double :

ƒ Intégrer des informations allant du gène à la pathologie et réconcilier ces données afin d’avoir une vue unifiée des informations disponibles sur un gène donné.

ƒ Fournir une aide à la décision permettant d’orienter la recherche par extraction de nouvelles connaissances.

Nous avons donc développé d’une part l’entrepôt de données GEDAW (Gene Expression DAta Warehouse) et d’autre part, en collaboration avec l’équipe d’accueil EA3888 de l’Université de Rennes 1, le système BioMeKE.

GEDAW intègre et réconcilie des données d’expression enrichies de sources et de standards complémentaires dans les domaines de la génomique, de la biologie et de la médecine dans lesquelles les utilisateurs puisent des informations à l’aide d’outils de restitution et d’analyse. Une intégration forte des données du niveau biologique jusqu’au niveau pathologique, rend possible la réponse aux interrogations complexes posées par les chercheurs.

BioMeKE est un système basé sur les ontologies GO et UMLS qui délivre des annotations biomédicales sur les gènes. BioMeKE a été utilisé en partie pour l’intégration de données dans GEDAW.

Ce travail sera présenté en trois parties :

1 – La première partie concerne le système BioMeKE, et plus particulièrement son implémentation qui repose essentiellement sur les ontologies GO et UMLS ainsi que ses caractéristiques et son évaluation.

2 – Puis nous détaillerons la structure de l’entrepôt GEDAW : 1) l’architecture de l’entrepôt, 2) les sources de données et les standards utilisés pour l’intégration, 3) les processus d’intégration mis en œuvre, 4) l’interface d’accès aux informations intégrées.

3 – Enfin, nous présenterons les analyses effectuées dans GEDAW et montrerons l’efficacité du système pour la découverte de nouvelles connaissances dans le contexte du transcriptome hépatique.

B B I I O O M M E E K K E E

( ( B B I I O O M M ED E DI IC C A A L L K K NO N O WL W LE ED DG GE E E E X X TR T RA A C C TI T IO O N N S SY Y ST S TE EM M ) )

I. BIOMEKE POUR L’ANNOTATION

BIOMÉDICALE DE GÈNES