• Aucun résultat trouvé

Partie 3 Annexes

1.3 Biologie In silico

1.3.2 De multiples systèmes d’information pour de multiples besoins

Après avoir présenté la démarche expérimentale dans sa globalité, cette section décrit plus précisément les systèmes d’information. Ils constituent le cœur de la bioinformatique : les bases de données de séquences nucléotidiques sont souvent évoquées pour leur volume important, et le nombre de portails en ligne recensés est tel que la plupart des chercheurs n’en connait qu’un faible nombre. La revue Nucleic Acids Research a récemment dénombré 968 systèmes d’information partagés (cf. figure 1.24) [Galperin 2007]. Il est difficile de hiérarchiser ces sites, de les classer d’une façon stricte. Certains sont plus généralistes, d’autres se focalisent sur un organisme. On retrouve généralement le cloisonnement génomique – transcriptomique – protéomique – interactions moléculaires, mais de nombreux autres critères doivent êtres utilisés pour les classer : maladie, pharmaceutique, organisme d’étude, etc. Certains systèmes sont implantés par des industriels comme service associé à leurs produits, afin d’attirer ou de fidéliser le client, tandis que d’autres sont issus de recherche en bioinformatique. Le public visé varie aussi amplement, d’une grande proportion de la communauté { quelques équipes ou dizaines de chercheurs dans le monde.

Les portails suivants sont présentés par leurs fonctionnalités, sans détailler leur architecture, niveau sémantique, disponibilité, etc. Nous avons le plus souvent choisi les exemples en raison de leur utilité pour nos collaborateurs autour des projets concernant Plasmodium Falciparum et la leucémie.

Portails bibliographiques

Les domaines de la biologie et du médical ont la particularité d’avoir une excellente structuration des données bibliographiques. En effet, PubMed (anciennement Medline) est un portail dépendant de la NLM (National Library of Medicine) appartenant aux NIH1[Wheeler, Barrett et al. 2006]. Ce portail, que l’ont pourrait comparer { l’INIST en France a une portée cependant bien supérieure : il recense toutes les publications relatives à la biologie et au biomédical depuis les années 1970. Il référence ainsi actuellement plus de 18 millions d’articles issus de plus de 5000 revues, avec une croissance de 660 000 articles durant la dernière année (figure 1.25 & figure 1.26). Il propose, entre autres, des services avancés de recherche et des mécanismes d’alerte. Enfin, lorsque cela est disponible, il ajoute un lien vers le texte intégral du document.

Figure 1.25– Courbe de croissance du nombre de références enregistrées par PubMed. La courbe totale (trait continu) est adjointe des courbes représentant les proportions de documents rédigés en anglais ou non et de références comprenant des résumés (en anglais uniquement).

Figure 1.26– Ce graphique montre la croissance du nombre mensuel d’accès au portail entre 1997 et septembre 2006 (en millions). Il est actuellement de l’ordre 75. La ligne représente la moyenne mobile établie sur la période des 12mois qui précède.

1 Equivalent aux Etats Unis du ministère de la santé 0 3 6 9 12 15 18 2007 1997 1987 1977 1967 1957 Citations Anglophone Non-anglophone Résumé Colonne1 0 10 20 30 40 50 60 70 80 90 1997 1999 2001 2003 2005

PubMed propose un grand nombre de références, la moitié avec leur résumé (en anglais uniquement). Cependant, de nombreuses revues mettent aussi à disposition leur contenu sur Internet. Certaines sont entièrement payantes, d’autres comme Bioinformatics mettent { disposition le contenu datant de plus d’un an. Enfin, certains portails comme PubMed Central (créé en 2000) ou BioMed Central proposent la totalité de leur contenu en accès gratuit. BioMed Central contient en plus un annuaire des portails et bases de données interrogeables en ligne, et prépare une bibliothèque d’images et vidéos. PubMed central propose quant à lui des contenus supplémentaires liés aux articles.

Ces premiers portails partagent donc les publications et leur référencement. D’autres ressources ne proposent pas des publications, mais des synthèses de publications liées à des domaines particuliers. Wikipédia est alimenté par un grand nombre de contributeurs suivant le concept du Wiki Wiki Web [Cunningham and Leuf 2001]. Ses descriptions restent cependant sommaires au regard des connaissances d’un expert impliqué dans un domaine pendant plusieurs années. OMIM diffuse un contenu plus complet et concerne les affections génétiques humaines. Ce projet est issu d’un ouvrage plus ancien datant des années soixante et ayant atteint sa 12ème et dernière édition en 1998 [McKusick 1998]. Par exemple, la page concernant le gène G-CSF contient 35 citations PubMed, est rédigée par 5 contributeurs et a été révisée 23 fois. Actuellement, OMIM propose plus de 18 300 articles.

Portails généralistes sur les séquences des gènes et protéines

Du séquençage massif de génomes il a résulté une collaboration internationale pour partager les séquences en ligne. L’« International Nucleotide Sequence Database Collaboration » réunit trois organisations : le NCBI aux Etats-Unis, EMBL en Europe (qui dépend de l’EBI), et DDBJ au Japon). Chaque miroir partage les génomes de plus de 165 000 organismes pour un total de 100 milliards de nucléotides1 (cf. figure 1.27). La base de données RefSeq propose des séquences de référence, c'est-à-dire plus fiables car validées par un expert [Pruitt, Tatusova et al. 2005]. Concernant les séquences de protéine, un consortium s’est aussi fondé, UniProt, qui regroupe SwissProt du SIB, TrEMBL de l’EBI, et PSD de PIR. L’ensemble de ses données les plus fiables, UniProtKB, contient 4,25 millions d’entrées (non redondantes) [Apweiler, Bairoch et al. 2004; Consortium 2007]. PDB est une base de données fortement utilisée, extérieure au consortium d’UniProt, dont la taille est plus restreinte mais qui contient des informations structurales plus complètes [Kouranov, Xie et al. 2006].

Figure 1.27 – Croissance des données nucléotidiques de GenBank (à gauche) et statistiques actuelles (à droite).

Interactions moléculaires

Alors que la génomique, la transcriptomique et la protéomique relèvent des portails précédents, la connaissance en aval, qui concerne la biochimie ou qui s’intéresse { toutes les interactions moléculaires, se situe dans d’autres portails. Le plus connu est KEGG (Kyoto Encyclopedia of Genes and Genomes), qui a débuté par les voies métaboliques mais qui

1 http://www.nlm.nih.gov/news/press_releases/dna_rna_100_gig.html 0 10 20 30 40 50 60 0 10 20 30 40 50 60 1982 1987 1992 1997 2002 Séquences (millions)

Paires de bases (milliards) Organismes > 205000 + 3000/mois

Séquences > 79 millions + 3 millions/mois Paires de bases > 72 milliards

actuellement partage une connaissance sur les médicaments, voies de signalisation, etc. Les voies métaboliques étaient représentées bien avant l’existence de ce portail dans de grands schémas indiquant les réactions moléculaires à différents niveaux. KEGG s’apparente { un grand graphe découpé en schémas, chacun représentant une voie métabolique. Chacun de ces schémas est un sous-graphe dont les arêtes représentent les réactions chimiques étiquetées par le ligand, reliant { l’origine un substrat et pointant vers le produit de la réaction. Certains schémas encapsulent des informations complémentaires comme la position des membranes cytoplasmiques et nucléaires, des compartiments cellulaires, etc. Pour certains biochimistes, ces graphes sont de véritables cartes métaboliques dont le formalisme et la disposition sont fortement conventionnés (cf. exemple dans la figure 1.28).

Figure 1.28– Les voies métaboliques constituent de gigantesques cartes dont la représentation est conventionnelle. La carte ci-dessus est dessinée manuellement et diffusée sous forme de poster. D’un point de vue topologique, il s’agit d’un grand hypergraphe reliant substrat et ligand au produit d’une réaction chimique. Cette figure est mise à disposition par ExPASy1.

Dans KEGG, cette description d’interactions moléculaires est disponible pour de nombreux organismes. Une réaction chimique peut être étiquetée par plusieurs ligands. Ceci signifie que chaque ligand peut provoquer la réaction. Lorsque l’on choisi un organisme, tous les ligands connus pour un organisme sont alors teints en vert. On peut rapidement distinguer quelques chemins métaboliques identifiés par la communauté pour l’organisme concerné (cf. figure 1.29). D’autres liens relient aussi les voies métaboliques entre elles et permettent de naviguer de sous- graphe en sous-graphe. Enfin, comme son nom l’indique, KEGG propose des liens interactifs pour chaque élément du schéma permettant d’ouvrir une page avec une description précise de la molécule mise en jeu : nom, séquence protéique, annotations, lien vers les portails les plus courants, etc. D’un point de vue technique, les données ont été initialement saisies manuellement par les opérateurs participant au projet. La nomenclature utilisée pour les enzymes est l’EC (Enzyme Classification).

KEGG s’adresse { un public assez large de biologistes et de biochimistes. Cette représentation se situe à un très bas niveau au regard d’une grande partie de la communauté. D’autres portails proposent des services similaires. Reactome.org est un projet européen généraliste. De

nombreux portails relatifs à des domaines spécifiques proposent des versions nettoyées et corrigées (« curated ») par rapport au domaine. Nos contacts au CEA par exemple n’utilisaient pas KEGG mais naviguaient dans les voies métaboliques proposées par le portail TAIR spécifique { l’Arabidopsis Thaliana [Rhee, Beavis et al. 2003].

Figure 1.29– KEGG partage des schémas d’interactions moléculaires. Il s’agit ici d’une voie de signalisation qui concerne la protéine MAPK (Mitogen-Activated Protein Kinases) impliquée notamment dans les mécanismes de prolifération1. Les éléments en vert sont constatés chez l’homme. La double ligne verticale sur la gauche représente la membrane de la cellule. Les boites de textes arrondies blanches sont des liens vers d’autres voies métaboliques de KEGG.

Nomenclature et normalisation

Nous avons mentionné à plusieurs reprises la présence de standards de nomenclature : MeSH comme vocabulaire contrôlé de PubMed, ou encore EC pour les enzymes. Nous reviendrons sur des définitions plus précises dans le prochain chapitre ; considérons simplement pour l’instant qu’il s’agit d’un ensemble de termes utilisés comme convention au sein d’une communauté pour un usage automatisé, pour éviter les problèmes liés à la synonymie, etc. Il existe de nombreuses ressources visant à normaliser les usages dans les sciences du vivant. On peut regrouper ces ressources normalisatrices autour de trois axes :

- la terminologie du domaine

- les noms des gènes, protéines enzymes (que l’on généralise par le terme entité nommée)

- les identifiants numériques (ou numéros d’accession).

La définition de ces ressources sera plus amplement abordée dans le chapitre suivant, d’ici l{, nous les appelons terminologies. Citons quelques ressources parmi les plus répandues. En matière de terminologie, outre le MeSH, Gene Ontology est un ensemble de trois terminologies utilisées pour annoter les gènes [Ashburner, Ball et al. 2000; Consortium 2006]. Elle permet de caractériser le processus biologique, la composante cellulaire et la fonction moléculaire des gènes ainsi que des transcrits et des protéines qui en découlent. Entrez Taxonomy est une hiérarchie des espèces sensée refléter l’évolution [Benson, Karsch-Mizrachi et al. 2006; Wheeler, Barrett et al. 2006]. Enfin, citons l’initiative d’UMLS, un entrepôt visant { rassembler plus d’une centaine de terminologies et de les rendre interopérables [Bodenreider 2004]. Des préoccupations voisines existent en France : l’INIST est connu pour son portail documentaire scientifique national. Il a récemment mis en œuvre un projet du nom de TermSciences qui encapsule plusieurs terminologies de domaines scientifiques différents. Notons qu’une de ces ressources est la traduction française du MeSH réalisée par l’INSERM.

De nombreux portails utilisent ces différentes ontologies ; GO est en particulier la ressource essentielle utilisée pour l’annotation. Elle est ainsi employée par les nombreux portails cités jusqu’ici (GenBank, RefSeq, UniProt, PDB, TAIR1, etc.), mais aussi dans des portails dédiés comme GeneDB, GOA, etc. GeneDB est un portail qui rassemble les données des séquençages réalisés par la « Pathogen Sequencing Unit » du « Wellcome Trust Sanger Institute » [Hertz-Fowler, Peacock et al. 2004]. Ce système d’information a de particulier qu’il est la référence utilisée par le portail PlasmoDB relatif au génome de Plasmodium Falciparum. GOA (Gene Ontology Annotation) est un projet mené par l’EBI et visant à regrouper les annotations mises à disposition par de nombreux contributeurs, dont GeneDB, HGNC, Ensembl, Reactome, TAIR, TIGR, etc.2 [Camon, Barrell et al. 2003; Camon, Magrane et al. 2004]. GOA est proposé sous forme de plusieurs distributions3 (cf. figure 1.30). La plupart des portails lient des annotations de GO à leurs produits de gènes, et lorsque ce n’est pas le cas, les références vers des portails du domaine permettent d’y accéder indirectement et rapidement.

UniProt Humain

Figure 1.30– GOA propose notamment des distributions relatives à l’humain ou à UniProtKB. On constate qu’UniProt contient une plus grande quantité de données, mais une très faible proportion résulte d’une expertise ( 3%), le reste ayant été généré par des prédictions basées sur les séquences et autres méthodes automatiques. Au contraire, chez l’homme, près d’un tiers des données sont fiables et ne sont pas issues de procédures automatiques.

1 En réalité, TAIR repose sur des ontologies qui ont été intégrées dans GO.

2 Pour une liste exhaustive des contributeurs, confer http://www.ebi.ac.uk/GOA/goaHelp.html 3 sous-ensembles de données Manuelles Electroniques Total Protéines Associations 79 264 372 452 2 353 604 12 746 493 2 432 868 13 118 945 Manuelles Electroniques Total Protéines Associations 48 781 10 889 116 620 22 892 165 401 33 781

Concernant les numéros d’accession, de nombreux grands portails de référence s’imposent et leurs identifiants numériques sont utilisés pour interopérer. C’est le cas par exemple du « GI » (GenBank Identifier) qui est utilisé par une grande partie de la communauté pour identifier les séquences. Mais aucune réelle standardisation n’est imposée ou régulée par une autorité, hormis concernant la publication scientifique pour laquelle PubMed est incontournable. Pour permettre de rendre ces systèmes d’information interopérables, certains portails permettent le référencement croisé entre les différentes ressources et proposent des fichiers d’alignement. C’est le cas exemplaire d’Entrez Gene (anciennement Locus Link) [Pruitt and Maglott 2001; Maglott, Ostell et al. 2005]. Pour l’utilisateur, de nombreux portails proposent des liens directs vers d’autres portails, de référence ou du domaine, en indiquant éventuellement les identifiants correspondant (cf. figure 3.4 page 85).

Enfin, si les entités nommées sont rarement structurées lors de leur création, elles le sont de plus en plus a posteriori. En effet, héritage de l’histoire, les noms des gènes et protéines relevaient souvent d’une étymologie hasardeuse (initiales du chercheur ayant séquencé, etc.) : les entités nommées émergeaient sans contrôle. C’est pour cela qu’elles sont difficiles { manipuler aujourd’hui : problème de synonymie, casse aléatoirement importante, etc. Les systèmes d’information privilégient donc une communication structurée par les identifiants numériques de référence. Cependant, les chercheurs durant la rédaction d’articles préfèrent les noms des gènes, tout comme certains fabricants de puces par exemple. La reconnaissance des entités nommées est essentielle { la recherche d’information et à la fouille de données, tout comme { l’analyse des données issues de certains dispositifs haut-débits. Actuellement, Genew est la seule initiative importante [Wain, Lush et al. 2002; Eyre, Ducluzeau et al. 2006]. Elle est relative au génome et protéome humain, régie par le HGNC (HUGO Gene Nomenclature Committee) qui dépend de l’HUGO (Human Genome Organization) dans lequel sont impliqués partenaires industriels, universitaires et institutionnels. Pour les autres organismes vivants, ce sont en fait les portails de référencement croisés tels que Entrez Gene qui de la même façon gèrent les noms des gènes et de leur produits.

Portails spécifiques à Plasmodium Falciparum

La communauté réunie autour de Plasmodium Falciparum est restreinte au regard d’autres espèces comme l’homme. Il existe pour ce parasite quelques ressources, cependant les chercheurs de l’institut Pasteur n’utilisent qu’un seul portail dédié { cet organisme, PlasmoDB, le portail officiel du consortium de séquençage du génome de ce parasite [Bahl, Brunk et al.; The Plasmodium Genome Database Collaborative 2001]. Ce portail est construit à partir du schéma de GUS (Genomics Unified Schema) qui contient près de 300 relations et permet d’intégrer les données génomiques issues des principaux projets (séquences, annotations, etc.) [Davidson, Crabtree et al. 2001]. D’autres ressources concernent cet organisme et proposent une distribution de leurs données restreinte { cet organisme. C’est le cas de certaines ressources généralistes comme GenBank, RefSeq, Entrez Gene, UniProt, KEGG ou d’autres ressources ayant des thématiques spécifiques mais transversales à plusieurs organismes : par exemple MPIM (« Mitochondrial Protein Import Machinery ») [Lister, Murcha et al. 2003] se focalise sur les mécanismes énergétiques. Full-Malaria partage les séquences complètes d’ADNc1. D’autres portails regroupent les apicomplexes (terme qui regroupe les genres Plasmodium, Cryptosporidium et Toxoplasma) (ApiEST-DB [Li, Crabtree et al. 2004], ApiDB [Aurrecoechea, Heiges et al. 2007], Comparasite [Watanabe, Wakaguri et al. 2007]).

Portails spécifiques au projet sur la cancérologie promyélocytaire aiguë

Comme nous l’avons déj{ abordé, l’homme est l’un des organismes qui motive le plus grand nombre de travaux. Nucleic Acids Research dénombre 16 des ressources spécifiques { l’homme 1 L’ARN est présent en brins assez courts, et se dégrade rapidement. Pour ces raisons on le rétrotranscrit

en ADNc (ADN complémentaire). Les chaînes sont dites complètes lorsqu’elles sont reconstituées { partir de fragments. Ces séquences sont notamment utilisées afin de déterminer et synthétiser des protéines.

(génomique, affections et immunogénétique). A cela il faut ajouter les multiples portails généralistes ou pluri-espèces. Le contexte est l’étude de la leucémie { l’aide de puces { ADN. Dans ce contexte, ce sont plus de 300 systèmes d’informations qui sont recensés. Le biologiste est confronté à un grand nombre de ressources, souvent redondantes ou peu utiles. Dans la pratique, la justification d’une si large offre de portails est de fournir { l’utilisateur un outil adapté à son besoin et de lui éviter de recourir { un grand nombre d’outils disparates.

Dans le contexte de notre collaboration avec Y. Cayre, plusieurs besoins sont exprimés. Du point de vue du dispositif expérimental, nous utilisons des puces à ADN produites par Applied Biosystems. L’analyse de données de puces repose dans un premier temps sur les données mises à disposition par le fabricant au sein du portail Panther. Par la suite, il est nécessaire de croiser l’information résultant de nos puces avec les résultats de la communauté. Sont alors concernées :

- les ressources bibliographiques (PubMed et OMIM),

- les ressources qui apportent une information fonctionnelle : en priorité les portails dédiés { l’homme, la cancérologie ou la leucémie (Genew semble la plus pertinente), mais aussi les portails plus généraux (Entrez Gene, GOA, UniProt, KEGG par exemple),

- les ressources liées aux données d’expression permettant de comparer nos données à des

expériences similaires (ArrayExpress de l’EBI [Parkinson, Kapushesky et al. 2007], CGED [Kato, Yamashita et al. 2005], et les standards proposés par le MGED [Ball, Brazma et al. 2004; Ball and Brazma 2006]).