• Aucun résultat trouvé

Intégration de données hétérogènes Approches

N/A
N/A
Protected

Academic year: 2022

Partager "Intégration de données hétérogènes Approches"

Copied!
27
0
0

Texte intégral

(1)

Intégration de données hétérogènes Approches

Master 2

Bioinformatique et Biologie des Systèmes

(2)

Introduction

• Pourquoi ?

• Qu’est-ce que l’intégration ?

Interconnexion

Fusion

Médiation

Modélisation

Confrontation

Recoupement

(3)

Biologie, mesures, données et connaissances

GATACA TCT ATGTG

AGA CTA

Noyau

Cytoplasme

gène

transcription

traduction ARNm

chromosome

ADN

protéine complexe

protéique génome

transcriptome

protéome interactome

Cellule eucaryote

gaattcggccattcacatagc ctctacctccccctgccagtc ggctgggacaactcgggcaaa cccagctgagcttgagcg...

MTGLAEEWWFDSGRAALGAD ARDWKKFTQALESRFTPSTY AMNMEEDWSNLQCGPNESSY SYETRFRAARHHLSREA...

(4)

Apperçu des données disponibles

En quantité

Dispersées

gènes, protéines, expression, interaction, …

NCBI, EBI, KEGG, SIB, …

Hétérogènes : type, structure et sémantique

mots : séquence génome, gène, protéine

attributs

nominaux : mots-clés, ontologies, vocabulaires contrôlés

numériques :

niveaux d’expression,

usage des codons

graphes : interaction protéique, réactions enzymatiques, transduction du signal, structures classificatoires

texte

vocabulaire contrôlé

littérature

(5)

Vue générale

Intégration

etReprésentation

Recoupement etConfrontation

Combinaison

Exploration et recoupement de voisinages

Analyse

Modélisation des systèmes composant un organisme

Entrepôt de données ou approches par médiateurs

Interconnexion par références croisées

Traitements statistiques Confrontation

visuelle

(6)

Intégration : vers une vue unifiée

• Exploitation des références (croisées)

interconnexion

schéma unifié matérialisé : entrepôt

schéma unifié virtuel : médiateur

• Modélisation

• Statistiques

• Confrontation visuelle, exploratoire

• Exploitation de la notion de voisinage

exploration

recoupement

confrontation

fusion

(7)

Intégration par interconnexion : principe

données d’expression familles de protéines

gènes protéines

interaction

protéine - protéine

voies métaboliques domaines protéiques

littérature

SRS [Etzold et al., 1996], Entrez [Schuler et al., 1996], …

(8)

Intégration par fusion ou par médiateurs

RelationnelSGBD Fichiers

plats SGBD

. . . . OO

Médiateur

Integr8 [Kersey et al., 2005], BioMart [Kasprzyk et al., 2004], WInGS [Abergel et al., 2004], BioKleisli [Davidson et al., 1997], …

Schéma unique entrepôt

donnéesde

(9)

Intégration : vers une vue unifiée

• Exploitation des références (croisées)

interconnexion

schéma unifié matérialisé : entrepôt

schéma unifié virtuel : médiateur

• Modélisation

• Statistiques

• Confrontation visuelle, exploratoire

• Exploitation de la notion de voisinage

exploration

recoupement

confrontation

fusion

(10)

Intégration par la modélisation : vers la cellule virtuelle

Modèle

• système de réactions

• interactions moléculaires

• pi calcul

Caractérisation et simulations

• validation

• prédictions

• propriétés émergentes Données sur

le métabolisme Réactions et

vitesses Données d’interaction Localisation cellulaire Composants

cellulaires Littérature

Virtual Cell [Loew et Schaff, 2001], E-CELL [Tomita et al., 1999], Cellerator [Shapiro et al., 2003],

MetExplore [Cottret et al., 2010], …

(11)

Intégration : vers une vue unifiée

• Exploitation des références (croisées)

interconnexion

schéma unifié matérialisé : entrepôt

schéma unifié virtuel : médiateur

• Modélisation

• Statistiques

• Confrontation visuelle, exploratoire

• Exploitation de la notion de voisinage

exploration

recoupement

confrontation

fusion

(12)

Statistiques

Analyse de la variance

Analyse en composantes principales

Analyse factorielle des correspondances

Analyse des correspondances multiples

nes

attributs

integrOmics devenu

MixOmics [Lê Cao et al., 2009]

(13)

Intégration : vers une vue unifiée

• Exploitation des références (croisées)

interconnexion

schéma unifié matérialisé : entrepôt

schéma unifié virtUel : médiateur

• Modélisation

• Statistiques

• Confrontation visuelle, exploratoire

• Exploitation de la notion de voisinage

exploration

recoupement

confrontation

fusion

(14)

Confrontation visuelle

Visant [Hu et al., 2005]

(15)

Intégration : vers une vue unifiée

• Exploitation des références (croisées)

interconnexion

schéma unifié matérialisé : entrepôt

schéma unifié virutel : médiateur

• Modélisation

• Statistiques

• Confrontation visuelle, exploratoire

• Exploitation de la notion de voisinage

exploration

recoupement

confrontation

fusion

(16)

Exploration visuelle de voisinages

S’intéresser aux relations entre objets plutôt que les objets isolés [Danchin, 1998]

Système Indigo [Nitschké et al., 1998]

(17)

Recoupement de voisinages : approche basée sur les graphes

[Boyer et al., 2005]

Composantes connexes communes

(18)

Recoupement de voisinages : approche ensembliste

complexes protéiques voies

métaboliques

Gene Ontology co-citation

localisation chromosomique

domaines protéiques ensembles de gènes

(19)

Fusion : approche basée sur les graphes

STRINGdb [von Mering et al., 2003]

(20)

Approche apprentissage automatique / fusion : dimensions & dissimilarités. Priorisation et clustering

gènes connus

gènes candidats

séquences domaines régulation annotations interactions expression

dimensions

quences

gulation

expression domaines

annotations interactions

fusion

[Aerts et al., 2006]

(21)

Intégration : vers une vue unifiée

• Exploitation des références (croisées)

interconnexion

schéma unifié matérialisé : entrepôt

schéma unifié virutel : médiateur

• Modélisation

• Statistiques

• Confrontation visuelle, exploratoire

• Exploitation de la notion de voisinage

exploration

recoupement

confrontation

fusion

(22)

L'hétérogénéité sous diverses ses formes

• Sémantique

Gene Ontology BP/KEGG pathways/BioCyc

structure d'un gène/peptide

• Modèle et format

SGBDr, SGBDoo, LDAP, fichier

schémas, attibuts et unités

XML, FASTA, EMBL/GenBank, SWISSPROT

• Architecture et accès

SGBD, SOAP, REST, pipeline (galaxy, ergatis)

(23)

Hétérogénéité et interopérabilité

• Hétérogénéité des systèmes et des représentations

• Besoin de standards

• Plusieurs solutions :

Format d'échange : XML, JSON, ...

Protocole d'accès : services Web, SOAP, REST, ...

(24)

Services Web

• Principe

appel de procédure à distance

permet de faire communiquer différents systèmes (plateforme, OS, langage de programmation, ...) à travers XML

un fournisseur propose certaines fonctionnalités

description du mode d'accès à ces fonctions : WSDL (Web Service Description Language)

protocol de communication : SOAP (Simple Object Access Protocol)

couche transport (HTTP, SMTP, POP3, IMAP, ...)

représentation XML : encodage/décodage des données

(25)

Services Web

• Côté fournisseur :

serveur : Web, SMTP ou autre

ex: script CGI (apache-perl-SOAP), ou PHP

• Côté client :

de nombreuses bibliothèques disponibles

perl, ruby, python, Java, ...

(26)

Appel de procédure à distance : client

Processus Client avec binding http

Construction de l'appel de

méthode

Sérialise en requête SOAP-

XML

Enveloppe la requête SOAP-

XML En requête

http

Requête http envoyée au serveur

SOAP

Réponse http reçue du serveur

SOAP Extrait la

réponse SOAP-XML de la réponse

http Désérialise la

réponse SOAP-XML En réponse de

méthode Retourne la

valeur

Package soap

Serializer/

deserializer Encoding/

decoding http

(27)

Appel de procédure à distance : serveur

Processus Serveur avec binding http

Requête http du client SOAP

envoie requête décodeur

Décode la requête http

et dé- sérialise la

requête SOAP-XML

Opération du Service sérialise la

réponse SOAP- XML et encode

de la réponse

Envoie la http

réponse

Retourne la réponse

http au client SOAP

Package soap

Servlet SOAP

Encoding/de coding http

et soap Canal de

requête du servlet

Canal de réponse du

servlet

Invoque la méthode

envoie réponse décodeur

Références

Documents relatifs

La localisation de la victime pendant la phase d’alerte repose sur un dialogue entre le requérant (personne qui donne l’alerte, qui peut être la victime ou un tiers) et les

Toutes les entreprises qui collectent et historisent des données sur leurs clients peuvent donc mettre en place une démarche de connaissance client, et en attendre

Recoupement de voisinages : approche basée sur les graphes. [Boyer et

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Dans cette recherche, nous analysons les mécanismes et processus de construction de la résistance au cours de la relation client-particulier/promoteur

Les arˆ etes entre les variables (cliniques et g` enes) consid´ er´ ees comme significatives lors de l’´ etape pr´ ec´ edente sont ajout´ ees au r´ eseau de g` enes inf´ er´ e `

Tout syst` eme d’int´ egration doit fournir les solutions aux probl` emes suivants : (i) l’identifi- cation et la sp´ ecification des correspondances entre des donn´ ees

Pour ne pas nuire au fil conducteur de ce mé- moire, nous avons reporté en annexe tous les travaux effectués pendant la thèse qui ne sont pas directement en rapport avec