• Aucun résultat trouvé

III. LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE

1. POINTS DE VARIATION ENTRE LES APPROCHES D’INTÉGRATION

On distingue les différentes approches d’intégration selon plusieurs critères que sont le type de données qu’elles intègrent, le niveau de transparence fourni à l’utilisateur, le degré d’intégration sémantique et enfin la méthodologie générale de développement. Il est important de noter que certaines qualifications en impliquent ou en induisent une autre. Par exemple, la transparence de schéma implique l’existence d’un schéma intégré.

1.1. FORMATS DES DONNEES INTÉGRÉES : STRUCTURÉES, SEMI-STRUCTURÉES OU NON-STRUCTURÉES

Les systèmes d’intégration peuvent autoriser ou non l’intégration de données structurées, semi-structurées ou non-structurées.

Des données structurées ont un schéma prédéfini, où chaque item est défini à partir de l’élément du schéma qui lui correspond.

Des données semi-structurées ont une structure mais qui n’est pas définie sous la forme d’un schéma (Buneman, 1997). Chaque item contient sa propre sémantique généralement sous la forme d’un label. Toutefois, la somme de tous les labels des données semi-structurées peut être considérée comme son schéma.

Les données non-structurées n’ont aucune structure, comme des documents textuels, des images ou des tableaux de données.

1.2. INTÉGRATION SERRÉE VERSUS INTÉGRATION LÂCHE

Dans les systèmes d’intégration, on distingue l’intégration serrée (forte ou tight) pour laquelle les données des sources sont intégrées dans un schéma global de l’intégration lâche (légère ou loose) qui ne fournit pas de schéma, mais uniquement un langage pour interroger le contenu des sources de données. Ainsi, l’intégration serrée fournit un schéma, un langage et une transparence d’interface alors que l’intégration lâche n’offre que la transparence.

1.2.1. L’intégration serrée

L’intégration serrée fournit un schéma unifié (intégré ou global) comme interface du système.

Ce schéma peut être créé selon un processus (semi-)automatique ou peut être créé ad-hoc. Il peut couvrir l’ensemble des données des sources ou uniquement une partie, mais doit conserver la sémantique des sources de données pour ensuite permettre la pertinence des requêtes. Pour assurer l’équivalence sémantique avec les sources de données et le système d’intégration, il faut établir des correspondances entre le schéma global et les schémas des sources (discuté en section III.2.2.1.6.(3)). Ces correspondances peuvent être exprimées par des ontologies ou des définitions de règles. Elles peuvent être exprimées à l’aide de langages ou bien inférées de manière automatique.

Ce type d’intégration a l’avantage d’éviter à l’utilisateur de devoir connaître tous les schémas des sources de données, mais plutôt d’avoir une connaissance unique du schéma global.

D’un autre côté, il faut définir les correspondances entre les schémas des sources et le schéma global, ceci nécessitant l’implication d’experts du domaine.

1.2.2. L’intégration lâche

L’intégration lâche ne fournit pas de schéma global pour l’interrogation du système, mais un langage de requête uniforme qui masque ainsi l’hétérogénéité des sources de données. C’est alors à l’utilisateur de gérer cette hétérogénéité lors de ses requêtes. Pour faciliter l’accès aux données, ce type de système fournit généralement des vues intégrées. Les utilisateurs peuvent en effet définir des vues sur certaines données qui peuvent ensuite être accessibles pour des requêtes.

Certains systèmes utilisent beaucoup les vues, certaines étant définies par des experts du domaine, ils peuvent ainsi être considérés comme des systèmes d’intégration forte. Le principal critère pour discerner les deux approches, c’est la visibilité ou non pour les utilisateurs des schémas des sources. Si dans l’intégration serrée, ils ne sont jamais visibles, ils sont au contraire toujours visibles dans l’intégration lâche.

1.3. LE MODÈLE DE DONNÉES DU SYSTÈME D’INTÉGRATION

Un système d’intégration repose sur un modèle de données. Le modèle est le schéma global dans le cas d’une intégration serrée, et il se base sur le langage de requête utilisé pour accéder aux sources dans le cas d’une intégration lâche.

Le modèle de données réduit les types de données qui peuvent être intégrés dans le système d’intégration à cause de certaines impossibilités de transformations entre certains modèles.

En effet, des incompatibilités surviennent si des données semi-structurées sont intégrées dans un système de données structurées. De même, des problèmes surviennent si des données provenant d’un modèle hautement sémantique doivent être intégrées dans un modèle plus pauvre. Par exemple, intégrer un schéma orienté objet dans un schéma relationnel induit une perte de connaissance, dans le sens inverse, ceci conduit à un enrichissement sémantique.

1.4. LES TYPES D’INTÉGRATION SÉMANTIQUE

Certains systèmes intègrent des sources de données complémentaires ne présentant pas d’objets équivalents et exportent donc certaines parties des schémas de celles-ci. D’autres systèmes, au contraire, intègrent des sources de données ayant des contenus chevauchants.

Une agrégation d’information est alors requise pour identifier des objets équivalents d’un point de vue sémantique, c'est-à-dire décrivant le même concept. L’intégration d’informations complémentaires est appelée « intégration horizontale » tandis que l’intégration de données chevauchantes est appelée « intégration verticale » (Sujansky, 2001). Dans le cas d’une intégration verticale, on distingue différents niveaux d’intégration sémantique selon que les données sont – collectées, sans aucune recherche d’équivalence parmi les objets issus des différentes sources ou – fusionnées afin d’identifier des objets provenant de sources différentes mais équivalents d’un point de vue sémantique ou – supplémentées si des données supplémentaires à celles déjà intégrées viennent décrire le contenu ou la sémantique des données déjà intégrées, on parle de alors de méta-données sémantiques.

1.5. LE NIVEAU DE TRANSPARENCE

Un des avantages d’un système d’intégration c’est la transparence pour l’utilisateur. Un parfait système d’intégration donne l’illusion aux utilisateurs d’interagir avec un système central, local et homogène. On distingue plusieurs niveaux de transparence :

La transparence de localisation – Les utilisateurs n’ont besoin de connaître ni la localisation de la source de données consultée, ni son nom.

La transparence de schéma – Les utilisateurs n’ont pas besoin de connaître les différentes appellations fournies par différentes sources de données pour une même entité biologique, et ses qualificatifs.

La transparence de langage – L’interrogation du système ne nécessite pas d’expertise de la part des utilisateurs en ce qui concerne les langages de requêtes.

Il y a clairement un lien entre le traitement de l’hétérogénéité, décrit en section II.2.2, et le niveau de transparence fourni par un système d’intégration de données. En effet, la transparence de schéma est fournie si le problème de l’hétérogénéité sémantique est résolu, alors que la transparence de langage et de localisation survient si on résout les problèmes liés à l’hétérogénéité syntaxique.

1.6. ASCENDANTE (BOTTOM-UP) VERSUS DESCENDANTE (TOP-DOWN)

On distingue deux manières de construire un système d’intégration : top-down, où l’on part de l’information souhaitée, pour ensuite chercher les sources pouvant répondre aux besoins, ou bottom-up, où l’on part de la volonté d’intégrer plusieurs sources de données. Ainsi, dans les approches top-down, les schémas des sources importent peu pour la conception du schéma global. Ils seront seulement pris en compte dans un second temps quand les correspondances entre le schéma global et les schémas des sources seront établies pour permettre l’exécution de requêtes. Dans l’approche bottom-up, il faut que le schéma global fournisse une vue conciliée des différentes sources, impliquant une bonne connaissance au préalable des schémas des sources de données.

1.7. INTÉGRATION VIRTUELLE VERSUS MATÉRIALISÉE

Certains systèmes suivent une approche virtuelle ou non matérialisée dans laquelle les données restent au niveau des sources et où les seules données matérialisées sont les résultats des requêtes au moment où elles sont exécutées. Ce type d’approche nécessite une transformation des requêtes posées au schéma global en une ou plusieurs requêtes qui seront distribuées dynamiquement aux sources concernées.

Certains systèmes au contraire, suivent une approche matérialisée, dans laquelle ils récupèrent les données partielles ou complètes des sources pour les stocker localement et les combiner dans un schéma global.

1.8. ACCÈS AUX DONNÉES

Un utilisateur accède aux données du système d’intégration selon différentes méthodes pouvant être soit un langage de requête de type SQL ou OQL, soit par le biais de la navigation, spécialement dans les systèmes basés sur le Web.