• Aucun résultat trouvé

De nombreuses applications nécessitent d’intégrer des bases de données géographiques : constitution d’un référentiel cohérent à partir de bases de données hétérogènes, transformation de schéma, recalage de données, enrichissement d’une base de données à partir de données issues de sources externes, géocodage, mutualisation de mises à jour, contrôle qualité, suivi de versions, requêtes sur des bases de données hétérogènes et distribuées, etc. Ces différentes applications requièrent toutes, dans un premier temps, de déterminer les correspondances entre les éléments de schémas des différentes bases de données à intégrer. L’automatisation de ce processus d’appariement de schémas suppose celle de la détection des divers types d’hétérogénéité pouvant intervenir entre les bases de données à intégrer (Fichtinger et al., 2009), qu’il s’agisse d’hétérogénéité sémantique ou bien de types d’hétérogénéité liés à la structuration et à la représentation géométrique des données dont on retrouve la justification dans les spécifications des bases de données. La détection de ces divers types d’hétérogénéités permettra d’établir des correspondances précises entre éléments de schémas de bases de données qui pourront être exploitées différemment par la suite en fonction de l’application visée. En effet, si une application de découverte de bases de données hétérogènes nécessite essentiellement de résoudre des questions d’hétérogénéité sémantique, une application de recalage exigera de déterminer quelle base de données possède le niveau de détail géométrique le plus fin et doit donc être utilisée comme référentiel. En outre, le processus d’appariement des données pourra nécessiter de disposer de connaissances sur d’éventuels conflits de description géométrique des données dans les bases à intégrer.

Les approches proposées pour l’intégration d’informations dans le domaine informatique sont peu à peu reprises dans le domaine de l’information géographique pour résoudre les difficultés liées à l’hétérogénéité sémantique entre bases de données. Celles-ci s’appuient sur des ontologies utilisées comme sources de connaissances externes permettant d’expliciter la sémantique exacte des éléments des schémas des bases de données à apparier. Un préalable indispensable à la mise en

œuvre de ces approches consiste donc à se doter d’une ontologie couvrant le domaine sur lequel portent les bases de données à intégrer.

Par ailleurs, l’appariement des schémas de bases de données vectorielles requiert de déterminer, outre les relations de correspondance entre éléments de schémas, les restrictions dues à l’hétérogénéité des spécifications des différentes bases qui s’appliquent à ces correspondances. Considérons le conflit de critère de sélection entre la classe Massif boisé de la BDCARTO© 3.1 et la classe Zone de végétation de la BDTOPO© 2.0 présenté au paragraphe 2.2.3. La relation de correspondance établie entre ces deux classes devra donc comporter une restriction sur la superficie des instances de ces classes et préciser, dans le cas présent, que seules les instances de la classe Zone de végétation de plus de 500 hectares correspondent potentiellement aux instances de la classe Massif boisé. Détecter automatiquement ce type de restriction suppose d’inclure dans le processus d’appariement de schémas des connaissances issues des spécifications de chacune des bases à intégrer. Il est donc nécessaire de formaliser ces connaissances afin de pouvoir les traiter automatiquement. Or cette étape de formalisation s’avère complexe dans la mesure où il s’agit de représenter des connaissances très spécifiques faisant intervenir à la fois des notions de modélisation de bases de données géographiques et des notions de représentation géométrique.

L’objectif de cette thèse réside donc dans la formalisation et l’acquisition des connaissances nécessaires pour la mise en œuvre d’un processus d’intégration virtuelle de bases de données géographiques, en accord avec les normes et standards actuels du domaine. Il s’agit des connaissances nécessaires à la description des domaines de la topographie et de la saisie de données géographiques. Ainsi, une première étape consistera à se doter d’une ontologie du domaine de la topographie, et à l’exploiter pour annoter et apparier des schémas de bases de données géographiques hétérogènes. Une seconde étape sera d’étendre l’approche adoptée initialement pour intégrer à l’ensemble du processus d’appariement de schémas des connaissances issues des spécifications des bases de données et exploiter ces connaissances dans le cadre de deux applications classiques dans le domaine des infrastructures de données géographiques : l’intégration de données "métier" sur un référentiel et la découverte de bases de données géographiques. Ce travail de thèse s’inscrit dans le cadre du projet ANR GéOnto (ANR-O7-MDCO-005) pour la création, la comparaison et l’exploitation d’ontologies géographiques.

3 État de l’art

Cette partie dresse un état de l’art des travaux récents en matière d’intégration d’informations dans le domaine des infrastructures de données géographiques. Les problématiques de découverte et d’accès aux données ainsi que de transformation de schémas de bases de données géographiques sont au cœur de la mise en œuvre de la directive INSPIRE 2007/2/CE, et constituent l’essentiel des efforts de recherche actuels dans le domaine de l’intégration de bases de données géographiques. C’est pourquoi notre état de l’art s’attache, dans un premier temps, à décrire les travaux réalisés dans ces deux domaines. La troisième partie est consacrée à la principale ressource sur laquelle reposent les travaux précédents : les ontologies du domaine de la topographie. Nous y dressons un bilan des ontologies existantes, et décrivons brièvement les principales méthodologies proposées pour la création d’ontologies du domaine. Enfin, la quatrième partie est consacrée à la prise en compte de connaissances issues des spécifications de bases de données géographiques dans le processus d’intégration de ces bases.