Modèle global pour l’intégration de bases de données géographiques

Le modèle que nous proposons vise l’intégration virtuelle de bases de données géographiques. Une étape fondamentale d’un tel processus d’intégration, quelle que soit sa finalité, réside dans la détermination des relations de correspondance entre les éléments des différents schémas conceptuels des bases de données que l’on souhaite intégrer. La réalisation de cet objectif d’appariement de schémas constitue donc l’enjeu majeur de notre modèle : nous souhaitons permettre la détection automatique des différents types d’hétérogénéités pouvant intervenir entre bases de données topographiques vectorielles afin d’établir des relations de correspondances fines entre éléments de schémas. Les approches proposées pour la découverte et l’accès aux données, ainsi que celles dédiées à la transformation de schémas, présentées au chapitre 3.1, s’attachent principalement à permettre la détection et la résolution de l’hétérogénéité sémantique entre bases de données géographiques. A ces fins, elles s’appuient sur des ontologies du domaine, destinées à décrire les concepts partagés du domaine d’intérêt des diverses sources de données à intégrer et utilisées comme sources de connaissances externes pour l’annotation sémantique des éléments des diverses ressources descriptives – schémas conceptuels, ontologies d’applications ou métadonnées - des bases de données considérées. Cependant, si les annotations sémantiques proposées permettent de décrire, pour chacune des classes de bases de données annotées, les catégories d’entités géographiques que celles-ci visent à représenter, elles ne rendent pas compte de la complexité de la relation entre chacune de ces diverses représentations du territoire et le terrain réel, relation que Kavouras et Kokla (2008) définissent comme la sémantique des données. Aussi, la modélisation fine de cette sémantique sera-t-elle un élément important de notre proposition.

Les applications de découverte et d’accès aux données présentées au chapitre 3.1 requièrent toutes, dans un premier temps, de déterminer les relations de correspondance entre les éléments des ressources décrivant les bases de données considérées, et les éléments d’une ontologie du domaine. Ces relations de correspondance, sont, dans la plupart des cas, utilisées pour rediriger et réécrire les requêtes des utilisateurs en quête de données vers les sources pertinentes, bien qu’elles puissent également être mises à profit afin de déterminer des correspondances entre éléments de ces ressources décrivant les bases de données à intégrer, comme c’est le cas dans les approches proposées par (Lutz et al., 2006) ou encore (Schade, 2010). Les relations de correspondance entre ressources descriptives et ontologie du domaine pouvant être définies au sein de ces applications peuvent être de différents types. On rencontre principalement des relations d’équivalence ou de subsomption (Paul et Gosh, 2006) (Lassoued et al., 2008) (Lutz et al., 2006), bien que d’autres types de relations puissent parfois être utilisés, comme c’est le cas pour l’approche proposée par (Nambiar et al., 2006) qui offre la possibilité de définir des relations du type « possède des instances du type », « mentionne » ou encore « utilise ». Klien (2008) insiste sur la nécessité d’introduire une relation spécifique pour l’annotation d’ontologies d’applications décrivant des bases de données géographiques à l’aide de concepts issus d’une ontologie du domaine. En effet, le recours à des relations d’équivalence ou de subsomption pour associer des concepts d’ontologies d’applications décrivant des classes de schémas de bases de données géographiques à des concepts d’ontologies du domaine décrivant des catégories d’entités géographiques suggère implicitement que les instances des premières sont également des instances des secondes. Considérant qu’une instance de base de données géographique constitue une représentation d’une entité géographique du monde réel, et ne

peut, de ce fait, en aucun cas être assimilée à une telle entité géographique, Klien (2008) introduit la relation « annotate » afin de définir les relations de correspondances entre ontologies d’applications et ontologie du domaine. Adoptant son point de vue, Schade (2010), reprend le processus d’annotation proposé par Klien (2008) pour l’adapter à une application de transformation de schémas (chapitre 3.1.2), mais préfère néanmoins à la dénomination « annotate » de cette relation, trop vague selon lui, celle de « domain reference ». Dans notre approche, nous adhérons à cette thèse concernant l’existence d’une sémantique particulière de la relation associant les diverses ressources décrivant des bases de données topographiques à une ontologie du domaine.

Les relations définies pour l’annotation sémantique des éléments de ressources descriptives de bases de données géographiques permettent donc de décrire pour chacune des classes de bases de données annotées les catégories d’entités géographiques que celles-ci visent à représenter. Or, un utilisateur recherchant, par exemple, des données sur les forêts pourrait souhaiter connaître, outre les sources de données lui permettant de se procurer des données sur les forêts, les éventuels conflits de critères de sélection (Devogele, 1997) existant entre ces sources. En effet, deux classes de bases de données représentant, l’une « *…+ les bois et forêts d’une superficie supérieure à 500 ha *…+ » (BDCARTO© 3.1), et l’autre les « *…+ bois de plus de 500 m2 *…+ » (BDTOPO© 2.0), ne présenteront pas nécessairement le même intérêt pour notre utilisateur, en raison de la différence de granularité des données entre ces deux classes. De plus, il semble également utile de l’informer d’éventuels conflits de description géométrique des données (Devogele, 1997) entre les diverses bases disponibles. Reprenons l’exemple des classes Massif_Boisé de la BDCARTO© 3.1 et Zone_Végétation de la BDTOPO© 2.0 présenté ci-dessus. En se fondant sur les seuls noms de ces deux classes, on pourrait supposer que celles-ci fournissent deux représentations géométriques semblables des espaces arborés. Or, la classe Zone_Végétation décrit les forêts sous la forme de polygones dont les côtés correspondent aux contours extérieurs des forêts représentées, tandis que la classe Massif_Boisé correspond en fait à une classe de toponymes propres aux espaces arborés dont les instances possèdent une géométrie de type ponctuel, saisie au centre de chaque forêt représentée. Ces connaissances, portant sur les critères de sélection des entités géographiques devant être représentées au sein d’une classe de base de données ou leur modélisation géométrique, issues des spécifications de saisie des bases de données, constituent la sémantique exacte des données géographiques. A ce titre, elles sont indispensables aux utilisateurs souhaitant découvrir et évaluer des données en vue de leur éventuelle réutilisation. En outre, la dérivation automatique du contenu de la classe Massif_Boisé à partir de celui de la classe Zone_Végétation à l’aide d’une application de transformation de schémas nécessite, pour produire des données cohérentes avec les spécifications de la classe Massif_Boisé, de prendre en compte les différences de critères de sélection et de représentation géométrique entre ces deux classes. De la même façon, l’appariement automatique des données de ces deux classes requiert des algorithmes spécifiques, permettant, en premier lieu, le filtrage des instances de la classe Zone_Végétation candidates à l’appariement avec des instances de la classe Massif_Boisé, et prenant en compte les différences de représentation géométrique entre les données de ces deux classes. C’est pourquoi nous proposons dans notre approche d’introduire, dans les annotations sémantiques des ressources décrivant les données, des connaissances précisant les critères de sélection des entités topographiques ou leur modélisation géométrique, issues des spécifications de saisie des bases de données topographiques concernées.

Cette nécessité de déterminer, lors de l’étape d’appariement des schémas, outre les relations de correspondance entre éléments de schémas, les restrictions dues à l’hétérogénéité des spécifications des différentes bases qui s’appliquent à ces correspondances a été abordée par Uitermark (2001) et Gesbert (2005). Pour ce faire, Uitermark (2001) propose de formaliser les règles de sélection des entités géographiques devant figurer dans chaque classe des diverses bases de données à intégrer. Celles-ci sont exploitées en aval de l’appariement géométrique des données afin de tester si chaque instance impliquée dans une paire d’instances candidates à l’appariement vérifie bien les critères de sélection des deux classes homologues auxquelles elles appartiennent. Gesbert (2005) s’inspire de cette approche et propose un modèle formel permettant de représenter l’ensemble des règles de sélection et de modélisation géométrique des entités géographiques dans un langage dédié. Cependant, à l’inverse de Uitermark (2001), Gesbert (2005) préconise d’exploiter les spécifications formelles en amont du processus d’appariement géométrique des données afin d’opérer une présélection des instances candidates à l’appariement et de paramétrer les algorithmes d’appariement géométrique utilisés.

L’architecture globale du modèle proposé par Gesbert (2005) (cf. figure 20) s’apparente aux diverses architectures d’intégration virtuelle présentées au chapitre 3.1. Les procédures de représentation, qui définissent l’ensemble des règles de représentation d’un type d’entités géographiques au sein de l’une des bases de données à intégrer peuvent, en effet, être vues comme des annotations sémantiques complexes, décrivant les relations entre les éléments d’une ontologie du domaine et ceux du schéma de la base de données en question. C’est pourquoi nous nous proposons de nous inspirer de ces travaux et de les adapter aux standards et normes actuellement recommandés en matière de gestion de l’information géographique et de représentation de connaissances. En effet, les schémas de bases de données et l’ontologie du domaine y sont représentés selon des schémas conceptuels de données définis par Gesbert (2005). Dans un souci d’interopérabilité, nous proposons donc de leur substituer des standards dédiés ; les normes ISO pour la description de l’information géographique, et OWL pour l’ontologie du domaine. De plus, l’instanciation, la vérification de la cohérence et la comparaison automatique des procédures de représentation nécessitent le développement d’outils totalement ad hoc. A l’inverse, l’approche proposée par Klien (2008) et reprise par Schade (2010) consiste à décrire, dans un langage de représentation de connaissances (WSML), les schémas des bases de données à intégrer sous la forme d’ontologies d’applications inspirées des schémas ISO pour la représentation de schémas de bases de données géographiques (Feature Types Ontologies). Ces ontologies d’applications sont annotées via une ontologie du domaine, intégrée à un cadre de référence sémantique et décrite dans le même langage. Ainsi, les annotations sont directement exploitables par les systèmes de raisonnement existants et permettant d’exploiter des connaissances décrites dans le langage choisi. Cette approche, fondée sur la mise en œuvre de standards adéquats et de leurs outils associés, et en particulier ce dernier aspect de description des schémas conceptuels des bases de données à l’aide d’un formalisme permettant d’effectuer des raisonnements sur les descriptions fournies, nous semblent plus adaptés à notre objectif final d’interopérabilité. C’est pourquoi nous proposons d’en reprendre certains aspects et de les intégrer au modèle proposé par Gesbert (2005).

L’architecture globale du modèle que nous proposons est présentée en figure 23. Elle correspond à celle proposée par Gesbert (2005), exception faite des procédures de représentation que nous souhaitons remplacer, à l’instar de Klien (2008) et Schade (2010), par des annotations sémantiques portées par les ontologies d’applications au format OWL décrivant la structure des données des

diverses bases à intégrer. Le choix de ce langage de représentation de connaissances, fondé sur les logiques de description, est motivé par les possibilités de raisonnement associées à un tel formalisme, que nous souhaitons intégrer à nos travaux. Par ailleurs, nous proposons que ces ontologies soient générées de façon semi-automatique à partir des schémas des bases de données décrits selon le schéma conceptuel de données « ISO 19109 - Rules for application schema » et de l’analyse des spécifications textuelles de ces bases. Leur structure s’inspire des normes ISO pour la représentation de l’information géographique et varie selon le type d’annotations sémantiques que l’on souhaite mettre en œuvre. Nous proposons, en effet, deux approches. La première, présentée en détail au chapitre 4.2, consiste à augmenter le niveau de granularité des schémas conceptuels des bases de données à intégrer en mettant en évidence, au sein des ontologies d’applications générées, des concepts topographiques qui, en raison de contraintes de modélisation de ces bases, n’apparaissent dans les schémas que sous forme de valeurs d’attributs. Dans cette approche, l’établissement des annotations sémantiques s’inspire de techniques utilisées dans le domaine de l’alignement d’ontologies. L’application développée détermine, à l’aide de techniques lexicales et structurelles, des relations d’équivalence, de subsomption et de proximité sémantique entre les concepts des ontologies d’applications et ceux de l’ontologie du domaine. Ces relations de correspondance sont ensuite exploitées afin de calculer des relations d’appariement entre les schémas conceptuels des bases de données concernées. Cette approche permet une prise en compte partielle des spécifications dans la mesure où les connaissances permettant de déterminer quelles valeurs d’attributs doivent êtres mises en évidence lors de la création des ontologies d’applications en sont directement issues. Cependant, elle ne permet pas la détermination de relations de correspondance fines entre éléments de schémas hétérogènes. En revanche, elle présente l’avantage de fournir des résultats rapides, en réduisant considérablement le coût lié à une annotation manuelle des ontologies d’applications. La seconde approche proposée, que nous détaillerons au chapitre 4.3, consiste à générer des ontologies d’applications au sein desquelles les classes, géométries, attributs et valeurs d’attributs des schémas des bases de données à intégrer sont réifiés, afin de permettre leur annotation à l’aide d’axiomes décrivant précisément à quels éléments de l’ontologie du domaine ils se rapportent et sous quelles conditions. Ceci suppose de disposer, au sein de l’ontologie du domaine, d’un certain nombre de concepts se rapportant au vocabulaire propre aux spécifications de bases de données géographiques, afin de pouvoir exprimer l’ensemble des règles de représentation des spécifications identifiées par Gesbert (2005). C’est pourquoi nous proposons d’adopter l’approche proposée par Kuhn (2003) et reprise par Klien (2008) et Schade (2010), en intégrant notre ontologie du domaine de la topographie à un cadre de référence sémantique permettant la définition de ces concepts.

Enfin, nous proposons d’utiliser une ontologie du domaine réalisée de façon semi-automatique, à l’aide d’outils de traitement automatique du langage naturel (TALN), appliqués aux textes des spécifications de bases de données de l’Institut National de l’Information Géographique et Forestière (cf. partie 4.2.2.2). Cette première ontologie a par ailleurs été enrichie, par alignement automatique, de termes également extraits de récits de voyages à l’aide d’outils de TALN. Ce travail d’enrichissement de l’ontologie du domaine a été réalisé par l’ensemble des partenaires du projet GéOnto (ANR-O7-MDCO-005) dans lequel s’inscrit cette thèse.

Figure 23: Architecture globale du modèle proposé: identification des étapes d’annotation automatiques et manuelles

4.2 Appariement de schémas fondé sur des valeurs d’attributs et une

Dans le document Formalisation, acquisition et mise en œuvre de connaissances pour l’intégration virtuelle de bases de données géographiques : les spécifications au cœur du processus d’intégration (Page 84-88)