Problème de Transparence Sémantique et Extensions Existantes de la Logique de Description

La prolifération de standards et d’initiatives différents dans le domaine du Com- merce Électronique, qui ont pour objectif de faciliter l’échange de documents commerciaux, fait apparaître plusieurs systèmes de classification de produits et de services. Ainsi, la composition et l’interprétation des documents échangés peuvent se baser sur différents vocabulaires. Cela nécessite un mécanisme qui permet de traduire séman- tiquement les termes d’un vocabulaire en ceux d’un autre vocabulaire. Ce problème est connu comme problème de transparence sémantique [Kim00 (46)]. La norme ebXML présente un des efforts afin de réunir les standards existants en introduisant un vocabulaire générique pour tout le domaine commercial. Cependant, dans cette norme le problème de la transparence sémantique persiste. Une solution issue d’une étude de l’ebXML (Chapitre 5) est d’introduire la Logique de Description dans cette norme pour munir les langages de représentation utilisés d’une sémantique formelle. Et pourtant, les Logiques de Description précurseuses ne sont pas suffisamment ex- pressives pour qu’une partie importante de connaissances impliquées dans la norme soit capturée.

Par ailleurs, la Logique de Description résulte d’un compromis entre la com- plexité (décidabilité) et l’expressivité des langages de représentation. En effet, si le constructeur fermeture transitive de rôle n’est pas considéré, la Logique de Des- cription est exprimable dans le fragment deux-variable L2 _{de la L.P.P.O. dont la}

décidabilité est démontrée dans [Mor75 (57)]. En outre, dans certains domaines d’application, il existe des connaissances qui sont inexprimables dans les Logiques de Description précurseuses, comme par exemple, les systèmes comportant les règles de Horn. D’autre part, les services d’inférences développés pour ces L.D - inférences standards - ne répondent pas à tous les besoins de calculs. Ces exigences ouvrent deux directions de recherche. La première est d’y ajouter de nouveaux constructeurs ou composants en préservant la décidabilité des inférences connues. La seconde est de développer de nouveaux services d’inférences, dits inférences non-standards. Ces inférences se basent sur les algorithmes de construction qui calculent et retournent des descriptions de concept satisfaisant certaines conditions.

Ce chapitre débute par une formulation du problème de transparence sémantique qui est l’objet de cette thèse. Par la suite, les extensions existantes pour la L.D concernant le problème formulé sont investiguées. Une synthèse sur ces travaux et une identification des techniques extensibles concluent le chapitre.

2.1. Du Problème de Transparence Sémantique à la Transformation d’Ontologies

2.1.1. Notion d’ontologie. Les ontologies sont développées pour fournir à des sources d’information une sémantique traitable par la machine. Les acteurs différents, y inclus humain et logiciel, peuvent communiquer à travers les ontologies. A notre avis, la définition suivante caractérise le mieux l’essentiel d’une ontologie :

“Une ontologie est une spécification formelle, explicite d’une conceptualisation partagée” [Gru93 (38)].

Une conceptualisation désigne un modèle abstrait d’un domaine d’application qui identifie les concepts pertinents de ce domaine. Une conceptualisation partagée reflète la notion selon laquelle une ontologie capture des connaissances acceptées par un groupe de personnes. Une spécification explicite signifie que le genre des concepts utilisés et les contraintes sur l’utilisation de ces concepts sont explicitement définis. Une spécification formelle implique que l’ontologie est traitable par la machine. En bref, une ontologie fournit un vocabulaire de termes et de relations pour modéliser les connaissances d’un domaine d’application.

Actuellement, il y a plusieurs langages basés sur la Logique de Description, comme par exemple DAML+OIL, OWL, qui sont employés pour représenter les ontologies d’un domaine d’application.

2.1.2. Problème de l’intégration des ontologies. Les sources d’information actuelles sont hétérogènes et distribuées. Afin d’établir un mécanisme efficace permettant de partager les informations, plusieurs problèmes techniques doivent être résolus. En effet, après avoir localisé la source d’information, l’accès aux données doit être fourni. Cela implique que chaque source déterminée est capable de communiquer avec le système qui interroge des informations. Cette communication entre de tels systèmes hétérogènes est établie à condition que la signification des informations échangées soit correctement interprétée à travers les systèmes en question. En d’autres termes, l’interopérabilité sémantique doit être assurée.

Selon le travail dans [Goh97 (35)], il y a trois causes principales suivantes qui pro- voquent l’hétérogénéité sémantique :

(1) Conflit de confusion : il se produit lorsque deux informations semblent avoir le même sens alors qu’elles sont réellement différentes dans des contextes différents.

(2) Conflit d’unité : il se produit lorsque les systèmes d’unité différents sont utilisés pour mesurer une valeur.

Les travaux dans [Wac99 (69), WS01 (70)] proposent une solution au problème en supposant que ces conflits soient causés par la différence de contexte entre les sources d’informations. Selon ces travaux, chaque ontologie est associée à des patrons (templates) qui représentent les informations contextuelles. Ainsi, l’interopérabilité sémantique entre les ontologies peut être atteinte à l’aide de l’application des règles de contexte qui transforment les patrons associés à une ontologie en ceux qui sont associés à une autre ontologie.

Normalement, l’intégration des ontologies consiste en étapes suivantes : (1) Chercher et identifier la partie commune des ontologies.

(2) Annoter les sources d’informations différentes en construisant la hiérar- chie de concept. Chaque concept de la hiérarchie est décrit en utilisant les concepts définis dans l’ontologie commune. Le résultat de cette étape est une ontologie qui est associée aux patrons de contexte.

(3) Traduire sémantiquement une ontologie en une autre à l’aide des patrons de contexte associés.

La réalisation de ces étapes se repose sur les hypothèses suivantes :

(1) L’interprétation d’un concept dans une ontologie est effectuée en se référant aux patrons de contexte. Ainsi, chaque conflit sémantique entre deux ontologies est considéré comme la conséquence de la référence à deux patrons de contexte différents.

(2) L’interopérabilité sémantique entre les ontologies en question est assurée par la transformation des patrons de contexte d’une ontologie en ceux d’une autre ontologie.

Or, cette approche rencontre au moins deux difficultés :

(1) La différence des langages qui servent à modéliser des ontologies. Cette dif- férence se manifeste dans quatre aspects : syntaxe, représentation logique, sémantique des primitifs et expressivité du langage.

(2) La différence des modèles. C’est-à-dire que la différence dans la façon d’inter- préter un domaine implique la différence entre des concepts et des relations spécifiés. Cette différence se manifeste non seulement au niveau de la spéci- fication mais aussi au niveau de la conceptualisation, comme par exemple, la différence entre des définitions d’un concept. Il est très difficile d’isoler d’une ontologie les facteurs qui causent l’incompatibilité. Par conséquent, la transformation de contextes ne peut garantir l’interopérabilité.

Les conflits cités et donc, le problème d’interopérabilité sémantique peuvent être partiellement résolus en supposant que les sources d’informations des systèmes soient représentées comme des ontologies basées sur la Logique de Description (langage DAML+OIL, par exemple). En effet, les problèmes de synonymie et d’homonymie entre des termes peuvent se traduire en des problèmes de la détection des concepts

équivalents dans les ontologies en question. Cela implique que le conflit de nom peut être réglé par une inférence standard implémentée dans les ontologies.

2.1.3. Problème de Transparence Sémantique dans le Commerce Élec- tronique. En prenant conscience de la difficulté présentée au paragraphe précédent, nous nous limitons notre champs de recherche à une version restreinte du problème de l’intégration des ontologies. Cette version, qui est connue comme problème de transparence sémantique dans le Commerce Électronique [Kim00 (46)], est inspirée du modèle de représentation de données dans la norme ebXML [ebX01h (33)]. Les détails de la norme ebXML seront décrits dans le Chapitre 5.

Dans ce modèle, on utilise une ontologie de base qui comporte les concepts les plus génériques du domaine commercial. Chaque sous-domaine possède une ontologie spécifique qui dérive de cette ontologie de base. Une ontologie dérivée permet de définir, soit un concept qui peut être une version spécialisée d’un concept dans l’ontologie de base, soit de nouveaux concepts spécifiques au sous-domaine correspondant. De plus, les ontologies dérivées peuvent utiliser des langages de Logique de Descrip- tion dont les expressivités sont différentes. Cette hétérogénéité d’expressivité permet à chaque sous-domaine d’optimiser le compromis entre l’expressivité du langage de représentation et la complexité d’inférences.

Le modèle décrit ci-dessus peut répondre à un scénario d’échange de documents commerciaux dans lequel chaque acteur utilise l’ontologie dérivée correspondant à son sous-domaine pour, soit composer les documents à émettre, soit interpréter les documents reçus. L’ebXML suppose que les documents échangés soient des formulaires prédéfinis [ebX01a (26)], et donc, la composition et l’interprétation se traduisent en remplissage de ces documents et en explication des concepts remplis.

Par ailleurs, un des problèmes issu de cette conception est qu’il existe un concept qui correspond à plusieurs définitions réparties dans des ontologies dérivées. L’ebXML a proposé une méthode, appelée mécanisme de contexte [ebX01g (32)], qui permet de déterminer la définition la plus appropriée à partir d’informations contextuelles. Ces dernières sont représentées sous forme de règle, dites règles de contexte [ebX01a (26)]. L’antécédent de ces règles est une formule logique conjonctive dont la valeur est déterminée par les valeurs contextuelles. Le conséquent de ces règles introduit une nouvelle définition d’un concept correspondant à ces valeurs contextuelles. Notons que le mécanisme de contexte présenté dans ebXML est différent de la méthode de transformation de contexte par les règles de contexte, qui est propo- sée dans [Wac99 (69)]. En effet, les règles de contexte issues de l’ebXML effectuent certaines modifications de la définition d’un concept dans l’ontologie. Les opérations pour ces modifications sont déclenchées par des valeurs contextuelles. Cela signifie qu’afin d’atteindre l’interopérabilité sémantique dans l’ebXML, il y aura certaines répercussions au niveau de la conception.

Intuitivement, le problème cité du modèle de représentation de données dans la norme ebXML implique deux instances suivantes :

(1) Une ontologie dérivée est utilisée pour interpréter d’un document composé des concepts d’une autre ontologie dérivée en supposant que les deux langages sur lesquels ces ontologies se basent soient différents tels qu’un langage est plus expressif que l’autre. Si le langage de l’ontologie récepteur est plus expressif que celui d’émetteur, alors l’équivalence et la subsomption entre les concepts définis dans l’ontologie récepteur et les concepts à interpréter peuvent être détectées par l’inférence de subsomption. Sinon, on essaie de calculer la description de concept la plus proche de la définition du concept à interpréter selon une certaine mesure.

(2) Dans le cas où les informations contextuelles sont prises en compte, les règles de contexte sont déclenchées lorsque les conditions de ces règles sont remplies par les valeurs contextuelles. Les nouvelles définitions des concepts concernés sont obtenues des applications de règles de contexte. En d’autres termes, le conséquent d’une règle de contexte est une opération permettant de modifier la définition d’un concept. Cette modification reflète le partage de la compréhension des concepts concernés entre les acteurs, car une fois la transaction entre deux acteurs correspondant à deux ontologies dérivées est établie, chaque référence au concept modifié implique la nouvelle définition. D’autre part, si l’on considère une ontologie comme un TBox, les conjoncts constituant l’antécédent d’une règle de contexte sont les assertions dans le ABox correspondant à ce TBox. Par conséquent, la modification d’une définition dans le TBox peut provoquer une révision d’assertions dans le ABox [Neb90a (58)], et cette révision peut déclencher, à son tour, une autre règle de contexte.

Plus précisément, soient ∆T le TBox de base dans lequel tous les concepts, tous les

rôles primitifs et génériques sont introduits, et L le langage de Logique de Description utilisé dans ∆T. Soient ∆T1 le TBox d’un émetteur, ∆T2 le TBox d’un récepteur qui

sont dérivés de ∆T, et L1, L2 les langages utilisés respectivement dans ∆T1, ∆T2.

Supposons que L1, L2soient plus expressifs que L. La première instance du problème

peut être reformulée comme suit :

Soit Ae:= Ce le concept reçu de l’émetteur, [Ae := Ce] ∈ ∆T1 où Ae est le nom

de concept et Ce est le concept de définition.

(1) S’il existe un concept [A := C] ∈ ∆T2 tel que C ≡ Ce, alors le concept Ae

est interprété comme le concept A dans ∆T2. Sinon,

(2) Si la description de concept Ce est exprimable par le langage L2 dans ∆T2

et A 6= Aepour tout nom de concept A dans ∆T2, alors un nouveau concept

[Ae:= Ce] est ajouté dans ∆T2 . Sinon,

(3) S’il existe un nom de concept A dans ∆T2 tel que A = Ae, alors un nouveau

concept [A′

e := Ce] est ajouté dans ∆T2 et le concept Ae est interprété

comme le concept ajouté A′

e dans ∆T2.

(4) Finalement, si la description de concept Ce est inexprimable par le langage

L2 dans ∆T2, alors un nouveau concept [A

′

e := Ce′] est ajouté dans ∆T2

où C′

subsomption telle que Ce ⊑ Ce′. Et le concept Ae est interprété comme le

concept ajouté A′

e dans ∆T2.

Pour formuler la deuxième instance du problème de transparence sémantique, nous avons besoin de préciser certaines restrictions. Lorsque la transaction entre un émet- teur et un récepteur est établie, les deux acteurs souhaitent partager la compréhension des connaissances. En d’autre termes, si deux concepts portant le même nom ont deux définitions différentes dans deux TBox différents, une révision de ces concepts est exi- gée pour que les deux acteurs partagent une seule définition ou se réfèrent aux deux définitions qui ne sont pas conflictuelles. Dans ce cas, la règle de contexte décide non seulement la condition de déclenchement de la révision mais aussi la procédure de cette révision.

Soient ∆T, ∆A le TBox et le ABox respectivement. Soit ∆R l’ensemble de règles

de contexte où chaque règle r est de la forme :

Ant(r) ⇒ Rev(Cons(r))

où Ant(r) est une conjonction d’assertions du ABox, Cons(r) est le concept à réviser par la règle r , Rev est une opération de révision du concept Cons(r). La deuxième instance du problème peut être reformulée comme suit :

(1) Soit R ⊆ ∆R l’ensemble des règles initialement activées. Une règle r est

activée si Ant(r) est vérifiée. L’application de la règle r peut changer le TBox. Ainsi, nous désignons par ∆1

T le TBox suivant l’application de la

règle r.

(2) Le changement du TBox peut provoquer une révision du ABox. Donc, nous désignons par ∆1

A le ABox suivant la révision du ABox.

(3) La révision du ABox peut changer l’ensemble des règles activées. Nous dé- signons par R1 l’ensemble des règles activées suivant la révision du ABox.

(4) Supposons que le TBox ne change plus après n étapes où n ≥ 0, et soit ∆n T

le TBox obtenu. En conséquence, le ABox ne change plus après n étapes et nous désignons également par ∆n

A le ABox obtenu.

La compréhension partagée entre les acteurs sera atteinte lorsque ce processus de transformation se termine.

Ces formulations impliquent plusieurs tâches intermédiaires à accomplir. Pour la première instance, une inférence standard, la subsomption, est utilisée afin de déter- miner l’équivalence entre des descriptions de concept. Une inférence non-standard, appelée approximation [BKT02a (15)], est exigée pour calculer la L2-description

de concept qui est “la plus proche” d’une L1-description de concept inexprimable

dans le langage L2. De plus, une autre inférence non-standard, appelée réécriture

[BKM00 (6)], est envisagée pour simplifier les descriptions de concept obtenues de l’inférence d’approximation.

Pour la deuxième instance, tout d’abord un formalisme hybride, qui combine les trois composants ∆T,∆A et ∆R, doit être défini pour munir ces composants d’une sé-

mantique formelle commune basée sur la Logique de Description. Un problème impor- tant à traiter dans cette instance est la révision d’un TBox et le ABox correspondant. En général, le problème de la révision d’un ensemble de propositions, dit révision de croyance, dépasse le cadre de la Logique du Premier Ordre [Gär92 (36)]. Cependant, ce problème peut être investigué dans le cadre de la logique classique à condition que les postulats pour la révision proposés dans le canevas AGM [AGM85 (1)] se traduisent convenablement en ceux pour la révision d’un TBox [Neb90a (58)].

Il y a encore une tâche à accomplir dans la deuxième instance. Il s’agit de l’infé- rence d’extension de la base de connaissances, effectuée par l’application des règles de contexte. Cette inférence permet de calculer la série de transformation des composants (∆1

T,∆1A),...,(∆nT,∆nA) résultant des applications de règles dans ∆R. Notamment, la

terminaison de la transformation des composants et l’unicité des composants finaux doivent être prises en compte dans cette inférence.

2.2. Extensions Envisagées de la Logique de Description

Dans cette section, nous présentons les extensions de la Logique de Description servant à compléter le modèle de données dans la norme ebXML. Même si ces extensions résultent de différentes motivations, elles fournissent des techniques de base visant à résoudre les deux instances formulées du problème. En effet, un méta-modèle des Composants de Base défini dans la norme ebXML [ebX01f (31)] est décrit en langage UMM1

[Cla00 (21)] qui est un méta-langage du UML2

. Ces Composants de Base forment un vocabulaire générique pour toute la communication du domaine commercial. La description de chaque composant de base, qui est instanciée de ce méta-modèle, peut être représentée par des diagrammes de classe UML. Concer- nant la formalisation de la sémantique des diagrammes de classe UML, le travail dans [CCD+_{02 (17)] a proposé un langage de Logique de Description très expres-}

sif DLR capable de capturer la sémantique de ces diagrammes. Ce travail est la première extension introduite dans cette section. Par la suite, la technique de base pour l’approche structurelle abordée dans la Section 1.3.4 sera présentée en détail. Cette technique sert à développer des algorithmes de construction, connus comme inférences non-standard, non seulement pour la première instance mais aussi pour la deuxième instance du problème cité. Ainsi, la deuxième extension à présenter dans la section est le développement de ces inférences non-standard. L’introduction d’un travail traitant la combinaison des règles de Horn et une Logique de Description expressive, dit langage CARIN [LR98 (53)], terminera la section. Ce travail présentant un algorithme de décision sur ce formalisme hybride est un exemple d’utilisation de l’approche de tableaux abordée dans la Section 1.3.4.

Unified Modelling Methodology

2.2.1. Formalisation des diagrammes de classes UML. Les diagrammes UML sont connus comme un formalisme générique qui permet de modéliser les applications dans la plupart de domaines. Et pourtant, la sémantique de ce formalisme n’est pas décrite de façon déclarative. Cela empêche de développer des inférences qui permettent de détecter des propriétés formelles des diagrammes de classe UML. C’est le concepteur qui prend la responsabilité de détecter, par exemple, l’inconsistance et la redondance des diagrammes. Cette tâche dépassera les manipulations manuelles si les diagrammes à vérifier deviennent de plus en plus complexes. Pour cette raison, la recherche qui vise à munir ces diagrammes d’un mécanisme d’inférences automatique montre son importance. En sachant qu’un tel mécanisme d’inférences ne peut que se développer en basant sur une sémantique formelle, le premier travail pour cet objectif consiste donc à formaliser la sémantique des diagrammes de classe UML. Cette sé- mantique est capturée par une Logique de Description très expressive DLR proposée dans [CCD+_{02 (17)].}

La sémantique des diagrammes de classe UML est constituée des aspects suivants : l’attribut d’une classe ; l’association et l’agrégation des classes ; la généralisation et la spécialisation des classes ; et les contraintes sur un diagramme. Lorsque ces aspects sémantiques d’un diagramme de classe sont formalisés, les services d’inférence suivants sont envisageables :

(1) Vérifier la consistance d’une classe ou d’un diagramme de classe. Une classe est consistante si l’ensemble d’instances de cette classe n’est pas vide. En

Dans le document Transformation d'ontologies basées sur la logique de description : Application dans le commerce électronique (Page 38-66)