Modèle sémantique - Structure d’index - UNIVERSITÉ PARIS 13 - SORBONNE PARIS CITÉ LIPN

VI.1 Structure d’index

VI.1.2 Modèle sémantique

Le modèle sémantique indique quelles unités sémantiques peuvent être associées aux unités documentaires. Il est constitué de deux ressources sémantiques à savoir une ontologie et une base de règles métier. Une unité sémantique peut donc être un élément de l’ontologie pris parmi ses concepts, ses relations et ses individus, ou alors un élément de la base de règles.

Cette dernière inclut l’arbre des règles candidates construit par les transformations décrites en V.3. Elle comporte aussi en principe la version formalisée de la règle, mais la traduction dans un langage de règles sort du cadre de notre étude ; les structures de données permettant de l’intégrer à l’index peuvent sans doute être construites en utilisant les variantes de RIF pour représenter les règles.

VI.1.2.1 L’ontologie

Il s’agit d’une ontologie de domaine qui sert à décrire le vocabulaire métier utilisé dans les textes et les règles. L’ontologie constitue un modèle formel qui sert de référence aux vocabulaires hétérogènes du domaine métier pouvant apparaître dans les textes et susceptibles d’être utilisés dans la reformulation des règles par des experts métier différents. Autrement dit, l’ontologie permet de mettre en place un vocabulaire métier stable et commun à tous les textes et à toutes les règles, et de spécifier certaines propriétés sémantiques de ce vocabulaire. Dans le monde des règles métier, l’ontologie est aussi très utilisée pour ses atouts de raisonnement logique qui favorisent l’inférence de nouvelles connaissances sémantiques, la mise à jour de la base de règles, le calcul des similarités sémantiques entre les règles, etc, atouts que nous utilisons dans le processus de maintenance des règles candidates (voir VI.7).

Pour des raisons citées plus haut (voirIV.2.4), nous considérons ici des ontologies construites à partir de textes et nous disposons d’une ontologie lexicalisée c’est-à-dire d’une ontologie à laquelle sont associées des informations linguistiques. Ces dernières correspondent à un ensemble de groupes de termes métier synonymes pour exprimer les éléments conceptuels de l’ontologie.

Ces termes décrivent les occurrences de ces éléments dans les textes réglementaires.

Nous utilisons la structure classique d’une ontologie (FigureVI.2) qui organise les concepts du domaine métier dans un graphe suivant des relations sémantiques et de subsomption entre ces

VI.1 Structure d’index

concepts. Les informations linguistiques, qui décrivent une terminologie suivant des relations de synonymie entre des termes métier regroupés autour des concepts (respectivement les relations ou les individus), ne sont pas incluses dans la structure de l’ontologie afin de garder la dimension conceptuelle de celle-ci. Elles sont décrites dans un thésaurus dans lequel nous répertorions tous les termes métier associés aux éléments conceptuels.

VI.1.2.2 La base de règles

La base de règles désigne l’ensemble des règles candidates dans toutes leurs versions. Nous préservons l’historique de toutes les reformulations pour une meilleure gestion du suivi du processus d’édition des règles depuis les textes. Pour ce faire, la base de règle repose sur une structure de graphe qui permet d’organiser le stockage des règles extraites ainsi que leurs dépendances.

Chaque règle candidate sélectionnée ou identifiée dans les textes d’origine donne naissance à de nouvelles versions de règles candidates chaque fois qu’elle subit une révisions ou une décomposition pour sa normalisation (voir FigureVI.3). A travers des normalisations lexicales, contextuelles, syntaxiques ou sémantiques successives, une règle candidate garde son état textuel d’origine (dans les textes) qui est reformulé plusieurs fois pour la rendre autonome, indépendante des textes et sémantiquement précisée, pour la décomposer en des règles candidates élémentaires qui peuvent elles-mêmes être reformulées jusqu’à mettre en place une version éditée dans une formule logique ”If-Then”. Dans l’exemple VI.4, la règle candidate R13 est révisée trois fois, une première version R14 résultant d’une normalisation lexicale, une seconde R15 résultant d’une normalisation syntaxique de structuration de la précédente, et deux autres R16 et R17 résultant d’une normalisation syntaxique de décomposition en règles candidates élémentaires.

L’ensemble des règles candidates est stocké dans une structure de graphe (FigureVI.5. Voir VI.4.2pour plus de détails) où sont représentées les dépendances entre les règles candidates liées à l’historique des reformulations, et des propriétés associées à chaque règle candidate. Les règles candidates sont liées entre elles suivant trois relations : la relation ”previousForm” pour dire qu’une règle candidate est une révision d’une autre règle candidate, la relation ”subRule” pour dire qu’une règle candidate est obtenue à partir d’une autre règle candidate à la suite d’une décomposition (suivie éventuellement de révisions), et la relation ”OriginalRuleVersion” qui connecte toute version dérivée d’une règle candidate à sa version initiale. Chaque règle candidate possède en outre les propriétés suivantes : la propriété ”ID” confère un identifiant unique à la règle candidate, la propriété ”content” donne le contenu textuel de la règle candidate, la propriété ”type” indique son type qui peut être ’structurelle’, ’opératoire’, ’dérivationnelle’, etc,

Chapitre VI. Conception et développement de la plateforme SemEx

Benefit Elite_member Numerical_quantity

Account

500_miles Miles_

quantity

Points_

quantity

100_miles Gold_

member

Platinum_

member

Platinum_

executive_

member

has_amount possesses

earns

Segments quantity Bonus

has_value

is_

credited _by

Figure VI.2–Exemple de deux fragments d’ontologies décrivant le vocabulaire utilisé dans AAdvantage (en haut la hiérarchie des concepts et au dessous les relations sémantiques entre concepts).

la propriété ”author” qui précise l’expert métier auteur de la reformulation, et la propriété

”date”, la date de celle-ci.

VI.1 Structure d’index

Candidate rule 1 Source

documentation XML

Candidate rule 2 Candidate rule 3

Candidate rule 4 Structural rule

Candidate rule 5

Candidate rule 6 Conclusion Premise

NORMALIZATION SELECTION

revision revision

revision decomposition

Figure VI.3– Processus de réécriture d’une règle candidate.

Figure VI.4– Exemple de réécriture d’une règle candidate.

R16

R17

R13 R14 R15

&sc:previousForm &sc:previousForm

&sc:subRule

The micro-slip-test shall be carried out at a

temperature between 15 and 30 C demo

structural

rule 15/02/2011

&sc:date

&sc:author

&sc:type

&sc:ruleT

ext

The temperature of the micro-slip-test must be

lesser than 30 C demo

structural

rule 15/02/2011

&sc:date

&sc:author

&sc:type

&sc:ruleT

ext

Figure VI.5– Graphe représentatif de la base des règles.

Dans le document UNIVERSITÉ PARIS 13 - SORBONNE PARIS CITÉ LIPN - UMR CNRS 7030 THESE. Pour l obtention du grade de DOCTEUR DE L UNIVERSITÉ PARIS 13 (Page 114-117)