Langages de représentation d’ontologies - Représentation de la carte de thèmes

carte de thèmes

5.2. Démarche pour une construction sur mesure

5.2.4. Représentation de la carte de thèmes

5.2.4.1. Langages de représentation d’ontologies

Dans son effort de structuration du Web pour l’interopérabilité des systèmes, le WS a mis en place des recommandations de langages d’assertion qui permettent de mettre en relation des données formelles et donc de représenter des ontologies (Baget et al., 2004), sous un format standardisé. Les connaissances contenues dans les ontologies sont utilisées pour enrichir le contenu des documents et pour les indexer par rapport à leur contenu. Ainsi, les langages de représentation d’ontologies permettent aux agents logiciels ou humains de communiquer et d’accéder au contenu des documents. Les recherches automatiques d’information menées par les agents logiciels sont améliorées par l’utilisation de ces connaissances ajoutées au document, par le biais des inférences logiques sur des connaissances existantes. Les agents humains sont aidés dans leur activité de navigation qui sera guidée par le contenu du document.

(1) N se V Adv.

(2) Il est Adj. de V-er N (3) V-er N est Adj. (4) N est Adj. à V-er

163 Les langages proposés par le WS proposent divers niveaux de formalisation, certains permettent juste de décrire des concepts et leurs propriétés, d’autres permettent des inférences logiques complexes. Parmi les langages proposés pour représenter les ontologies et qui permettent de déduire des connaissances à l’aide des calculs, on peut mentionner RDF, qui est un standard du W3C (Lassila et Swick, 1999) RDFS (Brickley et Guha, 2004), ou OWL (McGuinness et Van Harmelen, 2004). Dans la catégorie de langages de représentation adaptés à la navigation on peut mentionner une norme ISO, Topic Maps (Biezunski et al., 1999) dont la syntaxe XTM (Pepper et Moore, 2001), a été mise en place en 2001.

Tous ces langages permettent de définir des concepts, avec leurs propriétés et leurs relations avec les autres concepts. Les relations peuvent être hiérarchiques (est-un) ou horizontales (relation script, co-occurrence). Pour pouvoir faire des inférences sur ces connaissances (utiliser des propriétés héritées d’un concept plus générique ou déduire des relations qui ne sont pas définies explicitement entre deux concepts), il faut décrire les propriétés des concepts et les relations d’une manière très précise et détaillée. L’intervention d’un expert est nécessaire pour vérifier les incohérences. Or, dans notre contexte, la mise à jour de la CT se fait par des utilisateurs qui ne sont pas ontologistes. De plus, l’objectif de notre outil est de faciliter la communication entre les agents humains, donc nous pouvons nous contenter d’une description des connaissances assez souple et peu détaillée. Parmi les formalismes proposés pour faciliter la navigation, le formalisme des Topic Maps nous semble adapté à notre situation et il sera présenté en détail.

Topic Navigation Maps

Le formalisme Topic Maps (TM) (Norme ISO, Biezunski et al. 1999) naît dans les années 90 de travaux sur la gestion des index en documentation et, en 2001, est adopté comme la norme ISO 13250. TM est créé pour permettre d’indexer un ensemble de ressources informatives afin de permettre leur récupération. Une carte de connaissances (TM) met en valeur les relations entre des sujets (topics) dans un certain point de vue (scope). Chaque sujet est aussi relié à ses occurrences (dans les documents), à son nom, à son type… Il y a donc plusieurs types d’assertion en TM, liées aux caractéristiques du sujet. L’assertion minimale en TM est la déclaration du nom d’un sujet (Voir Fig. 40), mais il est aussi possible d’assigner des occurrences trouvées dans un document à un sujet, ou encore des associations avec d’autres sujets (Voir la même figure). Les associations sont typées

164 librement et chaque association possède un rôle qui permet de différencier par exemple le rôle de Mémé Talon par rapport à celui de Dieudonné Corydon dit Alambic dans leur filiation avec Achille Talon. D’une façon plus large, c’est ce rôle qui permettrait de différencier la relation entre deux pages Web de la relation entre une page Web et un lecteur humain.

165 Nous présentons ici les avantages liés à l’utilisation du formalisme TM pour représenter notre carte de thèmes. Le formalisme TM propose de déclarer un sujet et de l’associer à d’autres sujets ou encore d’illustrer un topic par son utilisation concrète dans un document. De plus, TM simplifie la déclaration des associations puisqu’il permet de faire des associations multiples (où les rôles sont supérieurs à deux) sans passer par des déclarations intermédiaires comme dans les langages dérivés du RDF, ce qui permet plus de souplesse, même si la structuration paraît moins calculable. Les membres du groupe projet seront donc en mesure de mettre à jour la carte sans difficultés.

De plus, la norme TM a été définie dans un objectif de gestion de descripteurs même si cet objectif a été élargi à l’indexation. Un accent a donc été porté sur la signification de l’assignation d’une ressource type URI. En effet, L. Garshol (2003) souligne que cette URI peut aussi bien indiquer la ressource dans laquelle on trouve l’objet, que la ressource indexée par l’objet. Est-ce que « http://www.dargaud.com/front/albums/ series/ serie.aspx? id=1608 » indique la ressource que nous obtenons en suivant cette URI, soit une page chez Dargaud, ou l’objet décrit par cette ressource soient les différents albums d’Achille Talon ? Les URIs étant utilisées dans les deux cas, TM différencie les subject addresses qui identifient la ressource, des subject identifiers qui identifient tout ce qui est décrit par la ressource. De plus, les ressources associées à chaque sujet contiennent des occurrences de ces sujets ce qui permet aux utilisateurs d'avoir une interprétation partagée associée au sujet.

Enfin, TM fournit une possibilité de qualifier les assertions selon un contexte de validité ; ce sont les scopes (points de vue). Toute assertion (nom, occurrence, association) possède un point de vue (par défaut un unconstrained scope). Par exemple, l’association ternaire présentée Fig. 41, n’est vraie que dans un scope fiction alors qu’une association identique avec Greg peut être interprétée comme auteur grâce au scope réalité. Ainsi, plusieurs points de vue peuvent co-exister en TM.

Selon ces trois points, nous pouvons considérer que les TM sont pertinentes pour notre projet. Non seulement par la souplesse de déclaration qu’elles permettent, mais aussi par leur optimisation pour la navigation, la carte de connaissances ou la TM permettant à l’utilisateur une navigation simple et complète dans les concepts couverts par les ressources indexées. De plus, TM étant une norme ISO, nous pouvons garder en vue l’objectif d’interopérabilité recommandée par le WS.

166

Fig. 41. ASSOCIATIONS SELON DES POINTS DE VUE EN TM

Notre carte de thèmes est utilisée dans le but d’aider l’utilisateur à naviguer dans la base d’annotations et non de construire automatiquement une représentation sémantique du contenu d’un document. Le formalisme TM définit un réseau de sujets couvrant des connaissances de domaine. Pour notre application, les sujets vont être des termes fréquents identifiés dans le corpus de référence. Les sujets (topics) sont définis par de simples URLs, qui gardent les occurrences associées, pour clarifier l’emploi d’un terme. Ces occurrences sont extraites par les outils présentés ci-dessus à partir du corpus de référence et représentent les contextes des sujets trouvés dans les documents.

Les sujets sont reliés par des associations entre les termes qui correspondent aux relations identifiés dans le corpus (relations d'hyperonymie, relations horizontales partie de, utilisé par). Puisque les TMs sont conçues pour soutenir l’utilisateur dans sa navigation Web, nous avons adopté ce formalisme pour représenter notre CT.

167 La CT représentée en TM est construite semi-automatiquement du corpus étiqueté par Syntex. Le tableau suivant (Tab. 10) répertorie les patrons d’extraction de termes et leur structuration en relations et en un certain nombre de points de vue de base que l’utilisateur peut étendre.

Tab. 10. PATRONS D’EXTRACTION ET STRUCTURATION EN TM

Point de Vue Topic Patron d’extraction des termes

Temps

NomXXDate

="lundi, mardi, mercredi, jeudi, vendredi, samedi, dimanche"

l="janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre"

Prep NomXXHeure

l="délai, échéance, disponibilité, réunion, créneau, vacances, week-end, demi-journée"

Prep= l="dès" Lieu ^NomXXAdr

NomXXMail Planification

Financière

lemmes="budget, commande, remboursement, facture, subvention, prix, coût, compte, devis, facturation, achat, versement, tarif, RIB, financement, refacturation, paiement"

lemmes="commander, facturer, financer " NomXXMon Organisation Collaborateur Organisme Fonction NomXXTitre NomPrXXPrenom NomPrXXInc ???NomPr??? | ???NomPrXXInc???

Lemmes=chef de projet, ingénieur, étudiant, concepteur

168 Point de Vue Topic Patron d’extraction des termes

Domaine N O N O N N O N D N A D N NP D N O N D A N D N A O N NP A N O N A N N N NP NP O N O N NP Cc NP NP Cc NP N N A NP N D N O N Cc N O N O D N D N O D N O N D N D N A NP D N

169 Point de Vue Topic Patron d’extraction des termes

Argumentation accord démonstration désaccord explication justification confirmation décision mise au point modification proposition récapitulatif suggestion vérification définition commentaire

avis, besoin, choix, critique, difficulté, discussion, doute, ennui, erreur, manque, problème, question, réaction, recherche d’accord, remarque, renseignement, réponse, solution

Dans le document Médiatiser l'annotation pour une herméneutique numérique : AnT&CoW, un collecticiel pour une coopération via l'annotation de documents numériques (Page 183-190)