Les dimensions de l’annotation sémantique

Première partie. Etat des lieux autour

Chapitre 1. L’annotation et le Web Sémantique

1.1 L’annotation sémantique

1.1.2 Les dimensions de l’annotation sémantique

Dans les années 90, Marshall s’est intéressée aux annotations créées par des étudiants dans leurs livres de cours universitaires [MAR 98a] [MAR 98b]. Dans cette étude, il apparaît que les étudiants ont de nombreuses ressources à leur disposition pour annoter leurs livres de cours, comme des surligneurs, des stylos, des crayons, etc. Leurs annotations consistaient à ajouter des notations symboliques ou de longs commentaires en langage naturel. Ils écrivaient aussi bien dans les marges, entre ou sur les lignes des pages, dans les couvertures. Ils pouvaient aussi bien encercler ou surligner les différents passages qu’ils jugeaient importants comme des chapitres entiers, des sections ou sous-sections, des paragraphes, des phrases ou tout simplement un mot. Ainsi, les annotations varient en fonction des utilisateurs, de l’objet annoté et du but de l’annotation.

De cette étude, Marshall a distingué sept dimensions permettant de caractériser les annotations de ressources documentaires [MAR 98a]. Le Tableau 1 présente les résultats de cette étude avec en perspective l’application de ces dimensions à l’annotation sémantique de ressources numériques, que ces dernières soient disponibles sur le Web ou sur un réseau d’entreprise. L’analyse de Marshall concluait que les annotations liées aux ressources documentaires traditionnelles, c'est-à-dire sur support « papier », sont généralement personnelles, informelles, intensives, transitoires et privées [MAR 98 a]. A contrario, les annotations de ressources numériques sont créées dans un monde documentaire où ces ressources ont pour vocation d’être partagées et exploitées par des utilisateurs divers et variés. Ceci se répercute sur leurs annotations qui sont alors les plus formelles possibles, hyper-extensives, permanentes, globales et publiques.

Dimension Analyse effectuée par Marshall Analyse des annotations sémantiques Formelle

versus informelle

Les annotations informelles sont celles écrites en langage naturel dans la marge du document alors que les annotations formelles prennent la forme de métadonnées structurées par l’utilisation d’un langage standard définissant un ensemble de conventions de nommage et de valeurs par défaut. Ces annotations formelles permettent d’assurer l’interopérabilité entre les différentes annotations qui suivent ce standard et leur interprétation par des outils qui implémentent ce même standard

Différents langages, plus ou moins formels selon les langages de représentation de la connaissance utilisés, permettent de représenter des annotations sémantiques.

Tacite versus

explicite ^{Les annotations personnelles sont très}souvent tacites (un passage souligné ou une marque allusive comme un point d’exclamation par exemple). Elles posent des problèmes d’interprétation pour les autres utilisateurs que l’auteur de l’annotation. Plus les annotations ont pour but d’être partagées avec d’autres utilisateurs, plus elles doivent être explicites.

Les ressources numériques, tout comme leurs annotations, ont souvent pour but d’être partagées entre divers utilisateurs. Par conséquent, les annotations doivent être les plus explicites possibles et pour ce faire, s’appuyer sur des langages formels afin de pouvoir désambiguïser le contenu des documents.

Ecriture

versus lecture ^Lesreprésenter ânnotationsune aide ôscillentou êntreune explication à la lecture du document ou bien constituer une nouvelle forme d’écriture en tant que telle, ajoutant du sens au texte écrit.

Les annotations de ressources numériques représentent non seulement une aide à la lecture de la ressource annotée, mais plus encore à la recherche de ces ressources. Elles permettent également de générer de nouvelles instances de connaissances pouvant être stockées et réutilisées par diverses applications informatiques.

Hyper-extensive versus extensive versus intensive

Une annotation hyper-extensive est une annotation de surface (structurée, un peu à la manière d’un lien hypertexte) alors qu’une annotation dite « intensive » est une annotation de fond (un commentaire descriptif par exemple). Les annotations dites « extensives » représentent un intermédiaire entre ces deux distinctions.

Les annotations sémantiques exploitent surtout l’hyper-extensivité, notamment par l’utilisation des liens hypertextes pour le référencement et l’adressage.

Permanente versus transitoire

Certaines annotations ne sont utiles qu’à son auteur à un moment donné alors que d’autres peuvent perdurer tout en gardant leur valeur ajoutée aussi bien pour l’auteur que pour d’autres utilisateurs

Comme l’objectif premier des annotations sémantiques est le partage et la réutilisation, elles sont donc préférablement permanentes plutôt que transitoires. Mais d’un autre côté les documents numériques sont plus sujets à modification que les documents papiers, surtout les pages Web. Les annotations sémantiques doivent alors évoluer en fonction du contenu modifié

Publique

versus privée ^Lesdestinées à rester dans l’intimité d’un ^annotations ^peuvent ^être auteur, qui y consigne ses impressions de lecture par exemple, ou au contraire à être divulguées à de multiples utilisateurs. Ces utilisateurs pourront à leur tour compléter les annotations produites par l’auteur initial

Les annotations sémantiques ont principalement une visée publique, notamment lorsque les ressources documentaires associées sont mises en ligne sur le Web. Néanmoins, un utilisateur peut désirer créer des annotations sémantiques pour son usage personnel

Globale versus institutionnelle

versus personnelle

Les bénéfices attendus des annotations créées varient en fonction des groupes d’utilisateurs qui exploiteront ces annotations.

Dans le cadre du Web Sémantique, les utilisateurs ne sont plus seulement des humains, mais aussi des machines, des agents logiciels. La portée de ces annotations est donc plus institutionnelle, voire globale, que personnelle.

Tableau 1. Analyse de l’annotation sémantique de documents numériques en perspective avec les sept dimensions déterminées par Marshall dans [MAR 98a]

Aux dimensions définies ci-dessus, Prié & Garlatti [PRI 04] ajoutent d’autres dimensions permettant de caractériser plus finement la spécificité des annotations de ressources documentaires numériques. Ces dimensions comprennent la nature des ressources documentaires, la structuration des modèles formels utilisés pour l’annotation, l’automatisation de la création des annotations, leur stockage vis-à-vis de la ressource annotée et l’utilisation de ces annotations par les agents logiciels. Nous allons revenir sur chacune de ces dimensions afin d’en préciser le sens et leur impact sur les annotations sémantiques.

1.1.2.1 La nature des ressources documentaires

Comme nous l’avons dit plus haut, une ressource documentaire peut correspondre à l’ensemble d’un document ou à un fragment de celui-ci. Mais cette ressource peut contenir des informations de natures différentes : du texte, des images, du son, de la vidéo, etc. D’autre part, même un texte peut être plus ou moins structuré. Cette nature de l’information peut jouer un rôle prépondérant dans la constitution et la création des annotations sémantiques. Par exemple, dans le cadre d’un texte non structuré, il peut être fait appel aux méthodes et techniques initiées par le domaine du traitement automatique du langage naturel (TALN). Dans la suite de ce mémoire, nous nous intéressons uniquement aux ressources documentaires de nature textuelle, structurées ou non.

1.1.2.2 La structuration des modèles formels utilisés pour l’annotation

sémantique

Les modèles formels utilisés pour l’annotation sémantique peuvent être plus ou moins structurés. Le standard DublinCore, évoqué précédemment, peut être utilisé, même si les valeurs de ces descripteurs renvoient généralement à des chaînes de caractères non normalisées, cf. Figure 2.

Figure 2. Exemple d’une annotation utilisant le descripteur « dc:sujet » du DublinCore pour annoter le contenu du document source

Les valeurs de ces annotations sont en langage naturel. Elles ont donc l’inconvénient d’être surtout exploitables par des utilisateurs humains et moins par des machines. Analyser une expression en langage naturel est une tâche très complexe pour une machine. Traditionnellement [NAZ 05] [NAZ 06], l’analyse linguistique d’un texte est découpée et organisée en différents niveaux relevant de la structure interne des mots (morphologie), de leur organisation en groupes de mots et en phrases (syntaxe), de l’analyse du sens des mots et des phrases (sémantique) [SOW 00]. Un dernier niveau peut être ajouté, celui de la pragmatique qui est l’étude de l’interprétation en contexte en fonction des

Le clan Coppola Francis Coppola est né le 7 avril 1939 à Detroit, dans le Michigan. …

Date et lieu de naissance du réalisateur Francis Ford Coppola et autres informations relatives à sa naissance Document source Valeur de l’annotation Propriété de l’annotation dc:sujet

connaissances générales du monde et de la situation de communication, mais que nous occulterons ici car trop difficile à traiter informatiquement [WEH 97]. Ainsi, la complexité de l’analyse linguistique est décomposée en un ensemble de problèmes réputés plus simples selon le précepte cartésien [FUC 93]. Chaque niveau de l’analyse linguistique génère un ensemble d’annotations (au sens général du terme, i.e. où de l’information est ajoutée au document textuel afin d’en caractériser son contenu ou sa forme). Ici, chaque annotation représente le résultat d’un niveau donné de l’analyse linguistique et peut être exploitée par le niveau suivant de l’analyse. Ces annotations sont aussi appelées étiquettes dans la mesure où chaque niveau d’analyse attache directement un ensemble d’étiquettes prédéterminées à chaque unité textuelle traitée [HAB 05]. Un exemple d’annotations générées⁵ à chaque niveau d’analyse linguistique est donné dans la Figure 3.

L’analyse sémantique est au cœur de tous les mécanismes de compréhension de la langue, permettant d’analyser, de traduire et d’interpréter les phrases et plus globalement les textes. Le lexique joue un rôle central dans la résolution des ambiguïtés et des exceptions liées à cette analyse sémantique – deux problèmes majeurs pour le TAL [NAZ 06]. Parmi les ressources lexicales disponibles aujourd’hui, citons WordNet [FEL 98] ou Memodata [DUT 03].

Deux grandes familles de formalismes sont utilisées pour construire les représentations sémantiques : d’une part les structures comme les frames, les réseaux sémantiques ou encore les graphes conceptuels [SOW 00] et d’autre part les formalismes logiques, avec notamment l’utilisation de la logique des prédicats, dite aussi logique du premier ordre ou logique classique [BOU 98]. Toutefois de nombreux phénomènes échappent à la logique classique, comme le rapport au temps, l’action, les modalités (nécessaires, possibles, contingentes), les croyances, les commandements et interrogations, etc. Pour tenter de caractériser plus finement les liens sémantiques qui unissent le prédicat à ses divers arguments, certains chercheurs et en particulier Fillmore, préconisent l’utilisation de grammaires de cas [FIL 68]. Mais en pratique, il s’est avéré extrêmement difficile de mettre en œuvre de façon opératoire une théorie des cas sémantiques, dès lors que l’on s’éloigne de petits schémas de phrases simples « sujet – verbe – complément » [FUC 93].

La très grande majorité des systèmes de TAL ont adopté une approche séquentielle bien qu’elle soit quelque peu théorique en raison des multiples ambiguïtés de la langue [CHA 05]. Par ailleurs, comparativement à la morphologie et la syntaxe, les travaux en sémantique n’ont pas atteint le même niveau de développement. Le niveau sémantique est beaucoup plus complexe à décrire et à formaliser que les précédents. Aussi les réalisations opérationnelles sont-elles plus difficiles à réaliser, et concernent-elles des applications très limitées où l’analyse sémantique se réduit de fait à l’analyse d’un domaine parfaitement circonscrit [FUC 93]. Par ailleurs, comme le souligne Habert [HAB 05], « Les résultats de la plupart des annotations fournies jusqu'à présent relèvent de formats propriétaires. Ils ont été développés pour les sorties d'un logiciel déterminé et ne sont pas prévus a

5 L’analyse morphologique a été réalisée avec l’outil PILAF, dont un démonstrateur est en ligne sur le site http://www-clips.imag.fr/geta/User/damien.genthial/Pilaf/analyse.html. L’analyseur syntaxique est disponible sur la page personnelle, http://www.lirmm.fr/~chauche/ExempleAnl.html, de Jacques Chauché, chercheur au LIRMM.

priori pour faciliter les échanges et le travail en aval ». Il est donc absolument crucial de disposer d’un format de représentation standard, consensuel et formel afin que les annotations puissent être créées, exploitées et maintenues par différents utilisateurs, qu’ils soient humains ou logiciels.

Figure 3. Exemple d’annotations générées aux différents niveaux morphologique, syntaxique et sémantique d’une analyse linguistique

Une ontologie, telle que définie dans le cadre de l’Ingénierie des Connaissances, représente à la fois cet objet de consensus pour les humains et un objet formel permettant son exploitation par un agent

Le clan Coppola

Francis Coppola est né le 7 avril 1939 à Detroit, dans le Michigan. …

à Détroit

Dans le document Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d'une plateforme logicielle (Page 34-38)