L’annotation dans le Web sémantique - Modèles et outils d'annotations pour une mémoire personne

Le Web sémantique est l’un des cadres de recherche où l’annotation a été le plus étudié. Nous devons donc nous positionner par rapport à leurs travaux. Ceci est en plus important car nous utilisons le même terme pour désigner deux concepts différents.

L’objectif du Web sémantique est de rendre les ressources du web interprétables par la machine, contrairement à l’état actuel du Web, où les agents logiciels transmettent la sémantique du Web à l’humain, mais ne peuvent pas l’interpréter de manière autonome.

Afin d’atteindre cet objectif, les ressources du Web sont annotées avec différentes informations appelées « annotations » ou « méta-données ».

Les travaux du Web sémantique définissent l’annotation comme étant une correspondance entre les différents objets (ressources) du Web et les concepts de différentes ontologies [Plessers et al. 2004]. Une définition similaire est proposée par [Corcho et al. 2005] qui considère l’annotation comme un processus qui prend en entrée un contenu existant (un ensemble de ressources structurées ou non) et qui fournit en sortie une annotation sémantique de ce contenu. L’objet annotation résultant est une instance des concepts des ontologies existantes du domaine.

2.9.1 Les langages d’annotation du Web sémantique

Pour que les ressources du Web puissent être manipulables/interprétables par des agents logiciels [Berners-Lee et al. 2001], il ne suffit pas que ces ressources soient annotées avec une sémantique formelle. Mais il faut avoir des services capables d’exploiter et de traiter ces ressources et leurs annotations. Cela nécessite de disposer de langages afin de pouvoir :

• Exprimer les données et les méta-données;

• Exprimer les ontologies;

• Décrire les services.

• plusieurs langages d’assertions (RDF et TopicMaps) ;

• un langage de définition d’ontologies pour le Web (OWL) ;

• plusieurs langages de description et de composition de services (UDDI, SOAP et autres).

L’expression des annotations est concernée seulement par les deux premiers langages, RDF pour les décrire, et OWL pour décrire les ontologies dont les concepts sont utilisés pour annoter.

2.9.1.1 RDF : langage d’assertion

Les assertions affirment l’existence de relations entre des objets. Elles sont donc adaptées à l’expression des annotations que l’on veut associer aux ressources du Web [Charlet et al. 2003]. RDF n’est pas le seul langage d’assertions utilisé dans le cadre du Web sémantique (TopicMaps [Pepper et al. 2001] en est un autre).

RDF [W3C 2005] est un langage formel qui permet d’affirmer des relations entre des « ressources ». RDF permet d’annoter toute ressource du Web qui possède une adresse URI.

Une assertion RDF est un triplet de la forme <sujet, prédicat, objet>. Un ensemble de triplets peut être représenté par un graphe RDF où les éléments apparaissant comme sujet ou objet sont les sommets, et chaque triplet est représenté par un arc dont l’origine est son sujet et la destination son objet. Ce graphe est représenté formellement dans RDF avec une syntaxe XML.

Dans les deux figures suivantes nous donnons un exemple du même document RDF. Le premier est représenté sous forme de graphe (voir la figure suivante) et le second est sérialisée dans un document XML (voir la figure suivante [Peccatte 2006])

Figure 24 Graphe RDF

Figure 25 Versant XML du graphe RDF

La sémantique d’un document RDF est exprimée grâce à la théorie des modèles [Hayes 2004]. L’objectif est de donner des contraintes sur les mondes qui peuvent être décrits par un document RDF. L’utilisation de la théorie des ensembles pour décrire ces modèles a deux intérêts : la généricité de la notion d’ensemble (fondement des mathématiques) et son universalité (culture commune pour ceux qui vont s’intéresser à cette sémantique) [Charlet et al. 2003].

L’annotation dans le Web sémantique revient à déclarer des assertions RDF et à les représenter avec leurs syntaxes basées sur XML

2.9.1.2 OWL: langage de définition d’ontologies

Le Web Ontology Language - dit OWL - est un dialecte XML basé sur une syntaxe RDF. OWL est une logique de description qui permet de classifier des concepts et lui fournit des moyens pour définir des ontologies structurées. OWL est une logique de description (dans la lignée de DAML+OIL) conçue au dessus de RDF. OWL permet de décrire des ontologies, en définissant des terminologies qui permettent de décrire des domaines de connaissances. Une terminologie est constituée de concepts et de propriétés (aussi appelés rôles en logiques de description). Un domaine se compose d'instance de concepts et de relations.

En pratique, le langage OWL est conçu comme une extension de Resource Description Framework (RDF) et RDF Schema (RDFS) ; OWL est destiné à la description de classes (par des constructeurs) et de types de propriétés. De ce fait, il est plus expressif que RDF et RDFS, auxquels certains reprochent une insuffisance d'expressivité due à la seule définition des relations entre classes par des assertions. OWL apporte aussi une meilleure intégration, une évolution, un partage et une inférence plus facile des ontologies.

Aux concepts de classe, de ressource, de littéral et de propriétés des classes, de sous-propriétés, de champs de valeurs et de domaines d'application déjà présents dans RDFS, OWL ajoute les concepts de classes équivalentes, de propriété équivalente, d'égalité de deux ressources, de leurs différences, du contraire, de symétrie et de cardinalité...

OWL fournit un grand nombre de constructeurs permettant d’exprimer de façon très fine les propriétés des classes définies. La rançon de cette expressivité est l’indécidabilité du langage obtenu en considérant l’ensemble de ces constructeurs. C’est pour cela qu’OWL a été fractionné en trois langages distincts [Baget et al. 2004] :

OWL LITE ne contient qu’un sous-ensemble réduit des constructeurs disponibles, mais son utilisation assure que la comparaison de types pourra être calculée (un problème de NP, donc « simple » en représentation de connaissances) ;

OWL DL contient l’ensemble des constructeurs, mais avec des contraintes particulières sur leur utilisation qui assurent la décidabilité de la comparaison de types. Par contre, la grande complexité de ce langage semble rendre nécessaire une approche heuristique ;

OWL FULL, sans aucune contrainte, pour lequel le problème de comparaison de types est vraisemblablement indécidable.

OWL offre au Web sémantique une syntaxe définie strictement, une sémantique définie strictement et selon le niveau peut permettre des raisonnements automatisés sur les inférences. Les langages sur lesquels il est construit sont largement interprétables, beaucoup d'applications savent déjà manipuler le XML, et le RDF est un standard bien répandu. Le partage et l'échange dans ses formats en sont d'autant plus faciles.

2.9.2 Comparaison des annotations du Web sémantique avec les annotations de l’enseignant sur papier

Un des cadres où l’annotation a été le plus étudié est celui du Web sémantique, car elle représente un élément fondamental dans son architecture. Même si nous utilisons le même terme de l’annotation, les travaux du Web sémantique et nos travaux font références à deux concepts différents. C’est pour cette raison qu’il nous est important de positionner et de comparer l’annotation dans les deux cadres. Pour effectuer cette comparaison, nous réutilisons les critères définis précédemment (Voir 2.7.1) :

• Annotation cognitive : les annotations du Web sémantique destinées à une utilisation computationnelle exclusive, ne possèdent pas de formes graphiques visibles à l’humain, elles ne sont pas cognitives. Les annotations sur papier par contre, sont destinées à une réutilisation ultérieure par leur propre créateur même ou par d’autres lecteurs (collègues, élèves…), ces annotations sont donc cognitives.

• Annotation computationnelle : les annotations du Web sémantique sont destinées à être utilisées par des agents informatiques, elles sont donc computationnelles. Les annotations sur papier par contre sont destinées à être réutilisées par l’enseignant lui-même ou d’autres agents humains, elles ne sont donc pas computationnelles.

• annotation sémantique : les annotations du Web sémantique ont une sémantique formelle informatique grâce aux ontologies qui structurent cette sémantique. Les annotations sur papier par contre, n’ont pas de sémantique formelle, elles ne sont donc pas sémantiques.

Nous résumons cette comparaison dans le tableau suivant

Propriétés de l’annotation Web sémantique Annotation papier

Cognitive Non Oui

Computationnelle Oui Non

Sémantique Oui Non

2.10 De l’annotation personnelle à l’annotation partagée

Selon [Marshall 1998], nous pouvons distinguer dans l’annotation personnelle celle qui est privée, qui concerne une seule personne et qui n’est pas destinée aux autres personnes, et celle qui est publiée qui représente une annotation personnelle destinée et/ou accessible aux personnes (par exemple les collègues de travail ou les élèves).

Selon Marshall, la plupart des annotations ne sont pas strictement privées, ainsi le fait d’emprunter un livre à une autre personne transforme toutes les annotations contenues dedans de privées en publiées même si la plupart des annotateurs n’annotent que des annotations destinées à eux-mêmes sans faire l’effort d’expliciter leurs annotations pour les autres personnes.

Marshall affirme que les annotations des autres personnes ont une grande importance pour les lecteurs[Marshall 1997]. En effet, la lecture d’un document annoté par quelqu’un d’autres, offre plusieurs avantages, parmi eux : d’abord, l’aide à comprendre le document, car l'annotateur l'a interprété et l’a reformulé. Ensuite, l’identification de ce qui est important dans le texte. Après, l’annotation favorise la communication entre deux personnes. Elle permet le transfert de connaissances non formalisées et enfin, l’annotation contribue à la constitution d’une compréhension partagée et mutuelle du document entre plusieurs personnes.

[Nejdl et al. 2002] a même identifié quatre (4) paramètres dont dépendent la valeur d’une annotation partagée. Ces paramètres sont :

1. le degré d’explicité de l’annotation : une note explicite est meilleure qu’un simple astérisque tacite. Un commentaire est préféré à un astérisque…

2. l’identité de l’annotateur (le prof, étudiant doué…) et sa qualité. 3. les notes prises en classe ont plus de valeur.

4. les annotations négatives ont plus d’influence sur le lecteur que celle positive

Le problème qui se pose dans le cas du partage des annotations est celui de la compréhension des annotations créées par une autre personne (l’intelligibilité des annotations [Marshall 1997]). Ceci est dû au fait que les annotateurs ne veulent pas faire l’effort d’expliciter leurs annotations. Ce manque d’explicitation rends les annotations des autres difficilement interprétables alors que dans le partage la capacité d’interpréter les annotations est un point fondamental [Marshall 2001].

Dans le document Modèles et outils d'annotations pour une mémoire personnelle de l'enseignant (Page 89-93)