L’importance des annotations

(1)

Application à la classification des documents du web

Laurent Denoue — Laurence Vignollet

Equipe Systèmes Communicants (SysCom) Université de Savoie

F-73376 Le Bourget du Lac cedex, France

{Laurent.Denoue, Laurence.Vignollet}@univ-savoie.fr

RÉSUMÉ. L’usager du web se retrouve perdu dans son propre espace d’information, matérialisé en général par des signets ou bookmarks. Une classification automatique des documents semble à cet égard intéressante. Nous proposons un outil d’annotation permettant à l’utilisateur de personnaliser les documents. Nous montrons que le Document Object Model et Dynamic HTML sont nécessaires pour construire des outils d’annotation performants. Nous comparons ensuite des algorithmes de classification automatique utilisant d’une part les annotations, et d’autre part le texte intégral des documents. Nos résultats montrent que les classifications basées sur les annotations sont à la fois plus rapides et plus justes que celles basées sur le texte intégral des documents.

ABSTRACT. Users are lost in their own information space when they use current bookmark programs and automatic classification becomes important. Our approach is to use a web annotation tool so that users can personalise the documents they read. We show how the Document Object Model and Dynamic HTML are required to build efficient annotation tools.

We then compare clustering algorithms when using the annotations or the fulltext of the documents. Our results show that annotation-based clustering is faster and provides better clusters than fulltext-clustering.

MOTS-CLÉS : annotation de documents, création de métadonnées, indexation automatique, classification automatique non supervisée.

KEY WORDS : document annotation, metadata creation, automatic indexing, clustering.

(2)

1. Introduction

Deux études récentes montrent que l’utilisation des signets est un des problèmes majeurs rencontré par les utilisateurs du web [ABR 98 ; COC 99]. Notamment, les utilisateurs ont du mal à organiser les documents qu’ils lisent. Des techniques de classification automatique de documents ont été appliquées sur des pages web mais les résultats sont sensiblement inférieurs à ceux normalement obtenus en classant des types de documents plus homogènes comme des articles de journaux ou des nouvelles issues des serveurs de nouvelles¹ [WEI 96].

Nous proposons d’enrichir les signets en permettant à l’utilisateur d’annoter les pages web lues en surlignant certaines parties. Les intérêts pour l’utilisateur sont multiples. Les annotations facilitent tout d’abord la compréhension et la relecture d’un document déjà annoté [MAR 98]. Précisément, surligner des phrases permet à l’utilisateur de construire une représentation interne du texte [OHA 97].

De nombreux outils d’annotation ont été proposés pour annoter le web. Mais, en voulant favoriser le partage des annotations, ces outils oublient que les annotations témoignent essentiellement d’un engagement personnel du lecteur avec un document [MAR 98 ; CAD 00]. De plus, alors qu’un outil d’annotation ne devrait pas perturber l’activité principale de lecture [OHA 97], les interfaces utilisateur de ces outils sont souvent trop contraignantes pour l’utilisateur. Dans la section 2, nous décrivons ces architectures et expliquons l’intérêt du Document Object Model niveau 2 [W3C 99a]

pour construire des outils d’annotations plus adaptés. Nous présentons alors une implantation de ces concepts au travers de notre outil d’annotation Yawas.

Au-delà des avantages immédiats apportés par un outil d’annotation, nous montrons que les mots surlignés améliorent la classification automatique des documents annotés. Les annotations permettent également de construire des résumés personnalisés de chaque document. La section 3 présente nos expériences de classification automatique de 424 documents annotés grâce à Yawas. Alors que l’approche traditionnelle consiste à indexer le texte intégral des documents, nous montrons que les classifications produites par un algorithme de classification hiérarchique ascendante sont invariablement meilleures lorsque les documents sont représentés par la liste de leurs phrases surlignées.

Enfin, la section 4 conclut et présente quelques applications possibles des annotations comme la classification supervisée, l’extension automatique de requêtes en vue d’améliorer la précision d’un moteur de recherche, la construction de résumés basés sur les annotations et l’amélioration des outils de navigation sur l’internet.

1. Pour le terme anglais « newsgroups ».

(3)

2. Les outils d’annotation du web

Tous les outils permettant d’associer un commentaire à une page web entière pourraient être vus comme des outils d’annotation. Toute page web incluant des liens hypertextes vers d’autres pages constitue également un exemple d’annotations. Nous nous intéressons ici aux outils permettant d’attacher une annotation à un passage textuel précis dans un document.

[VAS 99] analyse l’architecture de ces outils d’annotation pour le web. Il suggère déjà que le Document Object Model (DOM) niveau 2 pourrait améliorer la conception des outils d’annotation pour le web. Dans ce qui suit, nous décrivons les défauts des outils d’annotation actuels et montrons pourquoi le DOM est en effet nécessaire à la conception d’outils d’annotation performants.

2.1. Les limites des outils actuels

Un outil d’annotation est généralement composé de trois modules : un module de visualisation des annotations existantes, un module de création de nouvelles annotations et un module de stockage des annotations. Une annotation se décompose elle-même en deux parties 1) d’une ancre, permettant sa localisation dans le document et 2) d’attributs, comme par exemple un commentaire libre et le nom de l’auteur de l’annotation. Seuls les outils d’annotation permettant d’annoter des parties de documents sont discutés ici.

2.1.1. La visualisation des annotations

Dans la plupart des outils d’annotation, le module de visualisation est placé entre le navigateur et l’internet [VAS 99]. Son rôle d’intermédiaire est d’inclure les annotations dans le document original avant sa visualisation dans le navigateur.

Comme la plupart des navigateurs sont configurables pour utiliser un proxy [BAR 99], le module de visualisation a souvent été réalisé sous cette forme. Les proxies ont toutefois plusieurs limites.

Lorsque l’utilisateur charge un document local (i.e. stocké sur son disque dur), le proxy n’est pas contacté, rendant ainsi impossible l’annotation des documents locaux. Pour inclure les annotations dans le document d’origine, le proxy analyse son contenu et recherche les parties à modifier. A notre connaissance, aucun outil d’annotation n’analyse les scripts Javascript alors qu’ils modifient souvent le contenu des documents. Enfin, le proxy doit être modifié pour accepter les nouveaux standards comme XML [W3C 99b].

Un autre inconvénient des proxies concerne la confidentialité. Positionné entre le navigateur et l’internet, le proxy connaît en effet chaque document lu. Une approche originale a été proposée dans CritLink [YEE 98]. Aucune configuration particulière du navigateur n’est nécessaire et la plupart des navigateurs actuels peuvent utiliser cet outil. Le principe de CritLink consiste à préfixer chaque URL par http://crit.org.

(4)

Ainsi, la version annotée de http://www.univ-savoie.fr est donnée par http://crit.org/http://www.univ-savoie.fr. Quand le serveur de CritLink est contacté, 1) il recherche le document demandé sur l’internet, 2) il ajoute les annotations qui lui sont attachées et 3) il modifie tous les liens de cette page en les préfixant par http://crit.org. Cette dernière étape assure que toutes les requêtes ultérieures seront d’abord transmises au serveur de CritLink. Pour désactiver l’outil d’annotation, l’utilisateur supprime simplement le préfixe http://crit.org/ devant l’URL du document courant.

2.1.2. La création de nouvelles annotations

Les limites des proxies deviennent plus gênantes lorsqu’il s’agit de créer de nouvelles annotations. Le proxy n’a aucun contrôle sur les documents chargés dans le navigateur. Quand l’utilisateur surligne une phrase à annoter, le système doit l’identifier dans le document. Le texte seul n’est d’ailleurs pas suffisant car il peut apparaître plusieurs fois dans un même document. Plusieurs méthodes ont été expérimentées. Certains outils demandent de « coller » manuellement le texte à annoter dans une boîte de dialogue et s’assurent qu’il n’apparaît qu’une seule fois dans le document complet [YEE 98]. D’autres systèmes utilisent un éditeur HTML séparé, pour que l’utilisateur modifie le texte à annoter. En calculant la différence entre la version annotée et le document original, le système localise alors les annotations. Ces outils sont trop contraignants pour l’utilisateur car l’annotation doit rester rapide et intimement liée à la lecture [OHA 97].

2.1.2. Le stockage des annotations

Le dernier module stocke les annotations. Parce que la plupart des outils actuels ont été pensés pour un usage coopératif, les annotations sont généralement stockées sur un serveur accessible à distance. La notion de droit d’accès aux annotations – à savoir publiques, privées ou accessibles à un groupe d’utilisateurs – est généralement prévue. Pour des raisons de confidentialité, il serait intéressant d’offrir la possibilité aux utilisateurs de stocker leurs annotations privées sur des serveurs en qui ils ont confiance, par exemple leur propre poste de travail. De plus, stocker toutes les annotations sur un serveur distant implique de nombreuses communications entre les clients et le serveur, ralentissant d’autant la visualisation et la création des annotations.

2.2. Le Document Object Model niveau 2

Malgré les désavantages des proxies, de nombreux outils d’annotation les utilisent car ils offrent l’avantage de fonctionner avec la plupart des navigateurs actuels. Mais aujourd’hui, même s’ils ne fonctionnent encore qu’avec certains navigateurs, le Document Object Model niveau 2 et le Dynamic HTML permettent de concevoir des outils d’annotation très performants. De nombreux outils comme ThirdVoice [THI 99], iMarkup [IMA 99], Expression-net [EXP 99] et webvise [GRO 99] en témoignent.

(5)

Le Document Object Model (DOM) est une interface de programmation permettant l’accès aux éléments d’un document et leur manipulation [W3C 99a]. Il existe aujourd’hui une instance du DOM pour les documents HTML et une autre pour les documents XML [W3C 99b]. Comparé à sa version précédente, le DOM niveau 2 introduit l’objet « range ». Un range représente une partie d’un document, par exemple le texte sélectionné par l’utilisateur. L’avantage de cette technologie pour un outil d’annotation est immédiat : à travers l’objet « range », l’emplacement exact de l’annotation est localisé, même lorsque ce texte apparaît plusieurs fois.

L’outil d’annotation peut changer dynamiquement le contenu du document sans avoir à recharger le document. Par ailleurs, les spécifications du DOM pour les documents XML étant très proches de celles utilisées pour HTML, l’outil d’annotation supporte naturellement ce nouveau standard.

Pour utiliser le DOM, l’outil d’annotation doit toutefois accéder à son interface.

La possibilité pour un programme d’accéder au DOM du document chargé dans un navigateur pour manipuler dynamiquement son contenu est souvent connue sous le terme Dynamic HTML (DHTML). Historiquement, seuls les scripts comme JavaScript avaient la possibilité d’accéder au DOM. Cette technique est utilisée par les outils d’annotation CritLink [YEE 98] et InterNote [VAS 99]. Mais aujourd’hui, les nouveaux navigateurs comme Internet Explorer fournissent une interface d’accès au DOM à des applications externes au navigateur. Tout comme les scripts JavaScripts, ces applications peuvent donc modifier les documents chargés dans le navigateur. Le W3C travaille actuellement sur la standardisation du DOM [W3C 99a].

2.3. Présentation de Yawas (Yet Another web Annotation System)

Nous présentons ici notre implantation de Yawas, un nouvel outil d’annotation de documents du web écrit en Java et JavaScript. Considéré comme un prototype, cet outil a permis 1) de mesurer l’intérêt du DOM et de DHTML dans la conception d’outils d’annotation, 2) d’évaluer l’utilité des annotations dans la compréhension d’un document électronique et 3) de générer – sur une période de plus d’une année – des annotations qui seront utilisées pour classer automatiquement les documents annotés.

Ayant constaté les limites des outils actuels, Yawas a été réalisé avec les caractéristiques suivantes :

– l’utilisateur peut surligner et annoter des parties d’un document ;

– les annotations sont stockées localement pour garantir la confidentialité et accélérer la vitesse d’exécution ;

– les documents locaux et distants peuvent être annotés ;

– les documents aux formats TEXT, HTML et XML peuvent être annotés ; – les attributs des annotations (métadonnées) sont personnalisables.

(6)

L’architecture de Yawas, détaillée dans [DEN 00], se décompose en deux couches logicielles. La première inclut les scripts qui ont accès au DOM : ils se chargent d’intercepter les requêtes de l’utilisateur et de modifier les documents.

Cette couche est actuellement très dépendante du navigateur et du système d’exploitation. La seconde couche gère le stockage et la recherche des annotations.

Elle comprend également le module de classification automatique décrit en section 3. Cette couche est réalisée en Java, la rendant indépendante de tout navigateur et système d’exploitation. Les deux couches communiquent en utilisant le protocole standard HTTP. Ainsi, la seconde couche peut être installée en local ou sur un ordinateur distant. Plusieurs utilisateurs peuvent ainsi partager un même serveur d’annotations.

Les principales fonctions de Yawas sont les suivantes.

– Ajouter une annotation : l’utilisateur surligne à la souris le texte à annoter et sélectionne l’option « Annoter » du menu contextuel. Yawas propose alors à l’utilisateur de remplir un formulaire (figure 1) où tous les attributs sont optionnels.

Le titre du document, son URL et le texte surligné sont remplis automatiquement.

Chaque attribut est personnalisable grâce à un fichier de configuration. Une autre option permet de simplement surligner une phrase sans avoir à remplir le formulaire.

Cette option a été demandée par les utilisateurs qui ont évalué Yawas. La création des annotations devient alors très rapide et naturelle.

– Voir les annotations du document courant : elles sont affichées dans une nouvelle fenêtre (figure 3). Leurs ancres sont surlignées en jaune dans le document (figure 2). Contrairement à d’autres systèmes, Yawas surligne le texte pour ne pas modifier son contenu original. D’autres systèmes insèrent une icône avant et après la phrase annotée, mais [GOL 98] et [MAR 98] rapportent que le surlignage reste le style d’annotation préféré des utilisateurs. En cliquant sur une annotation dans la fenêtre des annotations (figure 3), Yawas force le navigateur à se positionner sur l’ancre de l’annotation. Cette technique facilite la navigation de la liste des annotations vers le document et s’est avérée utile à la plupart des utilisateurs lors de nos expérimentations [DEN 00].

Figure 1. Yawas ouvre un formulaire pour saisir les attributs de l’annotation

(7)

Lorsque qu’un document change, les textes surlignés sont parfois introuvables dans le document. Les annotations apparaissent alors en gris dans la liste des annotations. Ainsi, même lorsque le document d’origine a changé, les annotations sont conservées. Cette fonctionnalité est intéressante et constitue une amélioration importante des actuels signets [DEN 00].

Figure 2. Les annotations sont surlignées en jaune dynamiquement, i.e. sans recharger le document

– Rechercher les annotations : l’utilisateur peut rechercher ses annotations par leurs attributs, notamment le titre, L’URL, le texte surligné et le commentaire. Le résultat est une liste d’annotations regroupées par document où chaque document est représenté par la concaténation des phrases surlignées qu’il contient. Cette technique permet aux utilisateurs de comprendre le contenu des documents sans avoir à les relire entièrement [DEN 00].

– Partager les annotations : Yawas permet le partage des annotations par e-mail ou en installant le serveur d’annotations sur une machine accessible à plusieurs utilisateurs. Pour plus de détails sur cette question, voir [DEN 00].

De nombreux outils utilisent également les nouvelles fonctionnalités du DOM, par exemple ThirdVoice, iMarkup, Expression-Net et webVise. Le premier est un système d’annotation public. Les annotations « privées » sont possibles mais restent stockées sur le serveur. iMarkup est quant à lui conçu pour un usage privé. Comme Yawas, les annotations peuvent s’échanger par e-mail. IMarkup démontre les

(8)

possibilités du DOM : l’utilisateur peut surligner, encercler, positionner des postit et dessiner des motifs libres sur le document. Expression-Net donne, de plus, une possibilité de navigation à plusieurs sur un même site, permettant d’annoter simultanément un document. Le seul projet de recherche est webVise. Les annotations sont structurées dans un fichier XML. L’usager peut créer des liens hypertextes et insérer des corrections entre les lignes [GRO 99].

Figure 3. Visualisation des annotations associées au document courant

2.4. Questions ouvertes

Les outils d’annotation utilisant le DOM niveau 2 et le Dynamic HTML sont nettement plus performants que ceux utilisant un proxy. Nous soulignons toutefois certaines questions à résoudre.

La première concerne la confidentialité [MAR 99]. En annotant, les utilisateurs dévoilent non seulement leurs habitudes de navigation, mais également les thèmes qui les intéressent. [MAR 99] montre par exemple comment utiliser les annotations pour mettre en relation deux personnes intéressées par les mêmes informations. Des techniques similaires nous semblent applicables pour le commerce électronique.

Pour cette raison, Yawas utilise une approche 100 % cliente, en donnant le choix aux utilisateurs de partager leurs annotations au moment voulu. Nos expériences montrent que la création d’annotations ressemble à la création de signets : les utilisateurs accumulent des signets et les publient ensuite épisodiquement après un classement manuel.

L’autre problème à considérer concerne la standardisation des annotations.

Aujourd’hui, chaque outil d’annotation utilise un moyen différent pour représenter l’ancre d’une annotation (sa position dans un document). Le W3C a récemment proposé les XPointers comme standard pour les documents XML [W3C 99c]. Pour les autres documents électroniques, [PHE 00] a proposé des méthodes robustes pour positionner une annotation.

(9)

3. Utilisation des annotations

Yawas a été testé pendant un an. Malgré la possibilité d’ajouter des métadonnées en plus des mots surlignés, la quasi-totalité des annotations ne contient aucun commentaire : les utilisateurs se contentent de surligner des passages intéressants.

Cette pratique est similaire à l’annotation sur papier où surligner est le mécanisme d’annotation le plus utilisé [MAR 98]. De ce point de vue, l’outil d’annotation proposé ne modifie donc pas les pratiques d’annotation des utilisateurs. Ne pas classer les documents intéressants au moment de leur stockage est également caractéristique de l’usage des signets sur l’internet [ABR 98]. Cette pratique soulève d’ailleurs un problème jugé parmi les trois plus importants par les utilisateurs de l’internet : les documents doivent être périodiquement classés manuellement.

L’idée d’utiliser les annotations pour classer automatiquement les documents annotés vient de l’expérience de classification manuelle des documents décrite dans [DEN 00]. Dans cette expérience, l’auteur des annotations ainsi qu’un utilisateur n’ayant pas annoté les document ont tous deux classé manuellement 333 documents, d’une part en utilisant le document original, et d’autre part en utilisant uniquement les mots surlignés dans chaque document. Les résultats ont montré que les deux sujets ont produit des classifications plus précises en utilisant uniquement les annotations.

Nous présentons donc ici l’utilité des annotations dans une tâche de classification automatique des documents annotés. Alors que les méthodes de classification automatique travaillent généralement sur le texte intégral des documents pour les comparer, nous montrons que les classifications sont invariablement meilleures lorsque les documents sont représentés par la liste des mots surlignés par l’utilisateur. Pour juger des améliorations, nous comparons systématiquement les classifications automatiques à une classification de références fournie par l’auteur des annotations.

3.1. Propriétés d’une classification automatique

Deux approches sont possibles pour classer automatiquement des documents. La première est dite classification supervisée car elle utilise des méthodes d’apprentissage qui raisonnent à partir d’exemples. Dans le cas de la classification de documents, un exemple est un couple (document, catégorie). En observant ces exemples, une méthode d’apprentissage construit une fonction qui, à un document, associe une catégorie². Cette fonction est alors utilisée pour classer de nouveaux documents dans une ou plusieurs catégories. Yahoo fournit des exemples de pages

2. De nombreuses méthodes d’apprentissage sont décrites dans [MIT 97]. A l’inverse des autres méthodes d’apprentissage, la méthode des K plus proches voisins (et ses dérivés) ne construit pas de fonction mais classe un nouveau document en fonction de la catégorie de ses K documents les plus similaires. Voir à nouveau [MIT 97] pour une étude détaillée.

(10)

web rangées dans des catégories prédéfinies. A l’inverse, l’approche non supervisée ne suppose pas l’existence d’exemples. Elle compare les objets à classer (ici les documents) et tente de les regrouper par similarité.

Traditionnellement, le contenu de chaque document est analysé et des fonctions de similarité entre deux documents sont choisies. Tout comme pour l’approche supervisée, de nombreuses méthodes sont utilisables pour classer automatiquement des données [WIL 88].

Dans la suite, nous avons choisi d’utiliser une approche non supervisée car l’utilisateur ne fournit pas d’exemples de documents rangés dans des catégories. En effet, même si Yawas offre la possibilité à l’utilisateur de classer manuellement les documents dans sa propre classification, la plupart des annotations ne sont en fait que de simples passages surlignés. Cette observation est d’ailleurs similaire à la pratique d’annotation sur papier [MAR 98] et à l’usage des signets [ABR 98]. Dans la suite, le terme classification est utilisé pour désigner la classification non supervisée.

Historiquement, la classification de documents a été utilisée pour améliorer les performances des systèmes de recherche d’information. L’hypothèse formulée par [RIJ 79] est la suivante : « closely associated documents tend to be relevant to the same requests ». Au lieu de comparer une requête à chaque document d’une base documentaire, le système ne compare la requête qu’avec le représentant de chacun des groupes de documents. Mais la puissance des machines actuelles autorise la comparaison de la requête avec chaque document [BEL 00]. Aujourd’hui, les méthodes de classification automatique sont donc surtout utilisées pour visualiser un ensemble de documents, par exemple ceux retournés par un moteur de recherche sur l’internet. La classification des signets tombe dans cette classe d’applications.

La méthode la plus utilisée pour classer des documents est la classification hiérarchique ascendante. Bien qu’étant plus lente que d’autres méthodes (comme par exemple les « k-means »), la classification hiérarchique ascendante possède deux propriétés intéressantes. Tout d’abord, l’usager ne doit pas définir le nombre de groupes à obtenir. Ensuite, la méthode induit naturellement une hiérarchie entre les groupes de documents. Cette propriété reste intéressante si la hiérarchie n’est pas trop profonde. Des hiérarchies trop profondes nuisent en effet à la recherche d’information [LAR 98]. En ce sens, [MAA 96] propose de simplifier la hiérarchie en la coupant arbitrairement à des seuils de similarité de 10 %, assurant donc une profondeur maximale de 10. Comme nous le verrons, nos expériences, en utilisant les annotations, ne produisent jamais des profondeurs supérieures à 4, rendant inutiles ces simplifications arbitraires.

Une autre propriété importante concerne la représentation des groupes de documents [CUT 92]. Les noms des groupes permettent en effet aux utilisateurs de décider quelles branches de la classification explorer. Aussi, le nom d’un groupe reflète généralement le contenu thématique des documents qu’il contient. L’approche traditionnelle consiste à sélectionner quelques mots importants, l’importance d’un

(11)

mot étant calculée en combinant la fréquence du mot et le nombre de documents dans lequel il apparaît, par exemple avec la fonction tfidf (cf. paragraphe 3.2.3 et [SAL 68]). Lorsque le texte intégral est utilisé, des étapes de filtrage sont nécessaires pour choisir un nombre réduit de termes et les présenter à l’utilisateur.

Pour améliorer la compréhension des noms des groupes, [MAA 96] propose d’indexer les documents par leurs affinités lexicales (voir 3.4). De même, [ZAM 97]

propose de classer les documents en fonction des phrases qu’ils ont en commun. Plus précisément, l’algorithme classe les phrases contenues dans les documents, et non pas les documents eux-mêmes. En connaissant le document contenant chaque phrase, les auteurs sont alors capables d’inférer une classification des documents. Comme un document est composé de plusieurs phrases, cette approche présente la propriété de classer un même document dans plusieurs catégories³. Les noms des classes sont très explicites puisqu’ils sont constitués de phrases issues des documents. Une méthode similaire est décrite dans [BEL 00] pour classer des fragments de documents retournés par un moteur de recherche. Le système présente uniquement à l’usager les fragments pertinents des documents vis-à-vis de la requête.

Bien qu’améliorant sensiblement la compréhension des classes, ces méthodes n’ont pas été utilisées ici. En effet, sur notre échantillon de 333 documents annotés, seuls 2 documents ont été classés manuellement dans deux catégories distinctes. De plus, la simple intersection des mots surlignés dans un ensemble de documents fournit un descriptif à la fois concis et pertinent du contenu des documents.

La dernière propriété d’une classification concerne la représentation des documents, indispensable pour comprendre le contenu des documents sans les lire entièrement. L’usager peut alors rapidement décider de la pertinence d’un document dans une activité de recherche d’information. Les prototypes actuels utilisent le titre de la page, extrait du document HTML dans la balise <TITLE>. Trop souvent pourtant, ce titre ne reflète pas le contenu du document. Une alternative consiste alors à en extraire les premières lignes. Cette méthode est aujourd’hui utilisée par la plupart des moteurs de recherche accessibles sur l’internet. Les techniques de résumé automatique des documents sont plus intéressantes mais aussi plus coûteuses [EDM 69]. Récemment, [LOP 99] a montré qu’utiliser les termes d’une requête permettait de produire des résumés personnalisés en fonction de la requête. De même, nous avons utilisé les mots surlignés pour produire des résumés des documents. Chaque document est représenté par la liste des phrases surlignées dans ce document. Cette approche a également été utilisée dans [MAR 99]. Nous avons validé cette méthode en demandant à un usager non familier avec la base documentaire de classer manuellement les documents. Dans la première expérience, le sujet avait accès aux documents entiers. Dans la seconde, il n’avait à sa disposition que les phrases surlignées. Les résultats montrent que la classification obtenue et les noms des groupes choisis sont plus précis lorsque l’usager utilise uniquement les phrases surlignées [DEN 00]. Ce résultat confirme donc que la

3. Il n’y a en effet aucune raison pour qu’un document ne traite que d’une sémantique.

(12)

simple concaténation des phrases surlignées est un bon candidat pour représenter un document.

Enfin, deux méthodes sont utilisables pour évaluer la qualité d’une classification automatique. La première évalue la classification en mesurant ses effets sur des tâches annexes, comme la recherche d’information. Dans [BEL 00] et [ZAM 98], les documents classés sont par exemple utilisés pour réordonner la liste des documents retournés par un moteur de recherche. Il arrive en effet que des documents intéressants soient mal classés dans cette liste. Réordonner la liste en fonction des groupes permet de mieux classer les documents intéressants. De même, la visualisation en deux dimensions des documents regroupés par similarité augmente la vitesse d’accès aux documents intéressants [LEO 00]. Enfin, [CUT 92]

utilisent la classification automatique pour visualiser le résultat d’un moteur de recherche. L’évaluation compare les temps d’accès aux documents intéressants avec ou sans classification des documents. Encore une fois, la classification automatique améliore l’accès aux documents.

La seconde méthode pour évaluer une classification automatique consiste à la comparer à une classification de référence. Plusieurs mesures ont été proposées pour comparer ces deux classifications [DUB 79], [IWA 95] et [ZAM 97]. Cette méthode d’évaluation est critiquable puisque la classification de référence est subjective.

[MAC 98] ont en effet montré que la classification d’un même ensemble de documents variait sensiblement d’un utilisateur à un autre.

Quelle que soit la méthode de classification, les résultats ne sont pas entièrement satisfaisants. Deux erreurs sont possibles :

– un document a été rangé par erreur avec d’autres documents ; – deux groupes auraient dû être regroupés car ils sont similaires.

La première erreur est plus grave que la seconde. Tout d’abord, elle altère la compréhension des résultats. Ensuite, elle oblige l’usager à défaire les résultats proposés par la machine. Elle implique donc un travail de destruction. Cette destruction suppose notamment d’identifier les documents mal classés, et donc de parcourir la hiérarchie.

La seconde erreur est moins grave. L’usager continuera le travail de classification en fusionnant manuellement deux groupes qu’il juge similaires. La seconde erreur implique donc un travail de construction. Notons que, contrairement au travail de destruction, l’usager ne doit pas parcourir la hiérarchie en profondeur mais simplement identifier – grâce à leurs noms – deux classes similaires qui auraient dû être regroupées. Ces arguments sont appuyés par les expériences de [MAC 98] : les usagers préfèrent créer de petits groupes de documents. Un autre intérêt est de réduire la profondeur de la hiérarchie, facilitant ainsi son parcours [LAR 98].

(13)

3.2. Expériences

Nous décrivons maintenant les expériences de classification automatique des documents surlignés. Les données sont constituées de 424 documents annotés de mai 1999 à mai 2000. Environ 1200 annotations ont été créées sur ces documents. Le nombre de mots surlignés varie significativement entre les documents (de 2 à 250 mots surlignés par document), mais la plupart en contient une dizaine. Chaque document est identifié par son URL. Ceux dont l’URL est similaire sont considérés identiques et donc groupés avant la classification automatique. Cette étape réduit à 333 le nombre de documents à classer. Dans notre implantation, deux URLs sont similaires si elles sont identiques jusqu’au dernier /. Ce regroupement n’induit aucune erreur dans la classification. Il permet aussi d’augmenter le nombre de mots associés à un document. Nous décrivons maintenant l’indexation et la représentation des documents, la méthode de classification hiérarchique ascendante utilisée et les différentes fonctions de similarité qui guident sa construction. Nous présentons ensuite les résultats.

3.2.1. Indexation et représentation des documents

L’indexation extrait tous les mots des documents et leur associe un identificateur unique. L’algorithme de Porter [POR 80] est utilisé pour simplifier les formes lexicales. Ainsi, « bookmark » et « bookmarks » sont reconnus comme des termes identiques. L’indexation produit un fichier contenant la liste des mots avec leur fréquence dans les documents, c’est-à-dire le nombre de documents dans lesquels ils apparaissent. Cette valeur est utile pour calculer la similarité entre deux documents.

La phase d’indexation donne aussi, pour chaque document, la liste des mots qu’il contient. Cet index est calculé une seule fois pour toutes les expériences. A l’inverse de la plupart des méthodes d’indexation, l’ordre des mots dans chaque document est conservé. Des fonctions de similarité basées sur les phrases communes à deux documents sont alors utilisables.

Les signets annotés contiennent ici 424 documents. L’indexation des documents complets dure 10 minutes et l’index contient 25 067 mots. L’indexation des mots surlignés ne requiert quant à elle que 27 secondes et l’index ne contient que 2 028 mots. Ces résultats indiquent d’importants gains en termes de rapidité d’indexation et d’encombrement mémoire. L’indexation des phrases surlignées est 20 fois plus rapide et génère 12 fois moins de mots.

3.2.2. Classification hiérarchique ascendante

La méthode de classification choisie est la classification hiérarchique ascendante [WIL 88]. A l’initialisation, chaque document définit un groupe. A chaque étape, la méthode calcule les similarités entre tous les groupes de documents.

Les deux groupes les plus similaires sont alors fusionnés pour former un nouveau groupe. Le nombre de groupes est donc diminué de un à chaque étape. Le processus s’arrête lorsqu’il ne reste qu’un groupe ou qu’aucun groupe n’est similaire à aucun

(14)

autre. Toutes les expériences que nous avons menées utilisent cette méthode de classification. Seules changent les fonctions de similarité entre deux documents et les fonctions de similarité entre deux groupes de documents.

3.2.3. Similarité entre deux documents

Le modèle vectoriel [SAL 68] propose de représenter chaque document par un vecteur dont la taille est égale au nombre de termes distincts trouvés dans le corpus.

Ici le corpus est l’ensemble des documents à classer, soit 424 documents. Salton propose de pondérer chaque terme par sa fréquence dans le document (term frequency) et sa fréquence dans le corpus (inverse document frequency). Cette pondération reflète l’idée qu’un terme est important s’il est fréquent dans un document et peu fréquent dans les autres. Diverses méthodes de pondération utilisant cette idée ont été proposées dans la littérature. Notre contribution ne portant pas sur la définition d’une nouvelle méthode de pondération, nous avons choisi d’utiliser dans nos expériences la fonction tfidf très utilisée en classification de documents ou en recherche d’informations :

d

d t s occurrence nombre

d t

tf _ (, )

) ,

( =

où |d| est le nombre de mots contenus dans le document d

5 ) . 0 ) (

5 . 0 ) log( (

) ,

( +

+

= -

t df

t df d N

t idf

où N est le nombre de documents à classer et df(t) est le nombre de documents contenant le terme t. Finalement, la pondération de chaque terme est donnée par :

) , (

* ) , ( ) ,

(t d tf t d idf t d tfidf =

Pour une tâche de classification non supervisée, nous ne gardons que les termes apparaissant dans au moins deux documents, les autres étant inutiles. De nombreux mots sont alors supprimés, accélérant d’autant le processus de classification.

Précisément, 61 % des mots surlignés et 65 % des mots extraits du texte intégral sont inutiles.

De même, deux fonctions de similarité sont couramment utilisées pour comparer deux documents, et nous les avons donc utilisées dans nos expériences. La première calcule le cosinus de l’angle entre les deux vecteurs représentatifs des deux documents. Elle fournit une valeur réelle entre 0 et 1 :

(15)

å å

å

Î Î

Ç

= Î

2 1

) 2 ,

²(

* ) 1 ,

²(

) 2 , (

* ) 1 , ( )

2 , 1 (

d i d

i d d i

d i tfidf d

i tfidf

d i TFIDF d

i TFIDF d

d Cos

Le seconde, aussi connue sous le nom Dice, compte simplement le nombre de mots communs à deux documents, en normalisant le résultat par la taille moyenne des deux documents :

(

¹¹ ²²

)

^/²

) 2 , 1

( d d

d d d

d uns NbMotsComm

+

= Ç

3.2.4. Similarité entre deux groupes de documents

A chaque étape de la classification hiérarchique ascendante, les similarités entre tous les groupes de documents sont calculées, les deux groupes les plus similaires étant alors fusionnés. Diverses méthodes ont été proposées pour calculer la similarité entre deux groupes de documents [BEL 00] :

– « single-link » : la similarité entre deux groupes est la plus grande similarité entre un document du premier groupe et un document du second ;

– « complete-link » : la similarité entre deux groupes est la plus petite similarité entre un document du premier groupe et un document du second ;

– « group-average » : la similarité entre deux groupes est la moyenne des similarités entre un document du premier groupe et un document du second ;

– « centroïds » : chaque groupe est représenté par un vecteur moyen des documents du groupe et la similarité entre deux groupes est alors la similarité entre les deux représentants de chaque groupe.

Les méthodes « group-average » et « complete-link » produisent des classifications très similaires. La méthode « single-link » est un peu meilleure mais elle crée des groupes de taille importante, rendant la classification peu compréhensible par l’utilisateur. Nous l’avons donc écartée et les résultats présentés ici utilisent la méthode « group-average ». Les classifications dépendent davantage de la fonction de similarité choisie pour comparer deux documents, à savoir dans notre cas « Cosinus » et « NbMotsCommuns ». Enfin, nous avons expérimenté la méthode dite « Centroïds » où le représentant d’un groupe est la liste des mots communs à tous les documents de ce groupe. La similarité entre deux groupes est le nombre de mots communs aux deux représentants. Quelle que soit la méthode utilisée, la classification des 333 documents nécessite 4 minutes pour le texte intégral et seulement 1 minute pour les mots surlignés.

(16)

3.3. Evaluation et discussion des résultats

Les classifications produites automatiquement sont comparées à la classification manuelle fournie par l’auteur des annotations lors de l’expérience de classification manuelle présentée dans [DEN 00] et décrite en introduction de la partie 3 du présent article. La qualité de chaque classification automatique est évaluée pendant l’exécution de l’algorithme de classification hiérarchique ascendante. A chaque étape, la qualité globale est calculée comme suit :

où (1) C représente la classification produite, (2) t(g) est le nombre de paires de documents d’un groupe g de C étant également classés dans le même groupe de la classification de référence et (3) f(g) est le nombre de paires de documents d’un groupe g de C étant mal classés puisqu’ils ne figurent pas dans le même groupe de la classification de référence. Cette mesure de qualité est directement reprise de [ZAM 97].

Figure 4. Qualité des 3 méthodes de classification sur le texte intégral des documents (pointillés) et sur les mots surlignés (lignes pleines)

) ( ) ( )

(C t g f g

Qualité

C g

-

=

å

Î

(17)

La figure 4 montre les qualités des classifications automatiques selon les trois méthodes de classification « Cosinus », « NbMotsCommuns » et « Centroïds ». Dans tous les cas, les mots surlignés améliorent les résultats. Comme dans [IWA 95], la qualité de la classification passe par un maximum au cours de sa construction. En utilisant le texte intégral des documents, le nombre de documents mal classés est rapidement supérieur au nombre de documents bien classés. La classification est donc inutile puisque l’usager devra repérer ces documents mal classés. Au contraire, les mots surlignés permettent de construire des classifications utiles puisque le maximum est positif. La diminution de la qualité après le maximum est due à la nature même d’une classification hiérarchique. La méthode fusionne en effet des groupes ayant des similarités sans cesse décroissantes. Même si la qualité finale est mauvaise, l’utilisateur est pourtant capable de repérer les groupes de documents fortement similaires en visualisant la hiérarchie. Les groupes construits aux étapes précédentes ne sont en effet jamais modifiés par les étapes ultérieures.

De plus, les annotations permettent de nommer simplement les groupes en calculant l’intersection des mots du groupe. Les noms ainsi constitués sont à cet égard nettement plus pertinents que ceux produits grâce au texte intégral. Ils sont surtout évocateurs pour l’usager puisqu’il les a lui-même surlignés.

Enfin, les mots surlignés produisent des hiérarchies moins profondes qu’en utilisant le texte intégral, notamment avec la méthode « Centroïd ». Comme suggéré dans [LAR 98], une classification moins profonde est préférable pour l’utilisateur.

3.4. Travaux similaires

Plusieurs prototypes de classification automatique des signets ont été proposés.

Deux méthodes sont possibles : la classification non supervisée et la classification supervisée. Aucun travail à notre connaissance n’utilise les annotations pour supporter l’une ou l’autre de ces méthodes.

Nous nous sommes inspirés des travaux de [MAA 96] qui utilisent une technique de classification non supervisée hiérarchique ascendante et propose des idées originales pour l’indexation des documents. L’index contient les affinités lexicales trouvées dans les documents et non pas les termes simples. Des affinités lexicales comme « recherche information » seront donc indexées au lieu des termes simples

« recherche » et « information ». L’intérêt des affinités lexicales apparaît surtout lors du choix des noms des groupes. S’agissant de l’efficacité de la classification elle- même, aucune comparaison n’est donnée entre l’utilisation des affinités lexicales et des termes simples.

Contrairement à [MAA 96], le système PowerBookmarks [LI 99] utilise une fonction de classification automatique supervisée. Les auteurs utilisent la classification prédéfinie de Yahoo et de Library of Congress pour associer une catégorie aux documents rangés dans les signets. L’argument en faveur d’une classification supervisée concerne surtout le choix des noms des groupes. En

(18)

utilisant une classification prédéfinie, le problème est en effet évité. Le nouveau problème rencontré concerne la réduction de la profondeur des hiérarchies. Les classifications prédéfinies sont en effet trop profondes et les auteurs utilisent une méthode – non décrite – visant à réduire cette profondeur. Une méthode de classification supervisée est également utilisée dans le système VistaBar [MAR 97].

A part la classification automatique des signets, les méthodes de classification automatique ont récemment été utilisées pour organiser les documents - ou plutôt les fragments de documents – retournés par un moteur de recherche. Là encore, classification supervisée et non supervisée sont envisageables. Les méthodes présentées par [ZAM 98] utilisant la classification non supervisée ont deux propriétés intéressantes : elles sont rapides et produisent des noms de clusters compréhensibles. Pour la même tâche, [CHE 00] ont utilisé une méthode de classification supervisée. Les arguments en faveur d’une classification supervisée reposent – comme dans [LI 99] – sur la difficulté à nommer les groupes de documents mais aussi sur des aspects de rapidité de classification. Des comparaisons sont certainement nécessaires entre ces deux approches.

4. Conclusion et perspectives

Grâce aux nouveaux standards tels que le Dynamic HTML et le Document Object Model, des outils d’annotation performants peuvent dès aujourd’hui être déployés. Nous en avons détaillé le fonctionnement et plusieurs outils d’annotation ont récemment été commercialisés en utilisant ces technologies [THI 99] [IMA 99].

Mais au delà de l’utilité immédiate d’un tel outil, nos expériences montrent que les annotations ouvrent la voix à d’autres applications comme la classification automatique non supervisée des documents. Grâce aux mots surlignés, les groupes obtenus sont en effet plus justes et leurs noms plus explicites. Les annotations permettent donc non seulement de personnaliser les documents lus, mais supportent également des tâches annexes pénibles pour l’utilisateur [ABR 99].

Après avoir classé automatiquement un ensemble de documents, les usagers utilisent cette classification pour ranger manuellement de nouveaux documents.

Encore une fois, cette tâche pourrait être facilitée par un processus de classification automatique et nous allons maintenant tester l’utilité des annotations dans cette tâche de classification supervisée.

Les annotations sont également utiles en recherche d’information, plus précisément pour modifier automatiquement les requêtes d’un utilisateur ou relevance feedback [GOL 98]. Des résumés personnalisés ont également été construits en utilisant les mots surlignés [MAR 99].

S’agissant de la navigation sur l’internet, de nombreuses équipes cherchent à visualiser le parcours d’un usager dans un hypermédia, notamment sur l’internet. Ces visualisations doivent aider l’usager à mieux s’orienter. Mais les graphes générés

(19)

sont complexes [COC 99] et les annotations nous semblent intéressantes pour simplifier les parcours de navigation, grâce par exemple à un système de zoom qui affiche d’abord les documents annotés.

Remerciements

Les auteurs tiennent à remercier Gilles Bisson pour ses conseils sur la classification automatique de documents.

5. Bibliographie

[ABR 98] ABRAMS D., « Information Archiving with Bookmarks : Personal web Space Construction and Organization », Actes de ACM SIGCHI 1998 Conference, Los Angeles, USA, 1998.

[BEL 00] BELLOT P., Méthodes de classification et de segmentation locales non supervisées pour la recherche documentaire, Thèse de doctorat, Université d’Avignon et des Pays de Vaucluse, France, 2000.

[BAR 99] BARRETT R., MAGLIO P.-P., « Intermediaries : An approach to manipulating information streams », IBM Systems Journal, vol. 38, 1999, p. 629-641.

[CAD 00] CADIZ J.-J, GUPTA A., GRUDIN J., « Using web Annotations for Asynchronous Collaboration Around Documents », A paraître dans les actes de ACM 2000 Conference on Computer Supported Cooperative Work (CSCW2000), Philadelphie, Pennsylvanie, USA, 2000.

[CHE 00] CHEN H., DUMAIS S.-T., « Bringing order to the web : Automatically categorizing search results », Actes de CHI 2000, Conference on Human Factors in Computing Systems, La Hague, Pays-Bas, 2000, p. 145-152.

[COC 99] COCKBURN A., « Issues of Page Representation and Organisation in web Browser’s Revisitation Tools », Actes de OZCHI’99 Australian Conference on Human Computer Interaction, Wagga, Australie, 1999.

[CUT 92] CUTTING D.-R., KARGER D.-R., PEDERSON J.-O., TUKEY J.-W., « Scatter/Gather : A cluster-based approach to browsing large document collections », Actes de la 15^e conférence Annuelle ACM/SIGIR Research and Development in Information Retrieval, Copenhague, Danemark, 1992, p. 318-329.

[DEN 00] DENOUE L., VIGNOLLET L., « An Annotation Tool for web Browsers and its applications to information retrieval », Actes de RIAO2000 Recherche d’information assistée par ordinateur, Paris, 2000, p. 180-195.

[DUB 79] DUBES R., JAIN A.-K., « Validity Studies in clustering methodologies », Pattern Recognition, vol. 11, 1979, p. 235-254.

(20)

[EDM 69 ] EDMUNDSON H.P., « New Methods in Automatic Abstracting », Journal of the ACM, vol. 16, n° 2, 1969, p. 264-285.

[EXP 99] EXPRESSION-NET, http://www.expression-net.com

[GOL 98] GOLOVCHINSKY G., « Emphasis on the Relevant : Free-form Digital Ink as a Mechanism for Relevance Feedback », Actes de ACM SIGIR’98, Melbourne, Australie, 1998.

[GRO 99] GRONBAEK K., SLOTH L., ORBAEK P., « webVise : Browser and Proxy support for open hypermedia structuring mecanisms on the WWW », Actes de 8^th International World Wide web Conference, Toronto, Canada, 1999, p. 253-267.

[IMA 99] IMARKUP, http://www.imarkup.com, 1999.

[IWA 95] IWAYAMA M., TOKUNAGA T., « Hierarchical Bayesian Clustering for Automatic Text Classification », Actes de 14th International Joint Conference on Artificial Intelligence, IJCAI 95, vol. 2, Montréal, Québec, Canada, 1995, p. 1322-1327.

[LAR 98] LARSON K., CZERWINSKI M., « web Page Design : Implications of Memory, Structure and Scent for Information Retrieval », Actes de ACM SIGCHI Conference on Human Factors in Computing Systems, Los Angeles, CA USA, 1998, p. 25-32.

[LOP 99] LOPEZ M., « Using and Evaluating User Directed Summaries to Improve Information Access », Actes de ECDL’99, Paris, 1999, p. 198-241.

[LEO 00] LEOUSKY A., ALLAN J., « Improving Interactive Retrieval by Combining Ranked lists and Clustering », Actes de RIAO2000 Recherche d’information assistée par ordinateur, Paris, 2000, p. 665-681.

[LI 99] LI W.-S., « PowerBookmarks : A System for Personalizable web Information Organization, Sharing, and Management », Actes de ACM Sigmod 1999, Philadephia, USA, 1999, p. 565-567.

[MAA 96] MAAREK Y.-S., SHAUL I.-Z.-B., « Automatically Organizing Bookmarks per Contents », Actes de 5th International World Wide web Conference, Paris, 1996.

[MAC 98] MACSKASSY S.-A., BANERJEE A., DAVISON B.-D., HIRSH H., « Human Performance on Clustering web Pages : A Preliminary Study », Actes de 4th International Conference on Knowledge Discovery and Data Mining, New York City, New York, 1998, p. 264- 268.

[MAR 97] MARAIS H., BHARAT K., « Supporting Cooperative and Personal Surfing with a Desktop Assistant », Actes de ACM Symposium on User Interfaces Software and technology (UIST’97), Alberta, Canada, 1997.

[MAR 98] MARSHALL C., « Toward an ecology of hypertext annotation », Actes de 9th ACM Hypertext and Hypermedia Conference, Pittsburgh, PA, 1998.

[MAR 99] MARSHALL C.-C., PRICE M.-N., GOLOVCHINSKY G., SCHILIT B.-N., « Collaborating over Portable Reading Appliances », Personal Technologies, vol. 3, n° 1, 1999.

(21)

[MIT 97] MITCHEL T., Machine Learning, MacGraw-Hill, 1997.

[OHA 97] O’HARA K., SELLEN A., « A Comparison of Reading Paper and On-Line Documents », Actes de CHI97 Human Factors in Computing Systems, Atlanta, Georgia, 1997, p. 335-342.

[PHE 00] PHELPS T., WILENSKY R., « Robust intra-document locations », Actes de 9^th International World Wide web Conference, Amsterdam, Pays-Bas, 2000, p. 105-118.

[POR 80] PORTER M.F., « An Algorithm For Suffix Stripping », Program, vol. 14, n° 3, 1980, p. 130-137.

[RIJ 79] VAN RIJSBERGEN C.-J., Information retrieval, Butterwords, London, 1979.

[SAL 68] SALTON G., Automatic information organization and retrieval, New York, McGraw-Hill, 1968.

[THI 99] THIRDVOICE, http://www.thirdvoice.com, 1999.

[VAS 99] VASUDEVAN V., PALMER M., « On web Annotations : Promises and Pitfalls of Current web Infrastructure », Actes de 32^nd Hawaii International Conference on System Sciences, Maui, Hawaii, 1999.

[W3C 99a] W3C, « The Document Object Model », http://www.w3.org/DOM/

[W3C 99b] W3C, « Extensible Markup Language », http://www.w3.org/XML/

[W3C 99c] W3C, « XML Pointer Language », http://www.w3.org/TR/xptr

[WEI 96] WEISS R., « HyPursuit : A Hierarchical Network Search Engine that Exploits Content-Link Hypertext Clustering », Actes de Seventh ACM Conference on Hypertext, Washington, DC, 1996.

[WIL 88] WILLETT P., « Recent trends in hierarchic document clustering : a critical review », Information Processing & Managment, vol. 24, n° 5, 1988, p. 577-597.

[YEE 98] YEE K.P., « The CritLink Mediator », http://www.crit.org/critlink.html

[ZAM 97] ZAMIR O., ETZIONI O., MADANI O., KARP R.-M., « Fast and Intuitive Clustering of Web Documents », Actes de 3^rd International Conference on Knowledge Discovery and Data Mining, 1997, p. 287-290.

[ZAM 98] ZAMIR O., ETZIONI O., « Web Document clustering : a feasibility demonstration », Actes de ACM/SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australie, 1998, p. 46-54.

(22)