Filtrage collaboratif

(1)

Filtrage collaboratif

8.1. Introduction

8.1.1. Motivation et application des systèmes de filtrage 8.1.1.1. Principe général

L’accès à l’information s’effectue à l’heure actuelle selon différentes modalités : la recherche active de documents via des systèmes de recherche d’information, la réception de documents par des tierces personnes, la rencontre fortuite d’un document par navigation sur Internet par exemple, etc.

Parmi les systèmes informatiques permettant ce type d’activités, les systèmes de filtrage s’inscrivent parmi ceux permettant la réception de documents jugés intéressants. Par opposition aux moteurs de recherche d’information, qui requièrent de l’utilisateur une activité de formulation systématique de son besoin, les systèmes de filtrage pérennisent ce besoin d’information et permettent l’acheminement au cours du temps des documents intéressants. Ainsi les premiers permettent la découverte ponctuelle de documents, les seconds leur réception permanente. En ce sens, les deux types de systèmes se complètent.

Etre informé étant une nécessité professionnelle et citoyenne, recevoir des informations ayant un certain niveau d’intérêt individuel permet à chacun d’apprendre, d’analyser, de critiquer toute nouvelle source d’information. Ainsi recevant toute nouveauté, l’utilité du filtrage permet donc d’éviter de procéder régulièrement à une

Chapitre rédigé par Catherine BERRUT et Nathalie DENOS.

(2)

recherche d’éventuelles avancées. Cela procure à l’utilisateur bien évidemment une économie d’effort mais également une certaine sérénité.

De nombreux systèmes de filtrage existent à l’heure actuelle. A l’origine, les systèmes de filtrage se sont appliqués aux forums électroniques, exemple typique de source d’informations où de nouveaux documents fleurissent chaque jour. On trouve également des systèmes de filtrage du courrier électronique, qui permettent de catégoriser les messages reçus automatiquement. Plus récemment, les systèmes de filtrage permettent d’exploiter les archives électroniques de documents, qui sont alimentées régulièrement par les écrivains de certaines communautés. Il ne faut pas non plus négliger l’utilisation à but commercial, culturel, ou de divertissement de ces systèmes.

Ce chapitre a pour objectif de présenter le filtrage d’informations dit collaboratif.

Pour cela, nous présentons tout d’abord le filtrage et les grandes familles de filtrage, dont le filtrage collaboratif. La deuxième partie présente de façon détaillée ce type de filtrage et les algorithmes classiques qu’il utilise. Enfin la troisième partie permet de faire un tour d’horizon des systèmes les plus connus, et des fonctionnalités perceptibles dans les systèmes existants sur la toile (web).

8.1.1.2. Fonctionnement des systèmes de filtrage

Habituellement, on considère qu’un système de recherche d’information a pour fonction « d’amener à l’utilisateur les documents qui vont lui permettre de satisfaire son besoin en information » [BEL 92]. Un système de filtrage d’information

« achemine des documents qui se présentent vers des groupes de personnes, en se basant sur leurs profils à long terme », et élaborés à partir de données d’apprentissage [CRO 93].

Le filtrage d’information est l’expression utilisée pour décrire une variété de processus se rapportant à la fourniture de l’information adéquate aux personnes qui en ont besoin [BEL 92]. Le filtrage est souvent interprété comme l’élimination de données indésirables sur un flux entrant, plutôt que la recherche de données spécifiques sur ce flux. L’approche la plus répandue est basée sur le contenu sémantique des documents. Elle trouve ses racines dans le monde de la recherche d’information, et utilise plusieurs de ses principes ; les documents textuels sont proposés sur la base d’une comparaison de leur contenu et du profil de l’utilisateur.

Ce profil est présenté sous forme d’un ensemble de termes et de pondérations, établis à partir de documents que l’utilisateur a jugés pertinents. Cette méthode est simple, rapide et a fait ses preuves en recherche d’information classique [BAL 97].

Les applications de filtrage impliquent typiquement des flux de données entrantes [BEL 92], données émises par une source distante ou envoyées directement par

(3)

d’autres sources. Le filtrage est basé sur des descriptions d’individus et de groupes, souvent appelées profils. De tels profils représentent généralement un ensemble de thèmes d’intérêts à long terme.

Dans la figure 8.1, le filtrage d’information commence avec des personnes (les utilisateurs du système de filtrage d’information) qui ont des objectifs ou des désirs (exemple : tâche professionnelle, passe-temps, etc.) relativement stables, à long- terme ou périodiques. Des groupes, aussi bien que des personnes peuvent être caractérisés par de tels buts. Ceci amène à des besoins réguliers d’information (exemple : être à jour sur un sujet) qui peuvent évoluer lentement au cours du temps au fur et à mesure que les conditions, objectifs et connaissances changent. De tels intérêts engagent les utilisateurs dans un processus relativement passif de recherche d’information. Ce processus est réalisé à travers la représentation des besoins en information par des profils ou des requêtes destinés au système de filtrage d’information.

Figure 8.1. Modèle général pour le filtrage d’information, adapté de [BEL 92]

D’un autre côté, les producteurs de documents, qui sont souvent des institutions, entreprennent de distribuer leurs produits dès qu’ils sont générés. Pour accomplir cette tâche, on associe aux documents une représentation de leur contenu, qui est ensuite comparée aux profils. Les documents sont utilisés et évalués en termes de réponse aux besoins exprimés. Cette évaluation peut mener à la modification des profils et des domaines d’intérêt.

(4)

8.1.2. Filtrage d’information versus recherche d’information

Bien que proches dans un certain nombre de fonctionnalités, recherche d’information et filtrage d’information s’opposent en un certain nombre de points :

– la recherche d’information est typiquement concernée par des usages singuliers du système, avec une personne avec un objectif et une requête à la fois, alors que le filtrage d’information est concerné par des usages répétitifs du système, par une personne ou des personnes avec des buts et des intérêts à long terme ;

– la recherche d’information reconnaît des problèmes inhérents à l’adéquation des requêtes comme représentation des besoins en information. Le filtrage d’information fait lui l’hypothèse que l’évolution des profils peut compenser ces problèmes ;

– collecter et organiser les documents est une des fonctionnalités des systèmes de recherche d’information, distribuer des documents à des groupes ou à des individus demeure la priorité fonctionnelle des systèmes de filtrage ;

– la recherche d’information permet la sélection de documents à partir d’une base relativement classique. En contrepartie, le filtrage d’information sélectionne ou élimine des documents à partir d’un flux dynamique de données ;

– la recherche d’information permet l’interaction de l’utilisateur avec le document durant une session unique de recherche. De son côté, le filtrage d’information autorise des changements à long terme à travers des séries de session de recherche.

Cette comparaison est résumée dans le tableau 8.1.

Recherche d’information Filtrage basé sur le contenu Approche Trouver l’information

recherchée Filtrer l’information non désirée Livraison Corpus statique, sur demande Flux dynamique

Persistance Des besoins à court terme Des intérêts à long terme Personnalisation Non personnalisé Profil d’utilisateur requis Analyse

du contenu Utilise souvent des mots-clés Différents et multiples dispositifs utilisés

Fonctionnalités

Non personnalisé Non adaptatif Non dynamique A court terme

Personnalisé

S’adapte au changement du profil de l’utilisateur

Filtre dynamiquement l’information entrante

A long terme Tableau 8.1. Recherche d’information et filtrage d’information basés sur le contenu : comparaison

(5)

8.1.3. Grandes familles de filtrage

Le filtrage d’information se décline selon plusieurs grandes familles :

– le filtrage basé sur le contenu (aussi appelé filtrage cognitif) : le choix des documents proposés est basé sur une comparaison des thèmes abordés dans les documents par rapport aux thèmes intéressant l’utilisateur (voir figure 8.2) ;

– le filtrage collaboratif : le choix des documents proposés est basé sur les opinions d’utilisateurs sur ces documents (voir figure 8.3) ;

– le filtrage hybride : combine les approches de ces deux familles.

Figure 8.2. Filtrage basé sur le contenu : la prédiction de l’opinion qu’un utilisateur aura d’un document donné, est calculée en rapprochant les thèmes énoncés par l’utilisateur comme constituant son profil, et les thèmes extraits des documents par un processus d’indexation.

Figure 8.3. Filtrage collaboratif : la prédiction de l’opinion qu’un utilisateur 0 aura d’un document donné, est calculée en rapprochant les évaluations passées de l’utilisateur des évaluations que d’autres utilisateurs de la communauté ont données par le passé sur les mêmes documents.

(6)

8.1.3.1. Filtrage basé sur le contenu (ou filtrage cognitif)

Le filtrage basé sur le contenu peut être vu comme un système de recherche d’information dont la fonction de correspondance entre une requête et un corpus de documents joue le rôle d’un filtre permanent entre un profil (sorte de requête à long terme et évolutive) et le flot de documents entrant (sorte de corpus évolutif). Deux fonctionnalités centrales ressortent, pour un système de filtrage :

– la sélection des documents pertinents vis-à-vis du profil ;

– la mise à jour du profil en fonction du retour de pertinence fourni par l’utilisateur sur les documents qu’il a reçus ; la mise à jour se fait par intégration des thèmes abordés dans les documents jugés pertinents.

Ces systèmes présentent un certain nombre de limitations :

– tout d’abord, citons la difficulté d’indexation de documents multimédia. Le filtrage basé sur le contenu s’appuie sur un profil qui décrit le besoin de l’utilisateur du point de vue thématique, de façon analogue à une requête qui serait destinée à un système de recherche d’information. Ce profil peut prendre diverses formes, mais il repose toujours sur des termes qui seront comparés aux termes qui indexent le document. De ce fait, la difficulté d’indexer des documents, multimédia ou non, est un goulet d’étranglement pour cette approche ;

– l’incapacité à traiter d’autres critères de pertinence que les critères strictement thématiques pose également problème. Le filtrage des documents basé sur le contenu ne permet pas d’intégrer d’autres facteurs de pertinence que le facteur thématique. Pourtant il existe de nombreux autres facteurs de pertinence comme par exemple l’adéquation entre le public visé par l’auteur et l’utilisateur, ou encore la qualité scientifique des faits présentés, la fiabilité de la source d’information, le degré de précision des faits présentés, etc. ;

– enfin l’effet dit « entonnoir » restreint le champ de vision des utilisateurs. En effet, le profil évolue toujours dans le sens d’une expression du besoin de plus en plus spécifique, qui ne laisse pas de place à des documents pourtant proches mais dont la description thématique diffère fortement. Par exemple, lorsqu’un nouvel axe de recherche surgit dans un domaine, avec de nouveaux termes pour décrire les nouveaux concepts, ces termes n’apparaissent pas dans le profil, ce qui élimine automatiquement les documents par filtrage ; l’utilisateur n’aura donc jamais l’occasion d’exprimer un retour de pertinence positif envers ce nouvel axe de recherche, à moins d’en avoir connaissance par ailleurs et de modifier son profil manuellement en ajoutant les termes pertinents.

8.1.3.2. Filtrage collaboratif

Le paradigme du filtrage collaboratif apporte précisément une réponse à ces problèmes, en s’appuyant sur la communauté des utilisateurs du système.

(7)

Le principe est de filtrer le flot de documents entrant en fonction de l’opinion que d’autres utilisateurs de la communauté ont déjà portée sur les documents. Si un document a été jugé intéressant par un utilisateur, il sera diffusé automatiquement aux utilisateurs qui ont eu des opinions similaires par le passé.

Les trois limitations des systèmes basés sur le contenu (difficulté d’indexation, incapacité à traiter d’autres critères, effet « entonnoir ») n’apparaissent pas dans ces nouveaux systèmes.

En réponse à la difficulté d’indexation, la sélection ne s’appuie plus sur le contenu des documents, mais sur une sorte d’indexation parallèle qui traduit les opinions que les utilisateurs ont émises sur les documents. La difficulté d’indexer les documents selon leur contenu (premier problème) est ainsi contournée.

Par conséquent, cette « indexation parallèle » présente un autre avantage, celui de refléter non seulement les goûts des utilisateurs relativement aux thèmes, mais aussi d’autres facteurs de pertinence utiles aux utilisateurs. En effet, lorsqu’un utilisateur émet une opinion positive sur un document, il affirme non seulement que le document traite bien d’un sujet qui l’intéresse, mais aussi que ce document est de bonne qualité, et qu’il lui convient à lui personnellement (public visé). Ainsi le problème de l’incapacité à traiter d’autres critères est également résolu.

Enfin, l’effet « entonnoir » est lui aussi éliminé du fait que les documents entrants ne sont pas filtrés en fonction du contenu. Pour qu’un utilisateur reçoive un document, il suffit qu’un autre utilisateur de profil proche l’ait jugé intéressant, et cela quels que soient les termes qui indexent le contenu du document. L’utilisateur peut alors ouvrir son profil sur un nouveau thème en donnant simplement un retour de pertinence positif sur ce document.

Bien entendu, le filtrage collaboratif présente lui aussi des limitations, que nous détaillerons plus loin. Nous pouvons dès à présent indiquer que des approches hybrides (collaboratif et basé sur le contenu) permettent de tirer profit des avantages des deux approches, en limitant les problèmes qui leur sont liés.

8.2. Filtrage collaboratif 8.2.1. Principes

Le filtrage collaboratif se base sur l’hypothèse que les gens à la recherche d’information devraient pouvoir se servir de ce que d’autres ont déjà trouvé et évalué. Cette approche résout les problèmes de l’approche basée sur le contenu sémantique ; il devient possible de traiter n’importe quelle forme de contenu et de

(8)

diffuser des ressources non nécessairement similaires à celles déjà reçues. Pour ce faire, pour chaque utilisateur d’un système de filtrage collaboratif, un ensemble de proches voisins est identifié, et la décision de proposer ou non un document à un utilisateur dépendra des appréciations des membres de son voisinage.

Le filtrage collaboratif emploie des méthodes statistiques pour faire des prévisions basées sur des configurations des intérêts des utilisateurs. Ces prévisions sont exploitées pour faire des propositions à un utilisateur individuel, en se fondant sur la corrélation entre son propre profil personnel et les profils d’autres utilisateurs qui présentent des intérêts et goûts semblables. Pour le filtrage collaboratif, les utilisateurs fournissent des évaluations des documents, sous forme de notes, pour constituer leur profil. Ces estimations sont comparées à celles d’autres utilisateurs et des similitudes sont mesurées. Des prévisions sont calculées comme moyenne pondérée des avis d’autres utilisateurs avec des goûts soit semblables, soit complètement opposés.

Il n’y a donc pas d’analyse du sujet ou du contenu et un document n’est connu que par son identifiant. Les systèmes de filtrage d’information collaboratifs fonctionnent en impliquant des personnes dans le système, et nous pouvons espérer que les évaluations produites par des personnes satisfont globalement les utilisateurs du système. En effet, les lecteurs humains ne partagent pas les difficultés des ordinateurs avec la synonymie, le polysémie, et le contexte en jugeant la pertinence du texte [MIL 97]. Les systèmes de filtrage automatiques courants essayent de trouver des ressources d’intérêt pour leurs utilisateurs, souvent en employant une certaine fonction de calcul de score pour évaluer les documents. Ils leur renvoient ensuite les documents avec les scores les plus hauts. Des personnes peuvent sans grand effort évaluer les documents qui sont importants pour d’autres, mais seraient difficiles à détecter automatiquement. Les exemples de tels critères sont le style d’écriture, la lisibilité du document, ou la clarté et la force de son argumentation (imaginez la difficulté qu’un système de filtrage automatique aurait pour déterminer laquelle, de deux recettes de cuisine, est la plus facile à suivre).

Une autre motivation pour le filtrage collaboratif [MAL 95] vient de la comparaison de la richesse de l’environnement des objets réels et de la pauvreté dans laquelle les utilisateurs des systèmes opèrent. Quand un utilisateur lit un fichier électronique il n’a généralement aucune manière de savoir s’il est en train de consulter la référence la plus communément utilisée ou s’il est la première personne à la lire. Le filtrage collaboratif fonctionne en partie en associant aux documents numériques l’histoire de leur utilisation. Les objets que nous employons dans la vie quotidienne accumulent leur usage et leur usure comme partie normale de leur utilisation : les pages des livres deviennent froissées, des attaches plissées, et les marges tachetées avec des empreintes digitales. Les objets les plus utilisés sont généralement préférés. Un exemple sont les ouvrages de référence qui s’ouvrent en

(9)

tombant sur un bureau sur le chapitre le plus intéressant. Donner à des utilisateurs l’accès à l’histoire d’usage passé les laisse tirer profit des conseils subtiles que nous employons généralement pour prendre des décisions de lecture ou de non lecture dans le monde réel. L’usage agit ainsi en tant qu’index à l’information appropriée à l’intérieur de l’objet.

8.2.2. Architecture générale

L’architecture générale d’un système de filtrage collaboratif s’articule autour de deux fonctionnalités centrales : le calcul de la proximité entre les utilisateurs, et le calcul de la prédiction de l’évaluation qu’un utilisateur fera d’un document. S’ajoute la fonctionnalité de mise à jour perpétuelle des profils d’utilisateurs, au fur et à mesure de la collecte de leurs évaluations.

Dans ce type de système, où l’utilisateur contribue de façon décisive au bon fonctionnement du système dans son ensemble, on ne peut négliger les fonctionnalités interactives du système. Les fonctionnalités indispensables sont les suivantes :

– une interface permettant d’évaluer un document ;

– une interface permettant de visualiser les documents reçus par filtrage.

D’autres fonctionnalités interactives peuvent exister, notamment celle permettant aux utilisateurs d’effectuer ce que l’on appelle du « filtrage actif » : le terme « filtrage actif » [MAL 95] traduit le fait que l’utilisateur décide, de sa propre initiative, d’envoyer des documents à certains membres de la communauté. Cette possibilité peut s’avérer très utile lors de l’amorçage du système, pour faire croître les chances de recoupement des profils d’utilisateurs. En effet, un utilisateur qui reçoit un document envoyé par un autre est amené à l’évaluer lui aussi ; à la suite de cette évaluation, son propre profil et celui de l’auteur du filtrage actif se recouperont nécessairement.

Figure 8.4. Architecture générale d’un système de filtrage collaboratif

(10)

8.2.3. Calcul de la prédiction pour un système de filtrage collaboratif

Breese et al. [BRE 98] proposent une classification intéressante des techniques de filtrage collaboratif : les algorithmes basés « mémoire », et les algorithmes basés

« modèle ». Delgado [DEL 00] y ajoute une nouvelle catégorie : les algorithmes d’apprentissage en ligne.

8.2.3.1. Algorithmes basés « mémoire »

Les algorithmes basés mémoire utilisent l’ensemble de la base de données des évaluations des utilisateurs pour faire les prédictions : les évaluations de l’utilisateur actif sont prédits à partir d’informations partielles concernant l’utilisateur actif, et un ensemble de poids calculés à partir de la base de données des évaluations des utilisateurs.

Si I_i est l’ensemble des items évalués par l’utilisateur i, alors l’évaluation moyenne pour l’utilisateur i peut être définie comme :

, 1

∈

=

∑

i

i i j

i j I

v v

I

L’évaluation prédit sur l’item j pour l’utilisateur actif a est une somme pondérée des évaluations des autres utilisateurs :

, ,

1

( , )( )

=

= +

∑

ⁿ −

a j a i j i

i

p v κ w a i v v

où n est le nombre d’utilisateurs dans la base de données qui ont un poids non nul, et est un facteur de normalisation tel que la somme des valeurs absolues des poids fait 1.

Le poids w(a,i) est déterminé de façon variable, selon l’algorithme.

Les détails de calcul de ces poids donnent lieu à des algorithmes différents. Nous présentons ici l’algorithme basé sur la corrélation, et l’algorithme basé sur la similarité de vecteurs.

Pour l’algorithme basé sur la corrélation (projet GroupLens [RES 94]), le poids est calculé comme la corrélation entre les utilisateurs a et i, comme suit :

, ,

2 2

, ,

( )( )

( , )

( ) ( )

a j a i j i

j

a j a i j i

j j

v v v v

w a i

v v v v

− −

= − −

∑

∑ ∑

(11)

où les sommes sur les j concernent les items pour lesquels à la fois i et a ont donné des évaluations.

Pour l’algorithme basé sur la similarité des vecteurs, le poids est calculé comme un cosinus entre les vecteurs formés par les évaluations des utilisateurs, comme suit :

, ,

2 2

, ,

( , )

a i

a j i j

j k I a k k I i k

v v

w a i

v v

∈ ∈

=

∑ ∑ ∑

où les termes du dénominateur servent à normaliser les évaluations pour que les utilisateurs qui ont évalué plus d’items ne soient pas favorisés.

Des extensions à ces algorithmes existent, notamment celles proposées par Breese et al. [BRE 98] pour améliorer les performances de ces algorithmes (voir article 25 section 2.2).

8.2.3.2. Algorithmes basés « modèle »

Les algorithmes basés « modèle » utilisent la base de données des évaluations des utilisateurs pour estimer ou apprendre un modèle qui est alors utilisé pour les prédictions.

Du point de vue probabiliste, la tâche de prédiction d’une évaluation peut être vue comme le calcul de la valeur espérée d’une évaluation, étant donné ce que l’on sait d’un utilisateur.

Supposons que les évaluations se fassent sur une échelle d’entiers de 0 à m.

Alors la valeur prédite sera :

, , , ,

0

( ) Pr( , )

=

= =

∑

^m = ∈

a j a j a j a k a

i

p E v v i v k I i

où la probabilité exprimée est celle dont l’utilisateur actif fera l’évaluation particulière i pour l’item j compte tenu des évaluations observées auparavant.

Nous présentons ici deux modèles probabilistes : le modèle à base de clusters, et le modèle à base de réseau bayésien.

Le modèle à base de clusters repose sur le principe que certains groupes ou types d’utilisateurs capturent un ensemble commun de préférences et de goûts. Etant donné un tel groupe, les préférences concernant les différents items (sous la forme d’évaluations) sont indépendantes.

(12)

Du point de vue formel, on s’appuie sur un classifieur bayésien, où la probabilité des évaluations est conditionnellement indépendante sachant l’appartenance à une variable de classe C non observée comportant un ensemble de valeurs discrètes relativement petit. Le modèle de probabilité qui met en relation les probabilités jointes des classes et des évaluations, et un ensemble de distributions conditionnelles et marginales, est la formulation standard « naïve » de Bayes :

1

Pr( , ,..., ) Pr( ) Pr( )

=

= ⁿ = =

∏

ⁿ ⁱ =

i

C c v v C c v C c

La partie gauche est la probabilité d’observer un individu d’un classe particulière et un ensemble complet de valeurs d’évaluations. Dans ce contexte, on peut calculer directement les expressions de probabilité requises pour l’équation précédente donnant la valeur prédite.

Les paramètres du modèle, les probabilités d’appartenance à une classe Pr(C = c), et les probabilités conditionnelles des évaluations sachant la classe sont estimées à partir d’un ensemble d’exemples d’évaluations d’utilisateurs, appelé la base des évaluations.

Le modèle à base de réseau bayésien associe un nœud à chaque item du domaine.

Les états pour chaque nœud correspondent aux valeurs d’évaluation possibles pour chaque item. On inclut également un état correspondant à l’absence d’évaluation pour les domaines où il n’y a pas d’interprétation naturelle pour les données manquantes.

On peut alors appliquer un algorithme d’apprentissage de réseau bayésien sur la base d’exemples, où les évaluations manquantes sont associées à une valeur

« pas d’évaluation ». L’algorithme d’apprentissage cherche sur plusieurs structures de modèle en termes de dépendances pour chaque item. Dans le réseau résultant de l’apprentissage, chaque item a un ensemble d’items « parent » qui sont les meilleurs prédicteurs de ses évaluations. Chaque table de probabilité conditionnelle est représentée par un arbre de décision qui code les probabilités conditionnelles pour ce nœud.

8.2.3.3. Algorithmes d’apprentissage en ligne

Le principe de cette approche proposée par Delgado est de voir le problème comme un ensemble d’agents de prédiction indépendants, un pour chaque utilisateur du système. Chaque agent est confronté à un ensemble d’essais avec une prédiction à faire à chaque étape. L’hypothèse sous-jacente à l’apprentissage est que pour chaque agent, les agents qui l’entourent ont un comportement similaire, neutre, ou opposé à la fonction que cet agent cherche à atteindre. Du point de vue opérationnel,

(13)

l’algorithme associé à chaque agent est une combinaison d’un algorithme de prédiction « basé-mémoire » (voir plus haut) et d’un algorithme de « vote en ligne à majorité pondérée ».

Les algorithmes d’apprentissage en ligne reposent sur le principe d’apprentissage à partir de l’avis d’experts. Le modèle d’apprentissage repose sur un processus continu et interactif, où un ensemble d’algorithmes, considérés comme des « experts prédicteurs », sont associés à des poids qui mesure leur confiance envers la tâche de prédiction qu’ils réalisent. A chaque étape, une instance valide est présentée aux algorithmes, et chaque prédicteur donne son verdict (une valeur binaire, 0 ou 1). Le calcule de majorité pondérée donne :

{0,1}

arg max ( )

∈

∑

ⁱ ^& ⁱ

R R R R

a x w

où 0=

{

( )& = ∀ ≤0;

}

R a xi i n , 1=

{

( )& = ∀ ≤1;

}

R a xi i n , et ( )&

a x est le résultat de lai

prédiction du i-ième algorithme sur les n algorithmes qui votent sur x . Après cela,&

le bon résultat est montré à l’algorithme, qui met alors à jour les poids w_i qu’il associe aux autres algorithmes. Pour cela, il applique une stratégie qui fait décroître les poids des algorithmes qui se sont trompés, et qui augmente ou laisse inchangés les poids de ceux qui ont donné la bonne réponse.

On peut alors définir une prédiction binaire pour l’utilisateur actif a sur l’item j :

{0 1}

, , , )

,

arg max (

a j a i i j

R R R R

p w v

∈

=

∑

où ^R⁰⁼

{

^v^{i j}^, ^{= ∀ ≤}^0; ⁱ ^{n ,}

}

^R¹⁼

{

^v^{i j}^, ^{= ∀ ≤}^1; ⁱ n . Les poids

}

w_{a i}_, ne sont pas basés sur les données présentes dans la base de données, mais initialisés comme des nombres positifs ou nuls mis à jour à chaque essai. Delgado donne également les algorithmes pour des évaluations et des prédictions continues dans l’intervalle

[ ]

^0,1 ^.

8.2.4. Difficultés

Le filtrage collaboratif se base sur l’hypothèse que les gens à la recherche d’information devraient pouvoir se servir de ce que d’autres ont déjà trouvé et évalué. Cette approche résout les problèmes de l’approche basée sur le contenu sémantique ; il devient possible de traiter n’importe quelle forme de contenu et de diffuser des ressources non nécessairement similaires à celles déjà reçues.

(14)

Toutefois, des problèmes subsistent pour les nouveaux documents ; ils ne peuvent être diffusés que si un minimum d’informations les concernant est collecté à partir de l’avis de l’un des utilisateurs. D’un autre côté, les personnes ayant des goûts peu fréquents risquent de ne pas recevoir de propositions. Ces deux problèmes sont en réalité liés à la taille et à la composition de la population d’utilisateurs.

Ces systèmes souffrent aussi tous du problème de démarrage à froid. Les nouveaux utilisateurs commencent avec un profil vide et doivent le constituer à partir de zéro. Même avec un profil de démarrage, une période d’apprentissage est toujours nécessaire avant que le profil ne reflète concrètement les préférences de l’utilisateur. Pendant cette période le système ne peut pas filtrer efficacement pour le compte de l’utilisateur.

8.3. Quelques systèmes de filtrage

Afin de présenter des systèmes de filtrage, nous avons souhaité le faire en deux grandes parties : tout d’abord une présentation de sept systèmes de filtrage, puis nous ferons une synthèse de huit systèmes plus récents accessibles via Internet.

8.3.1. Tapestry

Le concept du filtrage collaboratif [MAL 95] a été lancé avec le projet Tapestry à Xerox Parc. La gestion des e-mails est sa motivation première [GOL 92].

L’implication de l’utilisateur n’est pas limitée à fournir de simples jugements binaires d’acceptation ou de rejet [RES 94]. Il donne la possibilité de faire des annotations en texte libre ou des appréciations dans le style « J’ai bien aimé » ou

« Je déteste », ainsi les utilisateurs peuvent transmettre des jugements sur la valeur des documents qu’ils lisent. Les autres utilisateurs peuvent alors opérer des recherches parmi ces documents non seulement sur la base de leur contenu, mais également sur la base des jugements qu’ont portés d’autres utilisateurs à leur sujet.

Tapestry a aussi introduit la prise en compte de la confiance dans la source de l’information. Le système a souffert de deux problèmes [MAL 95]. Le premier est la taille de sa base d’utilisateurs. Puisque Tapestry est basée sur un système commercial de base de données, il ne peut être fourni librement. De plus, il n’a pas été conçue pour l’usage d’un grand nombre de personnes géographiquement distribuées. Ces deux facteurs se combinent pour limiter la population d’utilisateurs potentiels aux chercheurs à Xerox Parc. Cependant, cette population ne semblait pas assez grande pour constituer une masse critique d’utilisateurs et la grande majorité des documents passaient sans annotations. Ainsi le système souffrait d’un manque d’informations pour pouvoir fonctionner normalement.

(15)

Le deuxième problème avec Tapestry est le moyen par lequel les utilisateurs interagissent avec les filtres. Une interface commune exigeait des utilisateurs d’indiquer des requêtes en un langage dérivé de SQL. Cette forme d’interface a été un obstacle à l’exploration de nouveaux secteurs et a rendu difficile la visualisation de l’information disponible.

Il n’en demeure pas moins que Tapestry fut un des premiers systèmes de filtrage existants.

8.3.2. GroupLens

Plusieurs systèmes se sont intéressés aux articles newsgroups du Usenet, et le but des premiers était d’évaluer la masse critique d’utilisateurs que les technologies disponibles permettaient de supporter, en permettant une large dispersion géographique [MAL 95]. Un des résultats les plus importants de ces travaux était d’apporter la preuve que les lecteurs adhèrent au concept et évaluent des documents, bien qu’aucune sorte de récompense ou d’incitation matérielle n’ait été offerte aux utilisateurs de ces systèmes.

GroupLens [MIL 97], système expérimental de l’université du Minnesota, est l’un des plus célèbres et solides dans ce domaine. Il est semblable dans son esprit à Tapestry : les lecteurs sont appelés à noter les articles qu’ils lisent sur une échelle numérique de cinq niveaux. Le système trouve alors des corrélations entre les différents utilisateurs RI d’estimations et identifie des groupes d’utilisateurs dont les intérêts sont semblables, et ensuite il emploie ces estimations pour prédire l’intérêt que porteront les lecteurs à chaque article.

GroupLens prolonge Tapestry de deux manières [RES 94] : d’abord, Tapestry est conçu pour partager des évaluations dans un même lieu. Avec GroupLens, les estimations sont réparties en plusieurs emplacements et son architecture est ouverte à la création de nouveaux clients de newsgroups et serveurs d’estimation qui emploieraient l’évaluation d’une manière différente. En second lieu, Tapestry ne supporte pas de requêtes globales. Les serveurs d’estimation qui ont été mis en place pour GroupLens prennent en considération les estimations globales de plusieurs experts, basées sur la corrélation de leurs estimations passées. Un lecteur n’a pas besoin de voir à l’avance les évaluations à employer et n’a pas besoin de savoir à qui les évaluations sont destinées réellement. Dans GroupLens, les estimations fournies sous un pseudonyme sont aussi utiles que celles qui sont signées.

Pour son évaluation, la corrélation entre l’évaluation faite par le système et l’évaluation individuelle d’un utilisateur après la lecture d’un article, a été utilisée.

(16)

GroupLens a aussi permis de démontrer [PAL 97] que la consultation des estimations des autres utilisateurs ne constituait pas un risque de biais pour l’évaluation. Et contrairement à ce que l’on pourrait penser, il n’y avait pas de corrélation entre la taille et la durée de consultation d’un article, ainsi la combinaison du temps et des estimations a donné de bons résultats.

En raison du grand nombre de différents documents, ce système dépend beaucoup du nombre de lecteurs et de leurs évaluations sur les mêmes documents [MAL 95].

De plus, il souffre d’un problème de démarrage à froid [MIL 97]. Beaucoup d’utilisateurs ont abandonné son utilisation ; ils avaient un grand nombre de documents à noter avant de commencer à recevoir des recommandations et donc à bénéficier du système (problème de motivation). En outre, les premiers utilisateurs ne recevaient pratiquement que des documents qu’ils avaient déjà lus et notés, en raison de la lenteur de l’apprentissage.

8.3.3. Phoaks

Phoaks (people helping one another know stuff) est un système expérimental de reconnaissance, de correspondance et de redistribution automatiques de recommandations sur les ressources web, extraits des messages des newsgroups de Usenet [TER 87]. Il effectue une recherche contextuelle de mentions d’URL dans ces messages, qui dans 23 % des cas mentionnent des ressources web (sous forme d’URL), et 30 % de ces mentions sont des recommandations.

Phoaks compte toute mention comme recommandation si elle passe un certain nombre de tests : (i) un message ne doit pas être posté à plusieurs groupes en même temps, il devient alors trop général et ne peut être assez proche thématiquement de l’ensemble des groupes ; (ii) si l’URL fait partie de la signature de l’expéditeur, il n’est pas considéré comme recommandation, c’est une forme d’auto-promotion ; (iii) si l’URL apparaît dans une partie entre « quotes » du message (inclus dans la partie message d’origine dans une réponse à un message), elle n’est pas retenue.

Enfin, (iv) si le contexte textuel de l’URL indique qu’il s’agit d’une recommandation et qu’elle n’est pas l’objet d’une publicité, l’URL est retenu et classé.

Phoaks se différencie des autres systèmes par la distinction qu’il fait entre les rôles de fournisseur et consommateur ; il prend ainsi en considération le fait que seule une minorité d’utilisateurs prend la peine d’évaluer les ressources et de faire partager leur opinions avec les autres. Aussi, la réutilisation des conversations en ligne existantes comme source des recommandations ne demande aucune intervention de la part des recommandeurs.

(17)

Avec d’autres règles plus complexes, Phoaks sélectionne et catégorise les ressources. Le nombre de recommandeurs distincts d’une même ressource a été retenu comme mesure de la qualité d’une recommandation. Une étude a montré que la multiconfirmation est une source de recommandation pertinente. En effet, une ressource a d’autant plus de chance de paraître dans une foire aux questions (FAQ), bases maintenues par des experts humains) qu’elle est recommandée par différentes personnes.

Son efficacité est évaluée par la mesure de la précision (pourcentage des ressources que les règles classifient dans la bonne catégorie) et du rappel (le pourcentage de ressources qui appartiennent à une catégorie et que la règle classe réellement dans cette catégorie). Des tests ont montré que Phoaks offre un rappel de 88 % et une précision de 87 %.

Comme continuation, les auteurs de Phoaks projettent d’améliorer le calcul de la crédibilité des recommandeurs et la recherche d’affinités entre ceux qui offrent et ceux qui sont à la quête des recommandations dans un domaine particulier. Il tentent aussi de combiner une recherche d’information par mots-clés avec le filtrage collaboratif, dans une « recherche classée par communauté ». Le principe est de traiter des requêtes en utilisant un moteur de recherche par mots-clés classique, et de filtrer les résultats des requêtes à travers la base de Phoaks. Les résultats sont alors classés par groupe de newsgroups qui les mentionnent. Ceci permet de réduire l’ambiguïté des requêtes et de classer les résultats en fonction de leurs fréquences de mention.

8.3.4. Siteseer

Siteseer [RUC 97] est également un système de recommandation de pages web qui utilise les bookmarks personnels et leur organisation en répertoires pour prédire et recommander des pages pertinentes. Il utilise chaque bookmark d’utilisateur comme une déclaration implicite d’intérêt pour le contenu, et le classement de ces bookmarks comme une indication de cohérence sémantique ou un regroupement pertinent entre des sujets.

Au cours du temps, Siteseer apprend les préférences et les catégories à travers lesquelles les utilisateurs perçoivent le monde, et en même temps, apprend pour chaque page web, quelles sont les différentes communautés ou groupes d’affinités qui s’y intéressent. Siteseer génère alors des recommandations organisées et contextualisées en les délivrant dans leur répertoire d’origine.

Les bookmarks offrent un mécanisme de collecte d’information sur les préférences, directement géré par l’utilisateur, et qui ne requiert pas de comportement

(18)

additionnel pour la tâche d’information du système de recommandation. A la différence d’un clic de souris inutile pour évaluer un document, car il peut être accidentel, et qui engage rarement un grand effort ou investissement personnel, les bookmarks sont le résultat d’un acte très intentionnel qui prend, surtout s’ils sont placés dans des répertoires, un certain effort de réflexion.

Siteseer consulte les bookmarks de chaque utilisateur et mesure le degré de chevauchement (URL communs par exemple) de chaque répertoire avec les répertoires d’autres utilisateurs, pour donner un poids additionnel aux URL ; le chevauchement de contenu permet de déterminer les similarités entre répertoires et de former dynamiquement des communautés virtuelles d’intérêt, particulière pour chaque utilisateur et spécifique à chaque catégorie d’intérêt. En calculant l’adhésion relative d’une communauté à chaque répertoire, et en évitant de former un ensemble définitif de clusters, Siteseer n’impose pas de catégorisation rigide.

Le système ne tire aucune sémantique ni du contenu des URL ni du nom du répertoire. Il utilise l’URL simplement d’une ressource comme identifiant unique et ignore complètement le titre.

Toutefois les bookmarks ont des limitations spécifiques ; les utilisateurs marquent moins que la moitié des sites/pages qu’ils trouvent intéressants, souvent parce qu’un site est facilement accessible à travers d’autres chemins, comme une autre page web ou un moteur de recherche. De plus, les utilisateurs ont tendance à marquer des sites/pages pour différentes raisons, allant du véritable intérêt au simple besoin de revisiter ou de retourner. Enfin, les bookmarks peuvent exister ou non.

Aussi, il n’y a pas de bookmarks partiels qui permettent d’indiquer un intérêt marginal, et il n’y a pas de moyen de montrer un manque d’intérêt ou sujet, qu’un système explicite de feed-back peut demander.

Les principales limites de Siteseer proviennent de son approche purement collaborative. Il est incapable de servir les premiers utilisateurs ou un utilisateur créant une nouvelle catégorie.

8.3.5. Fab

Fab [BAL 87] est un système hybride qui essaye de combiner les deux approches : l’approche basée sur le contenu sémantique et l’approche collaborative du filtrage pour en récupérer les avantages et en réduire les inconvénients. La notion de profil basée sur l’analyse du contenu y est maintenue et les profils y sont systématiquement comparés pour identifier les similarités entre utilisateurs. Un utilisateur reçoit un document soit parce qu’il correspond à son profil soit parce qu’il a été apprécié par un autre utilisateur ayant un profil ressemblant.

(19)

Le processus de recommandation peut être répartie en deux phases : une phase de collecte de ressources pour constituer une base ou un index et une phase de sélection de ressources de cette base pour des utilisateurs particuliers. La phase de collecte peut être triviale dans le cas général mais pose un vrai problème dans le cas du web, pour le concepteur du système. Dans Fab, cette phase consiste à rassembler des pages pertinentes pour un nombre réduit de sujets, et qui sont regroupées automatiquement suivant les domaines d’intérêt des utilisateurs. Ces pages sont ensuite diffusées à un large nombre d’utilisateurs dans la phase de sélection. Un sujet peut intéresser plusieurs personnes et une personne peut être intéressée par plusieurs sujets.

Pour l’implémentation, des agents sont utilisés ; les pages retrouvées par l’agent de collecte sont envoyées à un routeur central qui se charge de les transférer aux utilisateurs dont les profils correspondent, à partir d’un certain seuil. D’autres fonctionnalités sont assurées par les agents personnels de chaque utilisateur ; les pages déjà consultées sont éliminées, et sur les pages présentées, ils assurent qu’il y a au plus une page d’un même site.

Une fois que l’utilisateur a envoyé une requête, reçu et consulté des recommandations, il lui est demandé de fournir une note de 0 à 7. Ces notes servent d’une part à mettre à jour les profils personnels et à informer l’agent de collection.

De plus, toute page très bien notée est automatiquement passée aux utilisateurs estimés les plus proches.

La construction de profils représentatifs est une condition importante pour le succès du système. Ils permettent à la composante basée sur le contenu sémantique d’assurer des recommandations appropriées, et à la composante collaborative de fournir les utilisateurs ayant des profils proches.

La population des agents de collecte s’adapte à la population d’utilisateurs, et non à un utilisateur particulier. Pour aider ce processus, les agents de collecte

« impopulaires », dont les pages ne sont pas visualisées par un grand nombre d’utilisateurs ou ont peu de succès (faibles scores) sont constamment détruits et les meilleurs profils dupliqués pour les remplacer. Ainsi, la spécialisation des agents de collecte n’a pas à être fixée d’avance, mais peut être déterminée dynamiquement et modifiée au cours du temps.

Plusieurs autres types d’agents de collecte sont employés. Des agents de recherche exécutent une recherche sur le web, pour trouver des pages approchant au mieux les profils existants. Les agents d’indexation construisent des requêtes à poser aux différents moteurs de recherche commerciaux sur le web, qui ont déjà réalisé une indexation exhaustive. D’autres agents sont employés à des fins comparatives : ils peuvent proposer des pages sélectionnées aléatoirement (random), ou retrouvées

(20)

dans les index « sites du jour », ou tenter de servir un utilisateur moyen, dont le profil est la moyenne de l’ensemble des profils des utilisateurs. Les agents de collecte permettent aussi d’identifier les communautés d’intérêt émergentes, offrant la possibilité d’établir des liens et des interactions entre des gens culturellement proches.

Fab est un exemple-type de la combinaison des approches basées sur le contenu sémantique et collaborative dans les systèmes de recommandation.

8.3.6. Referralweb

De nombreuses recherches ont montré que les réseaux de collaborateurs, de collègues et d’amis sont parmi les canaux les plus efficaces de diffusion de l’information et de l’expertise, dans les entreprises et les organisations. De ce fait, les réseaux sociaux sont au moins aussi importants que la structure organisationnelle officielle pour des tâches de choix, de résolution de problèmes.

Une des raisons du succès des réseaux sociaux est la limite à la quantité d’information qu’une personne voudrait ou pourrait rendre publique ; un expert dans un domaine particulier est incapable d’étaler toutes ses connaissances sur un sujet, et ne voudrait pas réécrire des données déjà publiées à chaque fois que des personnes lui demanderaient de le faire. La recherche d’une information dans ce cas se ramène à reconstituer le réseau social entre l’expert et une chaîne de contacts et de références personnelles, du chercheur à l’expert. Cette chaîne de références remplit deux fonctions : elle fournit à l’expert une raison pour accepter de répondre au demandeur, en explicitant leur relation (ayant un collaborateur en commun) et elle fournit au demandeur un critère pour évaluer la crédibilité de l’expert.

Referralweb [KAU 87] se présente comme un système interactif pour la reconstruction, visualisation et la recherche de réseaux sociaux sur le web. Une reconstruction manuelle de ces réseaux est certes possible mais risque d’être frustrante et coûteuse en termes de temps.

Un réseau social est modélisé par un graphe où les nœuds représentent des personnes et les arcs une relation directe entre deux personnes. Il y a plusieurs sources pour déterminer ces relations ; les utilisateurs peuvent être appelés à introduire la liste de leurs collègues proches, ou encore, on peut analyser les entêtes des mails. Cette dernière solution n’est pas sans poser des problèmes de confidentialité et de sécurité évidents. Pour Referralweb, les données sont récupérées sur le web. Il utilise la co-occurrence de noms de personnes dans des fenêtres de proximité, à partir des home pages, des listes des coauteurs dans des publications et références à des papiers, les échanges d’enregistrements personnels dans les archives des

(21)

newsgroups et l’organisation des organigrammes. La construction du réseau est incrémentale. Quand un utilisateur s’abonne pour la première fois à Referralweb, un moteur de recherche classique est utilisé pour retrouver les documents où une mention de son nom est faite. Les noms des autres personnes sont alors extraits de ces pages. Le même processus est repris récursivement pour chaque nom. Le réseau est ensuite utilisé pour guider l’utilisateur dans la recherche de personnes ou de documents en réponse à sa requête. Il peut tout simplement demander de retrouver le chemin qui le relie à une autre personne. Il peut aussi, pour rechercher un expert, spécifier le sujet et le statut social (« lequel de mes collègues ou des collègues de mes collègues est expert en chimie du carbone ? » ou « quels sont les documents traitant de la chimie du carbone et écrits par des personnes proches de Martin Dupont ? »).

Il est important de signaler que Referralweb ne remplace pas les moteurs de recherche génériques comme AltaVista, mais sert à augmenter l’efficacité et la focalisation des sessions de recherche. Il permet aussi une appropriation des résultats par l’utilisateur, en ramenant des documents écrits par des personnes qui lui sont proches. D’un autre côté Referralweb cherche à découvrir des réseaux sociaux existants plutôt que d’offrir les outils pour créer de nouvelles communautés, et à la différence des autres systèmes de recommandation qui favorisent l’anonymat, Referralweb est basé sur la connaissance des interlocuteurs et de la crédibilité qu’on leur porte. D’autre part, Referralweb ne demande pas à ses utilisateurs de saisir une liste de leurs collaborateurs, mais se base sur des ressources disponibles au public sur le web.

Referralweb présente une nouvelle manière d’aborder la recherche d’information, en valorisant les relations personnelles qui peuvent exister entre les producteurs de documents et les chercheurs d’information.

8.3.7. Le système de Maltz et Ehrlich

Ce système [MAL 95] est basé sur l’hypothèse que les utilisateurs recherchant l’information devraient pouvoir se servir de ce que d’autres ont déjà trouvé et évalué.

Une pratique courante chez les utilisateurs est d’utiliser l’e-mail pour envoyer des pointeurs sur des documents intéressants à des collègues ou des amis. Cependant, cette action requiert un effort relativement important de la part de l’expéditeur, et il arrive souvent que l’utilisateur n’envoie pas la référence à toutes les personnes qu’elle pourrait intéresser, ou qu’il oublie simplement de le faire.

(22)

Le système de Maltz et Ehrlich est présenté comme un substitut au mail dans ces situations. Il est intégré à un système de recherche d’information et permet à ses utilisateurs d’adresser des pointeurs aux personnes qu’ils jugent intéressées, sans avoir à interrompre leur session de recherche d’information. D’un autre côté, l’ensemble de ces échanges est stocké pour constituer une base de références.

D’autres systèmes d’importances variables sont disponibles et deviennent de plus en plus populaires (Myyahoo, Amazon.com, Miningco.com, etc.). Ils offrent à leurs utilisateurs des possibilités de personnalisation d’interface, toutefois limitées, ou leur suggèrent suivant leurs centres d’intérêts constatés (explicitement ou implicitement) des ressources qui pourraient les intéresser.

8.3.8. Comparaison de quelques systèmes plus récents sous l’angle de l’interaction avec l’utilisateur

Parmi les systèmes plus récents accessibles via le web, voici une sélection dont l’intérêt réside dans les fonctionnalités interactives proposées :

– http://www.cuisinenet.com : site de recettes de cuisines ;

– http://comment.imdb.com : site pour les amateurs de films et de documents multimédias ;

– http://www.mybeer.org : site pour les amateurs de bière ; – http://www.amazon.com : site de vente de livres et disques ; – http://www.moviecritic.com : site pour les amateurs de films ; – http://vguide.sepia.com : site pour les amateurs de films ;

– http://www.topouaibe.com : système général pour évaluer les pages web ; – http://cmc.dsv.sv.se/select : système général pour évaluer les pages web ; – http://movielens.umn.edu : site pour les amateurs de films ;

– http://www.trabble.com : site d’évaluation de restaurants ;

– http://abyss.eurocom.fr :1111/AMW/login.html : musée virtuel de tableaux.

L’objectif de cette comparaison est d’observer tous ces systèmes sous l’angle des fonctionnalités perceptibles pour les utilisateurs. Ainsi chacune de ces fonctionnalités sera présentée de façon globale et synthétique :

– l’utilisateur (son identification, son profil) ;

– perception de la communauté (statistiques, classement) ;

– l’évaluation des documents (ergonomie, contrôle de l’évaluation).

(23)

8.3.8.1. L’utilisateur 8.3.8.1.1. Son identification

Parmi les informations à fournir par l’utilisateur lors de l’enregistrement, on trouve les choses suivantes.

IMDB Mybeer Amazon Moviecritic Sepia Topouaibe Select Movielens Trabble Webmuseum

E-mail x x x x x x x x

Login et mot de passe x x x x x x x x

Nom, prénom x x

Age, sexe, profession, code postal x x

Tableau 8.2. Informations à fournir lors de l’enregistrement

Notons que Topouaibe autorise une évaluation parfaitement anonyme.

Voici quelques méthodes pour constituer un profil significatif.

Moviecritic Movielens Sepia Amazon

Evaluation d’un nombre minimal de produits x x

Goûts de l’utilisateur x x

Tableau 8.3. Méthodes pour constituer un profil significatif

Parmi les modalités de connexion au système, on trouve celles du tableau 8.4.

Pour limiter les utilisations biaisées ou malintentionnées, seul le système IMDB exige la connaissance du véritable email de l’utilisateur.

(24)

Moviecritic Movielens Webmuseum Mybeer Sepia Amazon Trabble Select

Dès l’entrée sur le site x x x x x

Lors de l’évaluation (pas

d’identification à l’arrivée sur le site) x

A chaque évaluation x x

Tableau 8.4. Modalités de connexion au système

8.3.8.1.2. Son profil

Concernant la visualisation du profil, les systèmes classent les œuvres évaluées.

Webmuseum Movielens Moviecritic Sepia Select Amazon Trabble

Par préférence ou défiance x x

Par ordre alphabétique x x

Par ordre chronologique d’évaluation x x x

Tableau 8.5. Visualisation du profil

Concernant les possibilités offertes à l’utilisateur pour raffiner ou faire évoluer volontairement son profil, tous les sites proposent l’évaluation. Au-delà de cette fonctionnalité indispensable, Moviecritic propose à l’utilisateur d’évaluer les films qu’il a déjà vus, et dans Webmuseum, l’utilisateur peut demander d’évaluer 10 à 50 tableaux.

8.3.8.2. La perception de la communauté 8.3.8.2.1. Les statistiques

Certains systèmes présentent pour chaque document, des statistiques sur leur perception et leur historique dans la communauté.

(25)

Moviecritic Amazon Topouaibe IMDB

Moyenne des évaluations x x x

Prédiction du système x

Nombre de votants x

Répartition des évaluations dans le temps x

Répartition des évaluations par valeur, par catégorie d’utilisateur

(sexe, âge, etc.) x

Tableau 8.6. Visualisation du profil

8.3.8.2.2. Le classement

Certains systèmes offrent des vues globales sur la collection de documents dans la communauté. Cela se concrétise dans Webmuseum, par un hit-parade des 4 œuvres les plus ou les moins appréciées.

8.3.8.2.3. Les groupes

On distingue trois sortes de groupes : – tous les autres ;

– ceux qui évaluent de la même façon ;

– ceux qui se sont volontairement regroupés (possibilité offerte par Movielens).

8.3.8.3. L’évaluation 8.3.8.3.1. L’ergonomie

Parmi les métaphores pour l’évaluation des documents, on trouve celles du tableau 8.7.

Métaphores

Amazon Select Sepia Moviecritic

Les étoiles x x x

Le dé x

Le thermomètre x

Tableau 8.7. Métaphores d’évaluation

(26)

Parmi les dispositifs interactifs d’évaluation, on trouve :

Dispositifs interactifs d’évaluation

Webmuseum Amazon Mybeer Select Trabble Movielens

Listes de choix x x x x

Menus déroulants x x

Tableau 8.8. Dispositifs interactifs d’évaluation

Les échelles d’évaluation sont toutes discrètes : il faut choisir une valeur soit numérique, soit symbolique dans un ensemble prédéfini (5 valeurs en général).

Topouaibe propose un système d’évaluation complètement différent.

En général, un seul critère d’évaluation est possible : le point de vue global de l’utilisateur sur le document. Seul Cuisinenet propose une évaluation plus détaillée.

Lors de l’évaluation, le document à évaluer peut être présent. C’est le cas dans la plupart des systèmes. Notons la difficulté que peuvent avoir les utilisateurs d’Amazon pour trouver ledit document dans le foisonnement d’informations. Dans le cas de Select, il n’est pas présent : le système propose une liste de documents à évaluer faisant ainsi appel à la mémoire de l’utilisateur.

8.3.8.3.2. Le contrôle de la démarche de l’évaluation

L’authenticité de l’évaluation est contrôlée soit en limitant sa fréquence, soit par l’identification du votant (rendue formelle par la validité de son adresse e-mail).

La démarche d’évaluation de la part de l’utilisateur peut être :

– volontaire : de sa propre initiative, l’utilisateur va chercher à évaluer le document qui lui est présenté. C’est le cas de la plupart des systèmes.

– obligatoire : le système oblige l’utilisateur à évaluer des documents pour pouvoir continuer à utiliser le système. Seul Webmuseum force cette évaluation.

Lorsque l’évaluation est associée à l’utilisateur, l’évaluation est unique pour chaque produit (avec éventuellement la possibilité de modifier). Au contraire Topouaibe permet d’évaluer un document jusqu’à une fois par heure, en se basant sur la session puisque l’évaluation est anonyme.

(27)

8.4. Complémentarités entre approches collaboratives et par le contenu

L’approche collaborative apporte des réponses aux problèmes rencontrés dans le filtrage basé sur le contenu. C’est en cela que ces deux approches se complètent avantageusement. Le tableau 8.9 synthétise les éléments de comparaison de ces deux approches.

Filtrage basé sur le contenu

sémantique Filtrage collaboratif

Amorçage (démarrage de l’exploitation du système)

Le filtrage peut commencer après l’établissement du profil

Exige une base de données substantielle et plusieurs évaluations de l’utilisateur avant d’être utilisable Qualité de l’information

(lisibilité, fiabilité, nouveauté, etc.)

La qualité de l’information n’est pas connue

La qualité de l’information est connue via des évaluations d’utilisateurs Contexte de l’information

(domaine d’intérêt)

L’identification du domaine se fait généralement par la co-occurrence des termes dans chaque document

L’identification du domaine se fait par la différence des domaines d’intérêt des utilisateurs

Effet « entonnoir »

Le système ne suggère que des documents dont le thème a déjà été évoqué

explicitement

Le système peut suggérer des documents sans rapport explicite avec les thèmes déjà évoqués

Tableau 8.9. Comparaison de approche collaborative et de l’approche par le contenu

8.5. Conclusions

8.5.1. Difficulté d’évaluation

L’évaluation des systèmes de filtrage collaboratif présente des difficultés, dont certaines s’apparentent aux difficultés d’évaluation des systèmes de recherche d’information, et d’autres sont propres au filtrage collaboratif.

Evaluer un système de recherche d’information pose problème dans la mesure où il est difficile d’y intégrer l’utilisateur, alors que c’est lui qui en dernier ressort, décide de la qualité du service rendu par le système. Ces difficultés se retrouvent bien évidemment avec les systèmes de filtrage collaboratif, mais ils sont d’autant plus aigus que le service rendu par ce type de système doit s’évaluer au cours du temps, tout au long de l’exploitation du système. En effet, pour l’utilisateur, le rapport entre le coût (son effort d’évaluation) et le bénéfice (les documents reçus

(28)

automatiquement) varie au cours du temps. En particulier, au début de l’utilisation du système, ce rapport lui est souvent défavorable, ce qui peut le décourager d’utiliser le système pour atteindre une phase plus favorable. La défection des utilisateurs pénalise alors l’ensemble des performances du système, qui ne fonctionne bien qu’avec une participation active d’un nombre suffisant d’utilisateurs.

Ainsi la question de l’évaluation des systèmes de filtrage collaboratif constitue un sujet de recherche de première importance pour le succès de ce paradigme d’accès à l’information.

8.5.2. Systèmes de filtrage et systèmes de recommandation

Le filtrage collaboratif permet de résoudre un certain nombre de problèmes liées à la prise en compte des données multimédias ou des caractéristiques contextuelles des documents. Mais d’autres canaux traditionnels de recherche d’information, jusque-là informels, méritent d’être étudiés. Les avis et conseils des collègues et des amis permettent souvent d’améliorer la qualité de la recherche personnelle. Aussi, bon nombre d’indications vers des ressources intéressantes sont échangés soit directement soit au travers du e-mail : des personnes qui trouvent des documents intéressants envoient des pointeurs sur ces documents à leurs collègues. Un pointeur contient généralement un lien hypertexte au document source et souvent une information contextuelle pour aider le destinataire à déterminer son intérêt et sa pertinence avant d’y accéder.

Plusieurs systèmes ont été élaborés pour supporter ce genre de communication.

Ils ont été regroupés sous l’appellation « systèmes de recommandation ». Les techniques qui y sont employées ont la caractéristique d’être hybrides et présentent l’avantage de ne pas être cloisonnées en recherche d’information ou filtrage d’information. Elles impliquent des domaines de compétences très variés allant du monde de l’interface homme-machine aux sciences cognitives ou sociales.

Les systèmes de recommandation ne se limitent pas à gérer des références à des documents, mais supportent des domaines larges : cinéma, cuisine, assistance juridique, technologies de pointes, etc. Nous en avons décrit deux dans ce chapitre : les systèmes Phoaks et Siteseer.

8.6. Bibliographie

[BAL 97] BALABANOVIC M., SHOHAM Y., « Fab: content-based, collaborative recommendation », Communications of the ACM, vol. 40, n° 3, p. 66-72, mars 1997.

[BEL 92] BELKIN N.J., CROFT W.B., « Information filtering and information retrieval: two sides of the same coin? », Communications of the ACM, vol. 35, n° 12, p. 29-38, décembre 1992.

(29)

[BRE 98] BREESE J.S., HECKERMAN D., KADIE C., « Empirical analysis of predictive algorithms for collaborative filtering », Proceedings of the Fourteenth Annual Conference on Uncertainty in Artificial Intelligence, p. 43-52, juillet 1998.

[CRO 93] CROFT W.B., « Knowledge-based and Statistical approaches to Text Retrieval », IEEE EXPERT, vol. 8, n° 2, p. 8-12, avril 1993.

[DEL 00] DELGADO J., Agent-based Recommender Systems and Information Filtering on the Internet, PhD. Thesis, Nagoya Institute of Technology, mars 2000.

[GOL 92] GOLDBERG D., NICHOLS D., OKI B.M., TERRY D., « Using collaborative filtering to weave an information Tapestry », Communications of the ACM, vol. 35, n° 12, p. 61- 70, décembre 1992.

[KAU 97] KAUTZ H., SELMAN B., SHAH M., « Referral Web: Combining Social Networks and Collaborative Filtering », Communications of the ACM, p. 63-65, vol. 40, n° 3, mars 1997.

[MAL 95] MALTZ D., EHRLICH K., « Pointing the way: active collaborative filtering », Proceedings of CHI’95, p. 7-11, mai 1995.

[MIL 97] MILLER D., MALTZ J.L., HERLOCKER L.R, GORDAN A., RIEDL J.A., KONSTAN B.N.,

« GroupLens: applying collaborative filtering to Usenet News », Communications of the ACM, vol. 40, n° 3, p. 77-87, mars 1997.

[PAL 97] PALME, J., « Notes from the 5^th DELOS Workshop 1997 in Budapest: Filtering and Collaborative Filtering », http://www.iihe.ac.be/scimitar/J1297/delos-filtering-notes- nov97.htm, novembre 1997.

[RES 94] RESNICK P., IACOVOU P., SUCHAK M., BERGSTROM P., RIEDL J., « GroupLens: An Open Architecture for Collaborative Filtering of Netnews », Proceedings of ACM Conference on Computer Supported Cooperative Work, p. 175-186, 1994.

[RUC 97] RUCKER J., POLANCO M.J., « Siteseer: personalized navigation for the Web », Communications of the ACM, vol. 40, n° 3, p. 73-75, mars 1997.

[TER 97] TERVEEN L., HILL W., AMENTO B., MCDONALD D., CRETER J., « Phoaks: a system for sharing recommendations », Communications of the ACM, vol. 40, n° 3, p. 59-62, mars 1997.