2.1.2-Le Web des moteurs de recherche - Tagging et folksonomies : pragmatique de l'orientation

Face au développement exponentiel des sites Web et aux difficultés pour les utilisateurs de naviguer et de trouver les ressources qu'ils souhaitent à l'intérieur des annuaires nécessitant un travail important d'indexation des ressources Web par les professionnels, à partir de 1995, et durant la seconde moitié des années 1990, on observe l'apparition des moteurs de recherche (Lycos, Alatvista)73. En 1998 c'est Google, le plus célèbre d'entre eux, qui est lancé sur la toile. Ces moteurs de recherche fonctionnent en crawlant74 le Web à l'aide de robots qui vont parcourir le Web pour en indexer le contenu. Le moteur de recherche permet, à partir d'algorithmes de traitement des données indexées, de fournir un certain nombre de résultats, sous forme de liste de liens hypertextes, aux utilisateurs à partir de leurs requêtes.

Les premiers moteurs de recherche fonctionnaient, à partir d'une requête d'un utilisateur, en effectuant un comptage des occurrences des mots-clés recherchés, ce qui signifie que l'ordre des liens proposés aux internautes dépendait du nombre de fois où leur requête était présente sur le site. Mais cette méthode a rapidement présenté ses limites car le nombre d'occurrences d'un mot-clé n'aboutit pas nécessairement à un classement des sites les plus pertinents.

La société Google, avec son algorithme du « Pagerank » tenu secret, a connu un succès important. De manière simplifiée, on peut dire qu'en plus d'effectuer des recherches en plein texte à partir des requêtes des utilisateurs et en calculant le nombre d’occurrences des mots-clés recherchés, Google introduit dans l'algorithme la structure hypertexte des sites qu'il indexe. Ainsi, un site sera jugé d'autant plus pertinent qu'il est cité par d'autres sites qui proposent un lien vers lui. La popularité d'un site est donc calculée à partir de la structure du

73 http://www.lycos.com/ http://www.altavista.com/

graphe hypertexte qui offre la possibilité d'observer les sites émettant un lien vers d'autres. Ce réseau de liens orientés permet d'attribuer, en plus de l'analyse du contenu, un score de popularité à chacun des sites et d'effectuer un classement en fonction de leur pertinence. Cependant, tous les liens n'ont pas la même valeur pour l'algorithme, car un lien émis d'un site populaire offrira un score plus important au site vers lequel il renvoie qu'un autre provenant d'un site ayant un score moindre. De la même manière, l'algorithme HITS , déjà évoqué au chapitre précédent, développé par Kleinberg (1999) se fonde également sur la structure du graphe hypertexte du Web pour déterminer les sites jugés pertinents pour une requête donnée, en se basant sur la notion de « hub », sites qui ne contiennent pas nécessairement d'informations mais dont les liens vont pointer vers d'autres, appelés « autorité », qui eux contiennent l'information et dont on va calculer la pertinence par le nombre de liens de citations qu'ils reçoivent des « hubs ».

Nous sommes donc passés entre les débuts du Web grand public et la fin des années 1990, d'un modèle de structuration des ressources basé sur un catalogage réalisé par des professionnels chargés de construire des classifications hiérarchiques thématisées, à une structuration des ressources automatisée, fondée sur le contenu textuel des pages et sur la structure hypertexte des sites indexés par les moteurs de recherche. Dans le cas des annuaires Web, on propose à l'utilisateur de naviguer dans un monde de ressources dont on a balisé les frontières, alors que dans le cas des algorithmes de recherche, on offre la possibilité à l'utilisateur de parcourir un domaine beaucoup plus vaste, en lui offrant des outils de recherche et d'évaluation des ressources relatives à une requête qu'il a émis. Pourtant, les moteurs de recherche possèdent également un certains nombre de limites. Tout d'abord, l'indexation des sites Web n'est pas exhaustive (couches bases du Web non accessibles, blacklistage qui supprime certains sites, etc.) et l'élaboration des algorithmes sur lesquels ils reposent ne sont pas neutres, mais se fondent sur des choix de développement qui vont avoir une incidence sur le type de résultats proposés aux utilisateurs (Lessig, 199975), ils dépendent parfois également de logiques commerciales ou éditoriales, ce qui amène à valoriser certains sites dans les résultats de recherche.

2.1.3-Le Web 2.0 : Folksonomies, réseaux sociaux, traces explicites et

implicites

Avec l'apparition des sites associés au Web 2.0, mouvement dont nous avons précédemment défini les caractéristiques (chapitre 1), le modèle de structuration des ressources du Web a connu des changements importants. En se basant principalement sur des contenus produits par les utilisateurs et face aux quantités massives de contenus mis en ligne quotidiennement, il devient impossible pour les professionnels du Web de prendre en charge l'indexation des ressources. Sur le Web 2.0, la distribution des contenus suit une loi de puissance, avec un nombre limité de contenus très populaires mis en ligne par une partie réduite des utilisateurs et un phénomène de « longue traine » (Anderson, 2006) qui recouvre les contenus dits de « niche » et dont la popularité est moindre. Ces contenus de « niche » qui constituent la longue traine, de part leur nombre et leur spécificité rendraient trop couteuse et difficile une indexation effectuée par des professionnels. D'autre part, la nature même de certains contenus qui peuvent être des photos, des fichiers audio ou des vidéos rend difficile la recherche de contenus pour les algorithmes qui fonctionnent à partir de données textuelles.

Les éditeurs de sites Web 2.0, particulièrement les sites de partage de contenus, vont donc proposer un ensemble de nouvelles formes de catégorisation qui se fondent sur les traces explicites et implicites produites par les internautes afin d'indexer les contenus qu'ils hébergent et les rendre accessible au plus grand nombre. Cette approche de la structuration des ressources du Web se base sur une indexation sur le modèle des folksonomies (une indexation libre des ressources du Web par les utilisateurs de manière isolée ou collective). La structuration des données, à partir des folksonomies, s’opère par une mise en partage des différentes classifications personnelles produites par les utilisateurs dans des logiques d’optimisation de recherche et de partage d’informations. Elle est liée à l’émergence d’outils techniques mis à la disposition des utilisateurs sur les sites Web 2.0 (tagging, playlist, social mapping, social bookmarking) qui s’efforcent de placer l’utilisateur au centre de la production des contenus (user-generated-content) mais aussi de la production des métadonnées relatives à ces contenus.

Afin d'optimiser l'indexation des contenus, la production de métadonnées par les utilisateurs, au moment de la mise en ligne de leur contenu, est enrichie également par les traces d'usage

des internautes qui vont consulter les contenus. Les sites vont ainsi proposer différents dispositifs techniques qui permettent d'évaluer les ressources (système de vote, de commentaires, nombre de vues ou de consultation, nombre de mise en favoris, nombre de téléchargement). A partir de ces différentes métriques d'audience et de qualité, et sur la base de ces métadonnées couplées à celles produites par les utilisateurs, les sites vont pouvoir catégoriser et classer les ressources disponibles sur leur site.

Dans le modèle de structuration basé sur les taxinomies, largement répandu durant les premières années du Web, la catégorisation est un modèle descendant, produit par des experts catalogueurs qui vont catégoriser les ressources, alors que dans le Web 2.0 on constate l'émergence d'un système de classification distribué horizontalement qui, en agrégeant la multitude des métadonnées issues de l'activité de qualification et de catégorisation des internautes, va produire une catégorisation des ressources pour l'ensemble des utilisateurs et des contenus disponibles.

Il s'agit bien de deux approches opposées dans leur conception et dans leur mode de fonctionnement. Du point de vue des internautes, ce nouveau système de structuration des données change quelque chose également. Il ne s'agit plus d'apprendre à arpenter des arbres hiérarchiques par des mouvements d'allers et retours à l'intérieur de chacune des catégories et sous catégories, mais de mobiliser l'ensemble des métadonnées offertes par le système technique, lesquelles vont agir comme des actionneurs vers d'autres contenus et permettre une navigation non plus descendante mais transverse d'un contenu à l'autre. Ce type de navigation est qualifiée de « navigation sociale » (Munro et Hook 199976 ; Dreiberger, 199977 ; Dourish, Dreiberger, Hook, et al. 200078 ) car elle fonctionne à partir d'une mise à disposition « d'indexations subjectives » (Boullier et Ghitalla, 2003) qui vont faire sens pour d'autres utilisateurs et offrir des supports de navigation et d'évaluation des ressources. La navigation sociale est un mode d'orientation qui fonctionne sur un mode de proche en proche, s'appuyant sur un ensemble de repères produits par les utilisateurs et qui vont se matérialiser sur le Web par toute une série de traces agissant comme des d'actionneurs tels que les tags, les profils d'utilisateurs, les contenus mis en favoris etc.

76 MUNRO A. J., HOOK K., BENYON D., Social Navigation of Information Space, Springer, 1999, 277p.

77 DREIBERGER A., « Supporting social navigation on the World Wide Web », Journal of Visual Languages and Computing, 1999, p.597-622.

78 DRIEBERGER A., DOURISH P., HOOK K., RESNICK P., WEXELBALT A., « Social navigation : techniques for building more usable systems », Interactions, 2000, p.36-45

Ces modes de navigation peuvent également favoriser des logiques de « sérendipité », c'est à dire des opportunités de faire des rencontres heureuses. La « sérendipité » peut être comparée à l'idée de se perdre dans une ville que l'on ne connait pas, de s'orienter sans objectif précis et finalement de découvrir des lieux attrayants. De la même manière, un utilisateur, en train de consulter un contenu sur un site du Web 2.0, va regarder le profil de l’utilisateur qui l'a mis en ligne, puis va accéder à ses contenus favoris. Il actionnera un tag indexé à un contenu qu'il est en train de consulter et accédera à d'autres contenus comportant ce tag etc. Il ne s'agit pourtant pas de réduire le principe de « sérendipité » à l'utilisation des sites du Web 2.0. Ce mode de navigation est également applicable à beaucoup d'autres espaces documentaires, mais le Web 2.0, par la multitude de métadonnées sur lesquelles il se fonde pour structurer et rendre accessible les données, favorise largement ce principe de navigation que l'on pourrait qualifier d'opportuniste. Il est important également de noter que les sites Web 2.0 possèdent des moteurs de recherche classiques et que certains d'entre eux proposent également des systèmes de classifications hiérarchiques dont la construction est effectuée par les éditeurs et que les utilisateurs vont contribuer à enrichir en y référençant les contenus qu'ils mettent en ligne. C'est le cas par exemple des grandes chaines thématiques sur les sites de partage de vidéos tels que Youtube ou Dailymotion. Le modèle horizontal de structuration, dont la forme typique est représentée par les folksonomies, coexiste largement sur le Web avec d'autres modèles plus classiques que sont les taxinomies ou les moteurs de recherche.

Avec le Web 2.0, nous ne sommes plus dans le paradigme d'un utilisateur modèle ayant une idée précise de ce qu'il va rechercher et qui va consulter l'annuaire Web pour y accéder ou encore taper une requête dans un moteur de recherche, mais nous sommes en présence d'une conception d'un utilisateur modèle dont l'attitude face aux ressources disponibles est moins rationalisée, un utilisateur ouvert à l'offre des contenus qu'on lui propose. D. Cardon(2008) en proposant une typologie des différents sites du Web 2.0, par le type de visibilité des utilisateurs et par les formes que prennent les réseaux de relations sur ces différents plateformes, explique les raisons pour lesquelles ces systèmes se sont détachés des paradigmes de recherche classique des moteurs de recherche pour aller vers un modèle d'accessibilité aux ressources davantage centré sur les réseaux de relations des utilisateurs, leurs contenus et les traces explicites et implicites qu'ils produisent. Ils offrent des outils de filtrage et de recommandation qui permettent de naviguer « à vue » dans des bases de données abondantes. Selon lui, « Les plateformes du Web 2.0 ont développé une palette très innovante

destinées à tenir compte du fait que, dans la majorité des cas, les utilisateurs sont incapables d’expliciter ce qu’ils cherchent et n’ont pas formé d’intentions préalables, de buts ou de destinations à leur quête. Les plateformes du Web 2.0 ont généralisé le principe du filtrage par le réseau social et par la proximité de goût, en aidant les utilisateurs à se constituer eux-mêmes un univers d’informations qui les détourne légèrement de leurs chemins habituels, les surprennent sans les désorienter, les aident à explorer et à préciser leurs centres d’intérêt. »

(Cardon, 2008, p.75). Le Web 2.0 offrirait alors des dispositifs de navigation qui permettent aux utilisateurs de produire et d'exploiter des traces sur un registre du familier qui vont servir d'appuis pour explorer le Web. A l'inverse, dans le cas des taxinomies des annuaires Web, l'utilisateur doit naviguer au sein d'un système de classification préconçu par des experts qui font autorité et s'adapter à la classification telle que ces derniers l'ont établie.

Comme nous l'avons évoqué dans le chapitre précèdent à propos de la controverse existante au sein des documentalistes et des spécialistes du Web, des sciences de l'information et de la communication autour de l'usage des folksonomies comme mode pertinent de structuration des données, le type de structuration des données que propose le Web 2.0 pose pourtant un certain nombre de difficultés. En effet, une des faiblesses de ces systèmes de structuration des données est qu'ils ne permettent pas une vue d'ensemble des ressources disponibles sur le site et de la classification dans son ensemble (comme c'est le cas pour les annuaires Web). Ils offrent uniquement des accès limités aux ressources auxquelles les utilisateurs vont aboutir en naviguant à travers les réseaux de contacts ou de métadonnées. De plus, ces dernières ne couvrent pas nécessairement l'intégralité des contenus disponibles sur le site car tous les utilisateurs ne contribuent pas nécessairement à l'indexation des contenus, seule une partie réduite d'entre eux effectuent le travail d'indexation via les tags, le référencement dans les groupes, les chaines thématiques. Même lorsque les utilisateurs indexent les contenus, la qualité des métadonnées produites génère du bruit dans la classification, c'est à dire que les tags ou les métadonnées ne sont pas homogènes. Dans le cas de l'indexation de tags par exemple, les folksonomies regorgent de fautes d'orthographes, d'erreurs de frappe mais également de tags qui peuvent être considérés comme du « spam » et qui sont sans lien direct avec le contenu auquel ils se réfèrent. Ces pratiques dites de « spam tagging » ont généralement comme objectif d'augmenter l'audience d'un contenu en attirant les utilisateurs par des mots-clés dont on sait qu'ils font fréquemment l'objet de requêtes dans le moteur de recherche interne des sites de partage de contenus. Enfin, dans le chapitre 6, nous analyserons les effets de renforcement produits par les choix de développement des outils de filtrage des

sites Web 2.0, qui tendent à valoriser et à augmenter la visibilité des contenus déjà qualifiés comme étant les plus populaires, favorisant de ce fait leur audience et rendant plus difficile l'accès à des contenus de niches constituant la longue traîne typique des sites de partage de contenus du Web 2.0.

Dans le document Tagging et folksonomies : pragmatique de l'orientation sur le Web (Page 52-58)