L’USAGER COMME AUTORITÉ COGNITIVE

(1)

COGNITIVE

Perspectives théoriques sur les systèmes de recommandation

MARCELA C.BAIOCCHI

DOMINIC FOREST Les systèmes de recommandation sont des mécanismes de filtrage très répandus sur le web, dont la fonction est de suggérer des ressources informationnelles susceptibles d’intéresser les usagers. Il existe deux méthodes principales appliquées à ces systèmes : la première repose sur la collecte de données personnelles des usagers et la seconde sur l’analyse statistique et sémantique du contenu des documents. Dans cet article nous proposons une réflexion théorique sur ces méthodes, en explorant l’opposition entre les « systèmes orientés usager » et les « systèmes orientés document », très présente dans les sciences de l’information. Nous démontrons les limites de la méthode orientée usager en ce qui concerne la découverte de nouvelles sources d’information, en empruntant le concept d’autorité cognitive développé par Patrick Wilson (1983). Nous présentons également des voies de recherches prometteuses pour les approches statistiques d’analyse textuelle qui méritent d’être davantage explorées dans le cadre de ces systèmes.

(2)

1. Introduction

Dans plusieurs situations, la mise en place de nouvelles technologies ou de nouveaux systèmes d’information n’est pas justifiée comme un moyen de perfectionner l’accès à l’information, mais comme un but en soi. D’une part, on croit que la technologie représente en elle-même un gain indéniable. D’autre part, il n’est pas rare de recourir au sens commun comme moyen d’éviter des problèmes théoriques substantiels. Les concepteurs et les promoteurs des systèmes de recommandation, par exemple, évoquent l’avantage de ces derniers pour contrer la fameuse surcharge informationnelle dans les bases de données volumineuses, en offrant des résultats de recherche qui correspondent plus aux intérêts et aux goûts personnels des usagers (Lei et al., 2011 ; Nageswara Rao et Talwar, 2008 ; Park et al., 2012 ; Resnick et al., 1994). Il peut paraître en effet attirant de concevoir des systèmes à l’image des usagers, mais cette formule ne suffit pas à mettre en évidence les bases théoriques sur lesquelles les techniques de recommandation se fondent, ni à quel point l’état de l’art actuel de ces techniques peut répondre adéquatement aux problèmes posés par la surcharge informationnelle.

Certains travaux critiquent la tendance des systèmes de recommandation de créer un environnement informationnel excessivement sélectif, où les parcours d’accès à l’information sont de plus en plus dictés par les usagers eux-mêmes ou artificiellement limités en fonction de leurs choix et de leurs comportements individuels (Mutz et Young, 2011 ; Parisier, 2011 ; Sustein, 2007 ; Van Alstyne et Brynjolfsson, 2005). Ces auteurs soulignent d’ailleurs un risque important de ces systèmes qui pourraient, dès lors, confiner les usagers dans une « bulle de filtrage » (filter bubble) (Parisier, 2011). Cela aurait pour effet d’exposer les usagers aux contenus qui correspondent davantage à leurs idées et de contribuer à renforcer les idées préconçues et les convictions (des usagers) lors de la recherche d’information.

Dans cet article, nous proposons d’explorer l’hypothèse de cette « bulle de filtrage » en utilisant d’une part, les principes théoriques qui sont à la base du développement des systèmes de recommandation et d’autre part, le concept d’autorité cognitive développé par Patrick Wilson (1983). Dans un premier temps, nous présentons un bref historique de ces systèmes et expliquons les méthodes à partir desquelles ils ont été développés. La

(3)

notion de systèmes de recommandation inclut dans cet article les systèmes qui suggèrent des articles à la volée, en tenant compte de l’historique de recherche des usagers, ainsi que les systèmes de repérage personnalisés qui, lors d’une requête utilisent des données privées des usagers pour retourner des résultats qui correspondent plus à leurs caractéristiques socio- démographiques. En opposant les deux principales techniques de recommandation, les méthodes collaboratives et les méthodes basées sur le contenu, nous explorons deux perspectives distinctes pour ces systèmes : d’une part, les principes théoriques issus d’études sur le comportement informationnel, correspondant à la perspective orientée usager et d’autre part, les principes théoriques appliqués à la classification et à l’indexation de documents selon le cadre théorique de l’organisation des connaissances de Birger Hjørland (2003), correspondant à la perspective orientée document. Nous démontrons les limites de certains présupposés de la première perspective et explorons des pistes de recherche qui nous semblent fructueuses à l’intérieur de la seconde.

2. Systèmes de recommandation : historique et méthodes

L’avènement des systèmes de recommandation se situe à la montée de la popularité du web et des services en ligne, notamment les courriels, les forums et le commerce électronique (Martin et al., 2011). Nous pouvons retracer l’origine de ces systèmes dans les recherches qui ont mené à l’élaboration du filtrage collaboratif, méthode développée dans les années 1990 par le centre de recherche Xerox Palo Alto (PARC) et destinée à contrer la surcharge informationnelle provoquée par l’envoi massif de courriels non sollicités (Parisier, 2011). Le projet de filtrage collaboratif développé par le PARC consistait à analyser les réactions des usagers aux courriels reçus (messages lus, exclus ou archivés) et à utiliser cette information pour faire un classement des messages plus importants, en supprimant les pourriels¹. En 1994, le créateur du magasin en ligne Amazon.com, Jeff Bezos, utilisera le filtrage collaboratif dans la recommandation de livres, en prenant comme base l’historique d’achats

1. « Message électronique importun et souvent sans intérêt, constitué essentiellement de publicité, qui est envoyé à un grand nombre d’internautes, sans leur consentement, et que l’on destine habituellement à la poubelle ». (Office québécois de la langue française, 2012).

(4)

des clients. En regroupant ces derniers en fonction de leur profil d’achat‚ le système de recommandation d’Amazon identifie les livres susceptibles d’intéresser les usagers, méthode qui s’est rapidement démontrée efficace et commercialement avantageuse.

Le succès du site Amazon a contribué considérablement à l’intérêt pour les systèmes de recommandation dans les deux dernières décennies (Martin et al., 2011). Ces systèmes sont devenus des incontournables dans la plupart des sites web et des catalogues en ligne constitués de types particuliers de ressources, comme les biens culturels (livres, films, musique), les marchandises (produits divers) ou les éléments d’information (nouvelles) (Poirer et al., 2010). Citons entre autres, le site Netflix de recommandation de films, et le site YahooNews, qui suggèrent aux usagers des articles de presse correspondant à leurs préférences personnelles.

Dans son ouvrage The Filter Bubble, Parisier (2011) analyse les versions plus contemporaines du filtrage collaboratif, notamment les techniques de personnalisation dans les systèmes du web actuel, comme le moteur de recherche de Google et le réseau social Facebook. Parisier explique que sous le seul prétexte de rendre leurs services plus efficaces, ces systèmes recueillent une quantité importante de données personnelles ou de

« signaux » qui servent à nourrir les algorithmes de recherche. Google, par exemple, offre gratuitement à ses clients une panoplie d’applications bureautiques et de stockage de documents qui constituent de véritables plateformes de collecte de signaux provenant des clics des usagers (Gmail, Google Documents, etc.). Dans cette même voie, l’algorithme EdgeRank de Facebook établit le rang des nouvelles les plus intéressantes pour un usager sur la base de chaque interaction que ce dernier réalise dans le site.

Par exemple, le temps d’échange avec certains usagers ainsi que les votes exprimant les contenus les plus appréciés permettent au système de prédire les billets et les annonces publicitaires que les usagers seraient plus enclins à consulter (Parisier, 2011).

Les systèmes de recommandation sont couramment définis comme un ensemble de filtres personnalisés intégrés à un système de repérage, dont la fonction est de suggérer des ressources informationnelles susceptibles d’intéresser les usagers (Park et al., 2012 ; Lynch 2001). Les techniques de recommandation courantes modifient le modèle de repérage d’information classique (appariement entre les termes d’une requête et le contenu des documents) en y intégrant un mécanisme de filtrage sophistiqué qui vise à

(5)

créer une correspondance entre le profilage des usagers et les contenus présents dans la base d’informations (Nageswara Rao et Talwar, 2008). Le filtrage peut se présenter implicitement dans les résultats de recherche, et dans ce cas, on parle plutôt d’un système de repérage personnalisé, ou encore sous la forme d’une liste de suggestions qui se construit graduellement en fonction de l’usage du système. Ainsi, un lecteur consultera dans un système un article sur un sujet donné et verra dans l’interface une liste de suggestions ayant un lien thématique avec l’article qu’il est en train de consulter.

Furner (2003) identifie dans l’action de « recommander » une opération fondamentale de tous les systèmes d’information. Il radicalise cette idée avec le modèle ERIn (Evaluation-Recommendation-Information) en affirmant que tous les systèmes de repérage dans lequel les objets de la collection sont classés dans l’ordre de leur utilité prévue pour l’usager peuvent être considérés comme des systèmes de recommandation. Furner explique que l’action d’indexer un document, de le citer ou de l’évaluer consiste à exprimer un jugement sur l’utilité de ce document. Ce jugement est exploité dans le cadre des systèmes de repérage en cherchant à prédire un ordre de préférence. Suivant cette perspective et à finalité pratique, nous sommes d’avis que la distinction entre les systèmes de repérage personnalisés et les systèmes de recommandation n’est pas cruciale. Ils sont équivalents dans une perspective d’opérationnalisation, car ils mettent en œuvre les mêmes techniques ; mais ils diffèrent par la manière dont les résultats de cette opérationnalisation est exploitée par les usagers.

Ainsi, dans le cas des systèmes de repérage personnalisés, on vise l’adaptation d’un système à l’usager, car les données personnelles qui sont recueillies à son propos et qui forment son profil influent sur le classement des résultats d’une recherche. De cette façon, l’usager est principalement exposé à des contenus correspondant à sa localisation géographique, à sa langue, ou même aux caractéristiques de son réseau d’amis ; dans le cas des systèmes de recommandation, l’enjeu est de suggérer de nouvelles choses et on favorise plutôt la découverte et l’exploration de sources et de contenus.

L’usager peut découvrir de nouveaux documents qui ne sont pas nécessairement en lien avec les mots clés de sa recherche, mais qui ont un lien avec le domaine, la thématique, son historique de navigation ou son profil personnel.

(6)

Typologies et méthodes

Lynch (2001) présente quatre modèles de recommandation :

– modèle basé sur les préférences des usagers : la découverte d’informations se fait en comparant des profils d’usagers qui partagent les mêmes préférences ;

– modèle basé sur la « gestion de la réputation » (reputation management) : identification de leaders d’opinion préférés par un usager.

La découverte de contenus se fait sur la base des actions effectuées par ces leaders ;

– modèle basé sur la popularité : la recommandation se fait sur la base des contenus les plus populaires, c’est-à-dire, ceux qui attirent plus d’attention dans une communauté d’usagers ;

– modèle classique : les termes de la requête sont comparés aux contenus des objets dans la base de données. Les documents plus pertinents sont ceux dont les caractéristiques sont similaires aux documents qui ont été consultés par l’usager dans le passé.

De ces modèles découlent deux méthodes principales pour calculer la probabilité qu’un contenu puisse intéresser un usager : la méthode collaborative, qui procède par analyse du voisinage entre les usagers afin de dériver les recommandations (méthode utilisée dans les trois premiers modèles proposés par Lynch (2001) ; et la méthode basée sur le contenu, qui cherche les documents correspondant au profil personnel des usagers, ce profil étant défini par l’ensemble de documents consultés (dernier modèle proposé par Lynch). Une troisième méthode, dite hybride, emploie à la fois la méthode collaborative et la méthode basée sur le contenu dans le but d’obtenir une performance optimale pour la recommandation. Nous n’allons pas considérer la méthode hybride comme une méthode en soi, puisqu’elle consiste à combiner les résultats statistiques des deux autres méthodes ou à commuter une des deux selon les données disponibles dans le système.

Dans la méthode collaborative, le contenu des documents n’est pas analysé dans le processus de recommandation. Les systèmes basés sur cette méthode engagent les usagers dans un mécanisme de vote et les incitent à apprécier et à exprimer leurs opinions à propos de documents. Ces votes, traduits en valeur numérique, sont par la suite utilisés pour comparer les

(7)

usagers entre eux. Ceux qui partagent le même profil de vote sont considérés comme ayant les mêmes « intérêts » et, par conséquent, sont regroupés. Ainsi, le système prédit l’intérêt d’un usager pour un document donné en cherchant d’autres usagers dont les préférences lui sont apparentées et qui ont déjà apprécié le document en question.

Concrètement, si l’usager A apprécie le document d et que les usagers A et B ont des profils d’appréciation similaires, le document d sera aussi recommandé à B. Dans les systèmes de recommandation basés sur la gestion de la réputation, l’usager est libre de choisir les profils auxquels il s’identifie le plus afin de recevoir les recommandations de ces individus.

Dans les méthodes basées sur le contenu, un ensemble d’attributs sont extraits des documents (mots ou métadonnées, par exemple) afin de générer des représentations vectorielles de ces derniers, procédure qui permet par la suite la comparaison automatique entre les contenus des documents. Ceux-ci sont rapprochés les uns des autres par le biais de calculs statistiques qui en détectent le niveau de similarité. Le mécanisme de recommandation consiste à proposer à un usager des documents ayant des contenus similaires à ceux qu’il a déjà consultés, en prenant comme base son historique de navigation ou ses informations de profil (données que l’usager fournit explicitement au système). Dans le cas des systèmes de repérage personnalisés, l’ensemble des thèmes les plus consultés par l’usager, ainsi que son profil personnel (langue, région géographique, etc.) peut influer sur les résultats d’une requête.

Les méthodes de filtrage collaboratif trouvent leur support théorique dans la notion de systèmes orientés usager, car l’analyse qui sert à modéliser le système est faite en tenant compte en priorité des besoins, des questions et des comportements de l’usager. En contrepartie, les méthodes basées sur le contenu portent sur une analyse plus ou moins fine du contenu des documents : les textes en format numérique subissent un traitement statistique dont le but est de rapprocher les documents semblables et de séparer ceux qui sont différents, sur la base, principalement, de la fréquence de termes partagés. Même si cette dernière méthode possède un côté orienté usager, en raison du profilage qui est bâti à partir de l’historique de recherche de l’usager, il n’en demeure pas moins qu’elle correspond davantage à la perspective orientée document, car elle privilégie la représentation du contenu des documents dans la modélisation du système.

(8)

Conséquemment, il nous semble légitime d’aborder les systèmes de recommandation sous ces deux perspectives théoriques distinctes : d’une part, la perspective orientée usager, que l’on retrouve dans les études sur le comportement informationnel et, d’autre part, la perspective orientée document correspondant au paradigme bibliographique présent dans les études sur l’organisation des connaissances. Dans la section suivante, nous explorons les assises théoriques sur lesquelles les systèmes de recommandation de nature collaborative se fondent, en prenant comme point de départ les modèles de comportement informationnel de Wilson (1999).

3. Les systèmes de recommandation orientés usager : principes théoriques

Hjørland (2013) identifie dans les systèmes personnalisés du web l’influence de la perspective cognitive et orientée usager. Nous pensons que les systèmes qui reposent sur le filtrage collaboratif sont liés davantage à cette perspective que ne le sont les systèmes basés sur le contenu.

Certains principes théoriques issus des modèles de comportement informationnel sont particulièrement utiles pour soutenir cette hypothèse‚

dans la mesure où les phénomènes dont ils tiennent compte se réfèrent de manière centrale au sujet humain dans la tâche ardue d’appréhender le monde qui l’entoure. L’interaction entre l’humain et les systèmes d’information (particulièrement les systèmes informatiques) est une dimension du comportement informationnel cruciale pour comprendre les systèmes de recommandation.

Le modèle imbriqué de Wilson (1999) (figure 1) constitue un bon point de départ pour analyser, d’une part, les principes qui prescrivent le design des systèmes de recommandation orientés usagers et, d’autre part, la matérialisation de ces principes dans la mise en œuvre informatique de ces systèmes. Le modèle imbriqué (nested models) classifie l’ensemble des modèles du comportement informationnel selon trois niveaux distincts : le comportement informationnel, la quête d’information et la recherche d’information². Pour Wilson (1999) chaque niveau répond à des questions

2. Nous avons traduit respectivement, information behaviour‚ information-seeking behaviour et information-search behaviour.

(9)

de recherche se référant à des types distincts de comportement. Dans le niveau supérieur, celui du comportement informationnel, on retrouve les modèles décrivant les éléments constitutifs de la recherche d’information (l’usager, son besoin et les sources), avec une emphase sur les facteurs sociaux influant sur le comportement humain. Le niveau intermédiaire, celui de la quête d’information, comprend les méthodes employées par les usagers pour découvrir et accéder aux sources d’information dans une notion de recherche active. Finalement, on retrouve dans le niveau inférieur, celui de la recherche d’information, les modèles décrivant les interactions entre les usagers avec les systèmes d’information.

Figure 1. Modèle imbriqué des domaines de recherche sur le comportement informationnel (Wilson, 1999, 263)

Wilson propose le modèle imbriqué comme un instrument d’analyse des divers phénomènes liés au comportement informationnel et suggère que l’étude d’un sujet à l’intérieur d’un niveau du modèle doit se faire en tenant compte du contexte qui l’entoure : « … ainsi, la recherche d’information doit être envisagée avec une compréhension des phénomènes liés à la quête d’information et cette dernière, avec une compréhension des phénomènes liés au comportement informationnel.³ »

3. Thus, information searching should be explored with an understanding of information seeking and the latter with an understanding of information behavior.

(Wilson 1999, 264).

(10)

(Wilson 1999, p. 264, notre traduction). En prenant le chemin suggéré par Wilson, nous analysons synthétiquement les systèmes de recommandation orientés usager à partir de l’imbrication de trois modèles différents, chacun d’eux correspondant à un niveau du comportement : dans le niveau comportement informationnel, le modèle de communication à double étage, de Katz et Lazarsfeld (1955) ; dans le niveau quête d’information, le modèle Information Search Process (ISP) de Kulhtaut (1991) ; et dans le niveau recherche d’information le modèle cognitif du processus de repérage d’information de Ingwersen (1996).

3.1. Le modèle de double étage et la contagion sociale

Le filtrage collaboratif est le produit technologique d’une récente

« science de réseaux » qui provient en partie des observations de Watts et Strogatz (1998) sur les propriétés structurelles des réseaux et sur leur impact dans les dynamiques collectives (Watts, 2004). Mais les éléments de cette « nouvelle science », en particulier ceux qui concernent les réseaux humains, relèvent d’une tradition plus ancienne issue des sciences sociales et des mathématiques des graphes, qui cherchait à étudier les dynamiques de groupe à partir de déterminations socio-psychologiques des individus.

Par exemple, Watts et Dodds (2002) proposent un modèle de réseau d’affiliation généralisé (generalized affiliation networks) dans lequel la distance entre les groupes d’individus dans un réseau est définie selon un certain nombre de dimensions sociales partagées (localisation géographique et occupation). Dans ce modèle, la probabilité de formation d’un lien entre deux individus dépend de leur degré d’homophilie, concept qui a été mathématiquement systématisé 48 années plus tôt par Lazarsfeld et Merton (1954). Même sans connaître les détails des algorithmes de recommandation d’un site comme Facebook, il est possible d’affirmer que, théoriquement, cet algorithme est basé sur le principe d’homophilie, dans la mesure où les recommandations se génèrent en fonction des liens d’affinités que les usagers entretiennent à l’intérieur du réseau.

Dans cette même optique, plusieurs travaux liés à la contagion sociale (influence du réseau de relations sur les processus de prise de décision) ont été associés aux observations faites par les études de Katz et Lazarsfeld (1955) (Watts, 2004). Intéressés à la force de la structure sociale dans la détermination des mécanismes de prise de décision et de partage

(11)

d’information, Katz et Lazarsfeld (1955) ont proposé le modèle de double étage (Figure 2), que nous considérons, dans le cadre de cette analyse, comme un modèle relevant du comportement informationnel. Élaboré à partir des résultats d’une étude sur les élections présidentielles américaines en 1940, le modèle démontre l’influence des leaders d’opinion sur les processus de diffusion de l’information des médias.

Le modèle à double étage comprend ainsi une étape où les leaders d’opinion sont exposés aux messages délivrés par les médias et une seconde étape où ces messages sont partagés au sein d’un groupe se retrouvant à une proximité du leader.

Figure 2. Modèle de communication à double étage (Two-step flow model) (Katz et Lazarsfeld, 1955)

Pour comprendre les systèmes de recommandation orientés usager à la lumière du modèle à double étage de Katz et Lazarsfeld (1955), il importe de s’attarder à ce que ce dernier présuppose : l’existence de liens responsables de la médiation de l’information et le rôle de quelques agents centraux qui relayent les contenus à l’ensemble du réseau. Appliqué au filtrage collaboratif, le modèle supporte l’idée selon laquelle les systèmes doivent reproduire les associations « naturelles » entre les individus, contribuant ainsi à l’émergence spontanée de communautés dont la cohésion est identifiable par le truchement de calculs mathématiques.

Ceux-ci reposent sur des conceptions plus au moins arbitraires de ce que constitue la cohésion d’un groupe : les goûts personnels, la proximité physique, les choix d’achats, etc. L’influence du modèle à double étage est

(12)

visible dans les différents types de systèmes de recommandation orientés usagers : ceux qui procèdent à l’agrégation d’usagers sur la base de leurs préférences, ceux basés sur la gestion de la réputation où l’usager signale dans les systèmes les leaders d’opinion qu’ils préfèrent et finalement ceux reposant sur la popularité des contenus dans une communauté d’usagers (Lynch, 2001).

3.2. Le modèle ISP et l’exploration de sources d’information

L’Information Search Process (ISP) développé par Kuhlthau (1991) – que Wilson (1999) considère comme un type de modèle de quête d’information – fournit aussi des éléments essentiels pour comprendre le cadre théorique dans lequel les systèmes de recommandation orientés usager se sont développés (Tableau 1). Inspiré de la psychologie cognitive, l’ISP est le résultat de l’observation d’un groupe d’usagers lors de la réalisation d’un certain nombre de tâches de recherche d’information.

Tableau 1. Fondement théorique de l’ISP (Kuhlthau, 1991, p. 363, notre traduction)

Étapes dans l’ISP

Sentiments communs à chaque étape

Pensées communes à chaque étape

Actions communes à chaque étape

Tâche appropriée

selon le modèle de

Kuhlthau 1. Initiation Incertitude Général/Vague

Recherche d’information

sur le fond

Identifier

2. Sélection Optimisme

Recherche d’information

pertinente

Identifier

3. Exploration

Confusion/

Frustration/

Doute

Investiguer

4. Formulation Clarté Précis/Clair Formuler

5. Collection

Sens de direction, Confiance

Intérêt accru

Recherche d’information pertinente ou d’information

précise

Collecter

6. Présentation

Soulagement/

Satisfaction ou Déception

Plus clair ou

Concentré Compléter

(13)

L’ISP décrit le processus de recherche comme un processus de construction du sens (sense-making) : l’individu a un besoin d’information à combler ou un problème à résoudre et il intègre progressivement de nouvelles connaissances à celles déjà acquises dans le but d’arriver à un nouvel état de connaissance. L’ISP est composé de six étapes. Le passage d’une étape à l’autre se caractérise par une augmentation graduelle de la confiance de la part de l’usager et, conséquemment, par la diminution de l’incertitude initiale qui a déclenché le processus de recherche. Dans chaque étape, l’ISP décrit les sentiments et les pensées qui leur sont associées et indique les actions que les usagers entreprennent.

Kuhlthau (1991) encourage l’adoption de certaines stratégies destinées à amenuiser les sentiments négatifs qui découlent du processus de recherche d’information. Par exemple, l’étape 3 « Exploration », où l’usager cherche les sources d’information plus pertinentes pour diminuer son incertitude, correspond, dans le cadre d’un système, à l’action d’analyser les résultats d’une requête. C’est pendant cette phase que l’usager éprouve beaucoup de confusion et qu’il consacre son temps à examiner les contenus. Un système de recommandation ou de personnalisation peut réduire les risques de frustration qu’un usager est susceptible d’éprouver et empêcher qu’il abandonne le processus de recherche (Kuhlthau, 1991). Kuhlthau suggère d’ailleurs l’adoption de stratégies pour faciliter la formation de nouvelles connaissances, en proposant que les systèmes intègrent une liste de suggestions permettant d’exposer les usagers à de nouvelles idées et de nouvelles connaissances.

L’exploration se caractérise par des sentiments de confusion, d’incertitude et de soupçon qui gagnent fréquemment de l’ampleur dans cette phase. La tâche [de l’usager] est d’examiner l’information sur un thème général dans le but d’augmenter sa propre compréhension sur ce thème. Sa pensée se dirige vers la quête d’orientation et d’information.

L’usager veut former un point de vue particulier sur le sujet qu’il cherche. Dans cette phase, l’incapacité d’exprimer précisément l’information qu’il désire, nuit à sa communication avec le système. Les actions communes incluent la localisation de l’information sur le thème général, la lecture et l’exercice de mettre en rapport les nouvelles informations avec ce qui est déjà connu. Les stratégies qu’ouvrent des opportunités pour élaborer de nouvelles connaissances, comme la génération de listes avec des faits pertinents ou qui reflètent des idées

(14)

innovantes, peuvent être très utiles dans cette phase ».⁴ (Kuhlthau, 1991, p. 367, notre traduction)

Les étapes de l’ISP constituent un point de départ pour le design de systèmes, dans la mesure où elles indiquent les points critiques du processus de recherche où le système doit venir en aide à l’usager. Il nous semble clair qu’un système de recommandation et de personnalisation peut jouer le rôle de support à la recherche. Cependant, l’ISP ne fournit pas les règles sur lesquelles les concepteurs et les développeurs de ces systèmes pourraient se baser pour concevoir des systèmes d’information orientés usagers. Cela est d’ailleurs soulevé par Wilson (1999), qui explique que les modèles de quête d’information comme l’ISP ne décrivent pas les comportements de recherche, dans le sens qui pourrait être compris par un chercheur intéressé aux systèmes de repérage d’information :

La recherche sur le comportement informationnel peut fournir des principes généraux pour le design de systèmes de repérage et aider les développeurs de tels systèmes à spécifier de manière plus claire les chemins plus appropriés pour naviguer et pour explorer l’information ou même à préciser le type de donnée qui doit être enregistré dans le système. Cependant, la spécification de règles pour le design de systèmes interactifs n’est pas possible à partir des recherches sur le comportement informationnel.⁵ (Wilson, 1999, 258, notre traduction)

4. “Exploration” is characterized by feelings of confusion, uncertainty, and doubt which frequently increase during this time. The task is to investigate information on the general topic in order to extend personal understanding. Thoughts center on becoming oriented and sufficiently informed about the topic to form a focus or a personal point of view. At this stage an inability to express precisely what information is needed makes communication between the user and the system awkward. Actions involve locating information about the general topic, reading to become informed, and relating new information to what is already known. Strategies which open opportunities for forming new constructs such as listing facts which seem particularly pertinent and reflecting on engaging ideas, may be most helpful during this time.

(Kuhlthau, 1991, 367).

5. [...] the implications for IR systems from research in the general area of information behaviour may inform the overall design principles of such systems, and may enable the information content developer to specify more clearly what navigational routes are needed through the information and exactly what kind of information or data types need to be in the record, but the specification of rules for the design of interactive

(15)

3.3. Le modèle cognitif du repérage d’information : règles pour la conception de systèmes

Wilson (1999) présente d’autres modèles inscrits dans le courant de la psychologie cognitive et souligne leur contribution dans l’intégration de concepts des modèles précédents (comportement informationnel et quête d’information) avec les enjeux propres au design de systèmes. Il parle en effet du niveau de la recherche d’information. Le modèle cognitif du processus de repérage d’information proposé par Ingwersen (1996) en est un exemple. Il met en évidence la fonction de chaque élément impliqué dans le processus de recherche dans les systèmes : l’usager et son contexte, l’interface (ou l’intermédiaire) et le document. Pour Ingwersen, chacun de ces éléments détient un modèle cognitif particulier : l’usager a un modèle cognitif de son besoin et des tâches qu’il doit performer ; le système reproduit le modèle cognitif de son concepteur, qui définit comment le système doit fonctionner et le document reconstitue le modèle cognitif de son auteur. En ce sens, le processus de recherche consiste à faire interagir ces différentes structures cognitives. Ingwersen défend l’idée selon laquelle ces structures cognitives peuvent être expliquées et préconise l’intervention de règles capables de promouvoir leur communication dans les systèmes de repérage. Dans la même lignée, le modèle de Belkin (1995) prône un dialogue entre l’usager et le système, capable d’identifier les tactiques générales de recherche employées par les usagers et, sur la base de ces données, de construire une série d’instructions servant à aider l’usager à accomplir sa stratégie de recherche (Wilson, 1999).

Ces développements ont eu des répercussions dans la conception de systèmes de repérage personnalisés. Ainsi, Saracevic et Kantor (1988) ont utilisé certains signaux laissés par l’usager pour caractériser son contexte lors d’une recherche dans un système de repérage : la définition du problème de recherche ainsi que l’habilité à formuler le problème constituaient les indices pour établir l’état de connaissance des usagers. Sur la base de ces expérimentations pionnières, Lainé-Cruzel et al. (1996) proposent une technique de personnalisation pour les systèmes de repérage. Leur méthode consiste à déterminer, d’une part, les compétences et les habitudes en recherche des usagers à partir d’actions accomplies dans

systems on the basis of information behaviour research may not be possible. (Wilson, 1999, 258).

(16)

le système (historique de recherche, documents consultés) ainsi qu’à partir d’une requête spécifique. Selon ces auteurs, le système caractérise le profil de l’usager de la façon suivante :

– sur le plan cognitif : évaluation de la connaissance de l’usager par rapport au domaine de la requête, en utilisant des données fournies par l’usager (formation universitaire, champ d’activité) et des indications inférées par son aptitude technique (stratégie de recherche, utilisation de descripteurs ou la spécification d’auteurs) ;

– sur le plan technique : évaluation de la connaissance de l’usager sur les sources et les types de données disponibles dans le système ;

– sur le plan de la recherche : évaluation des documents retenus à la suite du processus de recherche : nombre, types et styles des documents retournés.

Nous sommes d’avis que plusieurs éléments issus des études sur l’interaction des usagers avec les systèmes de repérage appuient les présupposés de la méthode collaborative. En effet, ces systèmes infèrent une similitude entre les usagers en comparant l’ensemble de signaux servant à les caractériser.

Suivant le modèle imbriqué de Wilson (1999) nous avons présenté un ensemble de modèles de comportement informationnel. L’exercice nous a permis d’envisager les systèmes de recommandation sous l’angle de trois dimensions distinctes qui se complètent : les processus sociaux liés au comportement informationnel (modèle à double étage), les processus de recherche active relatifs aux sources (ISP) et les processus d’interaction entre les humains et les systèmes (modèle cognitif du processus de repérage d’information). Nous sommes en mesure de caractériser les systèmes de recommandation orientés usagers dans ces termes :

– Ce sont des systèmes qui proposent de coder et de décoder différentes structures cognitives qui rentrent en jeu lors d’une recherche (usager, système et document) à partir de la sélection et de l’interprétation de signaux émis par les usagers. Les formes spécifiques de sélection et d’interprétation sont élaborées par les concepteurs des systèmes, soit dans la façon dont les différentes structures cognitives sont inférées et traduites dans le système (par exemple, le choix de regrouper les usagers selon un ensemble de documents appréciés) soit au niveau des calculs de ces

(17)

inférences (valeurs attribuées à certains indices, méthodes de pondération, etc.) ;

– Ce sont des systèmes de support à la découverte de sources d’information, permettant l’exploration de sources. Ils ont comme fonction de réduire l’état de confusion que l’usager est susceptible d’éprouver dans le processus de recherche ;

– La découverte de nouvelles sources repose sur un principe théorique qui défend la prépondérance de la communication interpersonnelle dans les mécanismes individuels de sélection de sources d’information et de prise de décision.

4. L’usager comme autorité cognitive

Patrick Wilson (1983) s’intéressait également aux modes par lesquels les individus acquièrent de la connaissance et comment ils évaluent la valeur des sources d’information. Il soutient que l’acquisition de connaissances n’est pas seulement résultante de l’expérience individuelle, mais que les individus sont en quelque sorte dépendants d’une connaissance de

« seconde main », provenant de sources auxquelles ils attribuaient une certaine valeur d’autorité. Avec le concept d’autorité cognitive, Wilson englobe les signifiants, socialement crées et partagés, qui rentrent en jeu dans l’évaluation de sources d’information : lorsqu’un individu choisit un livre dans une étagère, par exemple, il considère quelques critères de valeur comme la réputation de l’auteur ou de l’éditeur, les critiques rédigées par des experts du domaine, ainsi que les recommandations provenant de personnes qui lui sont proches. Dans les systèmes de recommandation orientés usager la notion d’autorité cognitive se trouve représentée dans les différentes formes de classement. Par exemple, les recommandations d’un système basé sur la gestion de la réputation se génèrent en fonction d’autorités reconnues par les usagers. Dans le filtrage collaboratif, l’agrégation d’usagers sur la base de leurs préférences contribue à l’émergence spontanée de liens de confiance et de fiabilité. Autrement dit, la cohésion d’un groupe d’usagers semblables dénote en quelque sorte une reconnaissance mutuelle des critères qui doivent être considérés pour évaluer l’autorité cognitive des sources.

La notion de « connaissance » dans les écrits de Patrick Wilson a une acception pragmatiste que nous pouvons dénoter par le concept de

(18)

« connaissances énoncées » : la connaissance n’est pas liée à l’idée de vérité ou d’une croyance qui doit être justifiée en s’appuyant sur l’expérience ou sur la logique interne des énoncés qui la composent. La connaissance est tout ce qui permet à l’individu d’agir ou de réaliser une tâche (Sundin et Johannisson, 2005)⁶. En retenant la conception pragmatiste de la connaissance, nous sommes amenés à considérer que les différentes

« connaissances énoncées » sont également valides en admettant qu’elles aident les individus à agir, à atteindre un but. Différents groupes sociaux, domaines ou disciplines revendiquent leurs propres « connaissances énoncées » et par conséquent chaque groupe reconnaît, selon ses besoins particuliers, différentes autorités cognitives. Cette vision pragmatiste de la connaissance a une répercussion déterminante sur la recherche d’information, dans la mesure où elle la définit comme un processus de négociation de sens, de communication et de création d’identité. Ainsi, la confrontation de différentes

« connaissances énoncées » est essentielle à l’acquisition de connaissance sur un sujet. Par conséquent, les systèmes d’information doivent encourager l’exposition des usagers à des autorités cognitives différentes dans un domaine, c’est-à-dire à des paradigmes, des traditions académiques, des positions idéologiques ou des mouvements qui s’opposent et se contredisent dans ce domaine (Sundin et Johannisson, 2005).

D’ailleurs, Wilson (1983) soutient que le consensus face aux

« connaissances énoncées » d’un domaine a pour effet de diminuer les options d’autorités cognitives disponibles. Dans un environnement plus hétérogène, où coexistent un plus grand nombre de « connaissances énoncées », le niveau d’incertitude est plus grand, mais il y a plus de liberté dans les choix d’autorités cognitives (Sundin et Johannisson, 2005). En adoptant une perspective pragmatique dans l’analyse des systèmes de recommandation orientés usagers, il devient pertinent de poser la question suivante : étant donné que ces systèmes encouragent l’exposition de contenus sur la base d’une proximité socio-affective, ne sont-ils pas en train de promouvoir la formation d’un consensus et par conséquent de réduire les options d’autorités cognitives qui seraient pourtant essentielles à l’acquisition de la connaissance ?

6. (…) having knowledge, like having understanding, is shown by the exhibition of an ability to perform a wide variety of verbal and non-verbal actions. (Wilson, 1977, 8, cité par Sundin et Johannisson, 2005).

(19)

Plusieurs chercheurs manifestent leur inquiétude à l’égard des implications éthiques des systèmes de recommandation et de personnalisation : la génération de résultats de recherche ou de recommandations excessivement spécialisées pourrait engendrer l’irruption de communautés isolées et fragmentées, l’émergence de foyers d’opinions extrémistes et la dégradation générale du débat dans la sphère publique (Mutz et Young, 2011 ; Parisier, 2011 ; Van Alstyne et Brynjolfsson, 2005). En effet, dans un contexte où l’usager recherche un thème avec lequel il n’est pas familier, la présence de filtres automatiques peut nuire à l’appréhension adéquate des enjeux liés au thème qu’il veut connaître, soit parce que ces filtres maximisent l’importance de certaines sources d’information (dans le cas où les usagers explicitent leurs préférences) soit parce qu’ils minimisent l’importance de contenus moins appréciés par des usagers similaires (dans ce cas le système infère les préférences).

Le filtrage collaboratif a le potentiel d’encourager l’exposition des usagers à des visions qui correspondent à leurs propres visions. Avec le filtrage collaboratif, les comportements d’un usager sont essentiellement appariés avec ceux d’autres usagers qui font des choix similaires. De cette façon, les individus qui partagent les mêmes intérêts finissent par être exposés à des informations similaires, parce qu’ils reçoivent des recommandations similaires.⁷

(Mutz et Young, 2011, p. 1028, notre traduction).

Avec la personnalisation et les fonctionnalités avancées de recherche créées par les technologies d’information, les individus peuvent canaliser leur attention vers des intérêts professionnels, des musiques et des loisirs qui correspondent à leurs profils personnels. Ils sont susceptibles de lire uniquement les nouvelles et les analyses qui s’harmonisent avec leurs préférences. Le pouvoir d’exclure les contenus qui ne se conforment pas avec leurs préférences stimule la formation de clans virtuels qui s’isolant

7. Collaborative filtering provides the potential for encouraging exposure to likeminded views. Through collaborative filtering, one user’s behavior online is essentially matched with that of others who make similar choices. In this way, people who are like one another in interests may end up being exposed to similar information due to receiving similar recommendations (Mutz et Young, 2011, 1028).

(20)

eux-mêmes de points de vus opposés, finissent par renforcer leurs biais »⁸ (Van Alstyne et Brynjolfsson, 2005, pp. 865-866, notre traduction) Il est également pertinent de s’interroger sur les motivations d’un usager lorsqu’il exprime un jugement positif à un document qu’il consulte.

Ce jugement n’est pas forcément lié à l’évaluation de la qualité du document en question, mais peut être lié à l’expression d’un jugement de valeur plus subjectif. Dans les deux cas, ces motivations (d’ordre privé) demeurent insondables tant pour le système, qui convertit les jugements dans des valeurs arbitraires (notes, étoiles, etc.), que pour les usagers censés être les bénéficiaires finaux des évaluations de leurs pairs. Ainsi, en admettant que les systèmes de recommandation orientés usager expriment la cohésion de critères qu’un groupe utilise pour évaluer l’autorité cognitive des sources, il se peut également que cette cohésion soit en train de reproduire, de façon mimétique, les biais propres de ce groupe (par exemple, la reconnaissance commune d’un document dont la valeur scientifique est discutable). Le problème exposé ici n’est pas nécessairement celui de se fier aux jugements de nos pairs, mais le risque de considérer ce jugement comme le seul critère pour explorer les sources disponibles dans une base documentaire.

Il y a aussi un autre aspect plus technologique qui corrobore l’hypothèse selon laquelle les approches cognitives de caractérisation des usagers ne favorisent pas véritablement la découverte de contenus. En effet, les systèmes de recommandation actuels ont tendance à limiter les options de sources d’information, car l’usager est en quelque sorte confiné à une seule technologie, un effet que Parisier (2011) appelle lock-in : les intérêts du producteur du système peuvent agir pour mettre en valeur uniquement les objets qui sont commercialement plus profitables. Ainsi, l’usager ne peut pas découvrir ce qui existe au-delà des frontières documentaires ou commerciales imposées par le producteur. À cet égard, l’exemple de Martin et al. (2011) est évocateur :

8. With the customized access and search capabilities of IT, individuals can focus their attention on career interests, music and entertainment that already match their defined profiles, and they can arrange to read only news and analysis that align with their preferences. Individuals empowered to screen out material that does not conform to their existing preferences may form virtual cliques, insulate themselves from opposing points of view, and reinforce their biases. (Van Alstyne et Brynjolfsson, 2005, pp. 865-866)

(21)

Pouvez-vous imaginer Netflix vous suggérant de regarder un film dans une chaîne de télévision ouverte au lieu de vous proposer un nouveau film de leur dépôt ? Pouvez-vous imaginer Amazon vous recommandant d’emprunter d’un ami le roman que vous cherchez, au lieu de vous recommander de l’acheter tout de suite ?⁹.

(Martin et al., 2011, p. 18, notre traduction).

Ce problème est également soulevé par Lynch (2001). Il montre qu’une des principales faiblesses des techniques de personnalisation courantes est précisément l’impossibilité de transférer les données des profils bâtis d’un système à un autre, ce qui pose des difficultés lorsque les usagers veulent varier les sources qu’ils consultent (par exemple, lorsqu’ils veulent des recommandations pour l’achat de livres générés par plusieurs librairies en ligne concurrentes).

Il y a plusieurs problèmes avec ce modèle, au moins du point de vue de l’usager. L’investissement qu’il fait pour personnaliser un seul système (soit par une action explicite ou par l’utilisation continue) n’est pas transférable à un autre. Cela est évidemment un aspect avant aveux pour ceux qui développent le système, car le coût impliqué dans un changement contribue à la permanence de l’usager. L’usager doit devenir un dispositif de concentration et d’aiguillage, capable de transférer ses données personnelles d’un système à l’autre.¹⁰

(Lynch, 2001, p. 2, notre traduction)

Nous devons nous demander également si les approches cognitives, en proposant d’appréhender l’état de connaissance des usagers, sont suffisantes pour comprendre leurs besoins. Prenons comme exemple

9. Could you imagine the Netflix recommender suggesting that you watch a TV show broadcasted tonight instead of prompting you to stream another movie from Netflix repository? Could you imagine the Amazon recommender suggesting that you borrow a novel from your friend, who already bought it a few months ago, instead of recommending to buy it now? (Martin et al., 2011, 18).

10. There are several problems with this model, at least from the user’s point of view.

Investment in personalizing one system (either through explicit action or just long use) are not transferable to another system. Of course, from the system operator’s point of view, this may be very desirable; it increases switching costs for users and thus helps lock in a user base.)[...] The user needs to become a hub and a switch, moving data to allow accurate personalization from one system to another. (Lynch, 2001, 2).

(22)

l’approche cognitive de profilage adoptée par Lainé-Cruzel et al. (1996) qui évalue la connaissance de l’usager par rapport à un domaine, en utilisant des données comme la formation universitaire et les sources consultées dans le système. Si un usager du domaine des sciences de l’information lance une requête avec le terme « auto-efficacité » pour comprendre la définition du concept, il est plus probable qu’il retrouve des documents du domaine des sciences de l’information traitant du concept que des documents du domaine de la psychologie cognitive, d’où le terme tire son origine. De même, si ce même usager est un professeur de méthodologie scientifique dans une faculté et qu’il cherche des livres d’introduction à la discipline pour ses élèves, il est probable que le système personnalisé lui retourne des sources avancées en fonction de l’historique de sources qu’il consulte dans d’autres contextes de recherche. Cet exemple démontre le caractère dynamique du contexte par rapport aux pratiques informationnelles : le contexte est susceptible de changer selon les facteurs institutionnels et les rôles professionnels joués par les usagers (Case, 2006).

Dans le champ des sciences de l’information, l’approche cognitive orientée usager a été critiquée en raison de l’omission des aspects sociaux et culturels qui influencent les pratiques informationnelles. Une telle lacune conduit à considérer qu’il existe des principes universels prescrivant les processus d’acquisition de connaissances et de construction du sens dans l’esprit des usagers (Hjørland, 2013). Une des conséquences de ce présupposé est la tendance à généraliser les résultats des études sur le comportement informationnel et à modéliser les systèmes selon les critères d’un usager moyen et peu exigeant (Hjørland, 2013). Sur ce point d’ailleurs, il est pertinent de se demander qui est l’« usager ». Il nous semble que lors du développement de systèmes de recommandation à filtrage collaboratif, cette question est rarement posée. L’usager est réduit à un consommateur dont il faut appréhender les préférences. Or, le critère commercial ne peut pas être accepté sans qu’on le questionne, comme le souligne Hjørland (2013) :

Les tendances centrées sur l’usager sont rarement remises en cause. Il y a un manque de discussion sur les perspectives idéologiques que supportent ces tendances. L’action de façonner les institutions éducatives, les bibliothèques, les journaux scientifiques, les bases de données, etc. selon des critères commerciaux et individuels, au lieu de principes de qualité

(23)

scientifique, a des conséquences importantes dont il faut tenir compte¹¹. (Hjørland, 2013, p. 12, notre traduction)

5. Les systèmes de recommandation orientés documents : principes théoriques

Dans cette section, nous explorons la perspective théorique des méthodes de recommandation basées sur le contenu. À notre avis, cette méthode, en prenant comme unité d’analyse le texte, s’associe davantage à la perspective orientée document en sciences de l’information. Afin de situer la méthode basée sur le contenu dans une perspective théorique, nous recourons au cadre théorique de l’organisation des connaissances développé par Hjørland (2003).

L’organisation des connaissances s’intéresse aux formes sociales et intellectuelles d’organisation de la connaissance humaine. Elle se penche sur les systèmes d’indexation et de classification, sur le contrôle bibliographique, sur le repérage d’information et sur toute autre méthode visant à structurer la connaissance humaine. Les éléments de cette structure (termes d’indexation, descripteurs, concepts) constituent à leur tour des points d’accès à la connaissance organisée. Qu’en est-il de la connaissance dans ce contexte ? Hjørland (2003) préfère aussi parler de

« connaissances énoncées » plutôt que de « connaissance » pour empêcher des interprétations inexactes :

Il est plus fécond de parler de connaissances énoncées, au lieu de connaissance. Les connaissances énoncées réfèrent aux choses représentées dans la littérature et aux choses qui seront classifiées. Il est plus prudent d’utiliser ce terme et il n’y a pas de perte réelle dans ce mode de parler.¹² (Hjørland, 2003, p. 100, notre traduction)

11. Very few people have questioned these user-based trends and discussed their overall ideological perspective. Such a discussion is much needed, however. It is not without problems to make educational institutions, libraries, scientific journals, databases, etc.

driven by commercial criteria and user demands rather than by scholarly principles and criteria of quality. (Hjørland, 2013, 12).

12. It is more fruitful to speak of knowledge claims, rather than knowledge itself. To speak of knowledge claims as things represented in the literature and the thing to be

(24)

Les formes sociales d’organisation des connaissances comprennent les personnes impliquées dans la production et la réception de connaissances comme les cadres professionnels, les disciplines scientifiques et les groupes sociaux. Ceux-ci organisent leur pratique quotidienne en produisant et en utilisant différents genres de documents. L’organisation intellectuelle des connaissances a trait aux formes de représentation abstraites du contenu des documents et qui servent à les organiser dans les catalogues et dans les bases de données. La représentation des documents s’appuie sur une structure formalisée (système de classification, thésaurus) qui reflète les relations entre les concepts d’un champ disciplinaire particulier. Cette relation entre les concepts est également tributaire des théories ou de perspectives théoriques valides dans ce champ. Par exemple, le concept de

« baleine » se rapporte hiérarchiquement à celui de « mammifère » et cette classification repose sur la théorie de l’évolution (Hjørland, 2013).

Une contribution importante du cadre théorique d’Hjørland (2003) réside dans la démonstration que les relations sémantiques entre les concepts d’un champ disciplinaire sont enracinées dans le paradigme dominant ce champ. Prenons l’exemple de la relation entre les concepts de

« baleine » et de « mammifère » évoqué précédemment. Avant la théorie de l’évolution, les baleines étaient considérées comme un type de poisson. La théorie de l’évolution est devenue le paradigme dominant de la biologie et la reconnaissance des espèces animales ne pouvait plus se baser sur une simple observation des caractéristiques partagées entre les espèces. Il fallait adopter un nouveau positionnement épistémologique, c’est-à-dire, une autre façon d’élaborer la connaissance à propos des animaux (Hjørland, 2003).

Par conséquent, les notions de paradigme scientifique et d’épistémologie sont centrales pour l’organisation des connaissances dans la mesure où elles dictent les types de relations entre les concepts. L’action de regrouper les choses semblables n’est pas un acte objectif, mais relève d’un choix scientifique ou d’intérêts professionnels. Classer la psychologie comme une science humaine ou comme une science naturelle est un choix paradigmatique lié aux discussions épistémologiques du domaine : devons- nous étudier la psyché humaine en mesurant des faits observables

classified is a more careful way of speaking, and there is no real loss by this way of speaking. (Hjørland, 2003, 100).

(25)

(positionnement empiriciste, en sciences naturelles) ou à partir de l’analyse des facteurs historiques et culturels de l’individu (positionnement historiciste et herméneutique, en sciences humaines) ?

Hjørland (2003) démontre que les méthodes fondamentales de l’organisation des connaissances correspondent elles aussi à des paradigmes et à des positions épistémologiques qui reflètent plus globalement la vision sur la manière dont la connaissance est acquise et doit être représentée. Le tableau 2 s’inspire du schéma Fundamental Methods of Classifications (Hjørland, 2003, 107) et décrit les méthodes fondamentales de classification des connaissances.

Tableau 2. Méthodes fondamentales de l’organisation des connaissances (Inspiré de Hjørland, 2003, 107)

Paradigmes Classification scientifique

Empiricisme

(Observations et inductions)

Classification fournie par des généralisations statistiques (par exemple, analyse factorielle) basée sur la détection de « similarité » entre les documents.

Rationalisme

(Principes de la raison pure. Déductions)

Classification basée sur les divisions logiques et universelles.

Historicisme

(Étude du contexte et développement

— explication des pré‐acquis)

Classification basée sur les développements historiques ou évolutionnaires.

Pragmatisme

(analyse des buts, valeurs et conséquences des sujets et objets)

Classification basée sur des valeurs spécifiques, des positions politiques ou des objectifs, par exemple, classifications servant les collections féministes ou marxistes.

Hjørland (2003) ne voit pas de différence fondamentale entre les méthodes informatiques et les méthodes manuelles de classification : « S’il est possible de développer certaines règles explicites qui dictent la classification des documents, alors ces règles peuvent être utilisées par les humains ou par les ordinateurs. »¹³ (Hjørland, 2003, p. 104, notre traduction). Par conséquent, son cadre est applicable dans notre contexte.

13. If it is possible to develop some explicit rules for how to classify documents, then such rules can be used by humans or by computers (Hjørland, 2003, 104).

(26)

En quoi l’organisation des connaissances est-elle utile pour étudier les systèmes de recommandation basés sur le contenu ?

Tout d’abord, nous pouvons situer la méthode basée sur le contenu dans le paradigme empiriciste. En effet, les techniques utilisées pour comparer les documents lors du processus de recommandation s’appuient sur des calculs statistiques destinés à mesurer la similarité entre contenus.

Les documents sont considérés similaires s’ils partagent un nombre important de termes. Cette méthode est empiriciste, car elle prend comme unité d’analyse des données observables et mesurables (mots) et généralise la récurrence des phénomènes observés : la fréquence des mots communs à deux documents est comprise comme un indice attestant qu’ils parlent du même sujet.

Quoique le calcul de similarité entre les documents soit la méthode utilisée dans la plupart des systèmes de recommandation basés sur le contenu, nous ne croyons pas qu’elle favorise la découverte et l’exploration des connaissances, car elle ne tient pas compte de dimensions autres que la fréquence des termes. Le risque évident est d’exposer l’usager à des contenus très similaires, l’empêchant d’explorer d’autres domaines ou d’autres perspectives théoriques. Nous défendons l’idée que la connaissance se forme par l’opposition d’idées, par un processus dialectique où l’usager est constamment confronté à de nouvelles perspectives, idées et arguments. Est-il possible d’envisager d’autres méthodes d’organisation des connaissances pour les systèmes de recommandation basés sur le contenu ? Est-ce que le paradigme historiciste pourrait être envisageable dans un système de recommandation, permettant de démontrer l’évolution historique d’un concept scientifique cherché par l’usager ? Ou même la perspective pragmatiste, permettant d’opposer des visions politiques différentes sur un même sujet ?

Ces questions font appel à un nouveau paradigme en ce qui concerne le traitement automatique de la langue (TAL) dans les systèmes informatiques. Sur ce point, il convient de mentionner que la sémantique interprétative de Rastier (1987) inspire de plus en plus de travaux de recherche en TAL, particulièrement dans le développement d’applications qui visent à rendre compte de la dimension thématique des textes (Pincemin, 1999). À titre d’exemple, nous pouvons citer les travaux de

(27)

Valette (2004) sur la distinction entre textes racistes et antiracistes dans le cadre du projet PRINCIP¹⁴. L’étude envisage l’analyse des spécificités thématiques ainsi que le caractère discriminant de certaines modalités sémiotiques qui sont propres aux genres privilégiés par les auteurs racistes et antiracistes. Aussi, dans le cadre du projet C-Mantic¹⁵, Slodzian et Valette (2009) détectent les discours protabac et antitabac en contrastant les indices et les caractéristiques discursives spécifiques des industriels du tabac d’un côté et des organismes de prévention de l’autre. Outre l’analyse du vocabulaire, ces études se concentrent sur l’analyse d’indices textuels qui servent à caractériser les différentes « communautés de discours » : proportion de différents signes de ponctuation ; capitales d’imprimerie ; temps verbaux ; marqueurs d’intensité (gras, italique) ; connecteurs logiques ; couleurs de police, etc. C’est une voie de recherche à explorer pour les systèmes de recommandation basés sur le contenu.

6. Conclusion

Dans cet article, nous avons exploré les principes théoriques sur lesquels reposent les systèmes de recommandation, en opposant les perspectives orientées usager et orientées document, très présentes dans les sciences de l’information. Les systèmes orientés usager retrouvent leur support théorique dans les modèles de comportement informationnel, qui sont notamment inspirés de la psychologie cognitive. Ils privilégient les interactions et les besoins des usagers, cherchant à modéliser les dimensions affectives et cognitives des usagers dans les systèmes. Les systèmes orientés document, à leur tour, sont axés sur le paradigme bibliographique de classification et indexation et privilégient la représentation et l’abstraction intellectuelle du contenu des textes (Kuhlthau, 1999).

14. Plate-forme pour la recherche, l’identification et la neutralisation des contenus illégaux et préjudiciables sur l’Internet (http://www.princip.net).

15. Le corpus de textes était constitué de pages web sur le tabagisme. Pour contraster les différences de discours entre les groupes qui parlent du tabac, les chercheurs ont constitué des sous-corpus de textes provenant de sites web d’industriels du tabac et d’organismes de prévention. ANR-07-MDCO-002 C- Mantic.

(28)

Il existe une prédominance visible d’approches centrées sur l’usager dans le design des systèmes de recommandation actuels (Park et al., 2012).

Plusieurs facteurs contribuent à ce phénomène : au niveau technologique, il est moins coûteux de porter l’analyse sur l’ensemble des relations abstraites des comportements des usagers que d’appliquer des techniques d’analyse sémantique de contenu. L’exigence de ressources linguistiques et de traitement informatique pour ce dernier est beaucoup plus importante ; aussi, l’émergence des réseaux sociaux dans les dernières années contribue à rendre disponible une quantité considérable de données personnelles, même si l’exposition continue de décisions, lectures, achats, préférences et attachements sociaux constitue un risque évident à la vie privée des individus. Les plateformes modernes du web réussissent aisément à obtenir l’exposition des choix privés de leurs usagers sous prétexte de rendre les services de personnalisation plus efficaces. Une contribution importante de notre article est de remettre en question cette efficacité, puisqu’une des conséquences du filtrage collaboratif est en effet la réduction de l’accès à de nouvelles sources d’information. D’une part parce que ces systèmes réduisent la visibilité de certaines autorités cognitives dans l’environnement informationnel ; d’autre part parce que les données personnelles ne sont pas transférables d’un système à l’autre. Elles deviennent une propriété des entreprises qui conçoivent les systèmes.

Cette hypothèse s’appuie sur une vision pragmatiste de la connaissance.

Les « connaissances énoncées » agissent comme des vérités instrumentales, postulées et validées au sein d’un groupe social scientifique, professionnel ou même identitaire. La recherche d’information est conçue comme la prise de conscience des variétés de « connaissances énoncées ». Certaines critiques sont dirigées contre le relativisme que présuppose la vision pragmatiste. Elles n’ont pas été discutées dans cet article, mais ont déjà fait l’objet de quelques publications (Sundin et Johannisson, 2005 et Hjørland, 2003).

Nous avons aussi analysé les méthodes de recommandation basées sur le contenu à partir du cadre de l’organisation des connaissances d’Hjørland (2003), correspondant à la perspective orientée document. Nous avons associé ces méthodes au paradigme de classification empiriciste et nous avons indiqué que les travaux de recherche se basant sur la sémantique interprétative de Rastier (1987) constituent des voies de recherche

(29)

intéressantes pour explorer la classification automatique de textes dans le cadre d’autres paradigmes de classification.

Remerciements

Nous tenons à remercier Michèle Hudon pour ses nombreux commentaires qui nous ont permis d’approfondir plusieurs volets abordés dans notre analyse.

Bibliographie

Belkin N.J., Cool C., Stein A. et Thiel U. (1995). Cases, scripts and information seeking strategies: on the design of interactive information retrieval systems.

Expert Systems with Applications (9), 379-395.

Case D.O. (2006). Information Behaviour. Annual Review of Information Science and Technology 40 (1), 293-327.

Furner J. (2003). On Recommending. Journal of the American Society for Information Science 53 (9), 747-63.

Hjørland B. (2003). Fundamentals of Knowledge Organization. Knowledge Organization 30 (2), 87-111.

Hjørland B. (2013). User-based and Cognitive Approaches to Knowledge Organization: A Theoretical Analysis of the Research Literature. Knowledge Organization 40 (1), 11-26.

Ingwersen P. (1996). Cognitive Perspectives of Information Retrieval Interaction:

Elements of a Cognitive IR Theory. Journal of Documentation 52 (1), 3-50.

Katz E. et P. Lazarsfeld. (1955). Personal Influence: the Part Played by People in the Flow of Mass Communications. The Free Press. New York.

Kuhlthau C. (1991). Inside the Search Process: Information Seeking from the User’s Perspective. Journal of the American Society for Information Science, 42 (5), 361-371.

Lainé-Cruzel S., Lafouge T., Lardy J.P., Ben Abdallah N. (1996). Improving Information Retrieval by Combining User Profile and Document Segmentation. Information Processing & Management 32 (3), 305-315.

Lazarsfeld P. et Merton R. (1954). Friendship as a Social Process: a Substantive and Methodological Analysis. In Freedom and Control in Modern Society, édité par M. Berger, T. Abel, p. 18-66. New York, Van Nostrand.