Analyse des comportements d’utilisation et d’usage

Chapitre 2 État de l’art des systèmes traçants

2.2 Les Traces Numériques d’Interaction comme support d’analyse

2.2.3 Analyse des comportements d’utilisation et d’usage

Le deuxième objet visé par l’analyse des traces numériques est le comportement des utilisateurs. Il faut

comprendre par ce terme que l’objectif est l’étude des comportements d’utilisations et d’usages des environnements dont on étudiait précédemment les interactions. Les travaux les plus avancés sur le

sujet sont développés dans le domaine du Web, avec en particulier la communauté du « Web Usage

Mining » (Srivastava et al., 2000). Le domaine du Web comporte une particularité importante du point de vue des traces numériques : la navigation d’un Internaute engendre nativement un certain nombre d’informations stockées dans des logs de navigation qui seront largement et quasiment exclusivement exploités.

Au-delà de cette particularité, ce qui change est le fait qu’on ne parlera plus de traces d’interaction (ce

qu’elles restent fondamentalement) mais directement de traces de comportement, de « trace of

beha-vior » de l’utilisateur (Pirolli, 2002, p.3), et plus précisément du comportement au centre de l’attention de ces chercheurs c’est-à-dire le « Web browsing behavior » (Hawkey et al., 2005). La notion de « comportement » ou de « comportement de navigation » reste un peu vague. Chercher à caractériser ou évaluer « dans l’absolu » ce comportement, n’aurait à vrai dire pas beaucoup de sens. Un compor-tement n’a de sens que relativement à une activité. En fait il semble qu’une majorité de chercheurs

dans ce domaine, considère (plus ou moins explicitement) que l’activité « par défaut » est la

Recher-che d’Information38. Parmi les nombreux travaux disponibles, nous avons choisi de présenter des exemples impliquant une analyse des traces d’interactions pour caractériser l’utilisation d’un

naviga-teur d’une part, et pour caractériser des usages du Web d’autre part.

2.2.3.1 Caractériser l’utilisation du navigateur Web

La première façon d’entendre la caractérisation du « comportement » d’un internaute est d’analyser l’utilisation de son navigateur. C’est en tout cas de cette façon que bon nombre de chercheurs abordent

la question. En se basant sur les logs de navigation produits par les navigateurs Hawkey etal. (2005)

proposent par exemple une caractérisation du « comportement de navigation » fondée sur des mesures du nombre de pages visitées, du nombre de fenêtres de navigateur utilisées, de la vitesse de navigation,

de la durée des sessions, etc. Ces données sont ensuite traitées et représentées graphiquement de façon

à mettre en évidence des patterns temporels remarquables susceptibles d’être caractéristiques du

« comportement » de navigation observé. Dans la figure ci-dessous (Figure 2.5) on peut voir par exemple comment, graphiquement, les auteurs présentent l’utilisation différenciée des fenêtres actives.

Toujours dans l’optique de caractériser l’utilisation du navigateur, Weinreich et al. (2006) proposent

une des rares études longitudinales réalisées sur la « navigation Web » depuis l’apparition des

naviga-teurs grand public, les précédentes étant celles de Catledge et Pitkow (1995), Tausher et Greenberg, (1997), puis de Cockburn et ses collègues (2002). Au cœur de ce travail, une observation longitudinale de 25 internautes durant une centaine de jours (en moyenne) s’est basé sur une instrumentation du

navigateur Firefox™ 1.0 permettant d’enregistrer l’ensemble des logs de navigation (côté client). Ces

logs sont nettoyés pour ne comporter que des « actions de navigation », i.e. toute opération volontaire

de l’utilisateur qui déclenche l’affichage d’une nouvelle page dans le navigateur³⁹.

Figure 2.5 : Exemple de visualisation de l'utilisation des fenêtres actives d'un navigateur, permettant la mise en évidence de « patterns of web browsing » - Tiré de (Hawkey et al., 2005 p.1444)

On notera au passage le fait, amusant, que 40% des pages affichées lors d’une navigation ne relèvent

pas d’un acte volontaire de l’internaute mais principalement de pages publicitaires (Figure 2.6). Du point de vue des traces numériques de « navigation » cela pose évidemment un problème de bruit ré-current, qui exige un filtrage des logs récupérés. Sur les traces débarrassées de ce bruit Weinreich

et al. (2006) appliquent de manière systématique des algorithmes de dénombrements, statistiques,

mesures de corrélation entre des variables choisies dans les logs, etc.

Figure 2.6 : Répartition des actions de navigation - Tiré de (Weinreich et al., 2006, p.135)

Ces diverses mesures sont sensées caractériser, rappelons-le, le comportementde navigation. Prenons

l’exemple de l’utilisation du bouton « retour »⁴⁰. Cette étude nous apprend qu’il n’est à l’origine que

de 14,3% des actions de navigation, ce qui constitue d’ailleurs selon les chiffres avancés par les

au-teurs, une baisse significative par rapport aux études antérieures d’une dizaine d’année41. Pour tenter

39 La définition d’une action de navigation devient très vite complexe, notamment à cause des changements automatiques dans les pages, obligeant les auteurs à exclure frame, pop-up, etc.

40 Qui anime beaucoup le travail des chercheurs en conception de site Web depuis longtemps (Tausher et Greenberg, 1997 ; Greenberg et Cokburn, 1999 ; Moyle et Cockburn, 2003 ; Milic-Frailing, 2004)

41 L’étude de Tauscher et Greenberg (1997) montrait que le bouton « retour » était une des action de navigation principale dans les premiers temps d’internet, loin devant d’autres fonctionnalités comme l’historique.

d’expliquer ce résultat, les auteurs pointent une corrélation entre le niveau d’utilisation du bouton

« retour » et la fréquence d’utilisation des onglets (fonctionnalité disponible dans Firefox 1.0), et des

nouvelles fenêtres, qui offre la possibilité de naviguer « en parallèle » sur plusieurs pages, « délinéarisant » la navigation. Par conséquent le bouton « retour » est moins utilisé au profit d’un parcours entre les différentes fenêtres ou onglets ouverts (Kaasten et Greenberg, 2001). L’hypothèse défendue est alors que le comportement de l’utilisateur est de maintenir ouvertes, dans un onglet ou une fenêtre, les pages sur lesquels il pense revenir. Le même type de démarche a été affiné et appliqué

à d’autres mesures comme le temps passé sur chaque page, que les auteurs cherchent à mettre en lien

avec la « scannability »⁴² des pages en question.

2.2.3.2 Caractériser des parcours de navigation Web (usages)

Une autre façon de voir le comportement de navigation est de considérer les parcours des internautes

sur le Web en général ou sur un domaine en particulier. Dans ce cas, il s’agit de ne plus se limiter aux

opérations de manipulation de l’outil comme dans le cas précédent, mais de tenir compte des contenus qui sont parcourus. D’un point de vue technique pour les traces, cela signifie (en général) un change-ment de source des logs de navigation, un passage du client au serveur, pour récupérer les données

d’usage, i.e. « data that describes the pattern of usage of Web pages, such as IP address, pages

refe-rences, and the date and time of accesses » (Srivastava et al., 2000, p.13). C’est le cas dans la thèse de

T. Beauvisage (2004) sur la « sémantique des parcours Web » où le dispositif de traçage est constitué

d’une sonde placée sur les machines d’internautes volontaires donnant accès aux logs de navigation tels qu’ils sont échangés entre client et serveur.

Figure 2.7 : Visualisation sous forme de graphe de parcours Web. Tiré de (Beauvisage, 2004, p.144).

L’auteur se fixe pour objectif de « décrire et visualiser la dynamique des parcours» en définissant

lui-même une topologie originale (Beauvisage, 2004, p.165). Après la toujours indispensable phase de

filtrage des logs de navigation, des traitements statistiques simples sur la forme, la temporalité et le

rythme des actions de navigation ont été utilisés pour « reconstituer » des parcours. L’originalité vient ici d’un enrichissement a posteriori des parcours, enrichissement qui consiste à typer les URLs en

fonction d’une classification similaire à celle proposée par les annuaires Web (Catservices en

l’occurrence). L’analyse des parcours proprement dite, qui va donc tenir compte du contenu est ensuite effectuée à l’aide de techniques de visualisation graphiques (Figure 2.7).

De nombreux travaux d’analyse des usages du Web, ou d’un site Web, s’appuient sur ce genre de

tech-nique de visualisation (Benford et al., 1999 ; Cugini et Scholtz, 1999 ; Cadez et al., 2000 ; Chi, 2002 ;

Chen et al., 2004). En mettant au point la bonne combinaison entre statistique et visualisation

appli-quée les chercheurs tentent de faire émerger les points critiques du site étudié : partie isolée, peu ou

pas assez fréquentée, etc.). Une fois les parcours ou les « cheminements » les plus prégnants mis en

évidence, la structure du site peut être modifiée en fonction des objectifs propres à chaque Webmaster.

Dans le travail de F. Rossi et al. (2005)⁴³, les auteurs proposent une méthode de visualisation des

par-cours qui se dégage de la structure du site lui même (graphe des liens hypertextes). L’idée consiste à

opérer des rapprochements et des mises en relations de pages qui ne sont ni proches, ni en relation dans l’architecture du site, mais qui sont « proches » dans les parcours des internautes.

Figure 2.8 : Arbre couvrant minimal du site de l'INRIA - Tiré de (Rossi et al., 2005, p.573).

Les données récupérés dans ce cas sont les logs serveur d’un site (celui de l’INRIA44 en l’occurrence),

donnant une séquence ordonnée des pages demandées au serveur par un utilisateur⁴⁵ qui constitue au

final le « cheminement » de ce dernier. Chaque suite de requête devient un vecteur (d’URLs).

L’ensemble des vecteurs permet de construire un espace (l’espace des navigations), dans lequel on

peut finalement calculer des dissimilarités entre des groupes d’URLs, et donc recréer des « distances »

entre des parties du site qui ne sont plus calculées à partir de la structure du site. Le résultat est finale-ment visualisé à l’aide d’un arbre couvrant minimal (Figure 2.8). Les auteurs affirfinale-ment ainsi permettre

de « confronter la vision éditoriale avec celle des internautes et comprendre les modes d’utilisations

du site » (Rossi et al., 2005, p.574).

De façon générale la caractérisation de l’utilisation d’un navigateur ou de l’usage du Web issue de l’analyse des traces d’interactions n’est pas produite pour elle-même, et est utilisé à d’autres fins :

prédire automatiquement les actions de l’utilisateur par exemple (Lettkeman et al., 2006), ou bien

43 F. Rossi a publié d’autres travaux similaires dont les références sont disponibles en ligne sur : http://apiacoa.free.fr (consulté le 07/03/09).

44 Institut National de la Recherche en Informatique et en Automatique (http://www.inria.fr/).

45 Ne sont conservés que des suites de requêtes envoyées par un client identifiable, avec pour seul contrainte de ne pas laisser d’écart de temps de plus de 30 minutes entre deux requêtes (seuil au-delà duquel les auteurs considèrent que l’utilisateur à interrompu sa navigation).

compléter l’évaluation de l’interface Web d’un site (cf. section 2.2.2). Du côté des traces d’interaction, les logs de navigation qui les constituent dans les exemples précédents, restent difficilement

exploita-bles sans autre information, ce que reconnaissent les auteurs eux-mêmes : « This makes their

contex-tual interpretation inherently difficult and additional qualitative information is needed to support a detailed task-related evaluation of the data » (Weinreich, 2006, p.141). Il est à ce sujet intéressant de voir que lorsqu’on demande à un internaute la raison de son utilisation des nouvelles fenêtres ou

on-glets, la réponse est la suivante : « new tabs for closely related tasks and new Windows for parallel

tasks », ce qui relève bien de l’activité en situation, constitue un comportement, mais ne peut être

dé-duit à partir des seuls logs d’utilisation de l’outil. Effectivement il y a là une limite à ce genre de

dé-marche, « aims and tasks of the users often stay below the surface » (Weinreich, 2006, p.141). C’est

pourtant ce niveau que d’autres chercheurs se donnent comme objectif d’atteindre avec l’analyse de traces, pour caractériser ou évaluer les utilisateurs et leurs activités.

Dans le document Conception de système à base de traces numériques pour les environnements informatiques documentaires (Page 37-41)