• Aucun résultat trouvé

Chapitre 4. … et analyser les données

2. Construction et caractérisation de profils d’utilisation

Dans [Bidel & al., 2003], les auteurs comparent différentes méthodes d’apprentissage artificiel pour la classification de comportements utilisateurs de produits hypermédias. Le but de cette expérience est de savoir s’il est possible de classifier un utilisateur en cours d’utilisation afin de personnaliser l’interface. Le système présenté doit donc fonctionner en ligne et l’apprentissage du comportement se fait à chaque visite d’une page de l’hypermédia. Les données utilisées sont issues directement des interactions HM et sont formalisées pour l’apprentissage de l’expérience. Ainsi, ils définissent une « trame » comme étant la visite d’une page Internet et étant formée d’un vecteur de 8 variables calculées à partir d’un traitement spécifique sur les données de l’interaction. Ces 8 caractéristiques se répartissent en 3 groupes selon le type d’informations qu’elles reflètent :

Indicateur de lecture

- Taux de lecture (rapport de temps passé sur le temps de référence) sur le paragraphe introductif des pages

- Taux de lecture sur le reste de la page

- Taux d’activité correspondant au nombre d’évènements d’interaction survenus sur les pages lues

Indicateur sur la ressource

- Pourcentage de temps passé sur les articles hypermédia

- Pourcentage de temps passé sur les pages sommaires de l’hypermédia - Pourcentage de temps passé sur le moteur de recherche de l’hypermédia Indicateur

sur les concepts

- Similarité moyenne entre deux pages successives accédées par l’utilisateur

- Similarité moyenne entre deux pages successives accédées par l’utilisateur mais pondérée par le temps passé sur chaque concept

Ils relèvent quatre comportements à discriminer : survol (acquisition d’une vision globale panoramique d’un thème), lecture approfondie (l’utilisateur veut se documenter de façon précise sur un thème), recherche (d’un document ou d’une information précise), et papillonnage (parcours désordonné sans stratégie ou but particulier). Les résultats montrent qu’il est possible de classifier correctement un utilisateur en ligne en mode supervisé à 80%, alors qu’en mode non supervisé les résultats ne dépassent pas 61%.

La classification effectuée dans cette expérience semble effectivement la plus appropriée dans une perspective d’adaptation de l’interface multimédia (ici une encyclopédie en ligne). Cependant, il est dommage que les auteurs n’aient pas cherché à entrer plus en profondeur dans la description de la classification effectuée. L’effet « boîte noire » des méthodes d’apprentissage artificiel utilisées (réseaux de neurones, les chaînes de Markov, ou les modèles de Markov cachés) est ici regrettable, car ils rendent impossible la personnalisation de l’interface d’un type de navigation en fonction des critères utilisés par la classification.

Une nouvelle théorie, issue des recherches menées sur la sécurité des réseaux établit un concept d’identité lié à la façon qu’ont les utilisateurs de naviguer sur des logiciels ou des sites Internet. Ainsi, chaque utilisateur possèderait une empreinte reconnaissable à son style de navigation. [Padmanabhan & Yang, 2006] proposent le terme Clickprint pour qualifier cette empreinte. Les vecteurs de données utilisés pour catégoriser les utilisateurs ont été formatés pour représenter des notions simples du comportement. Ainsi, la durée, le nombre de pages vues dans une session, la moyenne de temps passé sur chaque page, l’heure de la consultation et le jour de la semaine sont les seules caractéristiques qui servent à décrire une session. Afin d’obtenir plus de détails sur ces variables, la moyenne, la médiane, la variance, la valeur maximum et la valeur minimum des 4 premières caractéristiques ont été extraites pour qualifier le comportement de chaque utilisateur.

La méthode d’apprentissage artificiel employée (arbre de décision) a été empiriquement éprouvée et les résultats sont donc très satisfaisants. Néanmoins, le protocole expérimental de l’expérience est très contestable car en réalité, 8 catégories d’utilisateurs sont identifiées et seulement les utilisateurs très réguliers du site (plus de 100 visites) sont reconnus.

L’émergence de nouvelles pratiques sur Internet a permis à la communauté scientifique de proposer de nouveaux descripteurs de comportements. Ainsi, [Anjo &

Efimova, 2006] analysent les caractéristiques d’une communauté d’internaute écrivant des blogs (sorte de carnet personnel et partagé en ligne, intime ou professionnel). Cinq dimensions sont mises à jours :

• Les documents : ils constituent la base de publication d’un membre de la communauté.

• Les termes : ils correspondent aux concepts significatifs utilisés par un ou plusieurs membres de la communauté. Ces concepts sont présents dans les documents.

• Les personnes : un membre (auteur de blog) de la communauté.

• Les liens : une référence d’un document à un autre document, et donc implicitement, d’un auteur à un autre auteur.

• Le temps : la date de publication d’un document.

[Anjo & Efimova, 2006] posent ensuite quelques questions relatives à la compréhension de la communauté : Quels sont les principaux concepts dont parle la communauté ? Comment ces concepts sont-ils liés entre eux ? Ces concepts évoluent-ils au cours du temps ? Qu'est ce qui différencie un membre de la communauté des autres ? Quelles sont les principales conversations de la communauté ?

Les techniques d’analyses de texte classique, tels que celles basées sur l’utilisation de tfidf et ses variantes, sont mises en œuvre pour l’analyse des documents et des concepts traités. Les réponses aux questions posées semblent pertinentes. Cependant, il n’y a aucune proposition afin d’améliorer l’interaction des utilisateurs avec la communauté.

Une autre modélisation est proposée dans [Agichtein & al., 2006] où les auteurs étudient les liens entre les préférences de recherche et le comportement d’interaction des utilisateurs avec l’interface. L’hypothèse des auteurs est que la position du document le plus pertinent dans le résultat que produit une requête dépend du profil d’interaction de l’internaute. Les auteurs proposent 28 caractéristiques réparties dans 3 grandes catégories :

Caractéristique liées à la requête

Intersection des mots de la requête et du titre Intersection des mots de la requête et du résumé Intersection des mots de la requête et de l’URL Intersection des mots de la requête et du domaine Nombre de mots dans la requête

Moyenne de l’intersection des mots avec ceux de la requête suivante

Caractéristique liées à la navigation

Durée de pause sur la page Durée cumulée sur la page Durée dans le domaine Durée sur le site

Résultat trouvé par le lien Le lien renvoie au site Le lien est redirigé

Le lien permet de trouver la page Nombre de clics pour trouver la réponse Durée moyenne sur une page

Variance de la durée moyenne sur la page Variance de la durée cumulée sur la page Variance de la durée sur le domaine Variance de la durée sur le site

Caractéristiques de parcours

Position du lien cliqué dans la page de résultat Nombre de clic pour la requête

Fréquence relative des clics pour la requête Variance du nombre de clic pour la requête Le lien suivant est cliqué

Le lien précédent est cliqué Un clic au dessus

Un clic en dessous

Les auteurs utilisent un réseau de neurones pour détecter les comportements prédominants des utilisateurs selon leurs tendances à cliquer sur le 1er, le 2ième, le 3ième,… lien du résultat de la requête. L’entraînement intensif que permet cette technique statistique permet aux auteurs de publier de bons résultats de reconnaissance de profil. Néanmoins, aucune possibilité d’interprétation cognitive n’est possible car les paramètres utilisées ainsi que la méthode ne permettent pas la personnalisation de l’interface ou de l’interaction.

3. Cas d’application : les agents intelligents pour les