Conclusion ? - Extraction de données et apprentissage automatique pour les sites web adaptatifs

Ce premier chapitre présente le contexte dans lequel se déroule notre travail. L’ob- jectif principal du processus que nous décrivons est d’obtenir des informations sur les utilisateurs de sites web. Nous avons présenté les concepts centraux de réseau, de Web

1.8. Conclusion ? 19

ainsi que la famille des protocoles utilisés. Nous avons également vu dans quelle pro- portion il existe des cadres et une certaine déontologie dans l’utilisation des données du Web.

Le chapitre suivant traite des données elles-mêmes : que sont-elles, de quelle manière les récupérer? Ces deux questions, pour être traitées de manière adéquate, demandent une grande connaissance des données disponibles. Une étude la plus exhaustive possible des informations pouvant être récupérées est primordiale. C’est ce que nous poposons de faire dans le chapitre suivant où nous analysons les données disponibles du côté client et du côté serveur.

2 Données du Web et leur

acquisition ?

Sommaire 2.1 Introduction ? 2.2 Côté client ? 2.3 Côté serveur ? 2.4 Conclusion ? Résumé

Nous rappelons que le but de notre travail est de fournir à l’utilisateur d’un site web une meilleure qualité de services. Pour y parvenir, nous voulons connaˆıtre les différentes manières qu’ont les utilisateurs de naviguer afin d’en déduire la person- nalisation adéquate pour le service demandé. Nous présentons dans ce chapitre les divers types de données liées au comportement des utilisateurs et leur accessibilité. Nous argumentons notre choix de données pour notre problème.

2.1 _{Introduction ?}

Le processus complet défini dans notre travail relève comme nous l’avons vu dans l’introduction (section 1), de l’extraction de connaissance à partie de données. Dans ce paradigme, l’étape de sélection, souvent négligée, définit complètement l’espace de travail pour le reste du processus.

Les données en rapport avec la navigation sur le Web se repartissent en deux grands groupes : celles disponibles lorsque nous nous pla¸cons du côté client du protocole Http, et celles du côté serveur. En effet, suivre la navigation d’un utilisateur et avoir accès `

a tout ce qui se passe sur son poste de travail rend disponible une grande quantité de données, toutes dépendantes de l’environnement de l’utilisateur en question. À l’inverse, une application centralisée au niveau du serveur n’a accès qu’à l’activité de ce dernier, indépendamment des environnements des utilisateurs concernés.

Notre travail se situe dans le cadre le plus général possible : en ce sens, nous voulons que nos méthodes s’appliquent quelque soit le site web utilisé et quelque soit la manière dont l’utilisateur y accède. Ainsi, nous verrons que certains types de données ont par

nature un coût d’acquisition trop important pour être utilisés dans un cadre général. L’acquisition de données exotiques pour une application spécifique peut être envisa- geable mais ne relève pas de ce travail : nous montrons qu’il est possible d’extraire des informations de navigation d’utilisateur pour améliorer les services web, indépendam- ment du site observé et des outils utilisés.

Le protocole Http est défini de manière bi-latérale (client-serveur) : nous étudions donc les différents types de données disponibles et leurs acquisitions des deux côtés, client puis serveur.

2.2 Cˆot´_{e client ?}

L’acquisition des données du côté du client correspond au cas où l’utilisateur veut une meilleure qualité de services en autorisant le système à connaˆıtre toute son activité de navigation. Imaginons qu’à chaque utilisateur d’un site web soit associée une per- sonne1

qui noterait l’intégralité du comportement, du plus simple clic de la souris, à un clignement d’œil. Dans ce contexte, la diversité des données récupérables est immense. Nous décrivons ci-après quelques types de données utilisés dans des travaux similaires. Dans [PPPS03], les auteurs expliquent que la connaissance de données côté client implique soit la mise en place d’une partie du système sur le navigateur du client, soit l’utilisation d’un navigateur spécialement dédié pour l’envoi d’information supplémen- taire. La première technique, largement utilisée [BLP+_{03, SBKF01], fait souvent appel}

a une application en Java ou JavaScript exécutée par le client. Ce type d’interfa- ¸cage permet de récupérer tout ou partie des informations disponibles sur le navigateur : le type de système d’exploitation, le type de navigateur, les paramètres de ce dernier (langues préférées, résolution d’affichage, types d’application cliente reconnus), mou- vements et clics de systèmes de pointage, entrées au clavier, etc. L’utilisation [CP95] d’un navigateur (( enrichi )) est peu utilisée à cause du développement demandé pour un tel système.

Récemment, un nouveau concept d’affichage des données web a été mis en place : il s’agit de faire plusieurs requêtes pour le contenu même de la page, en échangeant des données sous format Xml et/ou Html. En effet, le navigateur dit (( enrichi )) pos- sède en plus d’un moteur d’affichage, un moteur de demande de requêtes (gérant le Xml). Ainsi le navigateur peut demander que les parties dont il a besoin pour afficher convenablement une page web, et même (et c’est là son grand intérêt), redemander une partie qui pourrait changer en fonction de l’interaction avec l’utilisateur. Cet ensemble de techniques associées, est dénommé Ajax2

[Gar05]. Cette fa¸con d’afficher les don- nées demande une grande interaction entre moteur d’affichage et moteur de requête. Pour le moteur Gecko (cf. table 2.1), un langage dédié Xul a été défini pour interagir de manière simple avec le moteur d’affichage. Malheureusement, nous verrons que les navigateurs, même les plus récents, ne gèrent pas les normes DOM et ECMAScript

1 ou un syst`eme de surveillance avec des facult´es sensorielles infaillibles 2 Acronyme pour Asynchronous Javascript + Xml

Dans le document Extraction de données et apprentissage automatique pour les sites web adaptatifs (Page 33-38)