Collecte de traces - Les Systèmes à Base de Traces (SBT)

Les Traces d’Interactions

4.3. Les Systèmes à Base de Traces (SBT)

4.3.1. Collecte de traces

Avant d'être exploitées dans un SBT, les traces sont d'abord collectées à l'aide du système de collecte. La collecte dans un environnement d’apprentissage à distance peut s’effectuer manuellement par des observateurs humains ou automatiquement par les outils informatiques ou semi-automatiquement [BOU11].

- Une Collecte manuelle : procédée par un observateur humain, acteur ou non dans la

situation d’apprentissage, ou par des questionnaires remis aux acteurs. - Une Collecte automatique qui peut être :

o Collecte audiovisuelle : exécutée par un outil d’enregistrement visuel et audio de

la situation d’apprentissage.

o Collecte numérique : menée en utilisant un environnement informatique

sauvegardant l’activité de l’apprenant. Les résultats de la collecte numérique constituent une trace numérique.

- Une Collecte semi-automatique : procédée par un observateur humain et aussi exécutée

par des outils informatiques.

Dans le présent travail, nous nous sommes focalisés sur la collecte des traces lors de l’utilisation d’un environnement d’apprentissage à distance, les interactions des apprenants avec leur environnement. Dans ce cas, il est possible de collecter ces traces en format numérique (des traces ayant une représentation textuelle) dans des fichiers de type log.

Nous pouvons aussi dire, que la collecte est le processus qui consiste à utiliser différentes approches de collecte selon les sources d’observation : le serveur, le poste client, ou des mécanismes d’observation spécifiques au système d’apprentissage pour obtenir une trace numérique.

4.3.1.1. Les Approches centrées Serveur

Les approches centrées Serveur s’intéressent à la recherche des motifs de navigation des utilisateurs sur un site donné en se basant sur l’analyse des logs des serveurs Web. Ces logs contiennent l’ensemble des actions effectuées sur le serveur. La création des traces à partir de ces logs est un processus complexe qui nécessite de nombreuses opérations (filtrage, recomposition en sessions, etc.). De nombreuses informations peuvent ainsi être déterminées, telles que le navigateur et le système d’exploitation utilisés, le moment auquel une certaine activité a été effectuée, la durée passée sur une certaine page, le nombre de fois qu’une page spécifique a été visitée, ou encore l’adresse IP correspondant à chacun des événements [BOU11].

Dans un contexte de formation en ligne, si la plate-forme d’apprentissage est hébergée sur un serveur Apache, par exemple, les données présentent dans le fichier log peuvent être utilisées pour : évaluer l’efficacité d’un cursus en ligne ; quantifier les interactions entre les utilisateurs et les pages du cours ou de l’environnement de formation, etc. Ces données peuvent ainsi répondre à certaines questions [BRO07]:

-les pages web du cours sont-elles adaptées au navigateur le plus utilisé par les apprenants?

-Les apprenants accèdent-ils facilement aux pages essentielles du cours ? -Une page spécifique est-elle réellement nécessaire à ce cours ?

-Le temps passé par les apprenants sur une page particulière est-il adapté pour atteindre l’objectif visé ?

-Etc ...

Parmi les travaux qui ont utilisé cette démarche, nous pouvons citer ceux présentés dans [IKS05] qui s’appuient sur les fichiers log pour l’acquisition des traces. Dans le même ordre d’idée, dans [STE07], les auteurs cherchent à exploiter les fichiers log des apprenants et les métadonnées des pages HTML pour déduire leurs profils et ainsi proposer des mécanismes de filtrage d’informations.

Ces approches sont intéressantes, cependant, elles tiennent pour acquis que le contenu des pages est connu. En effet, les informations enregistrées dans les fichiers log, côté Serveur, ne renseignent que sur les activités liées au serveur en question. Les données produites par les applications s’exécutant sur le poste client, ou celles issues d’applications produisant du contenu dynamique, ne sont pas collectées, empêchant ainsi de connaître les informations réellement consultées par les utilisateurs [FAN04]. De plus, ces fichiers ne sont généralement pas disponibles pour n’importe quel utilisateur (juste les administrateurs du réseau et du système).

Pour pallier aux inconvénients des approches fondées sur l’analyse des fichiers log côté Serveur, d’autres approches proposent des mécanismes d’observation côté Utilisateur.

4.3.1.2. Les Approches centrées Utilisateur

Si, pendant un exercice, l’apprenant effectue des recherches sur le Web, cette interaction n’est pas observée sur le serveur. Pourtant cette interaction peut être un élément important d’explication du parcours de l’apprenant [BOU11]. Il est donc intéressant d’instrumenter le poste client afin d’observer toutes les interactions propres à l’apprenant.

Cette démarche n’est pas largement utilisée. En effet, si le recueil de données de trafic centrées Serveur est maintenant relativement standardisé, la collecte d’informations au niveau des postes utilisateurs est encore un domaine d’activité, du fait des différents choix technologiques possibles et du degré de finesse des informations que l’on souhaite recueillir [BEA04].

Parmi les travaux adoptant cette approche, nous pouvons citer WebIC [ZHU03] qui est un système de recommandation de liens, focalisé sur la recherche d’information. Son objectif est de proposer à l’utilisateur les liens qui semblent le mieux convenir à ses attentes, en fonction des recherches qu’il a effectuées dans des moteurs de recherche et des liens qu’il suit. Le système installé sur le poste client, repère les mots importants au fur et à mesure de la navigation et propose des pages qui ont un contenu susceptible de contenir une information correspondant aux mots récoltés lors du parcours. Dans [BLA05], le système trace les actions des utilisateurs en enregistrant les pages visitées par ces derniers et le mode de navigation. De plus, le système mesure la diversité thématique des dernières pages visitées.

Dans le domaine des EIAH, G.C. Loghin et al. proposent un agent keylogger capable d’enregistrer tous les évènements clavier et souris produits par l’apprenant, les processus qui sont exécutés ainsi que les titres et le contenu des boites de dialogue affichées sur l’écran [LOG08]. Néanmoins, très peu de travaux implémentent cette approche. Généralement, ils tracent uniquement les actions des apprenants dans l’environnement de formation en utilisant les logs Serveur ou des outils spécifiques intégrés à l’environnement tracé [BOU11].

4.3.1.3. Les Approches Basées sur des Logiciels Spécifiques

Au-delà des approches qui distinguent la source d’observation, selon que cela soit fait sur le poste client ou sur le serveur, d’autres approches se focalisent sur l’identification de l’interaction au moment de la collecte à travers un outil spécifique à l’environnement tracé.

Parmi ces travaux, nous pouvons citer eMédiathèque, un outil de travail collaboratif où toutes les interactions de l’utilisateur sont observées et traitées à partir de deux modèles [MIC01]: l’un définit les objets observables (les outils mis à disposition tels que le navigateur Internet, la messagerie instantanée, ou les ressources telles que les textes, les images, etc.) ; et l’autre spécifie les actions réalisables par l’utilisateur (création, modification, suppression de contenus, etc.). Les traces sont ensuite créées en fonction des

activités des utilisateurs, stockées dans un composant interne de l’application, et affichées en temps réel à l’utilisateur.

Dans le cas du Knowledge Pool System (KPS) de la fondation ARIADNE, chaque interaction de l’utilisateur avec l’outil SILO (l’interface entre les utilisateurs et le KPS) est enregistrée dans un fichier au format XML qui est centralisé dans chacun des viviers institutionnels qui constituent le KPS [NAJ04]. Chaque enregistrement donne des informations, telles que le titre des ressources ayant été indexées, téléchargées ou supprimées, l’utilisateur à l’origine de l’enregistrement, ou la date de création de l’enregistrement, etc. [CRA07b].

Selon N. Bousbia, si les approches spécifiques à un outil particulier présentent certains atouts qui comblent les lacunes des approches fondées sur les fichiers logs, elles souffrent de leur cloisonnement et de leur aspect propriétaire. Les traces collectées par les systèmes mentionnés ci-dessus présentent un format qui leur est spécifique et qui empêche leur traitement par d’autres systèmes à base de traces [BOU11].

Dans le document Un Modèle d’Adaptation pour un Environnement Virtuel de Formation (EVF) (Page 59-62)