• Aucun résultat trouvé

Chapitre 11. Expériences de fouille de données sur les traces

2. Consultation semi-ouverte d’un hypermédia clos

méthodes et outils, du déroulement de l’expérimentation ainsi qu’un résumé des données récoltées est décrit en Annexe à l’Expérimentation 3.

1. Problématiques et hypothèses

Afin d’expérimenter un apprentissage artificiel sur des données issues d’un cas réel d’utilisation de ressources pédagogiques en situation d’apprentissage humain, nous avons élaboré une expérimentation pour récolter des données lors d’un cas réel d’apprentissage. Suite à une observation attentive du comportement global d’une classe dans la salle multimédia d’un collège, nous nous sommes aperçus que plusieurs paramètres précédemment utilisés pour calculer des statistiques de comportements n’étaient pas exploitables dans un cas réel.

En effet, il apparaît que l’utilisation du dispositif numérique n’est pas régulière et l’utilisateur n’est pas constamment attentif aux réactions de l’interface de l’ordinateur. Ainsi, le professeur a dû intervenir régulièrement pour plusieurs raisons. Il a dû rappeler les consignes de l’exercice, présenter une fonctionnalité du manuel scolaire numérique, ramener de l’autorité dans la classe ou interroger les élèves individuellement. Le professeur a également utilisé un vidéoprojecteur afin de montrer à l’ensemble de sa classe son interaction avec le manuel numérique mis à disposition de la classe.

De la même façon, les élèves ont parfois accompli des actions parfois déconnectées de leur apprentissage. D’autres logiciels, comme les messageries instantanées, les navigateurs Internet ou d’autres jeux du système d’exploitation ont été exécutés pendant le cours. Les élèves ont également dialogué entre eux, tantôt à propos de leurs apprentissages ou de la manipulation du logiciel, tantôt pour d’autres raisons extrascolaires. Ils ont également conservé l’utilisation de leur cahier de classe traditionnel, sur lequel le professeur leur à demandé de prendre des notes.

La connexion Internet de l’établissement s’est parfois révélée défectueuse, ainsi que certains ordinateurs, qui ont dû être redémarrés parfois plusieurs fois pendant la séance. Ceci explique notamment que toutes les traces ne représentent pas des interactions de durées équivalentes.

Afin de ne pas être influencé par des connaissances extérieures à celles relevées par notre logiciel de récolte de traces, nous avons volontairement choisi de ne pas assister au cours de la session analysée et présentée ici. Les données récoltées pendant

cette expérience ont donc été extrêmement difficiles à analyser, tant les conditions matérielles durant cette expérience ne reflètent pas réellement des conditions idéales.

2. Etudes et Résultats

Afin de pallier toutes les difficultés d’expérimentations présentées précédemment, nous avons choisi d’analyser les données à l’aide d’algorithmes permettant de multiplier les comparaisons séquentielles, qui nous semblent être le modèle le plus exploitable. Nous avons donc étudié les similarités créées par l’algorithme du String Kernel illustré au Chapitre 10 par la Figure 32. Cette technique calcule l’apport, en termes de similarité, par rapport aux autres individus, d’un évènement particulier sur une interaction globale. Elle s’implémente avec la technique de la programmation dynamique, ce qui permet d’observer son évolution de façon incrémentale. Elle est donc utilisable par un système fonctionnant en temps réel.

Nous avons étudié les similarités du String Kernel créées avec différents paramètres. Le facteur dégradant λ a été décliné sur l’ensemble {0.1, 0.5, 0.9} et nous avons étudié plusieurs longueurs de sous-séquences, variant de 2 à 6 avec un pas de 1. La définition de cet algorithme implique logiquement que l’information contenue dans une similarité calculée sur une longueur de sous-séquence égale à n est comprise dans l’information de la similarité calculée sur une longueur de sous séquence égale à n-1.

[ ]

( )

2 ' 1 :

1

:

1

,

)

,

(

)

,

( = +

− λ

=

K s t j

t

s

K

t

sx

K

n x t j n n j

L’information la plus représentative de l’intersection de l’ensemble des séquences communes à deux séquences est donc calculée pour une longueur de sous-séquence égale à 2. Afin d’étudier les résultats et d’extraire l’information la plus significative de cet algorithme, nous avons principalement exploré les résultats produits avec un facteur dégradant de 0.9, qui produit les similarités les plus élevées.

Lorsqu’une similarité entre deux individus augmente du fait d’une action d’un des deux utilisateurs, cela signifie que cette action rapproche globalement le comportement de ces individus. Cette technique permet de caractériser les éléments des séquences d’action, et lorsque l’on regarde attentivement les séquences des élèves ayant des facilités d’interaction et/ou d’apprentissage, par rapport aux élèves éprouvant des difficultés, les similarités évoluent de façon particulière et des indices concernant les éléments de ces séquences peuvent être extraits.

Figure 37. Evolution de la similarité entre tous les individus et un individu de référence en fonction du temps

La Figure 37 présente l’évolution de la similarité, en fonction du temps, entre tous les individus de l’expérience et un individu de référence. Il apparaît que quelques évènements particuliers de la séquence de référence créent un bond dans sa similarité par rapport à un autre individu (au milieu de la figure, la similarité passe de 0,08 à 0,66 en quelques évènements). Cet indice de comportement des utilisateurs est repérable automatiquement. Ces évènements tracent une activité désordonnée de la part des deux individus qui ont, de façon répétée, interagit avec deux objets du manuel électronique :

Contexte Cible

Objet 1 #document uri=/svt3/manuel.xul, Magicviewer res=SVT-part2-chap1-doc6.html

Objet 2 #document uri=/SVT-part2-chap1-doc6.html, P id=SVT-part2-chap1-p42,

Les interactions avec l’objet 1 sont le signe d’une manipulation du conteneur de document, appelé magicViewer. Alors que la description de l’objet 2 prouve que l’interaction a eu lieu avec le document lui-même (l’objet P représentant un paragraphe du texte du document). La distinction entre le conteneur de document et le document ne semble donc pas être très claire dans l’esprit des utilisateurs. A une échelle moins remarquable que celle présentée dans la Figure 37, ces évènements et l’évolution des similarités correspondantes, sont repérables dans d’autres séquences et traduisent un

défaut d’affordance dans l’interface proposée. En effet, les actions effectuées pendant ses périodes sont de multiples évènements de clic de souris ainsi que des évènements de glisser/déposer qui n’ont manifestement pas été réalisées de façon aisée tant ils ont été répétés. Ils correspondent à une volonté de mettre dans une disposition particulière les documents présentés dans un conteneur, et cette manipulation ne semble pas facile à mettre en œuvre.

Ces sauts dans la similarité peuvent être repérés automatiquement, et une alerte peut être lancée permettant au professeur d’intervenir ou à un système automatique de proposer son aide.

Grâce à une enquête menée au début du cours nous avons récolté quelques informations sur le profil des élèves de la classe. Ainsi, les élèves des premiers rangs sont globalement les élèves ayant des facilités dans l’acquisition de connaissance, et ce sont également ces élèves qui ont un ordinateur à la maison et se servent régulièrement de l’Internet. En suivant la description de la plateforme présentée au Chapitre 9 et les observations sur les théories pédagogiques distinguant les comportements des experts par rapport aux novices (cf. Chapitre 8.4), nous avons cherché les évènements qui rapprochent globalement le comportement d’un individu aux élèves ayant des facilités.

L’utilisation de l’arbre de navigation semble être privilégiée par les élèves ayant des facilités dans l’utilisation de dispositif hypermédia (Objet 3 ci-dessous). En effet, il apparaît qu’aux débuts des sessions de ces élèves, un nombre d’actions importantes ont été effectuées sur cet outil car les similarités correspondant aux instants où ces outils ont été utilisés augmentent plus facilement.

La mesure de similarité du string kernel a initialement été introduite pour la classification de documents textuels. Nous avons présenté précédemment (voir Chapitre 10.2.1) la loi de Zipf qui cherche à trouver parmi un ensemble de mot, ceux qui sont les plus représentatifs d’un document tout en n’étant pas représentatif du corpus de documents traités. Le string kernel vérifie naturellement cette propriété.

Ceci nous apporte une information très importante lorsque l’on regarde les évolutions des similarités au cours de la séquence. En effet, lorsqu’un individu fait une série d’actions que personne n’a encore effectuée, sa similarité avec les autres individus va décroître. Au contraire, si un individu fait une série d’actions déjà effectuées par d’autres, sa similarité avec ces individus augmentera. Ces actions caractéristiques ne sont pas nécessairement continues.

En relevant les interactions qui créent une augmentation de la similarité chez tous les individus, on peut mettre en évidence les éléments qui forment les passages obligés dans le parcours des élèves. L’ordre des objets ayant été sujet à interactions présenté dans le tableau ci-dessous montrent que les élèves ont dû d’abord parcourir le manuel, puis ont cliqué sur un bouton correspondant à une activité, et enfin ont enregistré leurs travaux du classeur :

Contexte Cible

Objet 3 #document uri=/svt3/manuel.xul, treechildren value=… Objet 4 #document

uri=SVT-part2-chap1-blocQ2.html,

A href= magicViewer.repondre(Les voies de pénétration des microbes dans

l’organisme - Activités); Objet 5 #document

uri=nsxa://svt3/eleve//classeur.cfa/classeur.xul, menuitem id=Enregistrer Sous...,

Les difficultés rencontrées dans la récolte des traces pour cette expérience, ne nous ont pas permis d’obtenir des résultats satisfaisants permettant de classifier automatiquement les individus selon leur expertise en utilisant les mesures de similarités calculées. Nous avons implémentés un clustering hiérarchique ascendant incrémental et sa visualisation en dendrogramme associée, qui nous semble être un algorithme offrant une grande souplesse dans son interprétation et son utilisation. Le comportement extrêmement hétérogène des élèves tout au long de la séance de cours ne nous a pas permis de trouver des critères satisfaisant pour une catégorisation automatique par une étude séquentielle des données.

3. Bilan sur nos expériences de fouilles de données