Évaluation de la méthode de construction - Première expérimentation : évaluation des méthodes d

Chapitre 7 : Evaluations

III. Première expérimentation : évaluation des méthodes d’assistance

3. Évaluation de la méthode de construction

Comme détaillé dans la présentation de la méthodologie, nous avons utilisé notre méthode d’assistance à la construction d’une technique de diagnostic pour les traces du Reading Tutor et de TELEOS, au moyen de deux ontologies pour chaque EIAH, une de haut niveau et une détaillée. Dans le cadre de cette expérimentation, nous évaluons donc la construction via trois aspects : l’impact du niveau de l’ontologie (haut niveau ou détaillé), la validité des techniques construites en rapport au domaine et les propriétés de l’algorithme d’apprentissage semi-automatique (convergence, temps d’exécution).

Nous évaluons d’abord l’impact des ontologies en calculant le résultat des critères de précision de prédiction et le RMSE (Table 20). Ces deux critères sont en effet aussi bien utilisés pour évaluer des techniques de diagnostic des connaissances que les résultats d’algorithmes d’apprentissage automatiques ou semi-automatiques. En effet, nous avons utilisé une méthode de recherche locale par score pour l’instanciation des techniques, et l’algorithme EM pour l’apprentissage des paramètres. Les scores statistiques et l’algorithme EM visent à maximiser la précision ou la vraisemblance de la technique construite, donc les mesures de précision de prédiction (précision, RMSE, BIC, AUC) sont utilisées pour évaluer les résultats des algorithmes d’apprentissage automatique. Du point de vue de l’interprétation, des précisions de prédictions significativement différentes entre les techniques construites pour l’ontologie détaillée et pour l’ontologie de haut niveau montreraient que le niveau d’ontologie a un impact significatif sur l’algorithme d’apprentissage, via le score biaisé fS’ (cf. chapitre 4).

Pour les traces de TELEOS, les techniques construites avec l’ontologie détaillée donnent une meilleure précision, un meilleur RMSE et un meilleur AIC que la même technique construite avec l’ontologie de haut niveau. L’écart de précision est significatif pour le Knowledge tracing + modèle de Markov caché et pour le Control-based, les intervalles de confiance à 95 % ne se recouvrant pas. Cela signifie que les techniques construites avec l’ontologie détaillée sont significativement plus précises que les techniques avec l’ontologie de haut niveau pour le Knowledge tracing + modèle de Markov caché et pour le Control-based sur ces traces. Par extension, le score biaisé fS’ que nous proposons (chapitre 4) peut avoir un impact significatif sur la précision de prédiction des techniques construites, selon le niveau de l’ontologie.Pour les traces du Reading Tutor, les précisions, RMSE et AIC des techniques construites avec les ontologies de haut niveau et détaillées sont quasiment similaires, et il n’y a aucune amélioration significative selon les intervalles de confiance. Ces résultats signifient que l’ontologie détaillée n’a pas permis d’obtenir de construire des techniques plus précises pour le Reading Tutor, contrairement à TELEOS. L’algorithme d’apprentissage

154

est guidé par l’ontologie et par les traces : dans le cas du Reading Tutor, il n’y avait pas besoin d’aller au niveau détaillé pour décrire les traces. Une hypothèse sur la différence entre les deux domaines est le volume de traces, bien plus élevé dans le Reading Tutor (cf. plus haut paragraphe II. 5), et le domaine, mal défini pour TELEOS et bien défini pour le Reading Tutor, comme montré plus haut.

Notons qu’en exécutant l’algorithme de construction sans usage des ontologies (donc de façon totalement automatique), nous avons mesuré une baisse de la précision de la prédiction de 16 % en moyenne et un RMSE plus élevé de 0,14 en moyenne sur toutes les techniques (par rapport aux résultats Table 20).

TELEOS Modèle de

diagnostic

Implémen-tation

Ontologie de haut niveau Ontologie détaillée Précision RMSE AIC Précision RMSE AIC

Knowledge Tracing Modèle de Markov caché 66 % (± 2,8 %) ^0.32 ⁷⁹¹⁴ 71 % (± 2,7 %) ^0.32 ^{7 829} Additive Factor Model 69 % (± 2,9 %) ^0.34 ⁷⁸⁹⁹ 70 % (± 2,8 %) ^0.32 ^{7 897} Constraint-based ^Contrainte 68 % (± 3,7 %) ^0.33 ⁷⁴⁷² 73 % (± 3,6 %) ^0.31 ^{7 305} Control-based Réseau bayésien dynamique 67 % (± 3,5 %) ^0.36 ^{10 109} 75 % (± 3,3 %) ^0.30 ^{10 194} Reading Tutor Modèle de diagnostic Implémen-tation

Ontologie de haut niveau Ontologie détaillée Précision RMSE AIC Précision RMSE AIC

Knowledge Tracing Modèle de Markov caché 78 % (± 3,2 %) ^0.577 226 723 78 % (± 3,2 %) ^0.572 ^{226 126} Additive Factor Model 78 % (± 3,9 %) ^0.586 215 894 78 % (± 3,9 %) ^0.584 ^{214 447} Constraint-based ^Contrainte 72 % (± 4,1 %) ^0.62 214 351 72 % (± 4,1 %) ^0.61 ^{215 003} Control-based Réseau bayésien dynamique 74 % (± 3,5 %) ^0.594 244 879 74 % (± 3,5 %) ^0.59 ^{244 655}

Table 20 : Résultats de la précision et du RMSE pour les traces de TELEOS (tableau du haut) et du Reading Tutor (tableau du bas) en fonction de l’ontologie utilisée pour la construction des techniques de diagnostic. Entre parenthèse, les intervalles de confiance à 95%.

Dans la littérature, Xu et Mostow (Xu et Mostow, 2012) ont construit manuellement plusieurs techniques de diagnostic basées sur le modèle de diagnostic Knowledge Tracingpour le Reading Tutor. Leurs résultats donnaient des précisions entre 72 % et 87 % selon les techniques. Les résultats obtenus par notre plateforme sont compris dans cet intervalle, donc les techniques construites semi-automatiquement ont des performances comparables à des techniques construites par des experts. Nous n’atteignons pas les

155

meilleurs résultats experts (87 % de précision), mais qui ont été obtenus avec une implémentation poussée du Knowledge tracing que nous n’avons pas expérimentée. Toutefois, une telle comparaison est informative et non scientifique, car les données utilisées n’étaient pas les mêmes. Nous entendons juste montrer que les résultats de nos techniques sont comparables à des techniques d’experts, avec un coût de développement moindre et la possibilité de construire plusieurs techniques différentes (basées sur des modèles de diagnostic différents).

Concernant l’algorithme d’apprentissage, nous étudions la convergence de la matrice R lors de la première étape de l’algorithme, qui concerne l’association entre d’une part les variables du modèle de diagnostic, et d’autre part les variables des traces et de l’ontologie des traces et des connaissances. Pour rappel, l’étape 1 de l’algorithme redémarre l’heuristique de recherche locale jusqu’à convergence (cf. chapitre 4). Les graphes Figure 39 et Figure 40 montrent en abscisse le nombre de redémarrages de l’heuristique de recherche locale, et en ordonnée la variation entre deux redémarrages successifs définie comme suit : pour deux matrices R1 et R2, R2 étant obtenue à partir de la matrice R1 après un redémarrage de l’algorithme :

Variation = Moyenne (|r2-r1 |) pour tout r1 ∈ R1, r2 ∈ R2

L’heuristique converge entre 8 et 12 redémarrages pour TELEOS, et entre 15 et 18 redémarrages pour le Reading Tutor avec l’ontologie détaillée.

Figure 39 : Convergence de l’heuristique de recherche locale en fonction du nombre de redémarrages pour les traces de TELEOS.

156

Figure 40 : Convergence de l’heuristique de recherche locale en fonction du nombre de redémarrages pour les traces du Reading Tutor.

Les courbes Figure 41 et Figure 42 montrent la convergence sur une exécution de l’algorithme, pour la construction des techniques utilisées jusqu’ici dans ce chapitre. Nous montrons maintenant la courbe de convergence extrapolée à partir de 1000 lancements de l’étape 1 de l’algorithme sur les traces de TELEOS et du Reading Tutor. Les abscisses montrent toujours le nombre de redémarrages de l’heuristique, et les ordonnées montrent la tendance de la moyenne des variations pour les 1000 lancements de l’étape. Sur ces deux graphes, la courbe de tendance montre que la convergence de l’heuristique de recherche locale est une fonction exponentielle f de la forme « f: x -> e^-x », avec R²>=0.8. R² est le coefficient de détermination indiquant si une courbe extrapole bien les données (0 que l’extrapolation est nulle, 1 qu’elle est maximale). Ces deux figures montrent qu’après 1000 lancements, l’heuristique converge en moyenne après 13 redémarrages pour les traces de TELEOS, et 21 pour les traces du Reading Tutor (variation inférieure à 0.001). Pour ces deux domaines, on peut donc conclure que la convergence est rapidement atteinte (courbe de type exponentielle e^-x) et que le volume de traces semble avoir une influence sur le nombre de redémarrages (environ 3000 traces pour TELEOS contre 240 000 pour le Reading Tutor). Des expérimentations sur d’autres bases de traces permettraient de confirmer ou infirmer ces conclusions pour le cas général.

Concernant les temps d’exécution, la construction des quatre techniques avec TELEOS requiert environ 4 secondes et la construction avec le Reading Tutor 16 secondes. Ces temps d’exécution sont donc raisonnables, probablement en raison du nombre limité de variables dans les modèles de diagnostic de nos techniques (entre 4 et 5).

157

Figure 41 : Courbe de tendance de la convergence de l’heuristique de recherche locale à l’étape 1 de l’algorithme de construction de techniques de diagnostic après 1000 redémarrages sur les traces de TELEOS.

Figure 42 : Courbe de tendance de la convergence de l’heuristique de recherche locale à l’étape 1 de l’algorithme de construction de techniques de diagnostic après 1000 redémarrages sur les traces du Reading Tutor.

Dans le document Assistance à la construction et à la comparaison de techniques de diagnostic des connaissances (Page 155-159)