Seconde expérimentation : développement d’un critère de comparaison spécifique aux

Chapitre 7 : Evaluations

IV. Seconde expérimentation : développement d’un critère de comparaison spécifique aux

1. Méthodologie

La seconde expérimentation visait à évaluer la possibilité d’appliquer des critères de comparaison spécifiques au domaine des EIAH sur des techniques de diagnostic basées sur différents modèles de diagnostic. Il s’agit premièrement de répondre à un second verrou dans la littérature : l’inexistence de comparaisons autres que statistiques ou prédictives, comme souligné dans l’état de l’art chapitre 2. Deuxièmement, il s’agit d’une preuve de concept sur la possibilité de développer des critères de comparaison complexes pouvant répondre à une question de recherche précise pour un concepteur de diagnostic.

Concernant la méthodologie, nous avons collaboré pendant six mois avec Jack Mostow et son équipe, qui sont les concepteurs du Reading Tutor, à l’université Carnegie Mellon de Pittsburgh (États-Unis). Nous avons identifié (Lallé et al., 2013) avec eux une question de recherche impliquant le développement d’un critère de comparaison spécifique à un sujet des EIAH : « une technique de diagnostic des connaissances a-t-elle un impact sur l’apprentissage automatique d’une stratégie d’aide basée sur un ensemble de types d’aide donnés par l’EIAH aux apprenants ? » Le critère de comparaison qui en a résulté est décrit dans le chapitre 5, section II.5, avec un exemple illustratif section II.6.C. Il s’agit ici de donner les résultats concrets obtenus par application de ce critère aux traces du Reading Tutor dans le cadre de cette expérimentation.

Le Reading Tutor utilise la reconnaissance automatique de la parole (RAP) pour décider si chaque mot est correctement lu ou non, et pour mesurer l’hésitation entre les mots. Nous disons qu’un mot est lu couramment si l’enfant le lit correctement selon la RAP et sans hésitation. Le Reading Tutor peut donner divers types d’aide sur un mot, comme le prononcer, l’épeler, prononcer un mot rimant avec, etc. (la liste exhaustive est donnée dans la Table 21). Certains types d’aide ne sont pas possibles pour tous les mots (comme épeler un mot d’une seule lettre). Le Reading Tutor choisit aléatoirement entre tous les types d’aide possibles pour un mot donné.

Type d’aide Action de l’EIAH pour le mot ou la phrase en cours

SayWord Joue un enregistrement vocal du mot (donne les différentes prononciations pour les homographes)

WordinContext Joue un enregistrement vocal du mot extrait de la phrase en cours. Le mot doit avoir au moins trois caractères.

Autophonics Prononce le graphème sélectionné dans un mot d’au moins trios caractères.

SoundOut Joue un clips video d’une bouche d’enfant prononçant les phonèmes du mot. Le mot doit avoir deux caractères, ne pas être un homographe et avoir au plus quatre phonème.

Recue Prononce tous les mots de la phrase précédant le mot en cours. Le mot en cours doit être au moins en troisième position dans la phrase.

OnsetRime Prononce le premier phonème du mot, marque une pause, prononce le reste des phonèmes. Le mot doit avoir au moins trios caractères et ne pas être un homographe.

159

StartsLike Dit “start like” (« commence par » en anglais) puis prononce un mot ayant le même début que le mot en cours. Le mot doit avoir au moins deux caractères.

RhymesWith Dit “Rhymes with” (« rime avec » en anglais) puis prononce un mot rimant avec le mot en cours. Le mot doit avoir au moins deux caractères et les rimes doivent avoir la même orthographe.

Syllabify Prononce les syllabes du mot séparées par de courtes pauses (en concaténant si besoin la prononciation des phonèmes de chaque syllabe). Le mot doit avoir au moins deux caractères et ne pas être un homographe.

ShowPicture Montre une image du mot.

SoundEffect Joue un son en rapport avec le mot.

Table 21 : Liste des types d’aide dans le Reading Tutor (Heiner et al., 2004).

Chaque type d’aide donné à un apprenant est collecté dans les traces. Nous disons qu’un type d’aide est un succès si l’apprenant lit le même mot couramment à la prochaine rencontre du mot (au moins un jour après pour éviter tout biais). Donc si un apprenant reçoit une aide H sur un mot W le jour i, nous considérons la prochaine lecture de W le jour j

avec j>i, de façon à éviter les biais liés à la récence de l’aide (Figure 43). Pour simplifier l’analyse, nous ignorons les cas où un apprenant reçoit plusieurs types d’aide différents pour lire un même mot le jour i. Dans notre base de traces du Reading Tutor, nous avons 30 838 traces qui incluent un type d’aide. C’est ce sous-ensemble qui est utilisé dans cette expérimentation.

Figure 43 : L’aide H donnée sur le mot W le jour i est un succès si W est lu couramment le jour j.

2. Application du critère de comparaison

Nous avons défini les entrées à fournir pour le calcul du critère au chapitre 5 :

- Les types d’aide choisis aléatoirement sont inclus dans les traces du Reading Tutor, dans une variable nommée Help_Type.

- L’évaluation du succès d’un type d’aide, telle que définie ci-dessus (cf. l’exemple Figure 43), est également incluse dans les traces dans une variable nommée Fluent.

Nous rappelons succinctement le fonctionnement du critère :

1. application des techniques de diagnostic sur les traces afin d’inférer le modèle de chaque apprenant (étape effectuée par la plateforme, cf. chapitre 6),

160

2. sélection des variables dans les traces ayant un impact significatif sur le succès d’un type d’aide via un modèle linéaire,

3. apprentissage d’une stratégie d’aide via un algorithme de classification automatique.

À l’étape 2, les variables suivantes sont sélectionnées pour le Reading Tutor : le niveau de lecture de l’apprenant (évalué sur une échelle allant de 1 à F par le Reading Tutor, 1 étant le niveau de lecture le plus bas et F le meilleur niveau de lecture possible), son taux de mots lus couramment, le niveau de difficulté de l’exercice (évaluée de A à K dans le Reading Tutor), le nombre de lettres dans le mot, la fréquence du mot en anglais, la position du mot dans la phrase, le nombre de fois où l’apprenant a lu le mot auparavant, et la classe du mot (définie comme l’ensemble des aides possibles pour ce mot).

L’étape 3 donne une stratégie d’aide pour chacune des quatre techniques de diagnostic considérées :

- Knowledge tracing + modèle de Markov caché

- Knowledge tracing + Performance Factor Analysis (PFM) - Constraint-based + contraintes

- Control-based + réseau bayésien

Une stratégie d’aide est un ensemble de règles de classification, dont voici un exemple : 1) Word = c145

2) AND Story_Level = B

3) AND Student_Model_Prediction > 0.6 4) AND Help_Type = ”SayWord”

 _{Fluent (22/22)}

La clause 1 spécifie que la règle s’applique sur les mots de classe « c145 », c’est-à-dire pour lesquels les types d’aide 1, 4 et 5 sont possibles. La clause 2 spécifie la difficulté de l’exercice (niveau B). La clause 3 spécifie que la probabilité que l’apprenant réponde correctement selon la technique de diagnostic doit être supérieure à 0,6. La clause 4 spécifie le type d’aide. La prédiction est que le mot est lu couramment (fluent) avec une confiance de 22/22 (22 essais satisfont cette règle sur 22 dans les traces d’apprentissage).

3. Résultats du critère de comparaison

Nous commençons par évaluer les techniques de diagnostic construites pour la base de traces de cette expérimentation, au moyen des critères de comparaison suivants : précision, AUC et AIC (Table 22).

161

Modèle de

diagnostic ^{Implémentation}

Critères de comparaison Taux AUC AIC

Knowledge Tracing Modèle de Markov caché 84 % (± 2,6 %) ^0.68 ^{5.1 E+4} Performance Factor Model 81 % (± 3 %) ^0.65 ^{5.5 E+4} Constraint-based Contrainte ^{80 %} (± 2,8 %) ^0.65 ^{5.6 E+4} Control-based ^{Réseau bayésien}

dynamique

83 %

(± 2,9 %) ^0.67 ^{7.2 E+4}

Table 22 : Résultats des critères de comparaison pour les techniques construites pour les traces du Reading Tutor incluant un type d’aide. Intervalle de confiance à 95 % entre parenthèses.

Chaque technique de diagnostic bat la classe majoritaire (76 % de mots lus couramment dans les traces). Ces résultats sont cohérents avec des évaluations passées du Knowledge Tracing, avec des précisions entre 72 % et 87 % (pour rappel, sur des traces différentes). Ces résultats montraient aussi des précisions en dessous de 35 % pour les mots lus non couramment, ce qui peut expliquer pourquoi les AUC sont de 0,68 au mieux dans nos résultats. AIC donne le Knowledge Tracing + modèle de Markov caché premier, et pénalise le Control-based, toujours en raison du grand nombre de paramètres du réseau bayésien dynamique.

La Table 23 montre l’évaluation de chaque stratégie d’aide par la précision de la prédiction du succès d’une aide (prochaine lecture sur un même mot lu couramment après avoir reçu une aide). Pour rappel, nous utilisons plusieurs algorithmes de classification automatique dans le critère pour apprendre une stratégie d’aide (comme décrit chapitre 5). Nous montrons ici les résultats seulement pour les classificateurs appris par JRip, qui donne la meilleure précision (l’écart étant de moins de 2 %). Le Knowledge Tracing + modèle de Markov caché donne la meilleure précision. Nous indiquons également le nombre total de règles apprises par JRip pour chaque technique.

Modèle de diagnostic ^{Implémentation} Précision de prédiction du succès de l’aide Nombre de règles Knowledge tracing Modèle de Markov caché 75 % (± 4,1 %) 114 Performance Factor Model 68 % (± 4,4 %) 95 Constraint-based ^Contrainte 65 % (± 4,3 %) 89

Control-based ^{Réseau bayésien} dynamique

73 % (± 4,4 %)

132

Table 23 : Précision de prédiction des stratégies d’aide construites pour chaque technique de diagnostic. Intervalle de confiance à 95 % entre parenthèses.

162

Les précisions de prédiction du succès d’une aide sont inférieures aux précisions des techniques de diagnostic utilisées. Prédire si un apprenant va lire un mot couramment est plus simple que de prédire si un type d’aide permettra de lire un mot couramment. Une raison est que les traces sont plus « éparses » : il y a parfois peu de traces pour certains types d’aide, et le nombre de types d’aide différents est de douze, ce qui crée un grand nombre de situations possibles.

Pour tester le degré de signifiance des différences entre les prédictions du succès des aides, nous utilisons le test de McNemar, qui évalue la signifiance de différences entre deux classificateurs C1 et C2. La formule est :

χ² = (d1 − d2)² / (d1 + d2)

Ici, d1 est le nombre d’instances classifiées comme positives par C1 et négatives par C2, et

d2 le nombre d’instances classifiées comme positives par C2 et négatives par C1. La somme

d1+d2 est supérieure à 80 dans nos données pour toutes les techniques, la limite minimale définie par McNemar pour son test, qui peut être approximé par une distribution χ². En résultat, le test de McNemmar appliqué à toutes les stratégies d’aide apprises deux à deux est significatif dans tous les cas (p<0.025)

Pour finir, le critère calcule l’espérance d’amélioration du taux de succès des stratégies d’aide, c’est-à-dire le taux de mots lus couramment selon les stratégies d’aide. La différence entre le taux espéré et le taux réel (dans les traces) est rapportée Table 24. La dernière ligne indique l’amélioration espérée en sélectionnant le type d’aide avec la plus grande probabilité dans les traces, sans utiliser de classificateur. Nous obtenons une espérance simulée, car calculée sur des traces précédemment collectées sans nouvelles expérimentations. Le succès espéré E est calculé comme suit :

Avec S la technique de diagnostic, F les éléments affectant le succès, et h* le type d’aide avec la probabilité de succès la plus élevée selon une stratégie d’aide pour une situation donnée :

La Table 24 indique également la couverture, qui est le pourcentage de traces pour lequel une stratégie d’aide est capable de recommander un type d’aide (donc pour lequel une règle de classification peut être appliquée. Les résultats montrent une amélioration espérée du succès des aides de 4,5 % à 5,2 % en utilisant les stratégies d’aide apprises par ce critère. En revanche, nous notons que les couvertures sont comprises en 25 % et 34 %, ce qui est peu car les stratégies sont incapables de recommander un type d’aide dans tous les autres cas. Cela est dû au fait que les traces sont éparses et incluent de nombreuses variables explicatives.

163

Modèle de

diagnostic ^{Implémentation}

Amélioration espérée

du succès de l’aide ^Couverture

Knowledge tracing Modèle de Markov caché ^{5,2 %} ^{32 %} Performance Factor Model ^{4,7 %} ^{26 %} Constraint-based Contrainte 4,5 % 25 % Control-based ^{Réseau bayésien}

dynamique ^{5,1 %} ^{34 %}

Aucun _{2,4 %}

Table 24 : Amélioration espérée du taux de succès des aides.

4. Retour sur les questions de recherche

En ce qui concerne cette expérimentation avec l’équipe de Jack Mostow, elle a permis d’apprendre automatiquement une stratégie d’aide basée sur le résultat de techniques de diagnostic et les variables du domaine qui ont un impact sur le succès des aides (longueur des mots, place du mot dans la phrase, difficulté de l’exercice, etc.), afin de prédire les types d’aide ayant la plus forte probabilité de succès dans une situation donnée. Appliquées aux données du Reading Tutor, nous obtenons une amélioration estimée du succès des aides entre 4,5 % et 5,2 %. Toutefois, la faible couverture pénalise ce résultat : une amélioration espérée de 5,2 % avec une couverture de 32 % implique une amélioration espérée sur l’ensemble couvert de 16,3 %.

Les limites de ce critère sont la nécessité d’avoir des traces où les types d’aide sont sélectionnés aléatoirement (comme dans le Reading Tutor), ainsi que les couvertures trop faibles. Ces limites sont le prix à payer pour un apprentissage automatique de plusieurs stratégies d’aide et une évaluation automatique de ces stratégies.

En ce qui concerne nos questions de recherche, nous proposons un critère pour comparer des techniques de diagnostic et apprendre des stratégies d’aide. Les travaux précédents comparent les techniques de diagnostic basées sur un même modèle d’un point de vue prédictif, comme nous l’avons vu dans l’état de l’art. Nous comparons, au contraire, des techniques basées sur plusieurs modèles en fonction de leur impact sur l’apprentissage d’une stratégie d’aide. Une stratégie d’aide, entendue ici comme le choix d’un type d’aide à donner à l’apprenant, est une décision pédagogique prise par l’EIAH. Ce critère est donc spécifique au domaine des EIAH.

V. Troisième expérimentation : développement d’une

Dans le document Assistance à la construction et à la comparaison de techniques de diagnostic des connaissances (Page 160-165)