• Aucun résultat trouvé

14. Validation sur données synthétiques

14.3 Efficacité du module pédagogique

14.3.5 Expérimentation 2 : Influence de

Les secondes expérimentations ont eu pour objectif d’étudier plus en détails l’influence du paramètre 𝜏, qui balance le caractère exploratoire de l’algorithme. La Figure 14.9 montre les scores d’aptitudes moyens obtenus après l’expérience 50 couples de situations d’apprentissage par 70 apprenants synthétiques, sur un ensemble de 10 situations disponibles, pour l’algorithme MAB présentant différentes valeurs de 𝜏.

191

Figure 14.9 : Vue des différents scores moyens d’aptitude 𝜃 obtenus après 100 situations d’apprentissage, pour différentes valeurs de 𝜏.

Les valeurs de 𝜏 les plus faibles produisent généralement les meilleurs scores d’aptitude et inversement, les valeurs élevées de 𝜏 produisent des scores d’aptitudes plus faibles sur notre jeu de données. Ces résultats montrent que le MAB est généralement plus performant en favorisant l’exploitation de situations ayant généré de bonnes récompenses, plutôt que l’exploration d’autres situations. Ces résultats s’expliquent par deux éléments. Premièrement, l’inclusion d’une phase de vérification au processus de décision garantit une bonne robustesse du diagnostic ce qui renforce l’estimation du gain d’apprentissage et donc la précision du calcul de la récompense. Deuxièmement, le paramètre 𝛼 est réglé à une valeur relativement forte, ce qui favorise la dernière récompense obtenue par une situation sur les précédentes, et fournit à la nature non-stationnaire des récompenses (due à la progression de l’apprenant). L’estimation du gain d’apprentissage permettant le calcul de la récompense étant bonne et s’adaptant vite aux progressions de l’apprenant, l’algorithme bénéficie davantage d’un taux d’exploitation fort.

Pour observer la façon dont le MAB se comporte quand l’incertitude sur le diagnostic augmente, nous avons comparé les performances de nos différents algorithmes lorsque l’on inclut une probabilité d’erreur par malchance (i.e. : « slip »), et une probabilité de réussite par chance (i.e. : « guess »). Ces probabilités et les conséquences d’un slip ou d’un guess ont été paramétrées pour introduire une forte imprécision au niveau du diagnostic. En moyenne, une situation sur cinq produit un diagnostic erroné (i.e. : taux de slip à 10%, taux de guess à 20%). Les erreurs de diagnostic peuvent par ailleurs être très fortes : quand un slip apparaît, une valeur de performance est tirée aléatoirement entre 0 et 0.5. Quand un guess apparaît, une valeur de performance est tirée aléatoirement entre 0.5 et 1. Les résultats sont présentés dans la Figure 14.10.

192

Figure 14.10 : scores moyens d’aptitudes obtenus après 50 couples de situations d’apprentissage, lorsqu’on inclue des « slip » et « guess ».

On note que l’inclusion d’une imprécision de l’ordre de 20% sur les diagnostics effectués par le modèle de l’apprenant nuit considérablement aux performances du MAB. En outre, l’algorithme EXP n’est que peu affecté par cette imprécision. Le MAB, reposant sur le diagnostic est induit en erreur par la mauvaise qualité de celui-ci, alors que EXP n’est que peu affecté. Cela montre l’importance de la précision du diagnostic pour l’utilisation du MAB : les valeurs obtenues pour ces derniers sont en effet beaucoup plus faibles que pour les précédentes expériences.

Ces résultats montrent que bien que l’utilisation d’un MAB puisse permettre à un STI de s’affranchir partiellement d’un modèle de l’apprenant, il a besoin pour fonctionner d’acquérir des connaissances un minimum robustes sur les situations rencontrées et leur gestion par l’apprenant. Généralement, ces connaissances sont acquises sous la forme d’une estimation du gain d’apprentissage [e.g. : Clement et al., 2014, Frenoy et al., 2016]. Dans le cas de domaines bien définis, où il est possible de caractériser la réponse apportée à un exercice comme « bonne » ou « fausse », cette estimation peut être obtenue en comparant le nombre de bonnes réponses obtenues entre deux périodes de temps [Clement et al., 2014]. Dans notre domaine, la notion de « bonne réponse » est impossible à définir, ce qui implique une plus forte dépendance du MAB au module de diagnostic, à partir duquel la fonction de récompense est calculée. Si le diagnostic est erroné, la décision l’est également. De manière générale, le paramétrage du MAB appliqué à la PAS dans un domaine mal-défini doit donc s’effectuer comme un compromis face à l’incertitude du diagnostic. Dans le cas d’un diagnostic peu robuste, un algorithme plus dépendant des itérations antérieures (i.e. : paramètre 𝛼 moins fort) et/ou plus exploratoire (i.e. : paramètre τ plus fort) pourrait s’avérer plus performant. Inversement, la Figure 14.9 a montré que si le diagnostic est robuste, alors il faut privilégier l’exploitation et les récompenses les plus récentes.

193

14.4 Conclusion

Le jeu de données synthétiques que nous avons conçu nous a permis de conduire des expérimentations, d’une part, sur la partie dynamique du réseau bayésien constituant le modèle de l’apprenant, et d’autre part, sur le processus de sélection d’actions pédagogiques réalisé via un MAB. L’utilisation de données synthétiques, incluant une simulation de l’apprenant, a permis d’explorer divers types de comportements aux caractéristiques connues, et donc de tester la pertinence des approches proposées et la contribution de chaque module face à un large panel de profils.

Au niveau du modèle de l’apprenant, nous avons vu que notre RB pouvait inférer dans le temps l’évolution de l’état des compétences d’un apprenant à mesure qu’il rencontre de nouvelles situations critiques. Nous avons également mis en évidence certains cas où ce processus pouvait faire preuve d’imprécision, et proposé comme solution l’inclusion d’une étape de vérification au niveau du module pédagogique.

Au niveau du module pédagogique, nous avons constaté que l’utilisation combinée d’un module de filtrage et d’un MAB contribuait bien à l’amélioration des CNT de nos apprenants synthétiques au fil de leurs expériences avec des situations critiques. Nous avons également mis en évidence l’importance de la robustesse du diagnostic pour que ce module puisse sélectionner des situations adaptées aux profils et à l’état des compétences de chaque apprenant.

L’idée générale a été de montrer l’intérêt de concevoir une session d’apprentissage, du point de vue de la machine, comme un « cercle vertueux », où chaque module contribue au bon fonctionnement de l’autre, dans l’objectif de contrôler l’incertitude concernant l’état réel de l’apprenant et de sa progression dans la durée.

194

QUATRIEME PARTIE –

CONCLUSION

195

15. Conclusion

15.1 Survol de la thèse ... 196

15.2 Contributions ... 198

15.2.1 Une architecture hybride pour le diagnostic des compétences non-techniques ... 198

15.2.2 Un module pédagogique pour la sélection personnalisée de situations à criticité variables ... 199

15.3 Publications ... 199

15.4 Limites et perspectives ... 200

15.4.1 Limites ... 200

Absence de marqueurs non-techniques ... 200

Choix de formalisation des situations d’apprentissage ... 201

Limites des expérimentations ... 201

15.4.2 Perspectives ... 202

Faciliter l’acquisition de traces et la mise en place d’expérimentations ... 202

Explorer davantage l’association de valeurs numériques dans un graphe probabiliste ... 202

Inclure une boucle de rétroactions courtes pour mieux guider l’apprenant ... 203

Efficacité didactique vs efficacité pédagogique ... 203

196