Évaluation objective - LesDilemmes : un jeu pour l’amélioration du raisonnement sociomoral

CHAPITRE V Applications des solutions et résultats

5.1 LesDilemmes : un jeu pour l’amélioration du raisonnement sociomoral

5.1.3 Évaluation objective

L’objectif ici est de faire une évaluation basée sur les réactions et les réponses des joueurs pendant le déroulement du jeu. L’évaluation est faite en comparant le niveau de raisonnement atteint par les joueurs dans la version adaptative et la version non adaptative du jeu. Nous évaluerons le taux l’apprentissage et l’impact des règles d’adaptation sur les joueurs, en particulier celles liées aux réactions émotives. Puisque les règles en général ont été conçues pour l’amélioration de l’apprentissage, elles seront donc intrinsèquement évaluées lors de l’évaluation de l’apprentissage.

5.1.3.1 Évaluation de l’apprentissage

Afin de mesurer le potentiel du jeu dans le support des usagers à développer un niveau plus élevé de maturité sociale, nous allons comparer les résultats (moyenne des niveaux de raisonnement) qu’ont obtenus les joueurs-apprenants pendant le pré-test, le post-test et le jeu. Nous avons éliminé les participants dont les données étaient partielles et ou biaisées : les justificatifs n’ont pas pu être transcrits cor- rectement ce qui a impliqué une cotation qui ne reflétait pas le niveau actuel dans le jeu. Un pré-test et un post-test ont été utilisés pour comparer les niveaux de

Figure 5.14 Visualisation de la différence (comparaison des moyennes) entre la version non adaptative (NON) et adaptative du jeu (OUI).

maturité avant et après avoir joué. Les résultats (figures 5.15 et 5.16) montrent que le niveau de raisonnement moyen des joueurs pendant le pré-test (1.70) est plus bas que leurs niveaux de raisonnement moyen pendant le jeu (2.30) et le post-test (2.53) de façon très significative (p = .001 et p = 0.02). Ainsi, le jeu a permis un gain notable de niveau de raisonnement qui on peut le dire, a persisté même après le jeu : puisque le niveau de raisonnement pendant le post-test est très peu (p = 0.44) supérieur à celui du jeu.

Nous avons également fait une comparaison entre la version non adaptative et la version adaptative du jeu. Pour cette évaluation (voir figures 5.17 et 5.18), nous avons ajouté une variable (appelée Pre_Pro) mesurant la différence entre le pré-test et le post-test (post−test − pr −test) pour chaque participant. Comme nous pouvons le voir dans ces figures, la différence entre le post-test et le pré-test est plus élevée (p = 0.058) pour ceux qui ont joué à la version adaptative (.7889 versus 0.333) comparativement à ceux qui ont joué la version non adaptative. No- tons que les niveaux de raisonnement avant de commencer à jouer (pré-test) sont

Figure 5.15 Évaluation de l’apprentissage dans le jeu LesDilemmes : Statistiques de groupe après un test T pour échantillons appariés.

Figure 5.16 Évaluation de l’apprentissage dans le jeu LesDilemmes : Résultats du test T pour échantillons appariés.

significativement plus bas (p = 0.02) pour ceux qui ont joué à la version adaptative (2.17 versus 1.7) comparativement aux autres. Ceci s’explique par le fait que les participants qui ont joué à la version non adaptative étaient en moyenne plus agés que ceux qui ont joué à la version adaptative. Ainsi, la version adaptative du jeu a été plus efficace en matière de support à l’apprentissage du raisonnement sociomoral comparé à sa version non adaptative. Cependant, nous sommes per- suadé que ces résultats pourront encore s’améliorer lorsque le modèle qui prédira le niveau de raisonnement sera plus fidèle et que la transcription de l’audio vers le texte sera plus exacte (ce qui n’est actuellement pas le cas).

5.1.3.2 Évaluation des règles d’adaptation

Comme mentionné ci-dessus, nous allons uniquement évaluer les règles qui visent à garder les joueurs dans un état émotif positif (ex : SI valence <0 ALORS

Figure 5.17 Comparaison des 2 versions du jeu LesDilemmes : Statistiques de groupe après un test T pour échantillons appariés.

Figure 5.18 Comparaison des 2 versions du jeu LesDilemmes : Résultats du test T pour échantillons appariés.

musique joviale sinon musique douce ), puisque ce dernier favorise l’apprentissage (Um et al., 2012; Tyng et al., 2017). Les émotions permettent également de maxi- miser l’engagement de l’apprenant et améliorer son apprentissage et sa rétention à long terme (Shen et al., 2009). Pour ce faire, pour tous les participants des 2 expé- rimentations, nous avons fait une moyenne de leurs réactions émotives (calculées à partir du Facereader) par rapport à chaque dilemme répondu. Nous avons consi- déré les 7 émotions de base de Ekman (1970) à savoir : le neutre (Neutral ), la joie (Happy ), la tristesse (Sad ), la colère (Angry ), la surprise (Suprised ), la peur (Sca- red ) et le dégoût (Disgusted ), ainsi que la valence et l’arousal. Ces deux dernières

sont calculées selon des formules bien définies6, et toutes les valeurs varient entre 0 et 1 sauf la valence qui varie de −1 à 1. Il est à noter que, les émotions neutre et colère ont tendance à être plus présentes dans les activités impliquant la lecture. De plus, ces émotions ont tendance à se manifester avec une plus grande intensité que les autres lorsque capturées avec le Facereader (Terzis et al., 2010; Alitalo, 2016). Dans le jeu LesDilemmes, l’activité la plus présente est la lecture puisque les joueurs doivent lire et écouter les avis des autres et les consignes du jeu. Ceci est encore plus vrai dans la version adaptative du jeu puisque nous avons rajouté des messages d’apprentissage, de félicitations, etc. Également, le jeu en tant que tel n’a pas une dynamique d’un «vrai jeu» dans le sens où le personnage principal n’a aucun pouvoir sur l’environnement à part prendre des décisions, donner son avis et évaluer les autres à travers des clics sur des boutons. Ainsi, on observera en général des émotions plus négatives que positives, ce qui est tout à fait justifié. Nous avons fait une première comparaison des moyennes entre la valence et l’arousal (voir figure 5.19) sur les 2 versions du jeu. On peut voir que la valence moyenne est significativement plus grande dans la version adaptative (A) que dans la version non adaptative (NA). La version adaptative a donc suscité (p < 0.001 voire tableau E.2 en annexe) plus d’émotions positives que la version non adaptative malgré la présence d’un contenu plus «textuel». Ce qui implique que les règles visant à mettre l’apprenant dans un état plus positif ont eu de l’effet. Bien sûr, on remarque que la valence dans les 2 cas est négative ce qui s’explique par le fait que le jeu implique beaucoup de lecture qui suscite des émotions négatives. Nous avons fait une deuxième comparaison des moyennes (voir figure 5.20) impliquant quelques des sept émotions de base dont le p < 0.001. On peut constater de cette figure que la version non adaptative a suscité significativement plus de colère et de dégoût que la version adaptative (p < 0.001). Par contre la version adaptative

a suscité plus du neutre et de surprise chez les joueurs, comparée à la version non adaptative. Plusieurs recherches ont montré que la surprise est une émotion jouant un rôle majeur dans l’apprentissage. Oudeyer et al (Oudeyer et al., 2016) ainsi que Meadhbh et al (Foster et Keane, 2019) ont montré que les éléments provoquant la surprise sont conservés en mémoire plus facilement et sont rappelés plus précisément que les éléments provoquant moins de surprise (éléments prévi- sibles). Adler (Adler, 2008) a conclu que la surprise est une émotion d’une grande valeur dans l’apprentissage ; lorsque les apprenants rencontrent une information surprenante, leur attention est attirée (c.-à-d. qu’ils remarquent la surprise), ce qui provoque un traitement plus intensif du matériel à apprendre (c.-à-d. la ré- solution) ; il faut donc corriger et mieux comprendre ce matériel). Munnich et al (Munnich et al., 2007), ont montré que la surprise favorise la rétention, peut-être parce que la surprise peut rendre un événement plus intéressant et agréable (Loe- wenstein et Heath, 2009). Les points de vue connexes sont repris dans le domaine de l’IA, où la surprise a été proposée comme mécanisme cognitif pour identifier les événements qui sont des opportunités d’apprentissage dans les architectures d’agents pour robots (Bae et Young, 2009; Macedo et al., 2009; Macedo et Car- doso, 2012). Ainsi, le fait que la version adaptative ait suscité plus de surprise, implique qu’elle a eu plus d’effet et ou aura plus d’effet à long terme comparée à la version non adaptative.

Les tableaux E.1 et E.2 situés en annexe présentent plus en détail les résultats obtenus pour l’analyse sur les émotions capturées dans les 2 versions du jeu. 5.1.3.3 Évaluation du modèle de prédiction du raisonnement sociomoral en

temps réel dans le jeu

L’objectif de cette étape est d’évaluer la performance en temps réel du modèle de prédiction du niveau de raisonnement dans le jeu. Nous avons conduit deux analyses dont la première est une comparaison entre les prédictions faites par le

Figure 5.19 Visualisation de la comparaison des moyennes de la valence et de l’arousal (p<0.001) entre la version non adaptative (NA) et adaptative (A) du jeu.

modèle et les annotations des experts. La deuxième est la comparaison entre les prédictions faites par le modèle automatique à partir de transcription audio vers texte (des verbatims) effectuées par les humains et non pas par un système automatique comme c’est fait présentement dans le jeu, et les annotations des experts. Cette deuxième analyse vise à évaluer l’impact de la transcription automatique sur la performance du modèle de prédiction du niveau de raisonnement. Pour ces analyses, nous avons considéré que, si |Rp− Rr| ≤ 1, alors la prédiction est cor-

recte, avec Rp et Rr représentant respectivement le niveau de raisonnement prédit

et le niveau de raisonnement réel. Cette marge d’erreur se base sur le fait que les experts qui font la cotation, ont tendance à attribuer pour un même verbatim, des niveaux de raisonnement jusqu’à plus ou moins 1 de différence. De plus, l’expérience a montré que deux experts différents ne feront pas toujours la même cotation pour un même verbatim. Ainsi, la comparaison entre les prédictions dans

Figure 5.20 Visualisation de la différence (comparaison des moyennes) des émo- tions (p <0.001) entre la version non adaptative (NA) et adaptative (A) du jeu.

le jeu et les cotations réelles des verbatims émis pendant le jeu, a donné une pré- cision de 69%. En d’autres termes, les deux cotations sont semblables à 69%, ce qui est largement au-dessus du hasard. Pour ce qui est de la deuxième analyse où Rp représente la valeur du niveau de raisonnement prédit par le modèle à par-

tir des verbatims transcrits par les humains, la précision obtenue a été de 76.6% qui est meilleure que celle obtenu dans la première analyse. Nous voyons que les prédictions sont meilleures sur les verbatims transcrits par un humain que ceux transcrits automatiquement pendant le jeu. La transcription automatique est donc un point important à surveiller lors des futures versions du jeu, puisqu’elle est la principale cause de la moins bonne performance du modèle pendant le jeu. En conclusion de cette partie, l’évaluation du jeu suggère qu’il a été apprécié par les joueurs en matière d’immersion, de jouabilité et d’impression d’avoir appris quelque chose. Les résultats montrent également que le jeu encourage le dévelop-

pement de niveaux plus élevés de maturité de raisonnement. Également, le jeu dans sa version adaptative permet de garder le joueur dans un état émotionnel propice à la persistance de la connaissance apprise mais également au plaisir d’apprendre. Bien qu’il reste encore à améliorer le jeu en tant que tel (la dynamique du jeu), notre algorithme de prédiction du niveau de raisonnement sociomoral et la transcription audio vers texte, on peut néanmoins conclure que la version adaptative a eu un effet significativement plus positif que la version non adaptative sur toutes les dimensions évaluées. Nous sommes persuadés que cet impact positif serait encore plus élevé si la transcription automatique de l’audio vers le texte était plus précise. Une autre possibilité serait de passer à l’anglais, ce qui est déjà prévu pour les prochaines versions du jeu, puisque la transcription automatique de l’audio vers le texte lorsqu’il s’agit de l’anglais est plus développé que le francais. Cette option nécessiterait de ré-implémenter le jeu au complet en anglais et d’avoir à disposition des verbatim en anglais et annotés par les experts afin pouvoir d’entraîner de nouveau le modèle de cotation automatique.

5.2 Muse-logique : un système intelligent pour l’apprentissage du raisonnement

Dans le document Techniques d'apprentissage profond pour la modélisation des usagers dans les systèmes interactifs d'apprentissage humain (Page 181-189)