• Aucun résultat trouvé

Chapitre 6 : Analyse d’interactions entre apprenants

6.4. Résultats et discussion

6.4.2. Résultats de l’étape de composition

Pour examiner l’impact des paramètres considérés dans l’étape de composition, nous avons choisi de les évaluer deux à deux pour pouvoir comprendre les interactions entre eux et leurs effets sur la performance de LSA par rapport aux experts humains.

Afin d'évaluer l’interaction entre la pondération et la dimensionnalité et leur impact sur les résultats de LSA, nous avons effectué une analyse de régression en se basant sur les deux variables indépendantes, Feed_Req et Avg_Feed, décrites dans la table 13. Dans ce test, nous utilisons le cosinus comme mesure de similarité pour calculer les variables indépendantes. Étant donné que ce sont des variables mesurées automatiquement, nous utilisons toutes les requêtes et leurs feedbacks associés dans le corpus et nous calculons les valeurs moyennes de régression.

La figue 25 présente les valeurs moyennes de régression obtenues pour les différentes valeurs de réduction considérées (25 %, 50 %, 70 %, 80% et 100 %) et les approches de pondération testées (IDF, Binary Term Frequency, TF-IDF et Log-Entropy). Notons que nous avons considéré des pourcentages de réduction plutôt que des valeurs exactes afin de mieux représenter l’effet de la réduction sur la performance de LSA.

Figure 25 – Interaction entre dimensionnalité et pondération

D’après les résultats dans la figure 25, TF-IDF a démontré une bonne performance et a été la deuxième meilleure option après la fonction de pondération communément utilisée de Log- Entropy (avec r = 0.62, p <0.001). La différence entre les deux fonctions n'est pas

0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 0% 25% 50% 70% 80% 100% R é gr e ssi o n Dimensionalité IDF Log-Entropy Binary-TF TF-IDF

119

significative, bien que l'entropie soit généralement préférée dans la littérature lorsque LSA est utilisée.

Par ailleurs, la réduction de dimensionnalité a démontré une mauvaise performance par rapport au modèle sans réduction (correspondant à 100%). Bien que cela puisse être surprenant dans notre contexte, ce résultat est cohérent avec certaines études antérieures qui ont utilisé un corpus de taille limitée pour construire l'espace sémantique. Ces études ont postulé que la réduction de dimensionnalité est plus compatible avec les mesures de distance que le cosinus dans certains corpus (Boling et Das, 2015).

Afin d'examiner cela, nous avons mené une série de tests pour étudier l'interaction entre la dimensionnalité et la mesure de similarité. Nous utilisons TF-IDF pour la pondération, la distance euclidienne et la distance de Jaccard respectivement pour calculer les variables indépendantes de Feed_Req et Avg_Feed.

Pour chaque mesure de similarité (cosinus, distance euclidienne et distance de Jaccard), nous considérons différentes valeurs de réduction de dimensionnalité (25 %, 50 %, 70 %, 80% et 100 %) pour calculer les variables Feed_Req et Avg_Feed. Ensuite, nous calculons les corrélations obtenues entre les moyennes de valeurs des variables indépendantes et ceux des experts humains. Les résultats de ces tests sont illustrés dans la figure 26.

Figure 26 – Interaction entre dimensionnalité et mesure de similarité

La corrélation entre le modèle de LSA basé sur TF-IDF pour la pondération, n’ayant aucune réduction et basé sur la distance euclidienne comme mesure de similarité, et (que nous

0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 0% 25% 50% 70% 80% 100% R é gr e ssi o n Dimensionalité Jaccard Cosine Euclidean

120

désignons par modèle M1) avec les experts humains est très significative. En effet, bien qu’elle soit considérée comme modérée, cette corrélation de r = 0.64 (p <0.001) est statistiquement équivalente à la concordance entre les experts humains (κ = 0.68). Dans les faits, lorsque les juges humains classifient un feedback comme négatif ou divulguant des données personnelles (score de 1 ou 2), alors le sous-module composition le classifie comme étant négatif en se basant sur les variables dérivées du modèle M1.

L'interaction entre la dimensionnalité et la mesure de similarité (pondération étant fixée à TF- IDF) montre que le processus de LSA est complexe et très dépendant de la combinaison de paramètres utilisés. Après avoir testé différents modèles, y compris différentes approches de pondération, valeurs de réduction et mesures de similarité, la meilleure corrélation obtenue est effectuée en se basant sur une combinaison de TF-IDF pour pondération, sans réduction de dimensions et distance euclidienne comme mesure de similarité.

Cela nous amène à conclure que les approches hybrides, plus particulièrement TF-IDF, semblent plus avantageuses, dans notre contexte, car elles semblent offrir de meilleures performances par rapport aux autres approches de pondération globale et locale examinées dans cette étude. De plus, nous constatons que la réduction de dimensionnalité a diminué les performances de LSA. Bien que cela puisse paraitre surprenant, cela pourrait être justifié par la nature des données constituant le corpus des interactions composé des feedbacks de longueur plus ou moins limitée.

En ce qui concerne les mesures de similarité, nous constatons que la distance, en particulier euclidienne, se comportent nettement mieux que Jaccard et cosinus. Ce résultat a été aussi validé récemment dans la littérature dans l’étude de (Jorge-Botana et al., 2015) mais en se basant sur un corpus de données académiques.

Pour expliquer le rôle de ces paramètres sur le plan pratique, nous analysons le nombre des feedbacks des pairs qui pourraient être envoyés à l'apprenant qui a fait la requête d’aide si notre modèle de LSA avait été mis en œuvre pour éliminer les feedbacks négatifs et divulguant des données personnelles. Pour cela, nous calculons les scores attribués pour chaque feedback en modifiant les paramètres du modèle LSA. Ensuite, nous convertissons les valeurs des scores obtenues pour chaque feedback en une évaluation binaire (c’est-à-dire pour un score supérieur à 3, le feedback est envoyé à l’apprenant qui a demandé l’aide, pour un score inférieur à 3 le feedback est supprimé). Pour ce faire, nous avons considéré le modèle M1 basé sur la combinaisons de TF-IDF pour la pondération, n’ayant aucune réduction de

121

dimensions, et basé sur la distance euclidienne pour la similarité et un autre modèle M2 basé sur Log-Entropy pour la pondération, n’ayant aucune réduction de dimensions, et basé sur le cosinus pour la similarité. Le pourcentage des feedbacks correctement évalués est de 41% pour M1; et 39% pour M2.

Notons ici que bien que la différence des pourcentages ne soit pas trop grande entre les deux modèles considérés, le problème pourrait résider dans les scores attribués par les experts humains même. En effet, dans le but d’examiner la sensibilité humaine quant à la divulgation, nous avons délibérément omis de fournir aux experts des critères d'évaluation spécifiques. Cela implique que leur évaluation pouvait exclure certains feedbacks pertinents de point du vue de l’apprentissage, mais comportant une divulgation de données. Cela peut être clairement illustré dans l’exemple suivant de la table 12 :

Pair 4 I'm from Colombia. I'm 22 years old and I want to practice my English with someone... It don't care who you are... if you want to practice

English too 1 3

Ce feedback est classifié comme négatif car la moyenne des scores attribués par les experts humais est inférieure à 3 (1+3/2=2). Le premier juge qui a considéré que le feedback divulgue des données personnelles (pays= Colombia et âge=22) lui a attribué un score de 1, bien que le feedback ne soit pas intimidant ou négatif en se basant sur les termes qu’il contient. En revanche le deuxième juge lui a attribué un score de 3, considérant que les données divulguées ne peuvent entrainer la ré-identification de la personne. Cela montre la différence de sensibilité entre les individus mêmes vis-à-vis de la divulgation des données personnelles et qui constitue un défi majeur dans l’étude d’interactions en langage naturel.

6.5. Conclusion

Dans ce chapitre, nous avons proposé un module pour analyser les interactions entre apprenants dans un contexte d’apprentissage informel. Le module proposé vise à améliorer les interactions et à favoriser l’apprentissage en instaurant un espace interactionnel encourageant les interactions positives et préservant la vie privée. Les résultats obtenus montrent qu'il est possible de prédire avec succès si un feedback donné par un co-apprenant est pertinent ou non pour un apprenant dans un contexte social et émotionnel donné. Cela permet d'adapter les

122

interactions de l’apprenant à son état émotionnel d’une part et de préserver sa vie privée, d’autre part, améliorant ainsi l’apprentissage.

Ce travail est très différent des travaux similaires portant sur l’analyse des interactions entre apprenants qui ont considéré surtout l’aspect cognitif de l’interaction et ont ignoré, pour la majorité, l'état émotionnel de l'apprenant qui affecte grandement la perception du feedback et son utilité pour celui qui l'a demandé. Il est également différent des travaux similaires dans le fait de proposer une solution pour la divulgation des données personnelles assez présentes dans les interactions sociales dans les environnements informels ainsi que formels incluant des outils d’interaction (tels que les forums et la discussion instantanée). Bien que les algorithmes d’apprentissage machine supervisé ne peuvent pas être utilisés dans ces environnement étant donné le cout élevé de leur entrainement, des algorithmes d’apprentissage semi-supervisé ou non-supervisé peuvent être une bonne option pour détecter et supprimer automatiquement la divulgation des données personnelles, dans des travaux futurs.

123