• Aucun résultat trouvé

4.4 Automatisation de taxonomie de questions

4.4.6 Bilan

La figure4.10 résume les performances (valeurs de Kappa obtenues avec les intervalles de confiance [Cohen,1960] calculés) des quatre types de classifieurs (à base de RE, AA, TF-IDF, hybride) sur chacune des quatre dimensions (sur les six techniques de classification utilisées, nous avons reporté à chaque fois la valeur la plus élevée).

Figure 4.10 – Comparaison des performances des 4 classifieurs en termes de Kappa (centre de la barre) et d’intervalle de confiance (haut et bas de la barre) sur chaque dimension

Globalement, l’annotateur hybride semble surpasser légèrement les autres annotateurs en termes de performance (une amélioration a été observée surtout sur les dimensions 1 et 3). L’annotateur à base d’AA reste le plus performant sur la dimension 2, qui contient le plus grand nombre de données non équilibrées. Cette dernière observation nous a conduit à tester une technique permettant de rééquilibrer les données (SMOTE [Chawla et al. , 2002]) sur l’échantillon des 200 segments. Cependant l’utilisation de SMOTE n’a pas vraiment donné de meilleurs les résultats (même sur la dimension 2, kappa = 0.80).

4.5 Synthèse

Nous avons développé un schéma de codage de questions posées par les étudiants dans le cadre d’un environnement hybride. Nous avons reporté a posteriori les similarités entre les typologies de questions existantes et notre schéma de codage.

Nous avons également développé un système d’annotation semi-automatique à base de règles d’expert pour annoter l’ensemble de corpus de questions, que nous avons utilisé par la suite pour segmenter et annoter les questions des étudiants de PACES automatiquement (cf. chapitres 5 et 6). Bien qu’efficace sur les questions qu’il annote, l’annotation automatique dépend essentiellement des mots-clés pondérés manuellement, ce qui nous a amené à dévelop-per des systèmes d’annotation entièrement automatique basés sur des approches statistiques (des techniques d’apprentissage automatique et TF-IDF). La comparaison de performances des différents systèmes d’annotation (presque similaire en termes de performance et certaines d’eux peuvent surpasser les autres sur une dimension donnée,cf. Figure4.10), nous a conduit à combiner ces modèles pour obtenir un annotateur hybride dont la performance est supérieure à celle de chacun d’entre eux.

Nous avons montré que même avec un petit ensemble d’entraînement (moins de 1000 ques-tions), il peut être utile d’ajouter des approches basées sur l’AA pour compléter un annotateur conçu manuellement en utilisant une approche de stacking pour combiner les classifieurs entre eux. L’utilisation d’un ensemble hybride d’annotateurs basés sur l’apprentissage automatique (ou TF-IDF) avec un annotateur existant semble ici être la meilleure approche, en tirant parti des avantages de chaque approche.

Dans notre cas, le modèle ensembliste hybride a permis d’augmenter la performance sur presque toutes les dimensions. Il convient toutefois de noter qu’ici l’utilisation de WordNet pour réduire le vocabulaire n’a pas permis d’améliorer les performances des classifieurs.

L’une des limites à souligner est que nous n’avons considéré qu’un seul ensemble de don-nées. L’augmentation de la valeur des kappas peut aussi parfois être considérée comme mo-deste, mais il faut mettre cela en perspective avec le fait que les codeurs humains utilisant ce schéma de codage peuvent rarement atteindre un kappa supérieur à 0.75 dans cette tâche. De plus, il faut souligner que les dimensions qui ont été améliorées étaient celles qui étaient les plus éloignées de la performance du codeur humain. Cela renforce donc l’interprétation consistant à dire que les annotateurs plafonnent aux alentours de 0.75 car c’est une limite liée à la subjectivité de la tâche, avec une vérité terrain elle-même potentiellement discutable sur certaines questions.

Modèles TF-IDF Dim. GLM GBT NB K-NN DT RI Dim1 0.73 0.74 0.72 0.73 0.75 0.70 Dim2 0 0.35 0.67 0.49 0.51 0 Dim3 0.62 0.70 0.66 0.67 0.68 0.66 Dim4 0.55 0.67 0.68 0.69 0.69 0.67 Modèles TF-IDF + RE Dim. GLM GBT NB K-NN DT RI Dim1 0.73 0.72 0.76 0.72 0.68 0.71 Dim2 0 0.30 0.80* 0.66 0.48 0 Dim3 0.70 0.79* 0.76 0.77 0.75 0.67 Dim4 0.60 0.66 0.72 0.73 0.67 0.65 Modèles AA Dim. GLM GBT NB K-NN DT RI Dim1 0.76 0.73 0.80 0.76 0.71 0.68 Dim2 0.30 0.48 0.77 0.59 0.62 0 Dim3 0.62 0.71 0.71 0.72 0.70 0.65 Dim4 0.58 0.65 0.72 0.67 0.68 0.57 Modèles AA + RE Dim. GLM GBT NB K-NN DT RI Dim1 0.77 0.77 0.80* 0.76 0.70 0.69 Dim2 0.16 0.48 0.77 0.60 0.62 0 Dim3 0.64 0.76 0.71 0.73 0.66 0.64 Dim4 0.60 0.66 0.74* 0.69 0.63 0.59 Modèles AA + TF-IDF Dim. GLM GBT NB K-NN DT RI Dim1 0.77 0.73 0.77 0.76 0.71 0.68 Dim2 0.30 0.52 0.78 0.61 0.62 0 Dim3 0.66 0.75 0.71 0.72 0.70 0.62 Dim4 0.60 0.64 0.71 0.71 0.64 0.61 Modèles AA + TF-IDF + RE Dim. GLM GBT NB K-NN DT RI Dim1 0.77 0.75 0.78 0.76 0.72 0.68 Dim2 0 0.56 0.78 0.58 0.62 0 Dim3 0.65 0.77 0.72 0.73 0.67 0.61 Dim4 0.61 0.63 0.70 0.69 0.63 0.61

Tableau 4.9 – Les valeurs de Kappa entre les modèles ensemblistes et l’annotation ma-nuelle référence

Chapitre 5

Lien entre questions posées et

comportement des étudiants

Pour étudier le lien entre les types de questions posées par les étudiants et leur comporte-ment, nous allons utiliser le jeu de données introduit dans la section3.1. Nous allons également utiliser l’annotateur à base de règles d’expert pour annoter automatiquement l’ensemble de questions posées par les étudiants de PACES à partir du schéma de codage présenté dans le tableau4.4. Une fois les questions annotées automatiquement, nous allons tout d’abord com-parer les étudiants qui ont posé des questions (Q) à ceux qui n’en pas posées (NQ) et analyser ensuite les types de questions à travers le clustering pour identifier le lien entre ces questions et le comportement des apprenants. Ces résultats ont donné lieu à une publication dans le journal JLA (Journal of Learning Analytics) (sections5.1et5.2.3) [Harraket al.,2019c] et la conférence EIAH (Environnement Informatique pour Apprentissage Humain) (cf. section5.4) [Harrak et al.,2019b].

Pour aborder la troisième question de recherche posée en section 1.1 (QR3), qui est de savoir si les questions posées par un étudiant peuvent être informatives de ses caractéristiques (cf. Tableau 3.4), nous devons identifier des caractéristiques suffisamment génériques, c’est-à-dire qui ne sont pas dépendantes d’un seul cours en particulier (par exemple : nombre de questions posées sur un cours et nombre de séquences enseignées, par opposition à des variables particulières à un cours lié à sa sémantique comme "compréhension des mécanismes biocellulaires" qui ne s’applique qu’à certains cours). Nous avons donc décidé de considérer des données provenant de plusieurs cours (cf. Tableaux des unités d’enseignement du premier semestre3.1et deuxième semestre3.2), en l’occurrence les quatre cours qui ont généré le plus de questions (cf. Tableau 3.3) : BCH, HBD, BCE et ANT (ce dernier étant le seul cours du 2ème semestre à avoir reçu un grand nombre de questions). Avant de comparer les différentes catégories d’élèves qui posent des questions, nous avons pensé qu’il pourrait être pertinent d’examiner d’abord comment les élèves qui posent des questions diffèrent de ceux qui ne le font pas, afin de contraster les éléments caractéristiques du comportement de questionnement avec ceux associés au simple fait de poser ou non des questions. Nous avons donc effectué une analyse exploratoire (sans hypothèse initiale à vérifier) des deux groupes d’étudiants (Q et NQ) sur l’ensemble de caractéristiques à notre disposition issues de nature différentes : performance, redoublement, assiduité, etc.

Cela nous a amenés à affiner notre QR3 en deux questions :

QR3.1 : Y a-t-il un lien entre le fait que les élèves posent des questions et leurs carac-téristiques ?

QR3.2 : Y a-t-il des natures de questions caractéristiques de la performance des élèves ?