• Aucun résultat trouvé

Nous avons considéré l’ensemble des questions posées par les étudiants de PACES de l’université Joseph-Fourier de Grenoble en 2012-2013 sur la plateforme en ligne Medatice. 1608 étudiants étaient inscrits cette année-là, bien que tous n’aient pas posé des questions. Par conséquent, pour chacun des 13 cours, nous avons 2 à 6 ensembles de questions (un par séquence) posées par 429 étudiants (6457 questions en tout) pendant la deuxième semaine de chaque séquence (semaine FLQ). La répartition des questions est inégale (cf Tableau 3.3), avec plus de questions au 1ersemestre, en particulier parce que certains étudiants sont obligés d’arrêter à la fin du 1er semestre, en fonction de leurs résultats à l’examen.

Il est important de noter que, dans l’ensemble, seulement un élève sur quatre a posé au moins une question. Ce phénomène pourrait s’expliquer par le fait que les enseignants encouragent les étudiants à voter au lieu de poser des questions (d’un côté pour les forcer à lire les questions posées par les autres élèves, et d’un autre côté pour réduire le nombre de questions qu’ils reçoivent par courriel avant leur séances de questions-réponses). Nous émettons également l’hypothèse que tous les enseignants n’utilisent pas la plateforme en ligne autant qu’ils le devraient, ce qui pourrait expliquer en partie pourquoi de moins en moins d’étudiants posent des questions avec le temps.

En plus des questions, nous avons également accès à un certain nombre d’informations relatives aux 1608 étudiants inscrits. Les variables dont nous disposons pour chaque étudiant et chaque cours sont fournies dans le Tableau3.4.

Variable Description

NotMoy* note moyenne obtenue sur les QCMs du cours (sur 20) NotFin* note finale obtenue au concours à cette matière (sur 20) AssGlb proportion de l’assiduité globale sur les deux semestres ((de 0

(jamais là) à 1 (toujours là))

AssCou proportion de l’assiduité pour chaque cours (de 0 (jamais là) à 1 (toujours là))

NbQst nombre de questions posées sur chaque cours

NbVotRec nombre de votes reçus par les autres étudiants sur ses questions dans chaque cours (0 si aucune question n’est posée)

NbVotFait nombre de votes effectués sur les questions des autres étudiants dans chaque cours

EtuRed si l’étudiant était redoublant (variable binaire, égale à 1 pour les étudiants dont le rang à l’examen final est inférieur à 200, 0 sinon)

EtuReu si l’étudiant a réussi ou non l’examen final (égale à 1 pour les étudiants dont le rang à l’examen final est inférieur à 200, 0 sinon)

*Quant un étudiant ne s’est pas présenté à un QCM en fin de séquence ou au concours en fin de matière, la note correspondante est mise à 0, en conformité avec la politique de l’université

Tableau 3.4 – Description des 9 variables disponibles pour chaque étudiant sur chaque cours

Chapitre 4

Schéma de codage de questions

Comme vu dans l’état de l’art, les typologies de questions proposées dépendent principa-lement du contexte étudié et fournissent rarement un ensemble complet de mots-clés pour permettre une identification automatique de questions, et encore moins des outils dédiés per-mettant cette classification (même en anglais, ce qui n’est par ailleurs pas notre cas ici). Notre objectif essentiel est de fournir des catégories de questions qui prennent en compte l’inten-tion de l’élève (définie parGarcia-Fernandez[2010] comme"la réponse à laquelle s’attend un locuteur lorsqu’il pose sa question"), et nourrir la réflexion de l’enseignant pour lui donner éventuellement une réaction pédagogique différente sur les questions posées. Par conséquent, nous avons décidé de définir notre propre schéma de codage pour identifier le type des ques-tions posées par les étudiants, utilisant une approche ascendante fondée sur les données tout en prenant en compte ces différentes contraintes :

- Avoir une granularité assez fine : les taxonomies existantes sont trop génériques [ Pe-drosa de Jesuset al. , 2003; Chin & Kayalvizhi, 2002] ou trop détaillées [Graesser & Person,

1994]. Notre objectif est de fournir aux enseignants suffisamment d’informations sur la nature de questions posées par les élèves et en même temps construire un schéma de codage assez générique pour analyser leur questions.

- Être indépendant du contexte, l’identification des catégories doit être indépendante des connaissances du domaine (médecine), pour pouvoir l’utiliser sur d’autres contextes (ex : MOOCs) et faciliter la réplication des analyses.

- Être facile à automatiser, à partir des approches simples basées sur l’identification de mots-clés ou autres.

Les résultats présentés dans ce chapitre ont donné lieu à une publication dans la confé-rence internationale LAK (Learning Analytics and Knowledge) [Harrak et al. ,2018] et EDM (Educational Data Mining) [Harrak et al.,2017,2019b].

4.1 Une démarche exploratoire ascendante

Nous avons travaillé sur trois échantillons de 200 questions [P ACES600] et un échantillon de 152 questions (voir l’explication plus loin). Le corpus P ACESIN IT composé des 4 échantillons (cf. figure 4.1), est utilisé pour définir le schéma d’annotation et construire le système de classification des questions, représente 12% du corpus total de questions [P ACEST OT] introduit dans la section 3.2. Les questions extraites aléatoirement de deux cours (BCH et HBD,cf. Tableau3.3), considérés par l’équipe pédagogique comme étant parmi les plus difficiles et ayant suscité le plus de questions (cf.3.3). Chaque échantillon est utilisé dans l’une des 4 étape de catégorisation suivantes : (1) étape de découverte [P ACESDEC], (2) étape de consolidation [P ACESCON], (3) étape de validation [P ACESV AL] et (4) étape d’évaluation [P ACESEV AL].

(1) L’étape de découverte a consisté à regrouper empiriquement des phrases, du premier échantillon P ACESDEC, ayant des similitudes pour en extraire des concepts significa-tifs. Bien que l’équipe pédagogique demandait aux élèves de poser des questions simples (c.-à-d. centrées sur un seul sujet, en évitant des questions comme « Pourriez-vous expliquer à nouveau X ? De plus, Y n’était pas clair »), nous avons constaté qu’un sous-ensemble important des questions pouvait être divisé en plusieurs questions indé-pendantes dans 40 % des cas. Une fois les phrases segmentées en questions dites simples, nous avons regroupé des questions dont la structure (ex : « qu’est-ce que X ? » et « qu’est-ce que Y ? ») et la sémantique (ex : « qu’est-ce que X ? » et « pourriez-vous définir X ? ») semblent similaires. Des groupes de questions ont ensuite reçu des "étiquettes" (par exemple, « définition d’un concept ») pouvant être regroupées en catégories de niveau supérieur. Ensuite, nous avons identifié les exclusions mutuelles entre étiquettes (ex : une question simple ne peut pas être à la fois une vérification et une demande de ré-explication), et inversement, les étiquettes compatibles (ex : une vérification et une ré-explication pourraient être relatives à la correction d’un exercice). Cela nous a conduit à définir le concept de « dimensions », composées d’ensembles d’étiquettes de types de questions similaires mais mutuellement exclusives (dans l’exemple précé-dent, on ne peut pas en même temps vérifier la validité d’une affirmation et demander une ré-explication d’un concept). Chacune de ces étiquettes individuelles ("vérification", "ré-explication"...) sont des valeurs pouvant être associées à une dimension. En même temps que l’identification d’une valeur dans une dimension, l’annotateur humain iden-tifiait les mots-clés ou expressions idiomatiques indicatifs de cette valeur de dimension (par exemple, dans Dimension1, pour la valeur de dimension "Ré-expliquer", certains des mots-clés identifiés seraient "ré-expliquer", "rappeler", "redéfinir", "refaire", "répéter", "résumer", "revenir", etc.). En résumé, le schéma de codage est constitué de dimen-sions qui sont un ensemble de valeurs avec une liste de mots-clés associés à chacune de ces valeurs. Chaque question simple peut alors être associée à une annotation dans ce schéma de codage en choisissant, pour chaque dimension, une et une seule valeur. Une annotation associée à une question peut donc être vue comme un vecteur de N valeurs, N étant le nombre de dimensions du schéma de codage (ex : "Pourriez-vous réexpliquer la différence entre un composé ionisable et un composé partiellement ionisable ?" est une demande de ré-explication [Ree] du lien entre deux concepts [Lie], est représentée par le vecteur [Ree,0,Lie,0]), avec aucune valeur identifiée pour la dimension 2 et 4 [0]. (2) L’étape de consolidation a consisté à annoter le deuxième échantillon P ACESCON

divers ajustements des dimensions pour s’assurer qu’elles étaient bien indépendantes les unes des autres (par exemple l’ajout de la valeur "correction" dans Dim2, non identifiée précédemment). Parallèlement, les dimensions identifiées ont été revues et validées par un professeur expert enseignant dans le cadre de PACES, qui a estimé que les catégories étaient potentiellement pertinentes pour analyser les questions des étudiants.

(3) Lors de l’étape de validation, nous avons effectué une double annotation pour valider l’ensemble de nos catégories sur le troisième échantillon P ACESV AL. Premièrement, les 200 phrases ont été segmentées manuellement, fournissant 238 segments. Ensuite, deux annotateurs humains (les chercheurs qui ont défini le schéma de codage et le sys-tème d’annotation) ont utilisé comme référence unique le schéma de codage créé à la fin de l’étape précédente pour annoter chacun de ces segments. A l’issue de l’étape pré-cédente, quatre dimensions avaient été identifiées : Dim1 (relative au type de question), Dim2 (relative à la modalité d’explication), Dim4 (facultative, annotée uniquement si la question est une vérification, relative à la nature de ce qui est vérifié) et une autre dimension relative à la nature des fautes dans les phrases (grammaticale, mots man-quants, orthographe...). Cette dernière dimension n’est pas abordée ici parce qu’elle a été exclue plus loin en raison de la difficulté à l’automatiser, et de l’intérêt pédagogique éventuellement discutable. La dimension appelée "Dim3" plus loin n’existait pas encore à cette étape. Les annotateurs humains ont fait deux annotations distinctes et indépen-dantes sur chaque dimension, et leur accord a été évalué à l’aide du Kappa de Cohen (cf. section 4.4.4.2) [κ1=0.72, κ2=0.62 où κ1 et κ2 correspondent respectivement au Kappa de Dim1 et Dim2]. Pour Dim4, en raison de son caractère facultatif, les deux annotateurs n’ont pas nécessairement annoté les mêmes questions : un annotateur a annoté 82 questions, et l’autre 68, avec un chevauchement de 68 questions. Le kappa calculé sur ces 68 questions valait 0.66. Puis ils se sont rencontrés pour discuter et ré-soudre les désaccords, essentiellement des cas ambigus. Cela a conduit à un affinement final des catégories (par exemple, séparation des catégories Dim1 et Dim4, ajout de la catégorie Dim3). Finalement, le corpus P ACES600 a été annoté de nouveau sur 4 dimensions (Dim1 à 4) par un seul annotateur pour tenir compte des changements et fournir une référence à laquelle l’annotation automatique pourrait être comparée. Cette version finale du schéma de codage en quatre dimensions est présentée dans le Tableau

4.4.

(4) Finalement, dans l’étape d’évaluation1, le dernier échantillon P ACESEV AL a été an-noté manuellement par les deux annotateurs experts (avec un Kappa accru de 0.83 sur Dim1, 0.76 sur Dim2 et 0.76 sur Dim3,cf. Tableau4.1). Comme dans l’étape de valida-tion, une discussion a été faite entre les annotateurs et par ailleurs une convergence plus forte et des valeurs Kappa plus élevées. Cet échantillon, non utilisé pour l’entraînement de l’annotateur automatique, a été utilisé pour son test (cf. section4.4).

Il existe plusieurs façons d’obtenir une estimation du taux d’accord entre les annotateurs pour une tâche d’annotation [Fort, 2012]. Nous avons utilisé essentiellement dans cette thèse le coefficient Kappa de Cohen [Cohen,1960] pour mesurer l’accord inter-annotateurs (cf. section

4.4.4.2). Les accords que nous allons présenter sont valables pour deux annotateurs annotant

les mêmes instances.

1. Cette étape est arrivée ultérieurement et on s’est concentré uniquement sur les segments au lieu de questions

PACESINIT (923 segments)

PACESDEC

PACESCON

PACESVAL

PACESEVAL

PACESTOT (6457 questions)

PACES600

Figure 4.1 – Découpage du corpus PACES

Annotateur Dim1 Dim2 Dim3 Dim4

Kappa entre expert 1 et expert 2 0.83 0.76 0.70 0.85 (56*)

(*) le nombre de chevauchement de segments entre les deux annotateurs

Tableau 4.1 – Les valeurs de Kappa entre les annotations manuelles des deux experts sur P ACESEV AL de l’étape d’évaluation

Corpus P ACEST OT P ACESIN IT P ACES600P ACESDEC P ACESCONP ACESV ALP ACESEV AL

Nb. questions 6457 752 600 200 200 200 152

Nb. segments 8465 923 723 240 245 238 200

Tableau 4.2 – Caractéristiques des corpus PACES utilisés