• Aucun résultat trouvé

2 Etat de l’art et positionnement th´ ´ eorique

Dans le document Actes de la Conférence EIAH 2017 (Page 125-128)

Processus d’analyse. De nombreux travaux de recherche ont ´et´e propos´es et d´evelopp´es sur les analyses de traces d’apprentissage pour am´eliorer le cadre conceptuel et th´eorique de ces derni`eres. Il est ainsi possible de consid´erer les processus d’analyse comme syst´emiques. Ils prennent en entr´ee des donn´ees, sont d´ecrits comme une succession coh´erente d’op´erations modifiant l’´etat des donn´ees manipul´ees pour produire en sortie des informations pertinentes [13]. Il est possible d’´etudier les sous-parties de ces processus et de les r´eutiliser [2].

Ces travaux ont permis de faire ´emerger le cycle de vie d’un processus d’analyse, avec notamment les phases de pr´e-traitement, d’analyse et de post-traitement [2]. De plus, certains de ces travaux essaient de mat´erialiser les liens qui peuvent exister entre les analyses, les donn´ees utilis´ees, les objectifs vis´es et les acteurs des analyses, pour am´eliorer la pertinence des processus d’analyse.

Capitalisation, partage, r´eutilisation. Beaucoup de travaux se sont concen-tr´es sur la question des donn´ees utilis´ees dans les processus d’analyse. Ils pro-posent divers formalismes pour les rendre partageables et exploitables par la

consid´eration des sp´ecificit´es p´edagogiques, comme xAPI1, ce qui permet d’en-visager la cr´eation de processus d’analyse reproductibles et r´eutilisables [7].

Des e↵orts sur le partage, le plus souvent en ligne, des processus d’analyse, et de leurs op´erateurs, sont observables malgr´e les difficult´es techniques [16]. En r´esulte alors un inventaire des processus d’analyse disponibles pour un outil particulier, ce qui est utile lors d’une d´emarche exploratoire [13]. Mais cela ne r´esout pas les limites de r´eutilisation et d’adaptabilit´e des processus. En e↵et, les contextes techniques ne sont pas les seuls `a contraindre la capitalisation des processus d’analyse [6] : il y a aussi le contexte de l’analyse (e.g. le dispositif d’apprentissage). Pourtant, d’une mani`ere g´en´erale, cette prise en consid´eration des contextes des processus ne semble pas encore r´eellement ´etablie dans les travaux de la communaut´e EIAH.

Cependant, la recherche autour des Workflows - repr´esentant des processus de toutes sortes (e.g. biologie) - d´evoile des pistes int´eressantes pour capita-liser les processus. Ces travaux s’int´eressent `a la science reproductible, ce qui n´ecessite de fournir les informations contextuelles n´ecessaires pour prouver la validit´e des processus d’analyse. Cela est r´ealis´e par exemple en utilisant des protocoles exp´erimentaux ou des ressources annexes permettant d’enrichir le contexte de l’analyse [10]. Mais, comme le font remarquer Belhajjame et al. [3], les Workflows pr´esentent des probl`emes intrins`eques de flexibilit´e et sont tr`es sen-sibles aux contraintes techniques, limitant r´eutilisation et adaptabilit´e. Cela est imputable au pr´erequis d’ˆetre ex´ecutable, ainsi qu’aux manques de description des di↵´erents ´el´ements impliqu´es (e.g. op´erateurs). Il devient alors int´eressant de consid´erer comme pistes pour la capitalisation des travaux de description s´emantique, comme wf4ever [14] ou [5], qui permettent de renforcer les possibi-lit´es de r´eutilisation et d’´echange. Ainsi, ´etudier ces approches dans le cadre des EIAH se r´ev`ele int´eressant pour exploiter les sp´ecificit´es du domaine et permettre la capitalisation et le partage des processus d’analyses de traces d’apprentissage.

3 Motivation

Dans cette section, nous pr´esentons un cas concret de processus d’analyse pour illustrer les di↵´erentes probl´ematiques li´ees `a la capitalisation et sa n´ecessit´e. Il s’agit des deux premi`eres parties d’un tutoriel pr´esent´e lors d’un Workshop de la conf´erence EC-TEL 2016 [1]. Ce tutoriel est accessible en ligne, avec les donn´ees n´ecessaires pour le reproduire et la m´ethodologie pour chacune des ´etapes2. Bien que ce processus d’analyse soit relativement simple, de nombreuses contraintes techniques et contextuelles existent.

3.1 Exemple d’un cas d’usage

L’analyse pr´esent´ee dans ce tutoriel nous servira de cas d’usage. Elle a pour objectif la cr´eation de mod`eles permettant de pr´edire si un apprenant de MOOC

sera certifi´e et les di↵´erents facteurs d´eterminants pour sa r´eussite. L’analyse est e↵ectu´ee avec le langage de programmation Python. Le processus pr´esent´e est d´ecomposable en trois parties.

La premi`ere partie est un pr´etraitement des donn´ees. Elle permet de v´erifier la qualit´e des donn´ees utilis´ees pour obtenir un ensemble exploitable et de les mettre en forme pour favoriser leur utilisation. Dans le tutoriel, des variables ad-ditionnelles sont cr´e´ees pour faciliter la partie suivante, comme la transformation de la variableDate of birth versAge.

La deuxi`eme partie repr´esente une analyse exploratoire qui permet d’obtenir des informations suppl´ementaires sur les donn´ees trait´ees. Ici, notamment, la corr´elation - lin´eaire - pouvant exister entre les propri´et´es du cours et le succ`es des apprenants est ´etudi´ee avec le coefficient de Pearson.

Enfin, la troisi`eme ´etape est la cr´eation de mod`eles pr´edictifs. Pour ce faire, trois ensembles de variables sont candidats `a la pr´ediction de la certification et utilis´es pour entraˆıner les mod`eles. Les mod`eles sont ensuite valid´es en ´evaluant la valeur de ”l’AUC” (Area Under Curve).

3.2 Identification des limites et probl´ematiques de la capitalisation

Ce cas d’usage d´ecrit pr´ecis´ement son analyse et ses op´erations - ce qui n’est pas toujours le cas [4], et permet de s’interroger sur comment capitaliser : ”Est-ce que fournir une documentation et pr´esenter comment a ´et´e r´ealis´e le processus d’analyse dans un outil est suffisant pour le capitaliser et le partager ?”. Pour r´epondre `a cette question, di↵´erents aspects de l’analyse doivent ˆetre pris en compte.

Technique & Contextes. Tout d’abord, le formalisme des donn´ees exploit´ees d´epend de facteurs contextuels (e.g. dispositifs d’apprentissage). Cela cr´ee une contrainte technique et g´en`ere des limites computationnelles, solvables avec des ´etapes de pr´etraitement. Par cons´equent, partager et r´eutiliser ces ´etapes, qui sont extrˆemement d´ependantes des donn´ees sources et du contexte, devient non pertinent si elles ne peuvent pas ˆetre adaptables par manque de compr´ehension. Par exemple, si une ´etape de pr´etraitement est r´ealis´ee pour normaliser les notes d’´etudiants, initialement comprises dans un intervalle [0 ; 100], dans un intervalle [0 ; 20], alors elle ne pourra ˆetre correctement r´eutilis´ee avec un syst`eme de notation Nord Am´ericain de type [A+ ; F] et devra donc ˆetre adapt´ee.

De mˆeme, la d´ependance des op´erations entre elles constitue `a la fois une limi-tation technique et contextuelle. Pour la reproductibilit´e de l’analyse, identifier leur ordre d’ex´ecution est important. Cela peut ˆetre fait par une num´erotation simple des ´etapes par exemple, comme c’est le cas dans le tutoriel pr´esent´e. Ce-pendant, pour envisager la r´eutilisation, il est important de comprendre cet ordre et d’expliquer les relations qui lient ces op´erations, afin de mieux les adapter aux sp´ecificit´es d’un nouveau contexte.

tech-produisent - sans prendre en consid´eration ces contraintes peut entraˆıner leur mauvaise utilisation et aboutir `a de la d´esinformation. Par exemple, il peut ˆetre compliqu´e d’identifier si les mod`eles pr´edictifs du cas d’usage d´ependent de sp´ecificit´es li´ees aux donn´ees des MOOCs analys´ees ; et donc de savoir si ces mod`eles peuvent ˆetre r´eutilis´es dans le cadre d’autres MOOCs.

S´emantique. Une autre limite `a la r´eutilisation est li´ee aux donn´ees utilis´ees, qui repr´esentent le contexte de l’analyse. Elles doivent ˆetre non ambigu¨es sur le plan s´emantique pour permettre d’aligner les di↵´erents concepts n´ecessaires `

a l’analyse sur d’autres jeux de donn´ees. Par exemple, dans le cas d’usage, la variable ”Number of chapters” n’est pas clairement d´efinie, ni ses relations : une personne ayant un jeu de donn´ees quelconque poss´edant lui aussi une variable du mˆeme nom n’a pas l’assurance de la validit´e du processus dans son contexte. De plus, puisque les op´erateurs ne sont pas repr´esent´es ni impl´ement´es de la mˆeme mani`ere dans les outils d’analyse, leur r´eutilisation et leur partage sont restreints. Ainsi, l’op´erateur de corr´elation du tutoriel, et ses configurations, sont impl´ement´es en Python et ne peuvent ˆetre directement r´eutilis´es dans d’autres outils d’analyses, comme Weka 3. D`es lors, partager ces op´erateurs - et donc les processus - en dehors des outils, sans informations descriptives, requiert un e↵ort de mise en correspondance vers les concepts qu’ils repr´esentent.

En conclusion, nous pensons que ces approches d´emonstratives (i.e. tutoriels, workflows) tirent leur force dans leur caract`ere reproductible et leur facult´e `a donner des solutions ”clef-en-main” `a des probl`emes bien pr´ecis. Mais, au vu des limitations, elles ne permettent pas une capitalisation des analyses dans l’optique d’ˆetre r´eutilis´ees sur d’autres jeux de donn´ees et dans d’autres contextes.

Dans le document Actes de la Conférence EIAH 2017 (Page 125-128)