• Aucun résultat trouvé

Nécessité de constituer des corpus d’écrits scolaires accessibles

Partie 1 Linguistique de corpus, TAL et corpus scolaires

2. Nécessité de constituer des corpus d’écrits scolaires accessibles

sur l’apprentissage de l’écriture (Simon, 1973, cité par David, 2000 ; Fayol, 1985 et Schnweuly 1988, cités par Bonnet & Gardes-Tamine, 1990 ; etc). Nombre de ces travaux s’appuient sur des corpus d’écrits scolaires (Clanché, 1988 ; Charolles, 1988, citée par Garcia-Debanc & Bonnemaison, 2014 ; Fabre, 1990 ; etc.). Ces corpus sont souvent de taille très restreinte et sont réalisés au sein des projets d’étude pour lesquels ils sont consultés. Il n’y a alors pas de volonté de les numériser en vue de leur diffusion.

A. Baron, P. Rayson, P. Greenwood, J. Walkerdine et A. Rashid (2012), ainsi que M.-L. Elalouf & C. Boré (2007), émettent l’hypothèse que cette absence de volonté est notamment dû à la trop grande complexité de la tâche de numérisation des corpus scolaires notamment en raison de certaines de leurs spécificités. Les écrits scolaires sont souvent manuscrits, ce qui nécessite une transcription manuelle pour être numérisés. De plus, ils sont souvent peu normés, tant en termes d’orthographe que de ponctuation ou de structures syntaxiques, etc. Enfin, il est souvent nécessaire pour comprendre et analyser les textes des apprenants de disposer à la fois des brouillons et des copies finales et de pouvoir les mettre en regard, ce qui complexifie la structure des corpus à élaborer.

M.-L. Elalouf en 2011, puis C. Garcia-Debanc et K. Bonnemaison en 2014 appellent à un renouvellement de la didactique du français grâce à la constitution de corpus d’écrits scolaires de grande taille, permettant d’introduire des méthodes issues de la linguistique de corpus. Comme l’estime C. Garcia-Debanc (2015, p. 200), « un nombre de textes suffisant pour constituer une masse critique de données est nécessaire pour dresser une cartographie des acquisitions » dans différents domaines (orthographe, syntaxe, cohésion textuelle, etc.). Dès 2005, M.-L. Elalouf et ses collègues publient un premier corpus de plusieurs centaines de textes entièrement numérisés, transcrits et normalisés, ce qui représente le premier travail de ce type pour le français langue de scolarisation. À sa suite, d’autres projets, pour la plupart encore en cours, ont émergé. De tels corpus, sont qualifiés de grands par différents auteurs comme C. Garcia-Debanc et K. Bonnemaison (2014) non par comparaison aux corpus linguistiques déjà existants, mais par comparaison aux corpus scolaires de très petite taille existant jusqu’alors.

Avant les travaux précurseurs de M.-L. Elalouf, il n’existait, pour le français, que des corpus d’apprenants langue seconde40 (Granger, 2007)). Quelques corpus d’apprenants en langue de

scolarisation existaient déjà dans d’autres langues, à l’exemple du Lancaster Corpus of

Children's Project Writing (Smith et al., 1998). Ce projet, considéré comme précurseur dans le

domaine, rassemble un grand nombre de textes rédigés par un groupe d’élèves suivis pendant trois ans. Le corpus longitudinal permet de suivre l’ensemble des textes produits par 11 élèves au sein de cinq thématiques pendant ces trois ans.

À la suite des travaux de M.-L. Elalouf, d’autres projets francophones ont vu le jour. Citons par exemple le Corpus ÉMA (Boré & Elalouf, 2017), dont une partie est d’ores et déjà en ligne sur la plate-forme Ortolang41. Ce corpus rassemble l’ensemble des productions d’une classe

donnée pour une séquence donnée. Pour chaque texte est donné un scan, une transcription, une annotation et des métadonnées. Ce corpus est toujours en cours de développement. Parallèlement à ce travail, le projet E-CALM, initié par Claire Doquet, a vu le jour en 2016. Il vise à rassembler dans un large corpus, un certain nombre de corpus plus restreints déjà constitués ou en cours de constitution.

 Le corpus Scoledit, sur lequel repose ce travail de thèse, qui rassemble des textes recueillis de manière longitudinale du CP au CM2 ;

 Le corpus Ecriscol (Doquet et al., 2017), élaboré au sein du laboratoire Clesthia et qui rassemble un grand nombre de textes scolaires (du CE1 jusqu’à l’entrée à l’université) ainsi que leurs avant-textes (brouillons, notes, etc.) ;

 Le corpus Resolco (Garcia-Debanc & Bonnemaison, 2014), élaboré au sein du laboratoire CCLES, qui rassemble des textes recueillis à partir d’une tâche de cohésion textuelle du CE2 jusqu’au master ;

 Le corpus Littératie avancée (Jacques & Rinck, 2017), élaboré au sein du laboratoire

Lidilem, qui rassemble des textes recueillis en licence et en master.

À terme, le projet E-CALM rassemblera des textes d’apprenants, produits en milieu scolaire ou universitaire, du CP à l’université, et devrait permettre d’étudier l’évolution de certains phénomènes linguistiques emblématiques de l’acquisition de la maitrise de l’écrit.

40 Pour plus de précisions, il est possible de se référer au chapitre 2, section 3.2., ainsi qu’à la liste de corpus

anglophones d’apprenants élaborée par M. Weisser http://martinweisser.org/corpora_site/learner_corpora.html [consulté le 21/08/2019].

41 ÉMA (École, Mutations, Apprentissages, ÉA 4507) (ÉMA) (2018). Corpus ÉMA, écrits scolaires [Corpus].

Un des principaux objectifs est également la publication d’un vaste corpus de référence d’écrits scolaires et universitaires. La mise en commun, au sein du projet E-CALM, de l’ensemble de ces corpus est particulièrement importante puisqu’elle permet à l’ensemble de ces projets une certaine interopérabilité, grâce à des choix de transcriptions, de numérisation, de normalisation et parfois de recueil communs, et donc une plus grande comparabilité.

En 2010, E. Nonnon constate que, bien que la notion de progressivité soit une notion centrale en didactique, peu nombreux sont les travaux qui s’y penchent explicitement. À sa suite, C. Garcia-Debanc et K. Bonnemaison (2014) pointent le manque de matériau, c'est-à-dire de corpus de textes adéquats, disponible pour étudier l’évolution des acquis. Depuis lors, plusieurs travaux, à l’exemple des projets que nous venons de présenter, proposent un recueil à différents moments de la scolarité dans l’objectif de pouvoir étudier cette notion. Cependant, les corpus véritablement longitudinaux, c'est-à-dire proposant un suivi des élèves sur plusieurs années, sont encore peu nombreux.