Les enjeux de la constitution des corpus d’écrits scolaires

Mise en œuvre de l’étude et méthodologie

5.1. Les corpus de productions écrites d’apprenants en français langue première : vers une meilleure représentativité première : vers une meilleure représentativité

5.1.1. Les enjeux de la constitution des corpus d’écrits scolaires

Les corpus étudiés en linguistique de corpus sont nombreux, variés et les grands corpus de référence sont fréquents. Pour l’anglais par exemple, on peut citer le British

159 National Corpus (BNC) et ses 100 millions de mots ou le Corpus of Contemporary American English (COCA) avec ses 520 millions de mots. Pour la langue française, Frantext par exemple, a servi de base à l’élaboration du Trésor de la Langue Française (TLF). Toutefois, les grands corpus réunissant des productions d’apprenants sont plutôt récents (1980/1990) et beaucoup moins nombreux.

Pour l’anglais par exemple, les corpus d’apprenants sont plus nombreux que dans les autres langues. Toutefois, comme le fait remarquer Granger (2009), il s’agit principalement de corpus d’apprenants en langue seconde : les données sont recueillies auprès de locuteurs adultes ou étudiants apprenant l’anglais mais dont ce n’est pas la langue maternelle (par exemple, l’International Corpus of Learner English (ICLE), le Hong Kong University of Science and Technology Learner Corpus). En anglais langue première, le premier grand corpus d’écrits scolaires, le Lancaster Corpus of Children’s Project Writing41_,a pris forme entre 1996 et 2000 (Wolfarth & al., 2017). Ce corpus, constitué dans l’objectif d’explorer la diversité des écrits des élèves, rassemble des textes produits par des élèves de 8 à 12 ans dans 37 écoles. En ce qui concerne le français, le nombre de grands corpus est bien moindre et le constat est le même que pour l’anglais : les grands corpus de textes scolaires sont mieux représentés en Français Langue Etrangère qu’en français langue première (Granger 2009 ; Bilger & Cappeau, 2013 ; Wolfarth & al., 2017).

La rareté des grands corpus d’écrits scolaires en français langue première tient au fait que : « la tradition des travaux en didactique du français langue première sur l’analyse des textes scolaires […] s’attache généralement à une analyse fine d’un échantillon très limité de textes (Fabre-Cols, 2000 ; Cappeau & Roubaud, 2005 ; Boré, 2011 ; Masseron, 2005) » comme l’indiquent Garcia-Debanc & al. (2017 : 158). En effet, plusieurs autres chercheurs constatent également que les corpus conséquents sont rares dans les travaux sur l’écriture scolaire (David, 2000a ; Elalouf, 2004 ; Elalouf & Boré, 2007 ; Roubaud, 2017).

Plusieurs facteurs peuvent expliquer cette rareté. L’accès aux classes est rendu plus ou moins difficile en fonction des politiques des établissements. D’une part, il nécessite des autorisations administratives pour qui n’est pas en relation directe avec le milieu scolaire. D’autre part, l’enseignant peut redouter d’offrir sa classe et ses méthodes d’enseignement au regard du chercheur, cet autre au fond de la classe dont le regard d’expert peut le mettre mal à

160 l’aise. Des contraintes purement pratiques entrent également en ligne de compte. En effet, le recueil de données linguistiques s’avère complexe. La collecte de données dans les classes est également coûteuse en temps : le recueil exige disponibilité et précautions déontologiques (Elalouf, 2011).

La rareté des études d’écrits scolaires tient aussi au fait que leurs spécificités en font des textes difficiles à analyser (cf. section 4.2.) : l’écart à la norme notamment les rend « réfractaires à la numérisation et à l’étiquetage » (Elalouf & Boré, 2007 : 53). Pourtant, des corpus importants ont pu être publiés, notamment dans de nombreuses thèses en sciences du langage relevant de la didactique du français langue première. Toutefois, l’analyse des textes qui les composent reste partielle et leur accès difficile (Doquet, David & Fleury, 2017a) car « l’interprétation des textes dépend étroitement des moyens dont dispose le chercheur pour accéder à leur intelligibilité » (Elalouf, 2011 : 59), et leur présentation doit rendre compte à la fois d’évolutions individuelles (échelle de l’élève) et de dynamiques collectives (échelle de la classe).

La rareté des grands corpus d’écrits scolaires dans les travaux en didactique est d’autant plus paradoxale que c’est grâce à l’analyse de tels types de corpus qu’ont été réalisées de grandes avancées en didactique de l’écriture, comme le montrent Elalouf & Boré (2007), qu’il s’agisse de l’étude des brouillons d’élèves (Fabre-Cols, 1990, 2002), de l’analyse de l’évolution des textes scolaires selon les dispositifs didactiques (Garcia-Debanc, 1990), de la relation entre modalités d’écriture et choix des supports (Plane, 1995 ; 2000), de l’étude des procédés d’écriture (Bonnet, 1994 ; Bonnet & al., 1998) ou de l’inscription du sujet scripteur dans ses textes (Chabanne & Bucheton, 2002) .

Il nous faut préciser ici un point d’analyse. En effet, nous devons relever qu’à notre connaissance, la littérature scientifique ne fait nulle part état d’une définition nette de ce qu’est un grand corpus de textes scolaires. Par conséquent, nous pouvons nous interroger : à partir de combien de textes d’élèves peut-on considérer un corpus comme significatif ? La significativité d’un corpus de textes scolaires doit-elle d’ailleurs s’appréhender en nombre de textes ou en nombre de mots ? Cette dernière question est d’autant plus complexe lorsqu’on connaît toutes les difficultés méthodologiques que soulèvent les écrits de ce type. Sur les plans de l’orthographe et de la segmentation, les textes d’élèves sont peu ou non normés dans la mesure où ils émanent d’apprentis scripteur. Si l’on décide que la significativité d’un grand corpus de textes scolaires s’appréhende par le nombre de mots, à la manière des corpus de

161 référence, l’aspect non normé de la segmentation peut donc devenir un obstacle au comptage en nombre de mots.

De surcroît, si en linguistique de corpus, on parle de grand corpus ou de corpus de référence lorsqu’il s’agit de corpus contenant plusieurs centaines de millions de mots, il est impossible (ou à tout le moins extrêmement complexe) d’en rassembler autant lorsqu’il s’agit d’écrits d’élèves. Doquet & al. (2017b : 136), avec les 2300 textes (textes et avant-textes) du « grand » corpus ECRISCOL n’atteignent que 35 000 mots environ. Cependant, le critère de la taille n’est peut-être pas le plus important, comme le souligne Ragan (2001, cité par Granger, 2009 : 262) :

« the size of the sample is less important than the preparation and tailoring of the language product and its subsequent corpus application to draw attention to an individual or group profile of learner language use.” 42.

L’examen des travaux ayant conduit à des avancées en matière de didactique de l’écriture met en évidence une autre limite que l’on trouve aux corpus d’écrits d’apprenants en français langue première. En effet, s’il s’agit des quelques rares études s’appuyant sur de « grands » corpus d’écrits scolaires, ces travaux analysent un seul fait de langue à la fois, réduisant ainsi le champ de recherche, comme l’expliquent Gunnarsson-Largy & Auriac-Slusarczyk (2013 : 8) :

« Le chercheur suivant une orientation scientifique oriente ainsi le regard de l’enseignant ou de l’étudiant sur l’aspect scientifique à partir duquel il renouvelle les connaissances scientifiques ». La plupart du temps, le corpus constitué a pour objectif de rendre compte du mieux possible du fait de langue qui va être étudié, comme par exemple la ponctuation, l’orthographe, certaines relations grammaticales. Pour cette raison, sont étudiés uniquement les textes répondant aux critères d’analyse définis au préalable. De cette manière, beaucoup d’informations jugées non pertinentes par rapport aux critères choisis sont laissées de côté : par exemple un premier jet, une réécriture ou un texte jugé trop raturé pour être utile à autre chose qu’une étude sur les ratures. Or, le croisement de différents faits de langue peut mettre en lumière des éléments nouveaux. De la même manière, le croisement de différents phénomènes (phonologie, syntaxe, sémantique, etc., mais aussi linguistique, psycholinguistique, didactique, etc.) peut être très productif (Auriac-Slusarczyk & al., 2008).

42 « la taille de l’échantillon est moins importante que la préparation et la confection du matériau langagier et de ses applications en corpus pour attirer l’attention sur le profil d’un individu ou d’un groupe d’apprenants. » (notre traduction)

162 Plus particulièrement, dans le cadre de l’enseignement/apprentissage de l’écriture à l’école, un corpus de textes scolaires permet de mener à la fois une analyse linguistique des productions recueillies et une analyse didactique des dispositifs conçus pour l’enseignement et l’apprentissage de l’écriture, depuis la graphie et la segmentation des énoncés jusqu’à la production de textes dans leurs différentes étapes (Doquet, David & Fleury, 2017a : 32). Cette double démarche est d’ailleurs préconisée par Masseron (2011 : 129) :

« il apparaît légitime d’attendre qu’une analyse linguistique, caractérisée par une méthode et des objets de recherche identifiés, « interagisse avec » une démarche en didactique […] avec l’objectif commun d’interroger des performances écrites ».

En effet, comme l’indique l’auteur (ibid.), la confrontation d’une analyse linguistique et d’une démarche didactique peut construire ou renouveler des usages langagiers des élèves, que ce soit à un moment donné de l’apprentissage ou bien de manière longitudinale (Masseron, 2011). D’autre part, les écrits scolaires soulevant des problèmes linguistiques gagneraient à être confrontés à une analyse qui prend comme point de vue à la fois la linguistique et d’autres domaines d’étude.

La complémentarité des approches donnerait également aux grands corpus d’écrits scolaires un objectif de formation. En effet, l’appui sur des textes d’élèves pour enseigner des notions, telles que la grammaire par exemple (cf. chapitre 3, section 3.2.), reste rare « si l’on excepte l’utilisation traditionnelle de ces textes comme réservoirs à erreurs » (Doquet, 2013 : 120). Or, comme l’indiquent Boré & Elalouf (2017 : 32), en devenant une banque de données composée de textes dans leurs différents états, représentatifs du développement des compétences sur plusieurs cycles, les grands corpus scolaires permettent :

« […] au formateur – et à travers lui à l’enseignant – de se constituer une culture de ces textes qui ne prennent souvent du relief que par contraste avec d’autres, ce qui oblige à s’interroger sur les effets d’un dispositif d’enseignement-apprentissage sur chaque texte dans sa singularité et sur la classe dans son ensemble. »

Aussi, la constitution de grands corpus d’écrits scolaires correspond à deux enjeux majeurs (Elalouf, 2011 ; Garcia-Debanc & al., 2017 ; Jacques & Rinck, 2017). Le premier est un enjeu scientifique : la progression des connaissances sur la mise en place de compétences rédactionnelles correspondant à différents niveaux d’analyse et à différentes phases de l’apprentissage. En effet, la notion de progression, « si présente dans les pratiques d’enseignement » est « relativement mise en veilleuse sur le plan théorique » et pourtant elle

163 est « cruciale » (Nonnon, 2010). Brissaud & Grossmann (2009) font d’ailleurs remarquer qu’il n’existe pas encore « d’image panoramique de ce que serait l’évolution de la compétence grammaticale de 6 à 16 ans » et le constat est le même en ce qui concerne les compétences rédactionnelles et lexicales.

D’autre part, le deuxième enjeu majeur de la constitution de grands corpus d’écrits scolaires est un enjeu sociétal : la constitution de ressources pour les chercheurs, les formateurs d’enseignants, les enseignants et les étudiants futurs enseignants.

5.1.2. Les quelques tentatives de constitution de grands corpus d’écrits scolaires en

Dans le document Anaphore et référence en production écrite : étude de textes narratifs d'élèves de 9 à 11 ans, du CE2 au CM2 (Page 160-165)