• Aucun résultat trouvé

Partie 2 Constitution du corpus Scoledit, ressource longitudinale d’écrits scolaires annotés

1. Enjeux et motivations

3. Caractérisation et structure du corpus de textes ... 101 4. Métadonnées ... 103 5. Numérisation du corpus ... 104 6. Diffusion du corpus ... 117 7. Conclusion ... 120

Comme nous l’avons mentionné en introduction, le travail présenté dans cette thèse s'inscrit dans le cadre d'un projet plus large appelé Scoledit qui vise l’élaboration, la diffusion et l’exploitation linguistique et didactique d’un corpus de textes scolaires outillé, c'est-à-dire accompagné d’outils de traitement et d’exploration. Après une présentation des enjeux qui ont motivé la réalisation d’un tel projet, nous exposons dans ce chapitre la méthodologie adoptée pour la conception du corpus, de son recueil à sa diffusion, sans oublier l’étape cruciale de sa numérisation.

1.

Enjeux et motivations

Comme nous avons pu le voir au chapitre précédent, la constitution de corpus scolaires est une des préoccupations qui animent désormais la sphère des linguistes et des spécialistes de la didactique du français et plusieurs corpus d’apprenants émergent au niveau national et international. L’objectif du projet Scoledit, et plus particulièrement du corpus éponyme, est de contribuer à cet effort d’élaboration de corpus en vue d’un changement de paradigme dans l’étude de l’apprentissage du français.

Dans ce contexte, la description des caractéristiques linguistiques des textes scolaires produits en français par des élèves de 6 à 11 ans et de leur évolution à partir d’un corpus de textes conséquent reste donc à faire. Un tel travail permettrait d’une part de mettre à la disposition des linguistes des écrits ordinaires d’apprenants, d’autre part de nourrir le travail des didacticiens par la compréhension des dynamiques d’écriture à l’œuvre dans les écrits scolaires. Ce travail permettrait par ailleurs de soutenir, par la constitution d’une banque de textes accessible à tous les professeurs, l’enseignement de l’écriture à l’école. Dans un contexte

où un certain nombre d’observateurs s’accordent à dire que cet enseignement est insuffisant, et ce dès le cours préparatoire, ce travail semble donc nécessaire.

Pour répondre à ces enjeux, nous travaillons à la collecte et à l’édition d’un grand corpus numérique longitudinal de textes narratifs scolaires et de dictées produites par des élèves de 6 à 11 ans (CP-CM2) 63 et rencontrés à plusieurs reprises lors de leur scolarité élémentaire. Dans

un premier temps, l’objectif de ce projet est de réaliser une description linguistique des structures utilisées par les élèves au cours de la construction de leurs apprentissages de l’écrit (morphographie, syntaxe, lexique, orthographe, acquisition des conjugaisons, structuration du discours), ainsi que de l’évolution des procédés d’écriture à différents moments de la scolarisation à l’école primaire. Dans un deuxième temps, ce projet devrait également permettre d’élaborer des séquences et des dispositifs didactiques à destination des enseignants.

Tout comme la plupart des corpus scolaires francophones actuellement émergents, le recueil a lieu en milieu scolaire et l’élaboration du corpus est guidée par la volonté de constituer une ressource standardisée64 suffisamment large de manière à servir d’appui à diverses études en

didactique du français. Il se distingue cependant de ces projets par deux caractéristiques essentielles. La première de ces caractéristiques est son caractère unifié, tous les élèves ayant reçu la même consigne, et sa dimension longitudinale, la même consigne ayant été donnée plusieurs années de suite. La deuxième caractéristique, et c’est celle qui fonde notre travail de thèse, est le caractère outillé du corpus Scoledit. Cela signifie que, dès sa conception, nous avons fait le choix d’élaborer, en parallèle du recueil du corpus et de sa numérisation, des outils informatiques d’exploitation de ce corpus.

En effet, à terme le corpus encore en cours d’élaboration devrait contenir plusieurs milliers de productions. Un tel corpus ne peut être finement analysé manuellement, c’est pourquoi nous proposons de faciliter cette exploitation à travers différents outils élaborés grâce à des méthodes issues du traitement automatique des langues (TAL), dont un module d’alignement en vue de l’enrichissement des données. Ce module devrait permettre une aide automatique à l’annotation de nombreux phénomènes linguistiques (orthographiques, syntaxiques, lexicaux, etc.), permettant une grande variété d’utilisation du corpus. Par ailleurs, le recours au TAL

63 Une table de correspondance entre la classe, l’année d’apprentissage et l’âge moyen des élèves au moment du

devrait permettre à terme une interrogation fine du corpus par les chercheurs et les enseignants.

Ce projet représente donc aussi un véritable enjeu pour le TAL, puisque, comme nous avons pu le voir au chapitre 3, il s’agit d’un type de corpus encore peu étudié dans ce domaine. De plus, la grande variété présente dans les productions scolaires constitue un défi à l’automatisation de leur traitement.

Loin de cantonner le processus de constitution de corpus à la tâche de recueil, à travers le projet Scoledit nous proposons donc de considérer l’élaboration d’un corpus comme un processus plus large qui comprend à la fois le recueil et la numérisation de ce corpus, la construction et la réutilisation d’outils d’exploitation et la diffusion de ces données et outils. L’enjeu du projet global est donc triple : 1/ un enjeu linguistique de constitution d’une ressource outillée pour la recherche en linguistique ; 2/ un enjeu pour le TAL, de caractérisation et de modélisation de types d’écrits souvent très éloignés de la norme ; 3/ un enjeu pédagogique et didactique appuyé par la connaissance fine des acquis et difficultés, accessibles au travers d’un outil d’interrogation du corpus.