• Aucun résultat trouvé

SYNTHESE des notions centrales du chapitre 4

5.2. Quelques difficultés pour la constitution et le traitement de corpus d’écrits scolaires d’écrits scolaires

5.2.2. La transcription : une étape incontournable ?

La transcription de manuscrit est une étape essentielle par laquelle passent les philologues et les généticiens du texte pour analyser finement un texte littéraire dans son élaboration. Avec la constitution de grands corpus de textes scolaires, c’est-à-dire des textes manuscrits, cette étape devient nécessaire pour l’analyse linguistique, tant quantitative que qualitative. En effet, dès lors que l’on dispose de vastes corpus de textes d’élèves, la question de leur investigation se pose. Le chercheur peut être assisté dans cette tâche par des outils informatiques, mais cela passe par une étape préalable de numérisation et de transcription des textes car les écrits non informatisés empêchent toutes sortes de requêtes : l’investigation sur les textes reste limitée, d’autant plus lorsqu’il s’agit d’un grand nombre de textes (Roubaud, 2017). La transcription de ces textes devient alors nécessaire. Pour présenter les enjeux de la transcription de texte, nous nous appuierons principalement sur la synthèse de Testenoire (2017), dont les travaux sur les brouillons d’écrivains peuvent être rapprochés des textes d’apprentis scripteurs, bien que la première à avoir fait le pari d’analyser des textes d’élèves avec les mêmes méthodes que les textes d’écrivains est C. Fabre-Cols.

Selon Testenoire (2017), la transcription de manuscrits vise deux objectifs : restituer la disposition et les caractéristiques visuelles de l’écrit manuscrit (soulignements, ratures, disposition spatiale de l’écrit…) et présenter au lecteur (ou en l’occurrence, au logiciel d’annotation), le texte le plus clair et accessible possible, c’est-à-dire conforme aux conventions typographiques usuelles. Ainsi, « les choix de transcription sont une négociation entre ces deux exigences contradictoires » (Testenoire, 2017 : 91).

En effet, les choix de transcription dépendent de plusieurs facteurs. D’abord, l’objectif de la transcription détermine le choix des paramètres de l’écrit qui seront retenus. Par exemple, dans la constitution du corpus Ecriscol, le projet d’étudier les erreurs d’orthographes dans les écrits d’élèves a mené les chercheurs à faire le choix d’une transcription reproduisant l’orthographe non normée des textes scolaires.

Le deuxième facteur qui influe sur les choix de transcription est l’objet transcrit. Les manuscrits permettent une liberté de formes et de contraintes que l’écrit informatisé restreint : graphies différentes et possibilités de dessins ou signes, utilisation non linéaire de l’espace de la feuille, affranchissement de normes linguistiques et typographiques….

Enfin, l’outil employé pour la transcription la contraint nécessairement, selon qu’il donne la possibilité ou non d’intégrer des images, des ressources hypertextuelles, etc.

Ces variables déterminent le type de transcription à adopter. La génétique textuelle, dont l’objectif est la reconstitution du processus d’écriture, distingue trois types de transcriptions : la transcription diplomatique, linéarisée et chronologique.

La transcription diplomatique « vise la reproduction exacte du manuscrit » (Testenoire, 2017 : 94). Elle est donc la moins interprétative des trois puisqu’elle ressemble à une photographie de l’original (Doquet & al, 2017b).

La transcription linéarisée « consiste à transcrire tous les signifiants graphiques présents sur le manuscrit dans une ligne continue de signes. Ce qui est hors ligne est linéarisé à l’aide d’un codage typographique. » (Testenoire, 2017 : 94). Le codage typographique s’appuie sur divers types de conventions48.

       

48 Les différents types de conventions peuvent être, par exemple :

La transcription linéarisée repose donc sur l’interprétation du transcripteur puisqu’elle remet sur un axe linéaire la succession des opérations d’écriture (Doquet & al, 2017b).

Enfin, la transcription chronologique : « repose sur le principe de la substitution génétique auxquelles sont ramenées les quatre opérations d’écriture fondamentales (ajout, suppression, remplacement et déplacement). Elle consiste donc à reconstituer les différents états de l’écrit entre lesquels est intervenue une substitution génétique. » (Testenoire, 2017 : 94). Ce dernier type de transcription privilégie la restitution des données temporelles et met au jour les différentes strates de l’écriture (Doquet & al., 2017b).

Comme le soulignent Doquet & al. (2017b), les principes de la transcription ainsi posés ne la rendent pas plus aisée pour autant, d’autant plus lorsqu’il s’agit de la transcription des écrits d’élèves. Dans les faits, la transcription des textes d’élèves nécessite plusieurs versions. Une version scannée du texte, parce qu’elle le photographie tel qu’il est, peut être considérée comme une version iconique du texte. Cette étape est d’ailleurs attestée dans la plupart des corpus de textes scolaires (Elalouf & Boré, 2007, Auriac-Slusarczyk & al., 2008, avec le corpus Grenouille, Doquet & al., 2017, avec Ecriscol, Wolfarth & al., 2017, avec Scoledit…).

Une transcription diplomatique mêlant des principes de transcription linéarisée rend témoignage des modifications en cours de rédaction ou lors de la relecture grâce à des signes et conventions tels que ceux décrits supra. Cette version est à privilégier pour les écrits d’élèves qui ne comportent pas d’intervention de l’enseignant (Elalouf, 2004 ; Elalouf & Boré, 2007).

Pour les textes comportant à la fois les interventions de l’élève et celles de l’enseignant, une version commentée est préférable car elle permet de voir comment l’élève interprète les annotations du professeur. Elle se traduit par un autre système de signes et conventions qui distinguent les interventions de l’élève de celles du professeur, par exemple en codant P les commentaires du professeur puis en les annotant dans une police différente. Si ce type de transcription a l’avantage de tout expliciter, elle est peu naturelle et ralentit considérablement la lecture du texte (Elalouf, 2004 ; Elalouf & Boré, 2007).

        - les conventions utilisées dans la norme internationale TEI-P5 (Garcia-Debanc & al., 2017 ; De Vogüé

& al., 2017)

Enfin, une version orthographiée selon la norme et éventuellement dépouillée des dessins, tableaux et autres signes difficilement reproductibles informatiquement, peut également intervenir, soit pour rendre plus clairs les textes nécessitant un effort de lecture important et rendre plus visibles les phénomènes propres au processus d’écriture, soit pour soumettre le texte à un logiciel d’aide à l’annotation. La version orthographiée selon la norme contraint le transcripteur à des choix, comme le mettent en évidence Boré & Elalouf (2017 : 38) :

« où s’arrêter dans la réécriture quand interfèrent des choix graphiques, morphosyntaxiques, avec leur contrepartie sémantique ? Est-on autorisé à remplacer il rentrer chez eux chacun par ils rentrèrent chez eux chacun ; il se partagea la somme par ils se partagèrent la somme ? Et faut-il restituer une ponctualité forte avant ? »

La transcription d’un corpus de textes scolaires peut ainsi être composée de plusieurs versions transcrites d’un même texte, comme autant de strates de transcription servant à l’annotation du ou des phénomène(s) que l’on cherche à observer. Cependant, dans le cas de grands corpus de textes scolaires dont une des finalités est le partage avec la communauté scientifique, il est possible d’envisager une transcription hétérogène qui prendrait en compte le plus d’éléments possible, mêlant ainsi les divers types de transcriptions (diplomatique, linéarisée, chronologique). C’est le cas par exemple du corpus Ecriscol. Dans ce projet, les conventions retenues transcrivent à la fois des caractéristiques sémiotiques et topographiques (ajouts, suppressions, ratures, changement de graphie, localisation hors ligne d’un élément, etc.), mais aussi chronologiques (codage pour différents temps dans l’écriture) et ainsi que les commentaires de l’enseignant (Testenoire, 2017).

Ainsi, la transcription de textes d’élèves relève d’une grande variété de facteurs, comme le souligne Testenoire (2017 : 92) :

« Une telle diversité explique en partie l’absence d’harmonisation des conventions de transcription, régulièrement déplorée. La nécessité d’adapter les conventions de transcription aux problèmes posés par chaque corpus manuscrit prime bien souvent dans les faits sur le souhait d’harmonisation. »

L’absence de convention de transcription universelle est un élément supplémentaire qui engendre des difficultés lors de la constitution et de l’analyse des corpus d’écrits scolaires.

Outline

Documents relatifs