L’établissement des données et les règles de transcription

La constitution de l’objet d’études

5.3. Les outils d’analyse

5.3.1. L’établissement des données et les règles de transcription

• La désignation des scripteurs et de leurs productions.

Afin d’exploiter le corpus avec les outils choisis, il est nécessaire d’en répertorier chaque élément à l’aide de codes permettant le traitement homogène et non ambigu des différentes données recueillies. Considérant que les campagnes d’écriture ont été réalisées dans un temps court (avril à juin 2013), nous n’avons pas apposé sur chaque copie le mois et l’année de la passation. Nous n’avons pas non plus mentionné le niveau de classe. Chaque classe est donc désignée en fonction de deux critères : le groupe et la version d’écriture si nécessaire : G1V1, G1V2, G2V1, G2V2, G3 et G4. Pour ce qui est des élèves, nous avons conservé leur prénom10 auquel nous avons ajouté la première lettre du nom patronymique en cas d’homonymie. L’élève est donc toujours identifié dans son groupe et sa version d’écriture, au sein du corpus des 96 élèves (ex : Basile G1V1 ou Basile G1V2). Pour répertorier les copies, c’est-à-dire les images numérisées, et les textes, c’est-à-dire les transcriptions génétiques, nous avons fait appel aux mêmes principes de classement afin de favoriser les rapprochements au moment de l’analyse.

161

• La « mise en lecture » des productions

La mise en lecture d’une production écrite suppose une transcription qui doit répondre à deux principes en tension : sa fidélité au document source et sa lisibilité. Ces principes impliquent de rendre lisible ce qui parfois est de l’ordre de l’illisible et nécessite une interprétation minimale, de ne pas surcharger les transcriptions pour pouvoir analyser leur contenu, enfin de dissocier le réel objet de la recherche et ce qui serait de l’ordre de l’attente de l’institution scolaire et de la doxa. Une transcription diplomatique des productions a été effectuée. Celle-ci tend à créer l’image la plus fidèle d’une copie, y compris sa mise en page puisqu’elle « photographie le document en rapportant, avec les outils qui le permettent, malgré leurs limites, tous les évènements du manuscrit » (Crasson et Fekete, 2007).

Trois niveaux de transcriptions

Outre la version brute digitalisée (qui a servi de version de contrôle en cas de problème d’interprétation), nous avons procédé à trois niveaux de transcriptions.

Le niveau 1 est une transcription graphique, informatisée, respectant la version de l’enfant. Les textes sont reproduits en respectant le nombre de pages, la disposition de chacune d’elles avec ses lignes et ses interlignes, la teneur de chaque ligne et le contenu des interlignes. C’est une version iconique dans la mesure où y figurent les ajouts, ratures, signes et mentions en marges effectués par le scripteur.

Le niveau 2 est une transcription formelle dans laquelle les normes orthographiques sont rétablies. Les éléments normalisés sont : l’orthographe lexicale et grammaticale, la segmentation des mots (« l’as de la jungle » pour « lase de la jungle ») et le rétablissement de la négation (sauf au sein de dialogues). Cette version est non iconique car elle est expurgée des modifications tels ajouts, ratures et renvois. Le texte est donc linéarisé, mais sa silhouette a été conservée avec les retours à la ligne. La question d’une ultime version s’est posée, soit une transcription normalisée: une version dépouillée permettant d’intégrer d’autres normes grammaticales et syntaxiques, avec une inévitable interrogation sur l’ampleur de l’intervention de « toilettage » du texte scolaire. Nous avons finalement opté pour un « niveau 2 » intégrant :

- la correction des erreurs au niveau flexionnel, notre recherche ne portant pas sur les aspects grammaticaux de la langue (« elle dut » pour « elle devat » ...).

- la correction des erreurs de liaisons remarquables (« jusqu’à » pour « juqua » ...) ;

- le rétablissement des marqueurs de l’écrit lorsqu’ils avaient été manifestement oubliés11: ponctuation, apostrophe, guillemets ;

- le rétablissement des choix lexicaux (mots oubliés) ou syntaxiques (pronom relatif omis).

11 Par exemple : l’absence de point final à une phrase alors que la suivante débute par une majuscule ou des guillemets non fermés.

Les deux versions ont rendu possible la constitution de différents fichiers d’analyse, et le second niveau a permis d’exploiter un outil lexicométrique.

Le niveau 3 est une transcription formelle « justifiée » : un texte normé sans maintien de la topographie. Cette transcription a été rendue nécessaire pour une analyse statistique des textes produits en G1 et G3 (AFC12).

Dans le présent document, nous utiliserons une transcription linéaire des productions écrites (non normée c’est-à-dire de niveau 1 mais sans maintien de la topographie, ou exceptionnellement normée c’est-à-dire de niveau 3).

• Les conventions

Les deux versions correspondant au produit de chaque séance de travail seront appelées V1 et V2. Ces désignations ne sont pertinentes que pour les deux premiers groupes (G1 et G2) puisque les G3 et G4 n’ont rédigé qu’un récit ou une suite de récit.

Pour la transcription graphique, chaque texte se présente comme une suite de lignes à partir de la première ligne prenant en compte la production d’écrit. Lorsque les observations le nécessitaient (par exemple parce que deux énoncés produits et espacés dans le texte ont été mis en rapport), nous avons numéroté les lignes écrites ou les lignes blanches faisant partie de la silhouette du texte. Chaque changement de page est signalé par un nouveau tableau sans interrompre la numérotation des lignes.

Les élèves n’ont pas disposé de moyens de correction (gomme, effaceur, correcteur « blanc »). Chaque texte présente donc un premier état d’écriture comportant des moments d’hésitation, de relecture immédiate qui se traduisent par la présence de d’ajouts, de ratures, de renvois et de divers signes. Ces éléments ont été codifiés :

- Les lettres ou mots illisibles sont notés par des # ; - La suppression est marquée par une biffure ;

- Pour la transcription graphique, la place de l’ajout dans la ligne ou l’interligne du haut ou du bas a été conservée. Lorsque l’ajout a eu lieu dans une marge (ou en haut ou en bas de page), nous l’avons signalé avec une étoile éventuellement numérotée (*numéro) située à l’endroit du texte où l’ajout doit se lire et qui renvoie à une deuxième étoile indiquant l’endroit où il a été inscrit (*même numéro). Pour le texte de niveau 2, l’ajout est indiqué par une mise entre croches. - Le remplacement est marqué par la conjonction des deux procédés (suppression/ajout) - Le rétablissement d’un mot omis est indiqué par une parenthèse.

- Les lettres capitales et la ponctuation multiple ont été conservées.

163

Sans appartenir à la mise en texte proprement dite, un certain nombre d’éléments para-textuels contribuent à la production d’écrit. Ainsi, des scripteurs marquent d’un signe particulier le titre ou le mot « fin ». À chaque fois qu’une marque de cet ordre (soulignement simple ou double, encadré, tracé curviligne, etc.) a été rencontrée, elle a été traduite par un soulignement simple. Les mots écrits en lettres capitales ont été retranscrits à l’identique. Les espaces compris entre le titre et le début du récit, ou la fin du texte et le mot « fin » ont été respectés autant que possible.

Les énoncés seront soit cités soit consignés en annexes. Les annexes comprendront les copies digitalisées et leurs transcriptions informatisées.

Lettres ou mots illisibles ###

Suppression suppression

Ajout <ajout> ou *

Remplacement suppression remplacement

Omission de mots Il alla (chez) lui

Lettres capitales FIN

Divers tracés FIN

Ponctuation multiple Feu !!!

Tableau 11 : Annotations graphiques

5.3.2. Les outils d’analyse des productions écrites

Les énoncés des scripteurs et les textes sources ont fait l’objet en fonction des questions posées d’une analyse outillée ou d’une analyse manuelle et génétique.

• Analyse textométrique des productions écrites

Les outils textométriques sont d’un grand secours pour collecter des données numériques. Le logiciel Le Trameur13 a autorisé le recensement des mots présents dans les textes sources et les textes produits à partir de la transcription formelle (une fois l’orthographe rétablie). Il a donc été possible d’avoir une vue exhaustive de la fréquence des occurrences des lexèmes dans ces deux corpus. L’outil a ouvert aussi une analyse focalisée sur certains champs lexicaux : reprise de mots fréquents dans le corpus littéraire ou participant à la construction d’une entité thématico-narrative (par exemple le lexème /fruit/) ou à l’inverse non reprise de certains lexèmes. Les résultats de ces analyses ont été reportés dans « les fichiers annotés » pour être traités. C’est aussi

13 Le Trameur est un logiciel de textométrie qui fonctionne sur Windows. C’est un programme d’analyse comportant de nombreuses fonctionnalités pour l’analyse automatique, statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation. https://corli.huma-num.fr/?page_id=239

Dans le document L'écriture entre imitation et invention à l'école primaire : Écrire des épisodes de robinsonnades au cycle 3 (Page 160-163)