• Aucun résultat trouvé

LES SAISIES QUI S’ÉCARTENT DES RÉPONSES DES ENQUÊTÉS

OBJECTIFS DE LA RECHERCHE PROBLÉMATIQUE

CHAPITRE 4. PRÉSENTATION DES ENQUÊTES ET DES CHOIX DES ENQUÊTES ET DES CHOIX

2. TRAITEMENT DES DICTÉES

2.2.1.2 LES SAISIES QUI S’ÉCARTENT DES RÉPONSES DES ENQUÊTÉS

Nous avons vu que pour pouvoir décrire les choix graphiques des enquêtés, le fichier informatique des données tel que nous l’avons reçu ne permet pas toujours d’observer la diversité des réponses lorsque celles-ci ont été considérées comme correctes. Nous présentons les choix qui ont été faits par l’INSEE.

LA MORPHOGRAPHIE : MARQUES NON ATTENDUES ET MARQUES ATTENDUES

Les mots TOMATES et CERISES ont été dictés sans déterminant. Néanmoins, si une marque de nombre n’était pas attendue, elle est en revanche souhaitable (on n’achète pas une seule cerise). L’observation de sa présence (ou de son absence) sur les graphies peut permettre de rendre compte des comportements des scripteurs face à des pluriels « implicitement » suggérés par le contexte. Ces marques de nombre n’entrent pas dans le barème

orthographique prévu par l’INSEE et les finales sur ces deux mots ont été uniformisées. Les graphies ont systématiquement été enregistrées avec la marque du pluriel : la graphie tomate est devenue « tomates » dans le fichier, tout comme la graphie cerise a été transformée en

« cerises ».

Sur l’item FORT, une erreur (semble-t-il) de codage a conduit à uniformiser la marque de nombre sous la forme FORT, qui est erronée puisque l’item est ici un adverbe. C’est ainsi la graphie FORTS avec un « -s », qui a systématiquement été saisie sur cet adverbe (invariable)75. Enfin, sur les mots FIANCÉ et SOLENNEL, l’ajout erroné par les scripteurs, d’une marque de genre ou de nombre n’apparait pas dans le fichier. Lorsqu’ils ont été orthographiés fiancée-s et solennel-l-e-s par les scripteurs, leurs réponses ont été uniformisées sous la forme qui était attendue par les concepteurs du test : « fiance » et « solennel ».

Les compétences en morphographie ont été évaluées sur deux marques de nombre : le « -s » de FROMAGES et le « -nt » de SENTENT. L’item SENTENT a donné lieu à des variantes telles SEMBLENT et SONT. L’INSEE a considéré ces dernières comme correctes, car le nombre a bien été marqué et les graphies ont été saisies dans le fichier informatique sous la forme attendue SENTENT.

LES IMPUTATIONS ET LE TRAITEMENT DES GRAPHIES ILLISIBLES

Les graphies qui ont été considérées comme "illisibles" ont été codées de la même manière que les graphies incorrectes (code 9), si bien que nous ne pouvons pas savoir, à partir du code, si la graphie est effectivement incorrecte ou s’il s’agit d’un problème de lecture (la graphie pouvant donc être correcte).

L’INSEE a également procédé à un travail d’imputation de mots orthographiés correctement pour les personnes qui n’ont pas répondu à tous les items. Ces travaux d’imputation se sont appuyés sur les données individuelles collectées lors de la passation du module biographique.

LE TRAITEMENT DES DIACRITIQUES ET DES AUXILIAIRES D’ÉCRITURE

L’accentuation n’a pas non plus été relevée dans le fichier informatique. L’INSEE a fait le choix de neutraliser tous les accents produits par les enquêtés et de considérer comme correctes toutes les formes non accentuées produites :

75 Cette uniformisation des réponses FORTS n’a pas eu d’incidence dans le calcul des scores effectués par l’INSEE car cet item n’entre pas dans ce calcul.

- les graphies fiancé et épicerie apparaissent donc systématiquement sous la forme

« fiance » et « epicerie » (sans accent), si bien qu’à partir du fichier, on ne peut pas

savoir si l’enquêté a utilisé le graphème « é ».

À l’inverse, l’ajout erroné d’un accent, d’une cédille, d’une apostrophe, d’une segmentation à l’intérieur du mot par les enquêtés, n’a pas été relevé :

- sél, tomâte apparaissent sous la forme « sel », « tomate » dans le fichier ;

- pharmaçie apparait sous la forme « pharmacie » dans le fichier ;

- al'coole apparait sous la forme « alcoole » dans le fichier ;

- p vanord apparait sous la forme « pvanord » dans le fichier ;

Les majuscules n’ont pas non plus été relevées : Micatol apparait sous la forme « micatol ». Ces constats montrent que le codage, s’il peut être utilisé pour établir des fréquences de réussite orthographique, ne peut pas être utilisé en l’état pour étudier la variation graphique des formes erronées pour les mots et ne peut donc pas être utilisé pour rendre compte précisément des capacités à l’écrit de ce public. C’est pour cette raison qu’un travail de saisie supplémentaire a été réalisé par l’ANLCI, qui a notamment corrigé les pseudo-mots (sur lesquels les graphies considérées comme phonographiquement correctes avaient été harmonisées).

Nous précisons que la reprise du codage et la correction des graphies ont eu très peu d’incidence dans le calcul des scores orthographiques. Par exemple « fiance » ou « tomate » saisi par l’INSEE et corrigées par les graphies réellement produites par les scripteurs, soit

fiancé et tômate (que nous considérons en revanche comme orthographiquement non

conforme). Si la reprise du codage a permis en effet de repérer des erreurs de saisie, inévitables sur un corpus aussi important et dont le traitement s’est effectué avec des moyens humains, selon Conseil (2017), les corrections apportées qui modifient le score des enquêtés représenteraient moins d’1% du corpus national. Pour qu’une erreur de saisie ou de codage ait un impact, il faudrait qu’une graphie correctement produite ait été saisie ou codée comme non conforme à la norme chez un enquêté dont le score serait proche du seuil de 14 (limite en dessous de laquelle les enquêtés ont été considérés en difficultés graves ou fortes avec l’écrit). Nous verrons en revanche qu’un calcul différent du barème orthographique peut avoir un impact sur le profil des scripteurs.

Néanmoins, un travail de vérification et d’ajout d’informations graphiques nous a semblé indispensable pour pouvoir observer avec précision la variété des graphies produites. Nous

présentons ensuite précisément le travail que nous avons effectué sur le fichier, d’après la version papier des dictées des enquêtés.

2.2.2. VÉRIFICATION DE LA SAISIE, RECODAGE ET CHOIX MÉTHODOLOGIQUES

Avant de réaliser nos analyses, nous avons effectué un travail de vérification du codage déjà réalisé et des graphies relevées pour vérifier la conformité entre la saisie réalisée et les dictées manuscrites76. Nous avons recherché les erreurs de saisie, inévitables lorsque les traitements sont effectués manuellement et avons également souhaité discuter en équipe des choix concernant la transcription de certaines graphies. La principale difficulté réside en effet dans l’interprétation des graphies manuscrites puisque dans certains cas, plusieurs lectures étaient possibles. Lorsque nous étions confrontée à ce type de graphies, une concertation en équipe a été organisée avec un travail de comparaison des graphies produites par le scripteur sur le reste de la dictée. Lorsque nous avons considéré la reconnaissance des lettres trop aléatoire, nous avons attribué un code « illisible ».

En parallèle de ce travail de vérification, nous avons rectifié les graphies uniformisées par l’INSEE (et qui n’avaient pas été corrigées par l’ANLCI) :

- retrait du « -s » de TOMATE et CERISE lorsqu’il avait été ajouté ;

- rétablissement de l’accentuation telle que nous avons pu l’observer dans les dictées papiers : fiancé, fiancè ; epicerie, épicerie, èpicerie, Epicerie, Épicerie y compris sur les formes non conformes à la norme comme péi (qui avait été saisi pei) pour PAYS ;

- rétablissement des diacritiques et des auxiliaires d’écriture : tômate, pharmaçie,

l’ibrairie, etc. ;

- matérialisation des segmentations par un espace dans le fichier informatique : é

picerie ;

- rétablissement des majuscules : Tomate, toMate ;

- correction des imputations de réponses en indiquant la présence de non-réponse dans le fichier ;

- attribution d’un code « illisible » pour les graphies dont nous avons considéré la reconnaissance des lettres trop aléatoire et que nous ne souhaitions pas non plus indiquer comme une réponse manquante ;

76 Le travail de vérification du fichier, de recodage et d’ajout de données non saisies a été réalisé sur le corpus qui a été utilisé pour notre étude : les 441 dictées des régions Auvergne, Bourgogne, Provence-Alpes Côte d’Azur et Rhône-Alpes.

- codage des métadonnées (organisation de la copie, présentation des items : liste ou texte, etc.) que nous avons souhaité analyser77.

LA PRISE EN COMPTE DE L’ACCENTUATION ET DES DIACRITIQUES DANS LE BARÈME

La prise en compte ou non de l’accentuation dans la réussite orthographique a nécessité un traitement différent selon les items, au vu des réponses recueillies.

Dans la dictée, le mot ÉPICERIE apparait de manière isolée, présenté comme le nom d’un rayon. Il a très souvent été transcrit avec une majuscule à l’initiale non accentuée (Epicerie). Par souci de cohérence (avec pour objectif de disposer d’un fichier qui soit le reflet le plus précis possible des dictées papier), nous ne souhaitions pas imputer de « e » accentué (Epicerie = épicerie) car nous ne pouvons pas savoir si l’enquêté aurait accentué le « e » initial d’ÉPICERIE s’il avait été écrit en minuscule. L’accent était parfois présent mais mal orienté (èpicerie) et la réalisation phonique de ce phonème serait donc davantage /ɛ/ que /e/. À ce sujet, Lucci et Millet (1994) indiquent que près de 2/3 des variations qui affectent l’ensemble des diacritiques correspondent à une omission ou à une neutralisation des accents graves et aigus. Les auteurs soulignent une évolution dans la manière de graphier les accents : le plus souvent ils ne sont pas transcrits et lorsqu’ils le sont, ils apparaissent souvent sous la forme d’un trait horizontal (accent plat) ou vertical ; la distinction accent aigu/accent grave tendant à être neutralisée. Nous avons en effet repéré ce phénomène dans les dictées (notamment sur FIANCÉ transcrit fiance) et sur certaines graphies, il était souvent difficile de déterminer si l’enquêté avait souhaité réaliser un accent grave ou aigu. Aussi, les accents mal orientés n’ont pas été considérés comme non conformes (fiancè accepté).

Sur le mot ÉPICERIE, nous n’avons donc pas considéré comme erronée d’un point de vue orthographique et phonographique, l’absence d’un accent. L’accentuation du « e » initial d’ÉPICERIE a donc été neutralisée dans le barème : pour transcrire le phonème /e/ à l’initiale, nous attendions donc le graphème « e », et avons considéré comme correctes (orthographiquement et phonographiquement) les graphèmes « e », « é », « E », « É » ou les accents plats.

En revanche, nous avons considéré comme erronées d’un point de vue orthographique, les adjonctions d’accents (épicèrie, cérise, rhûme) ou de diacritiques (çerises). Nous avons

77 Nous avons envisagé une analyse de tous les aspects liés à la matérialité de l’écriture (utilisation des majuscules, organisation spatiale, etc.) et avons codé en ce sens les 106 dictées du corpus rhônalpin. C’est Claude Ponton, chercheur en TAL au Lidilem et que nous remercions pour ce travail, qui a généré la base de données nécessaire à cette analyse, qui reste à faire.

également considéré comme orthographiquement incorrecte l’adjonction d’accents circonflexes dans des graphies telles que tômates ou fromâges, même si cela n’affecte pas la phonographie.

Enfin, le rétablissement dans le fichier informatique, de l’accentuation présente sur FIANCÉ nous permet désormais de distinguer les graphies fiance, des graphies fiancé. Nous avions décidé en premier lieu de considérer la graphie fiance = /fjãs/ vs /fjãse/ attendue, comme non conforme à la fois orthographiquement, mais aussi phonographiquement. Après analyse des réponses des enquêtés, nous avons finalement choisi de considérer la graphie fiance comme conforme orthographiquement. En effet, dans les dictées des enquêtés « bas », 34 graphies apparaissent sous la forme fiance et 14 sous la forme FIANCE (pour laquelle nous ne pouvons pas savoir si l’enquêté aurait accentué le graphème si le mot avait été écrit en minuscules). Considérer la graphie fiance comme orthographiquement non conforme aurait fait baisser le score de réussite orthographique sur cet item. Il nous a semblé que si les enquêtés ont réussi les deux difficultés principales de ce mot : le choix du digramme « an » pour transcrire /ã/ et du graphème « c » pour /s/, la graphie fiance ne reflète pas une difficulté d’origine phonographique pour transcrire /s/.

2.2.3. RÉFLEXION MÉTHODOLOGIQUE SUR LA CONSTITUTION D’UN BARÈME

L’intérêt de notre travail de recodage et de saisie réside donc dans cette possibilité nouvelle d’élargir les critères d’évaluation (avec davantage de mots et de phénomènes à étudier) et de pouvoir désormais observer la variation issue de la transcription non conforme des mots et des pseudo-mots.

L’exploitation de ce corpus pose les bases d’une réflexion méthodologique sur la manière de traiter des données produites par des scripteurs dont on sait qu’ils ont du mal à atteindre la norme orthographique. Ainsi, une évaluation classique qui ne consisterait qu’à repérer les graphies incorrectes et à établir des scores de réussite ne nous permettrait pas de rendre compte des capacités des enquêtés à communiquer par écrit ni de définir précisément leurs compétences.

En tenant compte de la spécificité de ce corpus, nous avons adopté un traitement différent de celui appliqué par l’INSEE en proposant d’établir différents scores afin de valoriser les différentes compétences de ce public.

En premier lieu, cherche-t-on à évaluer la capacité à communiquer par écrit pour un usage

courant ou cherche-t-on à mesurer la maitrise parfaite du système orthographique d’une langue ?

Lorsque l’on interroge des personnes dont on sait que la production d’écrit est une difficulté pour elles, il convient d’observer leurs compétences au-delà de la capacité à respecter l’orthographe. D’autant plus que dans l’enquête IVQ et dans le dépistage de l’illettrisme, nous sommes davantage sur le versant d’un usage littéracié de l’écriture que sur celui de l’utilisation d’une orthographe normée.

Ensuite, de quelles compétences a-t-on besoin pour communiquer par écrit et quels critères

prendre en considération pour évaluer ces compétences ?

Si l’on considère que le critère de réussite dans la transmission d’un message relève principalement de sa compréhension pour celui qui le lit, alors la maitrise du système phonographique du français nous semble être un critère important à prendre en compte.

Enfin, nous pouvons nous interroger sur la frontière entre la maitrise du système ou d’une

partie du système et sa non maitrise.

Nous souhaitons donc, au-delà du calcul d’un score de réussite orthographique, observer la manière dont des scripteurs en difficulté réagissent lorsqu’ils ne connaissent pas l’orthographe d’un mot. Une analyse des graphies erronées nous permettra de rendre compte de leurs compétences en phonographie, en déterminant si la forme proposée restitue la forme phonologique de l’item. Notre analyse des formes erronées distinguera alors si cette forme est phonographiquement acceptable (et tient compte des règles de position et de distribution relatifs à l’écriture du français) ou si elle représente une transcription phonétique de la forme entendue, dont la lecture n’est pas toujours aisée.

Nous avons également souhaité observer les connaissances des scripteurs dans le domaine de la morphographie en élargissant les critères (au vu du peu de marques de nombre présents dans la dictée). Pour cela, nous évaluons également le comportement des scripteurs face à l’absence de marque sur l’adverbe FORT, sur les marques de nombre souhaitables mais non attendues (car non marquées par un déterminant) que nous nommons marques « implicites » ainsi que sur celles qui ne sont pas souhaitables (par exemple sur le nom des rayons) ou encore les marques ajoutées de manière erronée (exemple. fiancée dans LE FIANCÉ SOLENNEL). Nous avons également souhaité observer les comportements des scripteurs vis-à-vis de la graphie des finales des pseudo-mots (choix d’ajouter ou non une finale muette et choix de la finale muette). Nous regarderons alors si le comportement des scripteurs face aux finales

semble constituer un marqueur de réussite orthographique et/ou l’enregistrement de régularités. Pour cela, nous comparerons les finales choisies avec la fréquence des finales sur les mots du français, pour voir si les choix des scripteurs seraient la marque d’une sensibilité à une régularité du système orthographique du français.

Dans la deuxième partie de ce chapitre, nous présentons nos choix méthodologiques pour décrire de façon quantitative et qualitative la capacité d’écriture des scripteurs à partir de la dictée.

3. ÉVALUER LES CAPACITÉS D’ÉCRITURE D’ADULTES EN DIFFICULTÉ À

Documents relatifs