• Aucun résultat trouvé

RENDRE COMPTE DE LA DIFFICULTÉ ORTHOGRAPHIQUE DES MOTS : LES NOTIONS DE CONSISTANCE ET DE FRÉQUENCE

D’ADULTES ET DE JEUNES ADULTES

1. RENDRE COMPTE DE LA DIFFICULTÉ ORTHOGRAPHIQUE DES MOTS : LES NOTIONS DE CONSISTANCE ET DE FRÉQUENCE

Les développements récents de la recherche en psycholinguistique permettent une approche plus fine du niveau de difficulté orthographique des mots du français, avec les notions de consistance et de fréquence.

Nous présentons ici deux bases de données : Manulex (Lété, Sprenger-Charolles et Colé, 2004) et Lexique, qui fournissent un indice de la complexité des mots d’après leur consistance (dans Manulex) et leur fréquence (dans Manulex et dans Lexique).

Nous présentons ensuite les travaux de Lété (Lété et al., 2008 ; Lété, 2018) concernant la notion de consistance et de fréquence ainsi que leur impact sur la production orthographique des enfants et des adultes.

1.1 L’INDICE DE CONSISTANCE DANS LA BASE MANULEX-INFRA

1.1.1 LA CONSISTANCE ORTHOGRAPHIQUE : UN INDICE DE LA COMPLEXITÉ

ORTHOGRAPHIQUE

Peereman et al. (2004) définissent la consistance orthographique comme le « degré d’incertitude » lié, en production à l’écriture d’une association entre phonème et graphème (PO = phonologie vers orthographe) ou en réception, à la lecture d’une association entre graphème et phonème (OP = orthographe vers phonologie). Nous reprenons ici, pour cette définition, l’expression de Peereman et al. mais nous relevons ici un paradoxe qui consiste à associer un degré d’ « incertitude » pour déterminer le degré de consistance (et non d’inconsistance) orthographique d’un mot.

Ainsi, lorsque la variété graphémique augmente, l’ambiguité augmente et la consistance diminue. Le degré de consistance (ou d’inconsistance) met donc en relief le « degré de variabilité » des graphèmes pour un phonème en écriture. Plus précisément, le degré de consistance est lié au degré de fréquence des associations. En d’autres termes, plus une association est rencontrée fréquemment dans les mots du français, plus cette association est considérée comme consistante et donc accessible pour le scripteur comme pour le lecteur. En révélant le niveau de complexité orthographique, l’indice de consistance permet ainsi de prédire la difficulté à écrire ou à lire un mot. Pour calculer cet indice de consistance, Lété, Sprenger-Charolles et Colé (2004) ont développé un outil informatique, la base de données Manulex.

1.1.2 LA BASE DE DONNÉES MANULEX : PRÉSENTATION ET FONCTIONNALITÉS

Le développement de la base de donnés Manulex (Lété, Sprenger-Charolles et Colé, 2004) a été motivé par les limites des bases qui sont actuellement disponibles pour étudier l’acquisition de la lecture et de l’écriture. Tout d’abord, la plupart des bases existantes sont basées sur des corpus destinés à des adultes, ce qui rend leur utilisation inappropriée pour des enfants ou pour des adultes faiblement littéraciés (par exemple la base Frantext qui est issue de textes littéraires et contemporains). Par ailleurs, Manulex ajoute aux calculs de fréquence d'occurrence des mots (qui est déjà proposée dans d’autres outils), un calcul de la consistance des relations entre phonèmes et graphèmes. On sait en effet que la régularité des correspondances entre phonèmes et graphèmes est un facteur important de réussite orthographique ; facteur qu’il faut prendre en considération, tout comme la fréquence des mots, pour déterminer la complexité à orthographier un mot.

La base Manulex propose ainsi une description complète de la langue française écrite qui est adressée aux enfants à l'école primaire. Elle calcule en effet la fréquence d'occurrences des mots rencontrés par les enfants à partir d'un corpus de 54 manuels scolaires (ce qui représente 1,9 millions de mots et 48886 entrées lexicales). Nous utilisons l’outil Manulex-Infra (Ortéga et Lété, 2010) qui propose en plus des fonctionnalités de Manulex, une prise en compte des formes orthographiques (marques de flexion notamment), rendue possible grâce à une présentation des indices sur trois parties du mot (au maximum) : par exemple pour LIBRAIRIE : « LI- » (début de mot), « -BRAI- » (milieu) et « -RIE » (fin de mot).

1.1.2.1 CALCUL DE L’INDICE DE CONSISTANCE

Pour calculer les indices de consistance, la base de données Manulex-Infra45 fournit donc une mesure statistique (en %) de la consistance orthographique des mots dans le sens PO : « phonologie-orthographe » (codage) et OP : « orthographe-phonologie » (décodage). La description des associations entre phonologie et orthographe (et inversement) a été effectuée sur la base de 37 phonèmes et 125 graphèmes avec 290 associations PO et OP. Pour calculer le degré de consistance des mots qui intéressent notre étude (lorsqu’il s’agit de les écrire, et donc d’associer un graphème au phonème), nous utiliserons les indices de Manulex-Infra dans le sens « PO », c’est-à-dire de la phonologie vers l’orthographe. Cette mesure est basée sur la fréquence d’association d’un phonème avec un graphème sur l’ensemble des mots de la base,

45 Les bases Manulex et Manulex-Infra possèdent de nombreuses fonctionnalités dont nous ne détaillons pas l’ensemble, mais uniquement celles qui intéressent notre étude.

avec une distinction qui est faite sur la place de cette association dans le mot : début, milieu ou fin du mot. Cette distinction est intéressante dans la mesure où les valeurs de consistance peuvent varier fortement selon la position des unités graphémiques dans le mot, ce qui nous permettra d’identifier la partie du mot qui est la moins consistante et qui est susceptible de davantage poser problème aux enquêtés dans la dictée d’IVQ. Dans le calcul, la valeur de consistance est comprise entre 0 (consistance minimale) et 100 (consistance maximale). Nous présentons le détail du calcul qui permet d’interpréter l’indice de consistance dans le sens Phonologie-Orthographe du mot MAIN (/mɛ̃/ qui devient MAIN) :

- calcul de la fréquence d’association du phonème /m/ avec le graphème « m » en début de mot : le résultat est multiplié par 100 = ici, il était de 1, donc l’indice est 100. Cet indice de 100 est interprété comme suit : « sur 100 apparitions du phonème /m/ en

début de mot, il s’écrit toujours « m ». Cette association est donc très consistante ;

- calcul de la fréquence d’association du phonème /ɛ̃/ avec le graphème « ain » en début de mot : ici, il est de 0,18, donc l’indice est 18 : « sur 100 apparitions du phonème /έ/

en fin de mot, il s’écrit « ain » dans 18% des cas ». Cette association est donc peu

consistante ;

- l’indice de consistance total est ensuite obtenu en faisant la moyenne des indices (début, milieu et fin de mot). Pour MAIN, l’indice de consistance est de 59.

Pour estimer la fréquence et la consistance des relations entre les phonèmes et les graphèmes, les entrées lexicales de Manulex-Infra ont été segmentées en unités graphémiques selon le principe général qu’à un phonème correspond un graphème « /m/ = m) ou, beaucoup plus rarement, qu’à deux phonèmes correspond un graphème (par exemple dans le cas des digrammes : /wa/ = « oi »). Ortéga et Lété (2010) soulignent que ce découpage n’est généralement pas problématique pour le français mais que des choix ont dû être faits dans plusieurs cas : « Les choix réalisés étaient gouvernés par un second principe selon lequel

les segmentations devaient maximiser la mise en évidence des inconsistances de prononciations des chaines orthographiques. » (Ortéga et Lété, 2010 : 3). La base propose 125

graphèmes. Nous rappelons que le nombre de graphèmes varie selon le mode de calcul ; la fourchette étant comprise entre 130 (Catach, 1980) et 175 unités (Fayol et Jaffré, 2008) (voir section 3 du chapitre 2).

1.1.2.2 PRÉSENTATION DE DEUX VARIABLES : LE NIVEAU D’EXPERTISE ET LE TYPE DE CALCUL

La base Manulex-Infra permet également de calculer la consistance orthographique sur la syllabe. Lété (2008) montre que la consistance « Phonologie-Orthographe » (en production) est plus basse lorsqu’elle est calculée sur la syllabe (plutôt que sur le phonème), parce qu’une

unité syllabique correspond à plusieurs associations phonèmes-graphèmes. La comparaison des indices de consistance entre les mots devient notamment problématique lorsque le calcul s’est effectué sur la syllabe et que les mots n’ont pas le même nombre de syllabes ni le même nombre de phonèmes à l’intérieur des syllabes. Aussi, les indices de consistance des mots qui concernent notre étude ont été calculés sur les phonèmes.

Enfin, il est possible d’appliquer différentes variables sur les calculs dont nous présentons les deux principales.

Trois niveaux d'expertise : la base permet de sélectionner un niveau d’expertise constitué des

manuels adressés à l’enfant durant sa scolarité. Trois niveaux d’expertise ont été déterminés en fonction du niveau de lecture qui est attendu en classe :

- en CP, vers l’âge de 6 ans, lorsque les enfants commencent à apprendre du lexique ;

- en CE1, vers l’âge de 7 ans, lorsque les enfants commencent à enrichir leur lexique orthographique ;

- au cycle 3 (du CE2 au CM246), entre 8 et 11 ans, période durant laquelle les enfants enrichissent leur vocabulaire grâce à une exposition répétée à l'écrit (Ortéga et Lété, 2010).

Une fonction dans Manulex-Infra permet de choisir les trois niveaux et de disposer d’une moyenne permettant d’accéder à l'ensemble des manuels du CP au CM2 et donc à l’intégralité du lexique (ou du moins une bonne partie) auquel l'enfant est exposé à l'école primaire.

Un calcul possible par « type » et par « token » : les calculs peuvent être effectués par

« type » ou par « token ». Dans notre étude, nous avons choisi de calculer les indices en fonction de la fréquence réelle des mots dans les textes (par « token ») car nous postulons que la fréquence de rencontre des mots dans les manuels peut avoir un impact sur leur restitution en situation de scription, même chez des adultes qui ne sont plus plus confrontés à des manuels de lecture.

Plus récemment Peereman, Sprenger-Charolles et Massaoud-Galusi (2013) ont développé une nouvelle base de données (Manulex-Morpho) à partir des entrées lexicales les plus fréquentes de la base Manulex. La nouveauté de cette base est de prendre en compte l’apport de l’information morphologique sur la consistance des mots à partir de quatre catégories

46 Dans ses travaux, Lété et ses collaborateurs incluent la classe de CE2 dans le cycle 3. Suite à une modification récente des cycles, le CE2 est maintenant intégré au cycle 2 et le cycle 3 comprend les classes de CM1, de CM2 (pour le primaire) et de 6ème (pour le collège).

d’indices morphologiques : les flexions de genre et de nombre ; les flexions verbales ; la dérivation en « -ent » des adverbes ; les autres marques flexionnelles et dérivationnelles présentes en fin de mots. La consistance varie en effet en fonction de la place des graphèmes dans les mots et en français elle baisse surtout à la fin, à cause des lettres muettes et des marqueurs morphologiques. La prise en compte des indices morphologiques, qui fait diminuer la consistance des mots, montre pourquoi en français, écrire est plus difficile que lire : « […] si

écrire est beaucoup plus difficile que lire en français, ceci est dû à des aspects liés à la morphologie flexionnelle des mots. » (Lété, 2008). Nous n’avons pas utilisé cet outil dans notre

étude, car nous avons trouvé dans Manulex-Infra, tous les items de la dictée d’IVQ y compris sous leur forme fléchie (FROMAGES, FIANCÉE).

La figure 2 est une capture d’écran qui montre le résultat obtenu lorsque l’on demande l’indice de consistance PO, dans tous les manuels du CP au CM2, avec un calcul par token pour l’item FROMAGES :

Figure 2. Capture d'écran de FROMAGES, Consistance OP (Manulex-Infra).

L’indice de consistance moyen de FROMAGES (COPGT pour Total) est de 78. Le mot, découpé en syllabes graphiques, présente un indice de consistance sur le début du mot (COPGI) de 91 points, sur le milieu du mot (COPGM) de 83 points et sur la fin du mot (COPGF) de 37 points. Le degré de complexité orthographique augmente sur la finale du mot, probablement à cause de la marque de flexion.

1.2 LA FRÉQUENCE ORTHOGRAPHIQUE : UNE VARIABLE PRIMORDIALE DE LA

Documents relatifs