MESURES DE CONSISTANCE PHONO-ORTHOGRAPHIQUE SUR UN LARGE ECHANTILLON D’ITEMS

CHAPITRE V : ORGANISATION TEMPORELLE DES PROCESSUS COGNITIFS DE L’ECRITURE -

II. MESURES DE CONSISTANCE PHONO-ORTHOGRAPHIQUE SUR UN LARGE ECHANTILLON D’ITEMS

II.1. Introduction

Nous avons pu constater que beaucoup des chercheurs étudiant la production verbale écrite chez des adultes experts utilisaient préférentiellement dans leurs études des mots monosyllabiques, particulièrement lorsque des effets de régularité ou de consistance sont étudiés. Il n’existe en effet pas à ce jour de base de données procurant des mesures de consistance prenant en compte la grande complexité orthographique et linguistique de l’ensemble des mots du français (cf. Chapitre III). La base LEXOP par exemple (Peereman & Content, 1999), si elle prend en compte la structure des mots (mesures différentes sur l’attaque, la voyelle, la coda), est restreinte à des mots monosyllabiques. La restriction en termes de taille de l’échantillon d’où ces mesures proviennent (N = 2 449) peut avoir des conséquences sur la recherche en psycholinguistique, notamment en réduisant la flexibilité dans la constitution de listes de stimuli contrôlées sur différents paramètres simultanément. De manière plus

Chapitre V – Organisation temporelle des processus cognitifs de l’écriture : approche psycholinguistique

importante, un problème de représentativité peut se poser. Les mots de trois syllabes ou davantage seraient ainsi les plus représentatifs du lexique (Vallée & Rousset, 2004), ce qui est confirmé par l’analyse d’un corpus important comme celui de LEXIQUE (Lexique.org ; New et al., 2001) (6,7 % de mots de 1 syllabes, 30,2% de 2 syllabes, 40,4% de 3 syllabes, 18,0% de 4 syllabes, 4,7% de 5 syllabes et plus).

Une base de données incluant des mesures de consistances basées sur toutes les unités infralexicales et s’étendant aux mots de plusieurs syllabes a déjà été fournie par Peereman, Lete, et Sprenger-Charolles (2007) (Manulex-Infra). Celle-ci, destinée particulièrement à l’étude de l’apprentissage de la lecture et de l’écriture, se basait sur des analyses de fréquence de mots présents dans des livres de l’école élémentaire (environ 49 000 entrées lexicales : MANULEX; Lete, Sprenger-Charolles, & Cole, 2004). Une telle base de données proposant des mesures de consistance détaillées et sur un large échantillon a montré son utilité pour l’étude et la compréhension des performances orthographiques d’enfants de différentes classes scolaires (Lete, Peereman, & Fayol, 2008), mais la nature de l’échantillon utilisé pour sa constitution permet difficilement une généralisation à l’étude de l’écriture « experte » (adulte).

Dans le but de fournir des mesures de consistance à destination de l’étude chez l’adulte et qui ne soient pas limitées aux mots monosyllabiques, nous avons donc réalisé des calculs de consistance phono-orthographique restreints à deux unités par mot (cf. ci-après) mais en englobant le plus grand nombre de formes orthographiques du français possible (i.e. quel que soit le nombre de lettres ou de syllabes, la catégorie grammaticale, et en incluant les formes fléchies ; N > 140 000). L’intérêt de ce travail préliminaire (ne prenant pas en compte toutes les unités infralexicales) est donc d’abord de fournir des mesures de consistance sur un grand nombre de mots afin d’être en mesure de sélectionner plus facilement des listes de stimuli contrôlées sur un grand nombre de variables (fréquence lexicale, fréquence de bigrammes, nombre de lettres, etc.), mais surtout d’améliorer la représentativité de telles mesures en vue de favoriser la généralisation des effets observés. Comme le choix de réaliser des mesures de consistance différentes selon la position de chaque unité dans la structure d’un mot dans la base LEXOP ou dans les travaux de Lecours et Soum l’illustrait déjà, la position d’un phonème dans un mot aura une influence cruciale sur la probabilité que telle ou telle unité orthographique lui corresponde. Ici, nous nous sommes restreints à des calculs réalisés à deux positions : le phonème initial et le phonème final de chaque mot, et ce, tant pour des raisons théoriques (cf. résultats précédents), que pragmatiques, (les premier et dernier phonèmes sont facilement identifiables et un tel calcul s’affranchit de la prise en compte de la structure interne des mots).

Les résultats de ces mesures, proposant des valeurs de consistance phono-orthographique à deux positions pour l’ensemble des mots de la langue ont ensuite été utilisés

pour sélectionner des stimuli pour une expérimentation en écriture sous dictée. Un des objectifs de cette expérimentation était de valider la pertinence de ces mesures pour prédire le comportement de scripteurs adultes experts.

II.2. Méthode de calcul

Nous avons calculé le degré de consistance phono-orthographique sur l’ensemble des mots fournis dans la base Lexique 3.80 (Lexique.org ; New et al., 2004), et ce, pour deux positions spécifiques : le phonème initial et le phonème final du mot (les mots ne comportant qu’un seul phonème : à, ou, et, en, etc., ont été exclus). Cette base de données des mots du français fournit, pour plus de 142 000 formes orthographiques (incluant les formes fléchies : formes conjuguées des verbes, formes féminines et plurielles), de nombreuses informations utiles à notre calcul telles que la fréquence lexicale ou un codage de la forme phonologique canonique.

En se basant essentiellement sur la représentation phonémique fournie pour l’ensemble des mots de la langue dans Lexique 3.80, nous avons d’abord identifié l’ensemble des différents phonèmes existant en position initiale (e.g. phonème / / dans ancien), puis pour chacun de ces phonèmes, répertorié les différentes graphies correspondantes (e.g. {en}, {em},{an}, {han} etc.). Tous les mots correspondants étaient inclus et n’étaient pas distingués selon leur nombre de syllabe ou encore leur catégorie grammaticale. La même procédure a ensuite été réalisée sur les phonèmes finaux.

Pour chaque phonème donné, nous avons ensuite calculé la consistance « type » (en divisant le nombre de mots présentant une relation phonie-graphie donnée par le total des mots présentant ce phonème) et la consistance « token » (en divisant la somme des fréquences des mots présentant une relation phonie-graphie donnée par la somme des fréquences des mots présentant ce phonème). La variable « fréquence livres » fournie dans Lexique 3.80 a été utilisée pour ce dernier calcul. Ce travail a été réalisé indépendamment pour la position initiale et pour la position finale.

Les valeurs de consistance de chaque couple phonème-graphème à chacune des deux positions étaient donc calculées. Pour chaque mot de la base LEXIQUE, nous étions donc en mesure de lui associer les valeurs de consistance (type et token) de son phonème initial et de son phonème finale, nous permettant ultérieurement de réaliser une recherche de stimuli sur la base de leur consistance ainsi que d’examiner la distribution de la valeur de consistance au travers de la base.

Chapitre V – Organisation temporelle des processus cognitifs de l’écriture : approche psycholinguistique

II.3. Description des données et discussion

40 phonèmes différents ont été identifiés en position initiale, comportant en moyenne 4,2 graphies possibles (± 3,5), et 36 en position finale comportant en moyenne 13,8 graphies possibles (± 9,1) (les {s} muets issus des pluriels étant notamment inclus). Une liste des phonèmes identifiés avec le nombre de graphies possibles, le nombre d’occurrences, et la somme des fréquences des mots concernés pour les deux positions considérées est présentée dans l’Annexe 2.2. La table détaillée des valeurs de consistance pour chaque couple phonème-graphème est par ailleurs présentée Annexe 2.3.

Cette asymétrie entre les positions initiale et finale, traduisant une plus grande « opacité » de l’orthographe de la fin des mots, se manifeste aussi lors du calcul de la consistance et justifie la nécessité de prendre en compte la position considérée lors de ce type de calcul. En effet, pour l’ensemble des mots considérés (environ 142 000), nous avons obtenu une consistance « token » moyenne de .84 pour l’initiale (consistance « type » de .86) contre .25 pour la finale (consistance « type » de .26).

Le profil de distribution de la valeur de consistance dans le lexique est ainsi très différent selon la position initiale ou finale de l’unité considérée. Les mots présentant une consistance token initiale supérieure à 0,6 représentent 90,6% des mots du lexique tandis que les mots présentant une consistance token finale supérieure à 0,6 n’en représentent que 10,7%. La valeur médiane de la consistance est aussi très éclairante puisqu’elle est de 0,98 pour la consistance « token » de l’initiale (consistance « type » de .94) contre .20 pour la finale (consistance « type » de .23). Les valeurs de consistance type et token pour différents centiles sont présentées dans la Table V-6.

Table V-6 : Moyennes et percentiles de la valeur de consistance de l’initiale et de la finale sur l’ensemble de la base Moyenne C10 C25 C50 C75 C90 Consistance Initiale Token/Type ^{.84 / .86} ^{.65 / .57} ^{.77 / .87} ^{.98 / .94} ^{1 / 1} ^{1 / 1} Consistance Finale Token/Type ^{.25 / .26} ^{.03 / .09} ^{.07 / .15} ^{.20 / .23} ^{.39 / .35} ^{.66 / .55}

Ces observations sur le nombre de graphies possibles et sur la distribution de la valeur de consistance dans l’ensemble de la base mettent clairement en évidence une dissociation entre la consistance phono-orthographique du premier et du dernier phonème des mots de la langue française. Les calculs montrent en effet une consistance à l’initiale en moyenne très élevée ; les mots inconsistants à l’initiale sont très peu nombreux dans le lexique. La prise en compte de toutes les formes dérivées ou fléchies des mots a semble-t-il conduit au contraire à une

consistance moyenne très basse sur la finale des mots ; l’inconsistance y serait la norme. Cette observation renforce selon nous la nécessité de la prise en compte de la position de l’unité considérée lors de l’étude des effets comportementaux de la consistance.

L’utilisation d’un très grand nombre de mots, de une et plusieurs syllabes, issus de catégories grammaticales variées nous permet a priori d’obtenir une plus grande finesse et une plus grande représentativité de la variable de consistance pour traduire objectivement la notion de régularité orthographique (si l’on définit celle-ci comme déterminée par les fréquences d’usage). Cela peut ainsi entraîner des divergences par rapport à des résultats obtenus via d’autres méthodes ou différents échantillons : ainsi concernant le phonème / / en position finale par exemple, parmi les 26 formes orthographiques identifiées, 3 émergent clairement : {ant}, {ent} et {ans} (avec une consistance token de .27, .25 et .25, respectivement). Des calculs similaires réalisés sur un échantillon plus restreint ; en ne considérant que des monosyllabiques (monomorphémiques) et la nature de l’unité orthographique (VC), rapportent une valeur la consistance de ces trois unités, de .03, .02 et .36 (données issus de la base LEXOP). De telles divergences doivent nous amener à réfléchir sur cette mesure de consistance et la façon de la calculer pour modéliser de la manière la plus fiable possible l’organisation dans le système cognitif de la force des liens entre unités phonologiques et unités orthographiques. En ce sens, l’utilisation de grands échantillons de mots tel que proposé ici, bien que nos mesures restent encore partielles (premier et dernier phonème) et négligent certains aspects que l’on sait importants comme la structure syllabique (Soum, 1997) ou certaines régularités graphotactiques (e.g. Treiman & Kessler, 2006), devrait permettre d’améliorer cette fiabilité.

III. EXPERIMENTATION : EFFETS DE CONSISTANCE

Dans le document Processus centraux et périphériques en production écrite de mots : études comportementales, en neuroimagerie fonctionnelle et par stimulation magnétique transcrânienne (Page 113-117)