• Aucun résultat trouvé

Langue indo-européenne de la famille des langues romanes, le français est parlé sur les cinq continents. Pourtant, son orthographe est réputée pour sa complexité. Le français est une langue au principe alphabétique, c’est-à-dire que les phonèmes, que nous avons décrits dans la partie précédente sont associés à des graphèmes. Ces derniers peuvent être constitués d’une ou plusieurs lettres (e.g., le phonème /f/ peut être transcrit par un graphème à une lettre « f », comme dans fourmi ou à deux lettres « ph », comme dans photo).

Historiquement, l’alphabet français a été construit à partir de l’alphabet latin. De ce fait, au cours de l’histoire, le système graphique établi à dû être réadapté pour représenter les phonèmes de la langue française. Autrement dit, les graphèmes latins ont été réajustés pour représenter les phonèmes du français (Gak, 1976). Par exemple, la lettre « c » de

l’alphabet latin était utilisée pour transcrire le phonème /k/. Aujourd’hui, la lettre « c » correspond à différents phonèmes : /s/ dans celui ; /g/ dans second ; /k/ dans canard… (Paret, 2010). Nous sommes face à une adaptation imparfaite de l’écriture à la prononciation, puisque par exemple, un graphème peut correspondre à plusieurs phonèmes (e.g., « x » correspond à /ks/), plusieurs graphèmes peuvent ne transcrire qu’un seul phonème (e.g., « eau » correspond à /o/), (Zesiger, 1995). D’autres langues, comme l’espagnol ou l’italien ont opté pour des choix d’une plus grande simplicité, les conduisant à être qualifiés de langues transparentes, à contrario du français, qui lui est qualifié de langue opaque.

La complexité de l’orthographe du français tient à l’histoire politique, économique et culturelle de la France. Des siècles ont passés avant que l’orthographe française n’adopte la forme que nous lui connaissons aujourd’hui. C’est seulement au XIXème siècle que

l’orthographe du français a été strictement normalisée (Cerquiglini, 2004).

Constitué de 26 lettres, l’alphabet français est utilisé pour transcrire les 36 phonèmes de la langue. Le nombre de lettres inférieur au nombre de phonèmes laisse entrevoir la complexité de la situation. De fait, la langue française est une langue dans laquelle les correspondances graphèmes-phonèmes (ci-après CGP) sont irrégulières : le déséquilibre est remarquable lorsqu’on constate qu’elle compte 130 graphèmes pour seulement 36 phonèmes (Jaffré, 2003). Par exemple, au phonème /ɛ̃/ correspond de nombreux graphèmes : « ain », « ein », « en », « aim », « in »… La polygraphie de la langue française a été illustrée par l’étude de Ziegler, Jacobs et Stone (1996) qui montre qu’en moyenne, un mot monosyllabique en français, possède 3,67 possibilités d’écriture différentes.

Bien que le français soit une langue opaque, Gak (1976; cité par Zesiger, 1995) recense cinq principes directeurs de l’orthographe française :

1. Le principe phonético-graphique : c’est le principe alphabétique par lequel à un phonème correspond un graphème1 ;

2. Le principe morphologique : la lettre « d » du mot grand a été conservée pour rappeler celui des formes grande, grandir… ;

3. Le principe étymologique : la lettre « h » du mot homme vient du latin homo ; 4. Le principe historique ou graphies anciennes : le « h » de huile ou huître n’est pas étymologique, mais hérité du 17ème siècle, où la lettre « h » permettait de désambiguïser la

lettre « u » qui transcrivait à la fois les phonèmes /y/ et /v/ (Cazal & Parussa, 2015; Cerquiglini, 2004). Le « h » initial indiquait que la lettre suivante « u » était une voyelle et non une consonne, permettant de distinguer uile (huile) de uile (ville) ;

5. Le principe de différenciation : ce principe permet de distinguer des homophones comme les mots foie, fois, foi par exemple.

Nina Catach (1973, 1979) a proposé une analyse différente, elle classe les graphèmes selon leur fonction en trois catégories :

1. Les phonogrammes : ce sont des graphèmes avec correspondants phoniques. Ils représentent graphiquement des phonèmes. Par exemple, le graphème « an » permet de transcrire le phonème [ɑ̃] du mot [pɑ̃talɔ̃] pantalon ;

2. Les morphogrammes : ils assurent la représentation graphique des morphèmes. On distingue les morphogrammes grammaticaux (flexions verbales, e.g., mangent) et les morphogrammes lexicaux. Les morphogrammes peuvent être prononcés ou non (e.g., tard,

tardif) ;

3. Les logogrammes : ce sont des figures de mots permettant une identification immédiate du mot. Par exemple, les mots temps, corps ou août sont des logogrammes.

Ces deux analyses illustrent les relations complexes entre les unités sonores et les unités orthographiques. Les relations entre ces unités peuvent être analysées à travers les notions de consistance (Bonin, Collay, & Fayol, 2008) et de régularité (Lecours, 1996).

La consistance d’un mot, notion introduite par Glushko (1979), renvoie à la stabilité des correspondances qui existent entre les codes orthographiques et phonologiques. Elle est

définie par le fait que « lorsque les lettres composant la rime d’un mot ont des prononciations

différentes au travers de mots distincts, alors le mot est inconsistant » (Bonin et al., 2008, p.

521). Par exemple, les mots ville et fille qui, s’ils s’écrivent de la même façon, ont une prononciation différente. Il faut noter que cette définition de la consistance a été établie pour la lecture et qu’il est donc question ici de consistance phonologique. Concernant la consistance orthographique, la rime /yb/ qui s’écrit toujours « ube » est qualifiée de consistante (cube, tube), alors que la rime /am/, est qualifiée d’inconsistante car elle peut s’écrire de différentes manières : dame, flamme, femme (Hazard, 2009). En français, la consistance phonie-graphie, c’est-à-dire dans le sens de l’écriture, est moindre que la consistance graphie-phonie, c’est-à-dire dans le sens la lecture. Ainsi, la production orthographique est plus complexe que la lecture. En effet, le français est très inconsistant dans le sens de l’écriture.

Malheureusement, en ce qui concerne la langue française, les données définissant la consistance (Ziegler et al., 1996) portent uniquement sur les mots monosyllabiques de la base de données Brulex (Content, Mousty, & Radeau, 1990). Or, en français les mots les plus fréquents sont trisyllabique et bisyllabiques respectivement (Vallée & Rousset, 2004).

La notion de régularité est définie comme la correspondance phonème-graphème la plus fréquente en fonction de sa position dans le mot. Au contraire de la consistance, la régularité, telle qu’elle a été définie par Lecours (1996) s’appuie sur des données plus représentatives des mots de la langue (Soum-Favaro, Planton, & Jucla, 2017). En effet, l’analyse de Lecours porte sur l’ensemble des mots de la base de données Brulex (Content et al., 1990). L’auteur évoque trois types d’irrégularité qui permettent de classer les mots de la langue sur un continuum d’irrégularité. Le type 1 concerne les mots qui contiennent une séquence sublexicale homographe hétérophone (e.g., « ch » dans les mots chocolat /ʃokola/ et choléra /koleʁa/), le type 2 concerne les mots qui contiennent une séquence sublexicale homophone hétérographe (e.g [ɑ̃] dans les mots talent /talɑ̃/ et savant /savɑ̃/) et enfin le type 3 concerne les mots réguliers, c’est-à-dire les mots qui comportent uniquement des graphèmes à une lettre (e.g., alinéa /alinea/).

Cette analyse de l’irrégularité du français a été validée expérimentalement (e.g., Planton, Jucla, Démonet, & Soum-Favaro, 2017 ; Soum & Nespoulous, 1997) sur la base de données Lexique (New, Pallier, Ferrand, & Matos, 2001). Soum (1997) a affiné l’analyse de l’irrégularité de Lecours (1996) en montrant que le calcul de l’irrégularité varie en fonction de la longueur et de la structure syllabique du mot, pour une séquence sublexicale donnée, dans une position donnée. Par exemple, la graphie préséante pour le phonème /o/ en position finale est « eau » si l’on considère l’ensemble des mots de la langue. Si l’on considère les mots de 3 syllabes de type CV, comme matelot, la graphie préséante n’est plus la même (Planton, 2014; Soum & Nespoulous, 1997). En s’inspirant des travaux de Soum (1997) et Lecours (1996), Planton (2014) a proposé d’étendre l’analyse de l’irrégularité en proposant des valeurs de consistance pour les relations phonèmes graphèmes en position initiale et finale de mots sur la base de données Lexique (New et al., 2001)

Au vu de cette description sommaire de la consistance et de la régularité, il nous semble que la deuxième possède une assise scientifique plus solide. En effet, la notion de régularité s’applique à l’ensemble des mots de la langue française et prend en compte la correspondance phonème graphème la plus fréquente en fonction de sa position dans le mot. C’est pour cette raison que nous retiendrons la notion de régularité dans le cadre de ce travail.

Voyons maintenant le système orthographique de l’arabe moderne standard, qui, faisant partie des langues sémitiques, possède de nombreuses particularités écrites. En dehors de l’orientation de droite à gauche, il repose sur un système qui peut être vocalisé ou non (Besse, Demont, & Gombert, 2007).

Le système orthographique de l’arabe standard moderne