R AZEQ A FZALI
A LEXANDRE A NDREEWSKI
Traitement automatique de la vocalisation en dari
Mathématiques et sciences humaines, tome 115 (1991), p. 67-75
<http://www.numdam.org/item?id=MSH_1991__115__67_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1991, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
TRAITEMENT
AUTOMATIQUE
DE LAVOCALISATION EN
DARI1 Razeq AFZALI2
Alexandre
ANDREEWSKI
RÉSUMÉ 2014
On étudie dans ce travail,grâce
à un traitement automatique, leproblème
de la reconstitutionvocalique
à partir de l’écriture traditionnelle du dari (persand’Afghanistan).
On montre en
particulier
que cette écriture est très discriminante etqu’à
partir d’uneforme
consonantique donnée,la forme vocalique
correspondanteest fortement
déterminée.On décrit la
méthodologie générale
suivie et on donne les statistiques correspondantes pour unlexique
detaille moyenne et en voie de développement.
Les résultats de notre démarche corroborent notre hypothèse de travail : en effet, la différence entre oral et
écrit est telle que, quand l’ on passe de l’oral à l’ écrit, la
performance
individuelle joue un rôlepertinent face
à untexte donné
ambigu graphiquement
en persan.SUMMARY 2014 Automatic data
processing
of the vocalization in dari(persian
language ofAfghanistan).
In this article, is studied, thanks to an automatic data processing, the
problem of
the reconstitutionof
the wovelsystem,from
the traditional writingof
the dari (persianlanguage of Afghanistan).
It’s shown that this writing is very discriminant and that
from
a given consonantalform
thecorresponding vocalic form
isstrongly definite.
The methodology is described and we give the corresponding statisticsfor a medium size and
developing
lexicon.The results of our study corroborate our
hypothesis :
the individual performance, when we pass from oral to writing, has a pertinentpart facing
a given text graphicallyambiguous.
1. INTRODUCTION
Le dari
(persan d’Afghanistan
est une deslangues indo-européennes
accusatives dutype
indo- aryen dont l’écriture(voir III) n’explicite
que les consonnes et lessemi-voyelles
et lesvoyelles longues
mais pas lesvoyelles
brèves. Dans tout cequi suit,
nousdésignerons
cette écriture par lesigle [C,SV,VL] (où
Cdésigne
les consonnes, SV la seulesemi-voyelle
et VL lesvoyelles longues) (voir III).
Bien que lesvoyelles
brèves ne soient pasécrites,
pour la commodité de1 (Litt. "langue de la cour"), c’est une appelation pour distinguer le persan en usage en
Afghanistan,
du persan d’Iran. De ce fait, c’est la langue de la littérature, de l’Université, des mass medias et de l’administration. A ceniveau, elle ne diffère du persan d’Iran que par des faits lexicaux et, dans une moindre mesure,
morphosyntaxiques, qui
ne gênent pas l’intercompréhension.2 Docteur en linguistique
automatique, chargé
de cours à Paris IV et à l’UTC, a travaillé, en tant que chercheur associé, sur lesproblèmes
de la traduction automatique au CELTA-CNRS(Nancy)
etpoursuit
actuellement sesrecherches en
linguistique générale
orientée vers les sciences cognitives et lalinguistique computationnelle
auCAMS-EHESS-Paris-Sorbonne.
3 Docteur es-sciences, travaille sur les problèmes de
linguistique informatique.
Il est père (avec C. FLUHR) du système d’indexationautomatique
etd’Interrogation
enlangage
naturel. Il travaille actuellement au L.I.M.S.I.(CNRS-Orsay)
elle a été dérivée du
syllabaire
akkadien etcomporte trente-sept signes,
dont un pour marquer laséparation, auxquels s’ajoutent quelques idéogrammes 4 .
La reconstitution des
voyelles
brèves àpartir
d’ungraphisme [C,SV,VL]
c’est à dire le passage de[C,SV,VL]
à[C,SV,VL,VB] exige
de lapart
du lecteur un effortlexical, syntaxique
etsémantique qu’il
réalise en tenantcompte
du contexte et de sa culturegénérale.
C’est dans le but de
pouvoir évaluer,
dans ceteffort,
lapart respective
dulexique,
de la syntaxe, de lasémantique,
que nous avonsentrepris
cette étude.2.
HYPOTHÈSE
DE TRAVAILDans ce
qui suit, seul l’aspect morphologique
de la reconstitutionvocalique
est étudié et ce, nonpas à
partir
dugraphisme complet [C,SV,VL] qui
estexplicitement
écrit etqui
est, trèssouvent, non
ambigu,
mais àpartir
d’ungraphisme
de consonne et desemi-voyelle
ordonnées[C,SV]. Ici,
il y a lieu desouligner
que Cdésigne
la consonne mais SVdésigne
la semi-voyelle qui,
comme onsait,
intervientparfois
commevoyelle
etparfois
comme consonne. Maisdans notre
notation,
le groupe[C,SV],
seratoujours
considéré comme constitué de consonnes.Le
graphisme [C,SV]
est bien entenduplus simple,
quant à sonécriture,
maisbeaucoup plus complexe
quant à sa reconstitutionvocalique.
Dans notretravail,
cegraphisme [C,SV]
a uncaractère
purement théorique, puisque
lesvoyelles longues
sonttoujours explicitement
écrites eten tant
qu’outil théorique,
il permetd’approfondir
la relation entre lelexique
et sareprésentation graphique.
L’étude de cegraphisme
n’estcependant
pasfortuite,
car, en persan,l’expérience
des
spécialistes
montrequ’une
écriture du type[C,SV]
permetaussi,
dans unelarge
mesure,une identification du texte. Par
conséquent,
la réduction dugraphisme [C,SV,VL]
augraphisme [C,SV]
bienqu’artificielle, permet
d’effectuer d’unefaçon plus approfondie
larelation entre
lexique, système consonantique
etsystème vocalique.
Illustrons,
à l’aide d’un certain nombred’exemples,
notrehypothèse
de travail.1.1.
Correspondance biunivoque
entrelexique
etgraphisme [C,SV]
Il existe des mots comme
/LA KR/ graphisme
de la forme(C.C.C.C.)
dutype [C,SV] qui correspondent
d’une manièrebiunivoque
au mêmeparadigme lexical,
déterminé ou indéterminé :/LaAKaR/
les ou des troupes(ce
mot a donné enfrançais "lascar" )
ce
qui signifie
que legraphisme consonantique
du mot est discriminant dupoint
de vuelexico-sémantique
etqu’il n’y
a pas nécessité deprocédure syntaxique
ousémantique
pour identifier le motparadigme.
Par contre, le choix déterminé-indéterminé à l’intérieur du mêmeparadigme
s’obtient par le contexte.1.2.
Correspondance
nonbiunivoque
entre[C,SV]
et[C,SV,VL]
a)
Ce que l’on écrit/MâLK/ { graphisme
de la forme(C.VL.C.C)
est dutype [C,SV,VL] } , peut, après vocalisation,
être lu/MâLèK/.
Par contre, si l’on retire lavoyelle longue /â/
du motsource
/MâLK/,
legraphisme
MLK devientambigu
et fournit les mots suivants :4 MOINFAR, M. Dj., 1987, Ch.O, p.20.
b)
Le mot/BâND/, qui représente
uneséquence
de la forme(C.VL.C.C) correspondant
à ungraphisme
du type[C,SV,VL]
est nonambigu.
Enrevanche,
lasuppression
de lavoyelle longue /â/
fournit la forme/BND/
dutype [C,SV] qui, après vocalisation, produit
les motssuivants de la
langue :
c)
Même situation pour le mot/aWLâD/
de la forme(VL.SV.C.VL.C) qui
engraphisme
dutype
[C,SV]
s’écrit/WLD/ auquel correspondent:
1.3.
Graphisme
etpolymorphisme
Nous avons dit que le
graphisme [C,SV,VL]
est très souvent nonambigu.
Il existedonc, cependant,
des casd’ambiguités
c’est-à-dire des cas où à[C,SV,VL] correspondent plusieurs
formes
(C,SV,VL,VB 1), (C,SV,VL,VB2)
etc. Parexemple :
/BâR/,
àpartir
de notrealgorithme
d’insertion devoyelles (voir IV),
estpolygraphique
etproduit
les mots suivants :
(ici,
"à" dans/bâr/
est unevoyelle longue
et s’écritexplicitement
dans legraphisme [C,SV,VL]
mais elle ne s’écrit pas dans un
graphisme
de consonnesseules).
Par contre,/BRNJ/
n’est paspolygraphique après
vocalisation etproduit
le mot suivant :/BRNJ/ 9 /BèRèNJ/ qui, cependant,
lui est encorepolysémique
etsignifie
riz ou laiton. Il y adonc,
dans ce cas, réduction totale de lapolygraphie
mais pas de réduction de lapolysémie.
Cet
exemple
montre que dans lacorrespondance :
on doit introduire le
concept
intermédiaire depolygraphisme,
c’est à dire:D’une
façon générale, l’expérience linguistique
et lapragmatique
dulangage
montrentqu’en
persan,
plus
il y a de consonnes dans un mot etplus s’affaiblit
lapolysémie
dugraphisme [C,SV,VL]
et aussi lapolysémie
dusimple graphisme consonantique.
Celasignifie
que, pourl’essentiel,
l’étude de lapolysémie
dugraphisme [C,SV]
peut se réduireaux formes
binaireset trilitères.
Compte
tenu des remarquesprécédentes,
nous nous sommesorientés,
toutd’abord,
versl’étude des
graphismes [C,SV,VL]
et nous avons cherché à traiter les mots lesplus polysémiques,
en commençant par les formes de 3 consonnes car ces dernières sont lesplus fréquentes
en dari.Il faut bien
souligner
que legraphisme consonantique
estplus polysémique
que legraphisme [C,SV,VL] complet,
mais ilpermet
de donner un caractèresystématique
à notre étude.3.
TRANSCRIPTION 5
Pour la réalisation de notre
travail,
nous avons choisi lesystème
detranscription suivant,
entenant compte des contraintes
imposées
par les claviers des ordinateurs que nous utilisons desorte que
chaque graphème
nereprésente qu’un
seulphonème
du dari. Il diffère de celuiemployé
par leslinguistes européens
travaillant sur le persan.a)
Latranscription
desvoyelles
du dariRemarque.
(1,2,3,4,5) représentent
lesvoyelles longues
et(6,7,8)
cellesqui
sont brèves. Celles-ci àl’exception
de/a/
à l’initiale ne s’écrivent pas.5 AFZALI, Razeq, 1986, Ch.II,
pp.34-46.
b)
Latranscription
des consonnes du dariRemarques.
L’opposition
desmajuscules
et des minuscules étant inconnue dans l’écriture dudari,
nousavons utilisé les
majuscules
etquelques signes spécifiques
pour transcrire les consonnes. Demême, plus haut,
les minuscules sont utilisées pour lareprésentation graphique
desvoyelles.
En
dari,
il y a troiscatégories
dephonèmes homophones
nonhomographes :
1.
( 10,12,17,19 ) qui représentent
lephonème /z/.
2.
( 4, 14, 16 ) qui représentent
lephonème /s/.
3.
(3, 8 ) qui représentent
lephonème /t/.
4.
MÉTHODE UTILISÉE
4.1. Pour décrire la méthode prenons, par
exemple,
le cas d’une formeconsonantique
trilitère(C.C.C).
Pour bien illustrer cette
méthode,
nousénonçons
d’abord lesrègles
de vocalisation suivante(qui
constituent les éléments de base d’unalgorithme
d’insertion devoyelles) :
dans tous les cas,les formes suivantes sont
possibles
dans uneexpression
trilitère(C.C.C) :
mais la forme
(C.C.V.)
n’estpossible
que si lapremière
consonne n’est pas initiale dans lemot.
Un ensemble de trois consonnes ordonnées étant donné
(par exemple MLK),
on peut, àpartir
de cetterègle
d’insertion devoyelles (
danslesquelles
l’hiatus6 estexclu),
obtenir la listecomplète
de toutes les formes de mêmes consonnes et devoyelles
différentes : parexemple MaLaK, MoLoK, MuLuK, MiLiK, MâLâK, MèLèK, MùLùK ...).
6 L’hiatus est absent en dari.
Le schéma de
comparaison
esttoujours
le suivant :Remarque.
Cette création
automatique
se fait en fonction desvoyelles
rencontrées dans les mots rentrés dans le dictionnaire en ordrealphabétique consonantique,
cequi n’implique
pas de contrainte d’ordre pour lesvoyelles.
4.2. Pour décrire la
productivité
de laprocédure
de vocalisationformelle,
on définit alors lerapport
de Productivité de Vocalisation Formelle(PVF)
pour l’ensemble destriplets consonantiques
formels et ce comme suit:a)
soit NVP = Nombre deconfigurations
deVoyelles
Productivespossibles,
c’est à dire donnant lieu à un mot de lalangue
dans untriplet
de consonnes. NVP est obtenuautomatiquement
àpartir
du dictionnaire vocalisé que nous avons constitué manuellement. Le calcul donne NVP=73 cequi signifie qu’il
y a en tout 73configurations
de suites devoyelles qui apparaissent
dans au moins untriplet
de consonnes données. Cesconfigurations
comprennent
d’une àquatre voyelles (ci-dessous
ondésigne par ~
une occurence éventuellenon-occupée
par une des 8voyelles).
1.
Exemples
avec unevoyelle /è/ (11 apparitions
dans notrecorpus) :
7 Le dictionnaire comprend les possibilités suivantes :
- recherche d’un mot à
partir
d’un ensemble de consonnes ordonnées entrées à l’écran ;ajout
et suppression d’unmot donné ; liste de n-uplets de consonnes ; possibilité de faire les
statistiques
suivantes : 1) nombre de mots du dictionnaire ; 2) nombre de triplets de consonnes ; 3) nombre desingletons
de voyelles ; 4) nombre de doublets devoyelles ; 5) nombre de triplets de voyelles ; 6) nombre de quadruplets de voyelles ; 7) nombre de mots
possibles ;
8) nombre de configurations de voyellespossibles.
2.
Exemples
avec deuxvoyelles /èi/ (5 apparitions) :
Remarque.
Dans KèRiM et KèRMi la
configuration
desvoyelles
n’est pas la même si l’on tientcompte
dusymbole ~ .
Dans lepremier
cas ona : ~ èi ~
et dans le deuxième cas ona : ~ è~ i.
De cefait,
cetteconfiguration
estcomptée
deux fois.3.
Exemples
avec troisvoyelles /oaâ/ ( 3 apparitions) :
4.
Exemple
avecquatre voyelles /âaii/ (1 apparition) :
b)
soit NTV=Nombre Total(
desingletons, doublets, triplets
etquadruplets)
deVoyelles
insérées dans les
triplets
de consonnes.’
Par
définition,
on a NTV = 9*9*9*9 = 6561(il
y a, eneffet,
4places possibles
dans untriplet
de consonnes pour chacune des 8voyelles
dupersan,
auxquelles
il fautajouter
pour larigueur
du calcul l’absence devoyelle
matérialisée par lesymbole à . )
On pose par définition que le
rapport
PVF estégal
àc’est à dire que dans le cas de la vocalisation relative à des
triplets
de consonnes on a :5.
RÉSULTATS STATISTIQUES
OBTENUS EN FONCTION DES CALCULSOPÉRÉS
5.1.
Degré général
du dictionnaire par rapport auxconfigurations
devoyelles
6. CONCLUSION
Les deux
rapports
NMDIINMP et PVF = NVPINTV sont très faibles cequi
montrequ’il
y a d’emblée une contraintevocalique
au niveau lexical solidaire dugraphisme [C,SV,VL] . Donc,
on ne rencontre pas
n’importe quelle
successionvocalique
et, deplus,
la successionvocalique
est solidaire de la succession
consonantique
pour une suite de consonnes déterminée. Sur les 73 formesvocaliques productives,
toutes ne sont paspossibles
avecn’importe quelle
suited’éléments
représentant
un mot de lalangue.
Parexemple,
on peut avoir:Cela
signifie
que la combinaisonconsonnes-voyelles
est trèsrestrictive,
et quetypologiquement
il
n’y
apresqu’aucune
formevocalique qui,
d’unefaçon universelle, pourrait
êtrecompatible
avec toute forme
(V.C.V.C.V.C.V.)
et donc a fortiori[C,SV,VL].
Celapermet
partiellement
decomprendre pourquoi
en dari onpeut
ne pas écrire lesvoyelles brèves,
car letravail de reconstitution d’une forme lexicale
complète
pour undariphone
àpartir
d’une forme(C.SV.VL.)
se trouve, de par lespropriétés
mêmes dulexique,
très facilité.On se propose, dans une étude
ultérieure,
d’examiner la diversitésémantique générée
par un mêmegraphisme
ordonné[C,SV,VL]
trilitère. Car nous l’avions vu, si lepolygraphisme
desformes trilitères est assez
faible,
cela nepréjuge
pas dudegré
de leurpolysémie.
Enparticulier,
on étudiera les traits
sémantiques
communs aux diverses formes vocaliséesqui correspondent
àun
graphisme [C,SV,VL]
donné ou à ungraphisme consonantique
donné.BIBLIOGRAPHE
AFZALI, Razeq, Analyse morphosyntaxique automatique
du dari( persan d’Afghanistan)
etmise au
point
d’unsystème d’interrogation
de bases de données textuelles enlangage naturel,
Thèse de
doctorat, Paris-Sorbonne, 1986,
250.ANDREEWSKY, Alexandre, FLUHR,Christian,
"Leslangages
naturels. Pour l’accès auxbanques
de donnéestextuelles",
in Conventioninformatique, Paris, septembre
1982.CATACH, Nina,
Laphonétisation automatique du français, Paris,
éd.CNRS, 1984.
SAUSSURE,
Ferdinand(de),
Cahiers Ferdinand deSaussure, Genève, Éditions universitaires,
1941.
JAKOBSON, Roman, "Principes
dephonologie", appendice
1 desPrincipes
dephonologie
deN.S.
TROUBETSKY, Paris,
1949.JAKOBSON, Roman, WAUGH, L.,
Lacharpente phonétique
dulangage,
trad. par A.Kihm, Éd.
deMinuit, 1980.
LAZARD, Gilbert,
Grammaire du persancontemporain, Paris, Klincksieck, 1957, 297.
MOINFAR, M.Djafar, "Phonologie quantitative
dupersan",
in Documents deLinguistique Quantitative, 16, Paris, Jean-Favard, 1973,
256.MOINFAR, M.Djafar,
"Grammairecomparée
de l’arabe et du persan,premier
fascicule :grammaire
del’arabe" ,
in Documents deLinguistique Quantitative, 12, Paris, Jean-Favard, 1973, 256.
MOINFAR, M.Djafar,
"Grammairecomparée
de l’arabe et dupersan",
deuxième fascicule :grammaire
dupersan",
in Documents deLinguistique Quantitative, 34, Paris, Jean-Favard, 1978, 256.
ORANSKIJ, J.M.,
Leslangues iraniennes, Paris, Klinsksieck, 1977.
ROMAN, A,
Grammaire del’arabe, Que sais-je ?, Paris,
Presses Universitaire deFrance,
1990.