M. P. S CHÜTZENBERGER
Sur les contraintes définissant certains modèles formels de langage
Mathématiques et sciences humaines, tome 4 (1963), p. 3-8
<http://www.numdam.org/item?id=MSH_1963__4__3_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1963, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
M. P.
SCHUTZENBERGER
SUR LES CONTRAINTES
DEFINISSANT CERTAINS MODELES FORMELS DE LANGAGE
L’un des objectifs partiels
de lalinguistique
est l’établissement de gram-maires, c’est-1-dire,
pour unelangue
naturelledonnée,
l’établissement d’un sys- tèmeexplicite
derègles qui permettent,
en théorie dumoins,
de décider pour toute suite arbitraire,de phonèmes
si cette suiteappartient
ou non è, l’ensembledes
phrases grammaticalement
correctes de lalangue
considérée.L’expérience
sem-ble indiquer qu’à
un certain niveau unepartie
de cesrègles
est d’une nature as- sezsimple
pourpouvoir
être discutée par desprocédés purement
fonnels. C’est làle cas des
règles d’emploi
desparenthèses
ou, si l’onpréfère,
leformalisme
de l’emboîtement dessyntagmes et
le but de cetexposé
est deprésenter quelques
ré-sultats obtenus dans cette direction par
N.CHCUSKY,
ses amis et leursélèves; je renvoie
auxtravaux
de cet auteur et G.A. MILLER pour une,bibliographie complète
- de la
question.
Comme lesproblèmes proprement linguistiques
ne seront pas abor- désici,
il sera commode d’utiliser les notations suivantesqui
nerisquent
pasd’entraîner
de confusion bien que les termes de "lettres" et de "mots" y soient utilisés d’unefaçon qui apparaîtra
sans douteincongrue
auxlinguistes.
Soit X
un ensemble fini dont les éléments sontappelés
conventionnellementdes lettres,
F l’ensemble de toutes lesséquences
finies que l’onpeut
former aveSc cesl.ettres,
y cesséquences
étant elles-mêmesappelées
desmots, Technique- ment,
F est lemonoïde
libreengendré
par X. Ceci veut dire que le mot vide(noté e) appartient
à F etqu’à
toutepaire
de motsf, f’
de F est associé leurproduit ff’,
c’est-à-dire pardéfinition,
le mot forméde
f suivi de f’. Nous supposerons désormais que les lettres de X sont indexées par les’ nombres+
i(1 i n
c’est-à-dire que X est l’ensemble
x-1’
x2, x_2, ..., xn,x-ni.
Unmot
fsera
.ditréduit s’il ne contient aucune
paire
de lettres consécutivesayant
des indices op-posés,
c’est-à-dire pourf = xi 1 ;
...xi
sii1 =1= -12,
ei2 =1= -’3
e ..., yim-1 =1= -Ïrn’
Il est clair
qu’à chaque
mot f onpeut
associer un motréduit,
disonsafy
1 obtenuen
effaçant
dans f toutes lespaires
de lettres consécutives dont les indices sontopposés
et enrépétant
cetteopération
aussilongtemps qu’elle
estpossible.
Par
exemple
,est
égal à j x2
à la suite desopérations
suivantes : effacement dex3 x-3
et dex-1 xi
cequi
donnex, x-2 x2 x2 ;
3 effacement deX-2 x2
cequi
donne finalementxi x.3 .
Onpeut
vérifier que l’ordre danslequel
sont effectuées lesopérations
d’effacement est sans effet sur le résultat final afqui
estdonc,
pourchaque f,
un mot bien défini. Plus
généralement,
f et f’ étant deux motsquelconques,
on al’ identité: a
(ff’ = ce (oe foef ’ ) .
Parexemple,
pour f =x~ x-2 x3 x.3
yet comme
plus
haut a(xi
x-2 x2x2) = ~ x~.
Cette construction définit un ensem-ble
D de motsprivilégiés:
ceux dont la forme réduite est le mot vide e ou, si l’onveut,
y ceuxqui peuvent
être réduits à rien par lesopérations
successives d’effacement. 8 Parexemple le" mot / "" -" , .
, , , "appartient
à Dpuisqu’avec
des notationsévidentés
l’on a :par
contre
le motobtenu en
permutant
les deux dernières lettres de fn’appartient
pasà
D parce .que af est le mot non vide
x, x2 Xi X-2e"
D est’définialgèbriquement
comme lenoyau de
l’homomorphisme j3
dé F~ sur legroupe
’libre(engendré
par l’ensembleX~
des x ~ X d’ indices
positifs) quai
satisfait pourchaque lettre xi
la conditionque p à_1
soitl’inverse de j3 x- (dans
legroupe évidemment).
~
’
, ,
Soit d’autre
part Xi
un sous-ensemble deX,
V un ensemble de mots de deux¥
lettres
et RV)
l’ensemble
de tous les motsde
Fqui ,commencent
par une let-tre de
X1
et dont aucunepaire
de lettres consécutives ne forme un mot de V. Par.
exemple POUr R = Xt
commeplus
haut et V =xi xj :
i 0j ,
R(~, V)
estl’ensemble des mots de la fonne ff’ où
toutes
les lettres de f ont des indices-positifs (ce
que l’on notera f 6F+)~
et oùtoutes les
lettres de f’ ont des in-dices négatifs.
Nousdirons
que 11enseàble
L = D n RV)
des motsappartenant
à la fois à D et à R
V) est
unlangage
CF(Context Free)
standard. Pour1.’ exemple qui vient
d’êtredonnée
L est fArmé de tous lesmots de
la forme fT oùf
appartient
àF,~
et oùf est obtenu
en "retournant"le ’mot f,
cequi
donnelf,
eten
remplaçant dams 7 chaque
lettre xi, par la lettre d’indiceopposé x-i,-(Par
exemple
pour f = x~. x1 x3 x2 , onpose 1
= x2 x3x1 x,
et f ~= x_2x_3 x-1 x_, ) .
Plus
généralement,
soit donné unhomomorphisme
cp de F danslui-même,
c’est-à-dire
pour
chaque
lettre xi de X un certain mot cpxi (éventuellement vide),.
Considérant .un
langage
CF. standard L on fonme l’ensemble
de tous les mots cp f où f estdans
Let ceci constitue ce que.. nous
appellerons
unlangage
CFgénéral.
Jerappelle
quesi . , , .
le
mot y
f est défini commelue produit
¡
et cp
n’est donc pas autre chose.qu’une règle systématique
de-réécriture., Repre-
nant
l’exemple
donnéplus
haut dé L =If-f : f ~ F+1
etposant
,pour
chaque xi X+,
y on obtient lelangage
M = f eF
formé des mots enmiroirs
(ou "palindromes) £1
dont la secondemoitié 1
estprécisément
lapremière
moitié "retournée". , /
’
, ~
°
°
’
La définition
qui
vient d’être donnée d’unlangage
CFgénéral.
n’est pas la définitionoriginale
de CHCMSKY mais il est facile de voir que ces deux défini- tions sont à très peuprès équivalentes.
Cette définition et les raisons pourlesquelles
ceslangages
sont dits "context free" sont données dansl’ouvrage
deCHCMSKY et MULLER
indiqué
en références.Ceci dit nous pouvons examiner les contraintes
qu’imposent
aux lettres d’un motl’hypothèse
que celui-ciappartient
à unlangage
CF donné Let,
y afin de sim-plifier,
nous supposerons que L est standard. Ces contraintes sont d’une double nature: lespremières
résultent del’appartenance
à RV)
etpeuvent
être considérées commepurement
locales en ce sensqu’un
être dont la mémoire se li- miterait à la dernière lettre luepourrait
vérifier pour uneséquence
arbitrairede lettres si elles sont ou non satisfaites. Il n’ est pas utile de
rappeler
les illustrationslinguistiques
oupseudo-linguistiques
bien connues de cetype
ex-. trêmement banal de contraintes
(Cf. plus bas).
Par
con.tre,
y les contraintesimposées
parl’appartenance
à D sont un peumoins
simples:
ellespeuvent
s’étendre aussi loin que l’on veut et elles néces- sitent engénéral
une mémoire non bornée. Eneffet, d’après
l’identitédeux mots
fl
etf 2
sont telsqu’il existe
un mot f" pourlequ.el f~ f"
etf~f"
ap-partiennent
simultanément àD,
si et seulement si on aoc f 1 =
ex.f2- Réciproque- ment, quand
cette relation est vérifiée pour tout f" tel quef1 fit
soit dans D ona aussi
f~f"
dans D. Parconséquent ayant déjà
lu unsegment
initialf 1
d’unmot,
il est nécessaire de conserve.r trace en mémoire au moins de sa forme réduite
af1
afin de
pouvoir
déterminer si le motcomplet f1 fit appartient
ou non à D. Notonsqu’il
existe(2n - 1)k - 1)
n(n - 1)-1
mots réduits distincts delongueur
auplus k;
donc pour vérifier par lectureséquentielle
degauche
à droitel’appar-
tenance à D d’un mot
quelconqu.e
delongueur
2k,
~.1 fautdisposer
d’une mémoi-re
pouvant
accumulerapproximativement
k(1
+Log2n)
bits d’information. En ou-tre,
yl’exemple
donnéplus
haut de- - -
montre
qu’une
fraction arbitrairementgrande
de ces informations doit être gar- dée en mémoire untemps
arbitrairementlong,
à savoirdepuis
le débutjusqu’à
lafin du mot. Par
contre,
et c’est cequi
faitpeut-être
l’intérêt deslangages CF,
les contraintes existant entre les lettres d’un mot de D n’interviennent chacune essentiellement
qu’une
fois et ne secroisent
pas les unes les autres. Soit parexemple
un mot f e D de la formefi xi f2
oùf1
né contient ni lalettre ;
nila lettre
x i.
Le motf 2
est soumis àla
condition d’avoir la formef 3 >~-i f4
oùf~
ne contient nixi ni x i
et où en outreoc f3=
e: c’est en ce sensque
nousdirons que la contrainte
imposée
par laprésence xi
nejoue
essentiellementqu’une
fois bien
qu’évidemment
ilpuisse
y avoir un nombre arbitrairementgrand
de let-tres
xi
dont chacuneimpose
l’existence ’d’une lettrex i qui
enpermet
l’efface-ment ultérieur. De
plus,
y dans ce mêmeexemple,
sioù
f5
ne contient aucune des lettresx+j’
le fait qu.e l’on doive avoiraf3
= eentraîne que
f6
soitégal
àf7 x_j f8
où cette foiscx.f7
= e. On a donc nécessai-rement :
avec
et,
y dans un sens assezévident,
la contrainte associée à la lettre xi"passe
par dessus" la contrainte associée à la lettrexj
sans se croiser avec elle.Par
contre,
l’ensemble des mots de la formeff,
avec f un motquelconque
deF+,
nepeut
pas être unlangage
CF(standard
ounon).
En effet ici les contrain-tes consistant en ce que
chaque
lettre de la seconde moitié du motcorrespond
àune lettre de la
première
moitiés’entre,croisent
et ilpeut
y avoir un nombre ar-bitrairement
grand
de telles intersections(ceci
n’est évidemment pas une preuve formelle queff: f E F+ 1
n’est pasCF).
De même on montrerait que les ensembles de mots:et
sont tous deux des
langages
CF maisqu’il
n’en est pas de même de leur intersec-tion
1 N
On
pourrait
illustrer à l’aide derègles
tirées de lagrammaire
delangues
naturelles ces deux
contre-exemples
et cecimontrerait,
s’il lefallait,
que les contraintesde type
CF ne concernentqu’un
horizon limité de la réalitélinguis- tique.
Une fois encore,je
me bornerai à renvoyer aux travaux de CHCMSKY pourune discussion
approfondie
de cesproblèmes,
y de la valeurexplicative
enlinguis- tique
desrègles
CF et enfin de leur rôle dans la construction degranmaires
moinsformelles.
Cependant
il convient derappeler
que dès le niveau deslangages CF, les,questions
lesplus
évidentessont,
engénéral,
indécidables au senstechnique
du terme.
Ainsi,
y BarHillel,
Perles et Shamir ont montré à l’aide du contre-exem-ple classique
de Postqu’il
n’existe aucunalgorithme pennettant
de décider pour deuxhomomorphismes cp 1
et cp2quelconques
si leslangages
CF, -- ,
et
ont ou non au moins un mot en commun.
D’autre
part,
il résulte des définitions que la mémoire d’undispositif
des-tiné à tester
séquentiellement l’appartenance
des mots à unlangage
CF standard donné n’est utilisée que d’une manière extrêmement restreintequi rappelle
cer-tains
aspects
élémentaires de latechnique
deprogramma,tion
connue sous le nomde
"push
downstorage" .
Defaçon schématique, (en
laissant de côté la mémoirebornée
qui
vérifiel’appartenance
à R yV))
si a f est le motenregistré
en mé-moire
après
la lecture dusegment
initialf,
et. si la lettre suivante estx1~
ilsuffit
d’ajouter
celle-ci à la fin de a fquand
af se termine parx. où j
-i, J
et d’effacer
xj
dans le cas contraireoù j =
-i. Cetteprocédu.re
ne nécessitedonc en fait que la considération de l’extrémité finale du mot mis en
mémoire,
d’où le terme
"push-down".
.Il existe bien entendu d’autres
types
de contraintes définissant des familles delangage
et lesplus
étudiées d’entre elles constituent ce que l’onappelle après
KLEENE les
évènements réguliers, qui contiennent
enparticulier
tous leslangages n’ayant qu’un
nombre fini de mots et leslangages
de la forme R(X1,
yV)
utilisésplus
haut. Avec nosnotations,
tout évènementrégulier
P est obtenu. enprenant
unsous-ensemble
X1
deX~",
un ensemble V contenant tous les mots de deux lettresxi xj
avec inégatif et j positif,
cequi
donne un certainlangage
CF standarddont, finalement,
P seral’image
par unhomomorphisme
cp tel quecp xi
soit le motvide pour chacun des i
négatifs.
Plussimplement,
onpeut.
définir P commel’image homomorphique
de R(X’ 1,
Yvty X’ ~)
oùl’homomorphisme
cp, n.1 est soumis à aucune res-triction et où l’événement
régulier
R(X’1’
Yvt X’ ~)
est l’ensemble des mots com-mençant
par une lettre du sous-ensembleXI1
deX, n’ayant
aucun facteur de lon-gueur deux dans Vu et se tenninant par une lettre du sous-ensemble
X’2
de X.Donc,
pour les évènements
réguliers,
y il estpossible
deremplacer
toutes les contraintes résultant del’appartenance
à D par la seule contraintesupplémentaire
que le motse tennine par une lettre
appartenant
à un ensembledistingué.
Defaçon plus
di-recte,
KLEENE avait défini un évènementrégulier
comme un ensemble P de mots telqu’il
soitpossible
de reconnaître si un mot arbitraireappartient
à P par lectu-re
séquentielle
de cemot,
en ne J Lrdant en mémoire àchaque
lettrequ’une
quan-tité d’information bornée par une valeur finie
(ne dépendant
que deP).
Par
exemple,
l’ensemble de tous les mots delongueur paire qui
ne contien-nent pas
plus
de trois fois la lettre x2 fonne un évènementrégulier puisque l’ap-..
partenance
à Ppeut
être reconnue en negardant
en mémoire pourchaque segment
initial que la
parité
de lalongueur
de cesegment (soit
1 bitd’infonmation)
etle nombre
(au plus égal
à3)
de fois oùx~
estdéjà
apparu(soit
2 bits dtinfor-mat ion) .
Ceci
équivaut
à dire que P est un évènementrégulier
si et seulement si ilest
l’image
inverse d’un sous-ensemble del’image
de F par unhomomorphisme
de ce monolde dans un monoide fini.Donc,
cesqu.estions qui
étaient enrègle générale
indécidables pour les
langages
CFgénéraux
deviennent icisusceptibles
d’une so-lution
algorithmique
pa,r exhaustion de tous les caspossibles
dans un certain en-semble fini. Cette
propriété
essentiellequi
semble avoir fasciné lesesprits épris
definitude, permet
de rattacher trèssimplement
aux évènementsréguliers
les
"grammaires probabilistes"
n’utilisantqu’un
nombre fini d’états(ce
sont les"finite state sources" de
SHANNON)
c’est-à-dire en gros- les schéma,s ma,rkoviensfinis)
et propose leproblème
de discuter lafaçon
dont une tellegrammaire peut approcher
unlangage
CF propre. ’Intuitivement,
y il semble bien évidentqu’un langage
tel que l’ensemble M =If?, :
f EF+}
des mots en miroirqui joue
un r8le central dans l’étude deslangages
CF nepuisse
êtreapproché
que defaçon
tout-à-fait triviale par un évè- nementrégu.lier
R. Eneffet,
y en dénotant par etqk
le nombre des mots delongueur
k deM,
Ret Q =
R (~M,
on voit facilement que :1)
soitQ
ne constituequ’une
fractionasymptotiquement
nulle de M en cesens que k
(par exemple,
y si R est contenu dansM) ;
2) soit,
aucontraire, Q
est une fractionasymptotiquement
nulle deR, (par exemple,
si M est contenu dansR).
Plus
généralement
soit A = cp L unlangage
CF(non
nécessairementstandard)
satisfaisant la condition restrictive que chacun de ses mots soit
l’image
par c~d’un seul mot du
langage
standard L et cherchons àl’approximer
par uneséquence
infinie strictement croissante d’événements
réguliers Ri (i = 1, 2 ~ ... )
touscontenus dans A. Pour
chaque
i la valeur de cetteapproximation
est fournie par la suite des différencesak - r. k (où ak
rik sont,
commeplus haut,
le nombredes mots de
longueur
k de A et deRi )
soit encore, defaçon
cendensée par leavec
ce
qui
revient à faire une moyenne(pondérée
par lesxk)
de toutes ces différen-ces.
Or,
pourchaque i, ri
est une fraction rationnelle dont ledénominateur pi peut
être considéré comme une évaluationgrossière
de lacomplexité
deRi
c’est-à-dire
de laquantité
d’informationqu’il
fautpouvoir garder
en mémoire afinde,
tester
l’appa,rtenance
d’un mot àRi. Moyennant
cesinterprétations
et le fait ai- sément vérifiéque
un nombrealgébrique,
ydes
théorèmesclassiques
d’arith-métique
montrent que pourchaque
valeur Ede â -
rie il n’existequ’un
nombre finide
Ri
dont la"complexitétt -
soit inférieure à une certaine fonction(donnée
par lethéorème)
due 6. C’ est là le résultat cherchéqui suggère
comme une sorte decomplémentarité
entre les contraintes CF et les contraintescorrespondant
aux mé-moires bornées. ’
Enfin,
sur leplan
des faitslinguistiques observables,
la nécessité, d’uneapproximation
deslangues
naturellesplutôt
par deslangues
CF quepar
cesmodè-
les à mémoire finie que sont les évènements
réguliers
semble avoir été admise im.:...plicitement
par les techniciens de la traductionautomatique eux-mêmes
ypuisque
tous les programmes
présentés jusqu’ici
sont basés sur des méthodesqui
sont es-sentiellement du
type "push
down"évoqué plus
haut. Il me semble y avoir là unecertaine ironie des choses sur
laquelle je
concluerai ces remarques.REFERENCES:
N. CHOMSKY and G. A. MILLER. Introduction to the formal
analysis
of natural lan-guages in "Handbook of Mathematical