M ATHÉMATIQUES ET SCIENCES HUMAINES
M ORRIS S ALKOFF
Analyse syntaxique automatique utilisant une grammaire en chaîne (« string grammar »)
Mathématiques et sciences humaines, tome 35 (1971), p. 19-30
<http://www.numdam.org/item?id=MSH_1971__35__19_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1971, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme
ANALYSE SYNTAXIQUE AUTOMATIQUE UTILISANT
UNE GRAMMAIRE EN CHAÎNE (STRING GRAMMAR)1
par
Morris SALKOFF 2
Lorsqu’on
désireanalyser
unephrase
à l’aide desrègles explicites,
il est alors nécessaire de substituer àl’analyse
intuitive un programmed’analyse explicite,
c’est-à-dire unalgorithme
dont une des tâches serait de donner toutes lesanalyses syntaxiques
de laphrase analysée (si
laphrase
« hors contexte » estambiguë,
il y a
plusieurs analyses possibles)
et ensuite de choisirl’analyse qui
soitcompatible
avec le contexte.Z. S. Harris a
proposé
le modèle des «grammaires
en chaine >a. Unegrammaire
en chaîne est unexemple
de programme
d’analyse
de toutes lesphrases
d’unelangue
donnée(ici
lefrançais) ;
ellefournit
uneanalyse exprimée
dans unemétalangue
abstraite par rapport à lalangue objet.
C’estcependant
uneanalyse qui
reste très liée aux structures de
surface.
J. P. Desclés
1. INTRODUCTION
La
plupart
desgrammaires
utiliséesjusqu’à
maintenant dans des programmesd’analyse syntaxique
sur ordinateur sont basées peu ou prou sur la
grammaire
en constituants immédiats(IC) développée
aux
États-Unis
dans les années quarante par l’école delinguistique
distributionnelle ~. Lesanalyses produites
par ces programmes laissent àdésirer,
enparticulier
en cequi
concerne lajustesse
desanalyses.
En
effet,
cetype
degrammaire (IC) présente
un inconvénientmajeur :
la difficulté del’incorporation
dans la
grammaire
desphénomènes grammaticaux discontinus, représentés,
parexemple,
par l’accordgrammatical
entresujet
et verbe :.. a)
Les hommes sont ici( ° b)
*Les hommes est iciou l’accord entre le
sujet
et leprédicat
d’être :(1 2) a)
Cet homme est courageux(
°)
b)
* Cet homme est courageuse.Ici,
ce sont lesmorphèmes singulier-pluriel (ou féminin-masculin) qui
sontdécoupés
en deuxparties
non
contiguës :
une moitié sur lesujet
et l’autre sur le verbe(ou
sur leprédicat).
1. Cet article a été réalisé en partie avec l’aide de la DGRST, contrat nO 69.01.591 ; l’article représente le développement
d’une conférence donnée en août 1970 à l’École d’Été de Pise, dirigée par A. Zampolli.
2. CNRS, Laboratoire d’Automatique Documentaire et de Linguistique, 23, rue du Maroc, Paris, 19e.
3. Voir par exemple, le programme et la grammaire de S. Kuno. L’équivalence entre les diverses grammaires utilisées dans
ce genre de travail est démontrée dans Gross [2].
On
représente,
dans lesgrammaires IC,
les structuressyntaxiques
par desrègles
de ré-écritureimbriquées
les unes dans les autres : .où
...
Un programme
d’analyse,
ouanalyseur syntaxique,
utilisant le modèle desgrammaires
IC a la structured’un automate à mémoire en
pile
1. Dans un telanalyseur,
les niveaux successifs dedéveloppement
de laphrase (de
larègle
pour Ph dans( 1.3))
sont stockés les uns sur les autres dans la mémoire centrale de l’ordinateur. Au moment donc où il faut vérifier un accord comme(1.1)
ou(1.2),
les deux élémentsassujettis
à cet accord -GN1
dans(1.3) a)
et Y dans(1.3.) b)
- se trouventséparés
par au moins unniveau dans la mémoire en
pile.
Enréalité,
unegrammaire
IC élaborée avecplus
de détails auraitdavantage
derègles
intervenant entre(1.3) a)
et(1.3) b) ; il
serait parconséquent
très difficile de« remonter » de V à
GN1
afin de vérifier l’accord. Eneffet,
il n’estguère
commode de manier par pro- gramme les divers niveaux de la mémoire enpile.
Notons
cependant, qu’il
n’est pasimpossible
d’examiner les niveaux d’unegrammaire IC,
maisles difficultés de
programmation qu’il
faut surmonter sont tellesqu’en pratique
un maniement de cegenre n’a
jamais
pu êtreincorporé
dans cetanalyseur.
Comme on le verraplus loin,
le fait de nepouvoir
vérifier des accords du genre
(1.1)
et(1.2)
amènel’analyseur
à sortir de faussesanalyses
desphrases
étudiées.
Afin d’éviter ces
problèmes,
Z. S. Harris a défini un nouveau type degrammaire,
lagrammaire
en chaîne 2
(en anglais : string grammar).
Dans cettegrammaire,
les élémentsgrammaticaux
ayant unlien entre eux
figurent
dans la même structuresyntaxique (chaîne)
de lagrammaire.
On évite ainsi lesdéboires décrits à propos de la
grammaire
IC :GNl
etV,
dansl’exemple
étudiéplus haut,
seront membres d’une même chaîne et se trouveront donc au même niveau. L’accord sera alors facile àvérifier,
ainsi quetous les autres
phénomènes grammaticaux
entre éléments discontinus. Eneffet,
ces derniersfigurent toujours
dans une même chaîne.L’ensemble de ces contraintes
grammaticales
constitue unepartie importante
d’unegrammaire
en
chaîne 3 ;
on verra dans3, qu’un analyseur
utilisant unegrammaire
en chaîne ainsi construite nesortira aucune fausse
analyse. Néanmoins,
desproblèmes
difficilessubsistent ; l’analyseur
n’est doncpas encore un outil de travail
parfait (voir 5).
J)
2.
ESQUISSE
D’UNE GRAMMAIRE ENCHAINE
L’hypothèse
de base est la suivante : il estpossible
dedécomposer chaque phrase
correcte de lalangue
en une chaîne centrale
accompagnée
dezéro,
un ouplusieurs ajouts.
Une chaîne centrale est uneséquence
de
catégories grammaticales
telle que :(i)
Cetteséquence,
où l’on aremplacé chaque catégorie grammaticale
par un motappartenant
à cettecatégorie,
est unephrase
de lalangue ;
1. Voir Hays, D.G.
2. Harris, Z. S. (voir bibliographie).
3. Un abrégé d’une grammaire en chaîne de l’anglais est donné dans le livre de Harris, cité dans la bibliographie. Pour une grammaire plus détaillée, l’attention du lecteur est attirée sur deux rapports du Linguistic String Project à New York, dans la
bibliographie.
(ii)
Aucunecatégorie grammaticale
ne peut être enlevée sans que la chaînecentrale, privée
de cettecatégorie, perde
son statut dephrase
de lalangue.
Un
ajout
est uneséquence
decatégories grammaticales qui
a sa structure propre et un statut défini de lafaçon
suivante :(i) L’ajout
peut être inséré àgauche
ou à droite d’un élément de la chaînecentrale,
ou d’unajout ; (ii) L’ajout
est facultatif dans la chaîne où ilfigure.
L’insertion d’un
ajout
dans une chaîne nechange
pas le statut de cette chaîne.Grosso
modo,
on peut considérerqu’une
chaîne centrale est lesquelette
d’unephrase
et lesajouts
sont les modifieurs des
catégories grammaticales
de la chaîne centrale. Ainsi dans laphrase : (2.1)
Legrand
camion rouge roule trèsrapidement
il y a une chaîne centrale Le camion roule - une occurrence du type N t V avec trois
ajouts : grand,
un
adjectif ajout
àgauche
deN ;
rouge, unadjectif ajout
à droite deN ;
etrapidement,
un adverbeajout
à droite de t Y. Ce dernierajout
contient lui-même unajout
àgauche,
l’adverbe très. Notez que lesajouts
sont facultatifs dans la chaîne où ilsfigurent, c’est-à-dire,
leurprésence
n’est pas nécessaire pour que cette chaîne soit bien formée : la chaîne centrale le camionroule,
sans aucunajout,
est aussi bienformée que
(2.1).
De la mêmefaçon,
très est facultatif dansl’ajout
où ilfigure.
Définissons maintenant
quelques-uns
desajouts
de lagrammaire.
Soit : ·
(2.2)
Y =Xl X2 ... X.
une chaîne centrale de lagrammaire.
J’utilise les
symboles
gx etdix
pour noter unajout
àgauche
ou à droite de lacatégorie grammaticale X : (2.3)
- 9N Unajout
àgauche
du nomN,
ou unajout
inséré àgauche
d’un autre gN.Ainsi,
dans laséquence élégante,
bellefemme,
belle est un gN =A, ajout
àgauche
defemme,
etélégante
un gN =
A, ajout
inséré àgauche
dupremier ajout.
-
dN
Unajout
à droite du nomN,
ou unajout
inséré à droite d’un autredN. Ainsi,
dans laséquence
un vinfin
deBordeaux, fin
est undN
=A, ajout
devin ;
de Bordeaux est undN
=PN, ajout
devin,
inséré à droite dupremier dN.
- gA Un
ajout
àgauche
del’adjectif. Ainsi,
dans une trèsélégante femme,
très est un gA = D deélégante.
-
dA Ajout
à droite del’adjectif.
Dansresponsable
de sa perte, de sa perte est undA
= PN deresponsable.
-
gy,dy
Desajouts
àgauche (à droite)
du verbe(et
des différentes formesverbales).
Dans Il litbien,
bien est und v
= D de t V =lit ;
dans Il l’a bienlu,
bien est un gv = D de Yê = lu.- a y Un
ajout
de la chaîne centrale(symbolisé
aussi parl’astérisque).
Il peut être inséré à(ou *) gauche
ou à droite de chacun des éléments d’une chaîne centrale.Ainsi,
dans la chaînecentrale Y = Nt V = Le camion
roule, l’ajout aujourd’hui
peut être inséré àgauche
de N
(Aujourd’hui
le camionroule)
entre N et tV(Le camion, aujourd’hui, roule)
ou bienà droite de tY
(Le
camion rouleaujourd’hui).
Autresajouts
a y(ou *) : D
= naturellementévidemment,
... ; PN = de cettefaçon,
à ce moment, ..., etc.Regardons
maintenant deplus près
les diverses formespossibles
de la chaîne centrale. Notonspar Cl la chaîne centrale en
laquelle
peut êtredécomposée chaque phrase
d’assertion de lalangue (c’est- à-dire,
unephrase
terminée par unpoint).
1. J’utilise les symboles suivants : N (nom) ; tY (verbe fléchi) ; Y (verbe) ; Vé (participe passé) ; A (adjectif) ; D (adverbe) ;
P (préposition) ; T (article) ; R (pronom). L’article ne figure pas dans mes formules ( Nt V et non pas TNtY) bien que dans certains cas, il ne soit pas facultatif : * camion roule. Pour une discussion de ce problème, voir Harris, Z. S. et Sager, N.
Voici
quelques-unes
des formespossibles
pour CI :Il est à remarquer que
chaque
élément estindispensable
à la chaîne.Ainsi,
si l’on enlève le deuxième N dans la formule N tVN,
nous n’obtenonsplus
unephrase :
* Marieporte.
Une certaine sous-classe de verbes comme
dire,
penser, ..., peut être suivie de que suivi lui-même de l’unequelconque
des formules de(2.4) :
Nous voulons éviter de
répéter après dire,
dans(2.5),
toutes les formules de(2.4) ;
laséquence qui
suitdire dans
(2.5)
est une autrechaîne,
queCl,
et nonplus
une suite decatégories grammaticales.
En nousautorisant à
avoir,
à l’intérieur d’unechaîne,
un élémentqui
soit lui-même aussi bien une chaînequ’une catégorie grammaticale (ou
suite decatégories),
on tient compte dans lagrammaire
de la récursivité.Une
phrase
telle que :Marie dit que Jean a avoué que ... Pierre dort
sera alors décrite comme une occurrence du type de
(2.5)
avecplusieurs
chaînes centralesimbriquées
les unes dans les autres
après
dit. Apartir
de(2.4)
et(2.5)
on peut définir une chaîne ~(l’objet) qui prend
une des valeurs :
(2.6)
S~ =N/PN/NPN/
.../
queCII
...(et
encored’autres).
(Cette
formulesignifie que S2 prend
soit la valeurN,
soit la valeurPN, etc.)
C’est la chaîne S2qui figure
maintenant
après
tV dans la formulegénérale
pour Cl.De la même
manière,
on voit que N n’est pas seul àpouvoir précéder
tV dans Cl.Ainsi,
entreautres, la chaîne que Cl peut
apparaître
commesujet,
pour une sous-classe de verbes :(2.7) Que
CI t V Q(Que
Pierre dort n’est pas unproblème).
On définit donc la chaîne 1
(sujet) qui prend
une des valeurs :(2.8) E
=NIRIque CI/ ... (et quelques autres).
La chaîne centrale
prend
maintenant la forme(2.9)
CI == 1 t V 0c’est-à-dire,
une des chaînes de M(dans 2.8),
suivie du verbe fléchitV, puis
une des chaînes de Q(2.6)
1.1. Il est clair que toute valeur de E n’est pas possible pour n’importe quelle valeur de tV et de Su : * Que Pierre dort porte
un chapeau. C’est précisément le rôle des restrictions, qui seront discutées un peu plus loin : empêcher qu’une séquence illicite ne figure dans l’analyse fournie par le programme.
Si l’on tient compte des
ajouts
définis dans(2.3),
on peutdévelopper
CIjusqu’à
obtenir la formesuivante, plus
commode pour la discussion 1 :(2.10)
CI = *Il * gytv dy * S~ dv
*L’ajout
à droite duverbe, dy,
yfigure
deux fois parcequ’il
peutapparaître
tout de suiteaprès
le verbe :Pierre lit
rapidement
tout cequi l’intéresse,
ou bienaprès l’objet
il : Pierre a lu ce romanrapidement.
3. LES RESTRICTIONS
On a
déjà
vu que toute valeur d’une variable dans la formule donnée pourCl, c’est-à-dire,
toute valeurd’une
catégorie grammaticale,
n’est pas une valeurpermise.
Ainsi dans la chaîne centrale(2.5) :
N pense que
Cl,
le
sujet
N doit être « humain »:(3.1)
Pierre pense queCI ;
* La table pense que ClOu encore, dans la chaîne centrale :
(3.2)
N est que CIN peut
êtrefait, problème,
etc., mais non pas livre : *Le livre est que Pierre dort.Pour défini
rigoureusement
lessous-classes,
il est nécessaire de trouver des critèressyntaxiques qui
constitueraient des cadres danslesquels pourraient
s’insérer les membres de lacatégorie grammaticale
en
question
satisfaisant à la condition ducritère,
et seulement ceux-là. Afin que ces cadres soient syn-taxiques
et ne fassentappel
au sens des mots 2, il ne doit yfigurer
que les chaînes de lagrammaire,
desconstantes
linguistiques (comme
le verbe être, certainesprépositions
comme à etde, etc.),
et d’autressous-classes,
elles aussidéjà
définies ainsi. La formule(3.2)
est un tel cadre : elle ne contient que le verbe être et la chaîne que Ci. Les nomsqui
peuventfigurer
dans(3.2)
forment une sous-classeNp
de noms«
opérateurs
»,c’est-à-dire,
des nomsqui
peuvent servir de support à une chaîne du type que CI. La formule(3.1),
par contre, n’est pas assezrigoureuse
pour définir la sous-classeNh (les
noms « humains»), puisque
la sous-classe de verbes comme penser,dire,
..., esttrop large
pour que la classe de noms satis- faisant à(3.1)
soithomogène
pour le reste de lagrammaire.
Un meilleur cadre pourNh
serait le suivant :(3.3) Nh P qui
Ainsi,
l’homme faitpartie
de la sous-classeNh :
l’homme àqui (j’ai parlé),
et non pas table : * la table àqui (j’ai
donné un coup depied)
3.Les sous-classes ainsi définies
pourraient
êtreincorporées
dans lagrammaire
de deux manières différentes. Dans lapremière méthode,
on évite lesséquences illicites,
comme celles citées au-dessousde
(3.1)
et(3.2),
en écrivant de nouvelles chaînes de lagrammaire qui
contiennent les sous-classesuniquement
aux endroits où elles peuventfigurer, d’après
le critèresyntaxique
utilisé dans leur définition.1. Le développement complet de la chaîne Cl est encore plus complexe que ne le laisse apparaître (2.10). Une grammaire
en chaîne du français plus détaillée est en préparation.
2. Le problème de la définition rigoureuse de ces sous-classes n’est pas facile, et à l’heure actuelle n’est pas encore résolu.
Il est parfois peu évident de savoir comment il conviendrait de déterminer telle ou telle sous-classe à l’aide des seuls critères syn-
taxiques. Pourtant, on hésite à les déterminer avec le recours de critères sémantiques en faisant intervenir le sens des mots ou encore
l’avis d’un témoin de la langue sur le sens. Ces avis, en effet, varient d’une personne à une autre ce qui rend très difficile - sinon impossible - le travail lexicographique de la classification des mots de la langue selon leur appartenance ou non aux sous-classes ainsi définies.
3. La définition de la sous-classe Nh est en réalité, beaucoup plus difficile et le cadre proposé n’est utile que pour les êtres humains. Le cadre (3.3) doit donc être considéré comme une première approximation.
La sous-classe
Np (noms opérateurs),
parexemple,
définie par(3.2),
peut êtreincorporée
dans la gram- maire en divisant la chaîne CI en deux :(Vê
est une sous-classe de verbes ayant un comportement semblable à être : rester,demeurer...)
Uneséquence
illicite comme * Le livre est que Pierre dort est maintenantimpossible, puisque
seuls les nomsZip figurent
avect Ye
etl’objet
que Cl(:0
ne contient pas la chaîne queCl):
Le coût de cette
première
méthode est assez élevé : pourplusieurs
dizaines de sous-classes de noms,verbes, adjectifs,
etc., le nombre de nouvelles chaînes nécessaires à leurincorporation
dans lagrammaire gonflerait
celle-ci de manière à cequ’il
devienne très difficile de la manier.La deuxième méthode consiste à
incorporer
des sous-classes dans lagrammaire
à l’aide d’un ensemble de restrictions sur les chaînes.Rappelons
quechaque
chaîne de lagrammaire
s’écrit sous laforme d’une suite
d’options,
comme dans(2.6)
et(2.8).
Au cours del’analyse
d’unephrase,
le programme choisit une desoptions
dont unexemple
peut être construit avec les mots de laphrase. Lorsqu’ont
étéassociées les
catégories grammaticales
des mots à cellesrequises
parl’option
de la chaîne enquestion,
une restriction attachée à cette
option
peut vérifier que la suite des sous-classes descatégories
des motsne constitue pas une
séquence défendue,
comme celles citées au-dessous de(3.1)
et(3.2).
Si uneséquence
illicite a effectivement été
construite,
le programme défait cette branche de l’arbred’analyse.
Je m’efforcerai maintenant de démontrer que pour une
grammaire
enchaîne,
il est aisé de tenir compte desphénomènes
dediscontinuité ;
associée aujeu
de restrictions du type décritci-dessus,
la démonstration nous aménera à dire que le programme nedonne jamais
une fausseanalyse.
Grâce à la forme des chaînes et à la définition de
l’adjonction,
il est évident que deux élémentsentre
lesquels
il existe une contraintelinguistique
sont :a)
Soit deux éléments d’une mêmechaîne ;
b)
Soit un élément et sonajout
àgauche
ou à droite.Deux
possibilités
seprésentent :
- Ou bien les éléments en
question
se trouventséparés
par un autre élémentlinguistique,
maissont membres de la même chaîne
(cas a),
- Ou bien ils sont voisins
puisqu’ils
sont liés comme unecatégorie
et sonajout
immédiatement àgauche
ou à droite(cas b).
Dans les deux cas, les deux éléments sont
contigus
par rapport à la chaînequi
les contient. Leproblème
des éléments discontinusqu’on
avait dans lesgrammaires
IC(1.3),
n’existeplus
pour unegrammaire
en chaîne.Examinons maintenant
quelques
contraintes entre deux éléments liés comme dansa)
oub).
Nous verrons que l’addition à la
grammaire
d’une restrictionqui
tienne compte de la contrainte esttoujours
faisable(et
facile àfaire),
etaussi,
le programmequi
utilise lagrammaire
en chaîne ne sort pas de faussesanalyses
basées sur une infraction à la contrainte enquestion.
al. L’accord
grammatical
entresujet
et verbeLa
phrase anglaise
suivante :(3.4)a
We can use theoriginal
data and these results too(Nous
pouvons nous servir des données dudépart
et(de)
ces résultatsaussi)
ne peut être
analysée
comme unexemple
de :(3.4)b
CI and Cl’ où CI 1(We)
t Y(can use) Q (N
= theoriginal data)
et CI’ 1
(these)
t Y(results)
*(too)
puisqu’il n’y
a pas accord entre these et le verbe results : theseresult,
mais * These results(où
results estun verbe
fléchi).
Cette fausse
analyse
peut être évitée enajoutant
une restriction à la chaîne CI(2.10) qui impose
la
règle :
si le verbe estsingulier (pluriel),
alors lesujet
n’est paspluriel (singulier)
1. La même contraintese voit bien dans la
phrase française qui
commence par : Les deux avions desforces
armées...La restriction
qui
vient d’être citéeempêchera
le programme des’embarquer
sur lapiste
de lafausse
analyse
danslaquelle 1
= Lesdeux,
tV =avions,
et Q = N = desforces
armées... L’erreur iciprovient
du manque d’accord en personne entre M et tY : Les deuxavaient,
*Les deux avions(où
avionsest ici le temps
passé d’avoir).
Cela évitera ou bien une fausseanalyse
ou bien unlong
détour par ce fauxchemin et peut
représenter
une économie considérable du temps de calcul.a2.
Compatibilité
des sous-classesL’exemple (3.1)
peut sembler inutile pour les besoinspratiques
d’un programmed’analyse automatique, puisqu’on
peuts’imaginer qu’une séquence
telleque la
table pense que... nesurviendra jamais
dans unephrase
correcte de lalangue. Pourtant,
le programme peutdécouper
unephrase
correcte en uneséquence
de chaînes incorrectes
(en
construisant une fausseanalyse)
danslaquelle
une contrainte du type(3.1)
est enfreinte.
Il y a une sous-classe de verbes -
appelons
la YI -qui
donne unpassif
en de 2 :(3.5)a
Toute la classe admire leprofesseur
b Le
professeur
est admiré de toute la classeOn retrouve cette dernière
phrase
aussi dans uneséquence
telle que :c ... le
professeur
admiré de toute la classe...Considérez maintenant une
séquence :
(3.5)d
...(qui était)
l’incarnation admirée et haïe de la révolte de lajeunesse
L’analyse
correcte montrera de la révolte commedN
=PN, ajout
de t’incarnation(l’incarnation...
de larévoltes,
avec admirée et haïe commedN
=A,
aussi sur l’incarnation 3.Mais, puisque
admirer et haïrappartiennent
à la sous-classeYl,
le programmepourrait également
trouver une fausse
analyse
danslaquelle (3.5)d
estdécoupée
comme(3.5)c.
En comparant cesdeux,
onvoit
l’incarnation, puis
admirée et haïe et finalement de la révolte dans lespositions
de leprofesseur,
1. Les entrées lexicales pour chaque mot de la phrase doivent alors faire figurer non seulement les catégories grammaticales auxquelles appartient le mot, mais aussi toutes les sous-classes de chacune de ces catégories dont ce mot est un membre. Ainsi,
l’entrée pour thèse contiendrait R (pronom), sous-classe pluriel, tandis que celle de results serait N, sous-classe pluriel (et peut-être
encore d’autres) et V, sous-classe singulier (et encore d’autres). En effectuant la vérification nécessaire, la restriction tenant compte de l’accord grammatical se référerait à ces sous-classes.
2. La sous-classe Il comprend admirer, haïr, choisir, ... et beaucoup d’autres. Exemple d’un verbe qui n’est pas membre de Vl : trouver. Ainsi, Paul trouve son argent ne donne pas : * Son argent est trouvé de Paul. Voir Gross [1], ~ 2.1.1. (p. 100).
3. Cette analyse montre donc que la séquence dans (3.5)d provient d’une phrase (Quelqu’un) admire et hait l’incarnation de la révolte.
admiré,
et de toute laclasse, respectivement.
Dans cetteanalyse,
laséquence (3.5)d
serait la transformée d’unephrase
(3.6.)
* La révolte admire et haït l’incarnationqui
estincorrecte, puisque
admirer et hair neprennent
queNh
enposition sujet.
La révolte est donc unsujet
défendu pour ces verbes.Comme pour
(3.4),
lafaçon
d’écarter cette fausseanalyse
consiste àajouter
une restriction à la chaîne(3.7) d~
= Vé deNi
qui
vérifie que, si Véappartient
à la sous-classeVl,
alorsNI
n’est pas dans une sous-classe défenduecomme
sujet
de V 1. Notez que le nom et le verbe liés comme Il et V se trouvent tous deux dans la même chaîne(d~),
comme 1 et tV dans CI(2.10).
Dans le cas
étudié,
la restriction dansdN
trouverait queNI (révolte)
est dans la sous-classenon-Nh (non-humain), qui
est une des sous-classes desujet
défendues pour Vé(admiré).
L’échec decette restriction
obligera
le programme à défaire la fausseanalyse.
a3.
Éléments
discontinusVoici un cas de deux éléments entre
lesquels
il existe une contrainte dedépendance,
maisqui
se trouventtrès
éloignés
l’un de l’autre dans la chaîne où ilsfigurent.
Unephrase
comme(3.8)a
Plus de gens ont commandé dufromage qu’on
nes’y
attendaitpeut être
analysée
comme une occurrence de CI danslaquelle
(3.8) b
1 =plus
de gens ; t Y = ontcommandé ;
Q = dufromage
*= qu’on
nes’y
attendait.La
proposition qu’on
nes’y
attendait est casée dansl’ajout
à laphrase (noté *) qui paraît après l’objet
Q.Cette
proposition
ne peutapparaître
dans CI à cet endroit que si l’un des élémentsS,
t v ou S~ contientun « marqueur » du
degré comparatif
commeplus
ou moins:(3.8)c
Les gens ontplus
souvent commandé dufromage qu’on
nes’y
attendaitLes gens ont commandé
plus
dufromage qu’on
nes’y
attendait* Les gens ont commandé du
fromage qu’on
nes’y
attendaitPour tester toutes ces
possibilités,
et vérifier que laproposition
du typequ’on
nes’y
attendait est effecti-vement
précédé
parplus (moines)
dans une despositions indiquées,
il suffit(afin
d’éviter une fausseanalyse
basée sur l’infraction illustrée dans la dernièrephrase
de(3.8) c) d’ajouter
une restriction à Cl allant dans ce sens. Lecouple
d’éléments liés -l’ajout
*plus
l’un desE,
tt~ou~ 2013 bienqu’ils
se trouventà une certaine distance l’un de
l’autre,
sont dans la même structure de lagrammaire,
la chaîne centrale Cl.b Entre N et
dN
Nous avons
déjà
eu unexemple
dans la contrainte entredN
et N(voir (3.7)
et la note3,
page25).
Voiciun autre
exemple :
L’adjectif
A dans uneséquence
comme(3.9) Ni
deN2
A1. Utilisant la même méthode que celle décrite dans la note 1 (page 25), chaque verbe contiendra dans son entrée lexicale,
une liste de sous-classes de noms qui ne peuvent figurer comme son sujet. De la même manière, le N à la droite duquel le d’N de (3.7) a été inséré (N d’N = N Vé de Nl, qui est la séquence (3.5.)d) ne doit pas appartenir à l’une des sous-classes défendues comme
objet du verbe.
peut être rattaché soit à
Nl,
soit àN2 1 ;
lesanalyses
de ces deux cas auront les formes :avec avec
Dans la
première analyse, d’N1- l’adjectif -
est un deuxièmeajout
au nomNI,
inséré à droite dupremier ajout.
Les deuxajouts dNl
etd’.Nl
se rapportent tous deux àNl.
Dans la deuxièmeanalyse, il n’y
aqu’un
seulajout
surNi ; l’adjectif
est unajout
surN2 et
se trouve à sa droite.Le
point important :
dans les deuxanalyses, l’adjectif
se trouvetoujours
à droite du nomqu’il modifie,
et donc est dans une même chaîne avec le nom, la chaîneNdN.
Dans(3.10)b,
A est tout de suiteà droite de
N2, auquel il
se rapporte ; dans(3.10)a,
A est à droite deNl, qu’il modifie, puisque dN (qui
est à droite de
NI)
est constitué de la suitedN, d’Nl.
Les deux éléments N et A étant donctoujours contigus (dans
une mêmechaîne),
il est facile de vérifier l’accord del’adjectif
et le nom afin d’éviter des faussesanalyses.
Ainsi,
considérons lesséquences :
(3.11) a
b une un xoned’orages
étenduerégime
de ventsfaibles.
La
première
ne sera pasanalysée
comme une occurrence de(3.10) b, puisque
A ne s’accorde avecN2 ni
en
nombre,
ni en genre ; de la mêmemanière,
la seconde ne sera pasanalysée
comme une occurrencede
(3.10)a puisque
A ne s’accorde pas avecNI
en nombre. Etparfois,
même sil’adjectif
s’accorde avecN1
etN2
à lafois,
il peut y avoir une autre contrainte decompatibilité
de sous-classes entre l’un des noms etl’adjectif,
contraintequi oblige
à écarter l’une desanalyses. Ainsi,
laséquence :
(3.11)c chef
de groupestatistique
ne peut être
analysée
comme une occurrence de(3.10)a,
danslaquelle
A(statistique)
se rapporte àNI (chef),
car laphrase (le) chef
eststatistique
n’existe pas. Eneffet, l’adjectif statistique appartient
à unesous-classe
d’adjectifs qui
ne se rapporte pas à unNh (nom
d’êtrehumain),
etjustement, chef appartient
à la sous-classe
Nh.
Une restriction estajoutée
à la chaîneNdN
pourempêcher l’analyse
erronée de(3.11)c.
4. L’ANALYSEUR
SYNTAXIQUE
Le processus
d’analyse
peut maintenant êtreesquissé,
sans entrer toutefois dans les détails. Lagrammaire
en chaîne est un ensemble de
chaînes,
chacune ayant une ouplusieurs options (ou
valeurspossibles).
Les restrictions décrites ci-dessus accompagnent les diverses
options ;
chacune d’ellesempêche
le pro- gramme de choisir telle ou telleoption (d’une chaîne)
dans uneanalyse
en cours,lorsque
les conditionsparticulières
à cette restriction ne sont pas satisfaites par les mots de laphrase.
Lagrammaire
seprésente
par
conséquent
comme un ensemble :1. Ou encore successivement aux deux, lorsque l’adjectif peut s’accorder soit à Nl, soit à N2. Ceci constitue un cas d’ambi-
guïté (voir plus loin § 5).
On trouve
chaque
mot de laphrase
àanalyser
dans lelexique,
où ilfigure
avec toutes ses appar-tenances aux diverses
catégories
de lagrammaire ;
lesverbes,
enparticulier,
sontaccompagnés
d’uneliste de sous-classes de noms
qui
ne peuvent occuper laposition sujet (ou objet)
de ce verbe 2.L’analyseur syntaxique
lit laphrase
àanalyser,
cherche ensuite les entrées lexicales pourchaque
mot de la
phrase, puis
transfère lagrammaire
en chaîne dans la mémoire centrale. Partant de lapremière
chaîne de la
grammaire (chaîne
centrale dans le schéma de(4.1)) qui
en estl’axiome 3, le
programme essaie d’associer lescatégories grammaticales qui figurent
dans les diverses chaînes avec laséquence
de mots de la
phrase (par
unbalayage
degauche
àdroite). Chaque
foisqu’une
occurrence de telle ou telle chaîne estconstruite,
toutes les restrictions sur cette chaîne(s’il
y ena)
sont vérifiées. L’échec de l’une d’entre ellesoblige
le programme à revenir en arrière et à tenter une autreanalyse.
Si le
jeu intégral
des restrictions définies dans lagrammaire
recouvre tous lesphénomènes
lin-guistiques
de lalangue (tels qu’ils
ont étéesquissés
dans leparagraphe 3),
le programme ne pourra que fournir desanalyses justes.
La définition des sous-classes et la formulation des restrictions les utilisantapparaît
donc comme une des tâchesprincipales
de la confection d’unegrammaire
en chaîne.5.
PROBLÈMES RÉSIDUELS
Bien que le programme ne fournisse que des
analyses
correctes, ceci nesignifie
pas que leproblème
del’analyse syntaxique automatique
ait été résolu une fois pour toutes - tant s’en faut. Une fois écartées lesanalyses erronées,
leproblème
del’ambiguïté
de lalangue
reste entier. Notons tout d’abordqu’une grammaire
enchaîne,
par sa structure,n’apporte
pas de solutionsrapides
à ceproblème ;
elle nous donneplutôt
un cadre danslequel
il est faciled’incorporer
une solution. A l’heureactuelle,
il me semble que la solution duproblème
del’ambiguïté
consisterait à trouver des sous-classes deplus
enplus
fines et mieuxdéfinies ;
lesrestrictions, qui incorporeraient
ces sous-classesplus fines, permettraient
de trancher entreles structures
ambiguës proposées
par le programme, limité par le manque de finesse de lagrammaire
actuelle.
Évidemment,
pour lesphrases qui
ont uneambiguïté inhérente,
le programme doittoujours
donner
plusieurs analyses. Reprenons l’exemple (3.10) ;
uneséquence
telle que :(5.1)
zone depollution
croissante1. La barre diagonale sépare les options. Cl est la chaîne d’assertion décrite dans 2. C2, C3, etc., sont d’autres chaînes centrales pour les phrases interrogatives, impératives, ... qui ne peuvent être décrites ici, faute de place. Toutes les R devraient être
indicées pour les distinguer.
2. Il y a beaucoup d’autres renseignements encore qui doivent figurer dans chaque entrée lexicale. L’établissement de ces
entrées lexicales pour les mots de la langue, dans le cadre d’une analyse automatique basée sur une grammaire en chaîne, n’est donc pas une tâche aisée.
3. C’est-à-dire, chaque phrase bien formée de la langue doit pouvoir être analysée comme contenant une occurrence de Cl,
ou de CP etc.