8.3 El´ ´ ements pour le choix du format des structures syntaxiques
8.3.2 Structures syntaxiques produites par les formalismes grammaticaux . 134
Dans la sous-section pr´ec´edente, nous avons dress´e la liste des informations syntaxiques qui
sont n´ecessaires au calcul d’une repr´esentation s´emantique de la phrase. Dans les structures
produites par les formalismes grammaticaux, la repr´esentation des informations syntaxiques
prend des formes vari´ees :
– Le r´esultat d’une analyse en LTAG est un couple form´e d’un arbre de constituants et d’un
arbre de d´erivation. Les d´ependances locales sont cod´ees dans la structure de constituants.
Les d´ependances `a longue distance, les relations de contrˆole et les relations d’ant´ec´edent
sont indiqu´ees par une co-r´ef´erence entre un nœud et sa trace.
– Le r´esultat d’une analyse en HPSG est une structure de traits synth´etisant
l’informa-tion contenue dans la phrase, accompagn´ee de l’arbre des structures de traits utilis´ees et
construites au cours de l’analyse. Toutes les d´ependances sont cod´ees dans la structure de
traits finale.
– Le r´esultat d’une analyse en LFG est un couple form´e d’un arbre de constituants et d’une
structure de fonctions grammaticales. Toutes les d´ependances sont cod´ees dans la structure
de fonctions grammaticales.
– Le r´esultat d’une analyse en CG, TLG et CCG, est une formule qui repr´esente la
contri-bution globale de la phrase, accompagn´ee d’un arbre de d´erivation qui repr´esente la d´
e-monstration de cette formule. Les d´ependances locales et les relations d’ant´ec´edent simples
que nous consid´erons ici sont r´ealis´ees par simple composition. Les d´ependances `a longue
distance sont cod´ees par des traits co-index´es attach´es `a certaines cat´egories, de mˆeme que
les relations de contrˆole.
8.3. ´El´ements pour le choix du format des structures syntaxiques 135
– Les formalismes qui s’inscrivent dans le courant des Grammaires de D´ependances (DG) [Mel88],
comme les GUST [Kah02,Lis06] et les XDG [Deb06], produisent des structures de d´
epen-dance. Les d´ependances `a longue distance sont indiqu´ees dans la structure de d´ependance
syntaxique de surface, les relations de contrˆole et les relations d’ant´ec´edent sont indiqu´ees
dans la structure de d´ependance syntaxique profonde.
– Le r´esultat d’une analyse en IG est un triplet compos´e d’un ensemble de structures initiales,
d’un arbre syntaxique final et d’une fonction d’interpr´etation qui les relie. Les d´ependances
locales sont cod´ees dans la structure en constituants, les d´ependances `a longue distance,
les relations de contrˆole et les relations d’ant´ec´edent sont cod´ees par des co-r´ef´erences de
traits.
La fa¸con dont les LTAG, les CCG et les IG codent certaines d´ependances dans leurs
struc-tures syntaxiques est compr´ehensible par le linguiste mais requiert d’interpr´eter les structures
syntaxiques. Ces d´ependances sont donc cod´ees d’une fa¸con suffisamment indirecte pour que
leur proc´edure d’extraction soit non triviale. Les proc´edures d’extraction propos´ees pour les
CCG [CHS02,HS07], les LTAG [SG05] et les IG [MGP10] utilisent toutes l’historique d´etaill´e de
l’analyse syntaxique pour retrouver les d´ependances cod´ees indirectement. En LTAG et CCG, la
structure de d´erivation ne suffit pas. Par cons´equent, les m´ethodes d’extraction propos´ees pour
les CCG et les LTAG sont intrusives car elles n´ecessitent de modifier l’algorithme d’analyse.
La m´ethode d’extraction pour les IG repose sur l’analyse du graphe d’interpr´etation, qui repr´
e-sente les structures initiales, la structure finale et la fonction d’interpr´etation. L’explicitation
de la mod´elisation linguistique implicitement adopt´ee dans la grammaire permet de d´ecrire la
r´ealisation des diff´erentes relations grammaticales par des motifs de graphe. Dans ces motifs, les
polarit´es contenues dans les structures initiales jouent un rˆole central pour d´eterminer les mots
qui sont reli´es par une relation grammaticale.
La diversit´e des structures syntaxiques produites par les formalismes grammaticaux
lexicali-s´es nous incite `a rechercher un format de structures syntaxiques plus consensuel. Cette question
s’est d´ej`a pos´ee lors des campagnes d’´evaluation des analyseurs syntaxiques pour lesquels des
formats de structures syntaxiques ont ´et´e propos´es [CMB03].
8.3.3 Structures syntaxiques utilis´ees pour la comparaison et l’´evaluation
d’analyses
De fa¸con g´en´erale, il est tr`es difficile de comparer et d’´evaluer pr´ecis´ement les structures
g´en´er´ees par diff´erents formalismes grammaticaux. Les premi`eres tentatives de comparaison,
assimilant les formalismes aux conceptions linguistiques qui avaient motiv´e leur d´efinition, ont
´et´e faites en termes formels. Le d´ebat se poursuit sur ce terrain mais il a ´et´e ´eclips´e sur le
plan concret par le besoin pragmatique d’´evaluer et de comparer les analyses produites par
diff´erents analyseurs. Des formats de structures syntaxiques ont ´et´e con¸cus pour les campagnes
d’´evaluation, avec pour objectif d’ˆetre neutres par rapport aux formalismes et aux grammaires
tout en repr´esentant une information linguistique pr´ecise.
Comparaison formelle d’analyses
Sur un plan purement formel, les formalismes grammaticaux sont traditionnellement
compa-r´es sous deux aspects, qui correspondent aux deux langages que ces formalismes g´en`erent [Cho65] :
1. les langages de chaˆınes, ce qui constitue leur capacit´e g´en´erative faible;
2. les langages de structures d’analyse, par exemple les arbres d’analyse ou les arbres de
d´emonstration, ce qui constitue leurcapacit´e g´en´erative forte.
Vijay-Shanker et Weir ont par exemple montr´e que les TAG, les Grammaires Index´ees
Li-n´eaires (LIG) [Gaz85], les Grammaires guid´ee par les Tˆetes (HG) [Pol84] et les CCG sont
fai-blement ´equivalentes [VSW94]. Cependant, alors que la capacit´e g´en´erative faible est une notion
clairement ´etablie, la d´efinition pr´ecise de lacapacit´e g´en´erative forte reste floue [Mil99].
Le probl`eme est que, comme les diff´erents formalismes grammaticaux ont ´et´e con¸cus pour
mod´eliser des th´eories linguistiques diff´erentes, ils n’ont pas ´et´e con¸cus pour g´en´erer les mˆemes
structures. L’impossibilit´e pour un formalisme de g´en´erer une structure particuli`ere n’est donc
pas un crit`ere valable pour rejeter sa pertinence pour l’analyse de la langue naturelle. Plus g´en´
era-lement, les structures d’analyse sont trop propres `a un formalisme pour permettre une r´eelle
com-paraison des analyses entre formalismes diff´erents. La pertinence de la capacit´e g´en´erative forte
pour comparer les formalismes grammaticaux est par cons´equent mise en doute [Kal06,Kuh10].
Comparaison linguistique d’analyses
Le besoin d’un format de structures syntaxiques neutre, permettant de repr´esenter une
in-formation linguistique pr´ecise tout en restant neutre par rapport aux formalismes et aux
gram-maires, s’est fait ressentir concr`etement pour la comparaison et l’´evaluation des analyseurs
syn-taxiques.
Les premi`eres campagnes ´evaluaient les analyseurs syntaxiques sur leur capacit´e `a reconnaˆıtre
les constituants d’une phrase. L’examen critique des r´esultats de ces campagnes a amen´e `a
abandonner les constituants au profit des relations grammaticales, not´ees GR pour Grammatical
Relations, consid´er´ees comme fournissant une m´etrique d’´evaluation plus fid`ele [CBS98,CFL
+02,
KCR
+03]. Les relations grammaticales englobent les relations de d´ependance (locales et `a longue
distance), les relations de contrˆole et les relations d’ant´ec´edents. Les relations grammaticales sont
consid´er´ees comme moins idiosyncratiques et v´erifiables plus rapidement et intuitivement par
des humains que les structures de constituants.
L’´emergence des analyseurs en d´ependances statistiques a r´ecemment relanc´e l’int´erˆet pour
des corpus d’´evaluation, au format GR, qui testent la capacit´e des analyseurs `a retrouver les
d´ependances difficiles comme les d´ependances `a longue distance [RCS09,NRMGR10], mais ´
ega-lement d’autres relations grammaticales dont le tough-movement et le contrˆole [BFOZ11].
8.3. ´El´ements pour le choix du format des structures syntaxiques 137
Format de la campagne passage Pour le fran¸cais, un format de structures syntaxiques a
´et´e d´efini pour la campagne d’´evaluation des analyseurs syntaxiques passage
13. Ce format
14consiste en un d´ecoupage de la phrase en groupes syntaxiques continus non r´ecursifs, similaires `a
deschunks
15(groupes nominaux not´es GN, groupes pr´epositionnels not´es GP, noyaux verbaux
not´es NV. . . ), et de relations syntaxiques. Les relations sont ´etiquet´ees `a l’aide d’un jeu de
14 ´etiquettes, dont chacune repr´esente une fonction syntaxique et ´eventuellement la cat´egorie
grammaticale du gouverneur de la relation. Par exemple, on distingue la relation modifieur de
nom (MOD N) de celle de modifieur de verbe (MOD V)
Dans le guide d’annotation, les relations sont annot´ees entre deux mots, entre un groupe
syntaxique et un mot ou entre deux groupes syntaxiques. La pr´esence d’une tˆete dans chaque
groupe syntaxique permet cependant de faire syst´ematiquement porter les relations sur les mots
et de se ramener ainsi `a une structure plus proche d’une structure de d´ependance. La structure
form´ee par les relations dans une phrase est libre ; rien n’impose par exemple que ce soit un
arbre. En particulier, le sujet des infinitifs et participes est annot´e d`es que possible : infinitifs
introduits par un verbe `a contrˆole, participes tˆetes de participiales, g´erondifs. . .
L’annotation en groupes et d´ependances syntaxiques au formatpassagede la phrase«Jean
lit un livre que Marie connaˆıt» est donn´ee par la figure 8.3. Pour se conformer `a l’usage en
grammaires de d´ependance, le sens des d´ependances est invers´e par rapport au format officiel
passage. Le d´eterminant«un» reste isol´e car passage ignore les relations d´eterminant-nom.
GN1 NV2 GN3 GN4 GN5 NV6
Jean lit un livre que Marie connaît
SUJ_V COD_V SUJ_V
COD_V
MOD_N
Figure 8.3 – Phrase annot´ee au format passage
Ce format a plusieurs points communs avec le format d’annotation fonctionnelle du ftb en
constituants. Ainsi, ce format ne contient pas les d´ependances internes aux constituants, telles
que le lien entre un d´eterminant et le nom qu’il d´etermine. D’autre part, les constituants doivent
ˆetre continus. Ce qui pourrait ˆetre mod´elis´e dans un autre format par un constituant discontinu
est ici annot´e comme deux constituants distincts qui ont la mˆeme fonction par rapport au verbe.
Les structures hybrides du format passage sont le fruit d’un compromis entre diff´erentes
m´etriques et ne forment pas des structures linguistiques totalement exploitables en tant que
telles. Ce format ne permet pas de construire des structures syntaxiques compl`etes, contrairement
aux formats de relations grammaticales qui ont ´et´e d´efinis pour l’anglais. Il ne nous est donc pas
13. http://atoll.inria.fr/passage/
14. http://www.limsi.fr/Individu/anne/Guide/PEAS_reference_annotations_v2.2.html
possible d’adopter ce format en l’´etat comme point de d´epart au calcul de la s´emantique.
Dans le document
Étiquetage grammatical symbolique et interface syntaxe-sémantique des formalismes grammaticaux lexicalisés polarisés
(Page 149-153)