• Aucun résultat trouvé

Structures syntaxiques produites par les formalismes grammaticaux . 134

8.3 El´ ´ ements pour le choix du format des structures syntaxiques

8.3.2 Structures syntaxiques produites par les formalismes grammaticaux . 134

Dans la sous-section pr´ec´edente, nous avons dress´e la liste des informations syntaxiques qui

sont n´ecessaires au calcul d’une repr´esentation s´emantique de la phrase. Dans les structures

produites par les formalismes grammaticaux, la repr´esentation des informations syntaxiques

prend des formes vari´ees :

– Le r´esultat d’une analyse en LTAG est un couple form´e d’un arbre de constituants et d’un

arbre de d´erivation. Les d´ependances locales sont cod´ees dans la structure de constituants.

Les d´ependances `a longue distance, les relations de contrˆole et les relations d’ant´ec´edent

sont indiqu´ees par une co-r´ef´erence entre un nœud et sa trace.

– Le r´esultat d’une analyse en HPSG est une structure de traits synth´etisant

l’informa-tion contenue dans la phrase, accompagn´ee de l’arbre des structures de traits utilis´ees et

construites au cours de l’analyse. Toutes les d´ependances sont cod´ees dans la structure de

traits finale.

– Le r´esultat d’une analyse en LFG est un couple form´e d’un arbre de constituants et d’une

structure de fonctions grammaticales. Toutes les d´ependances sont cod´ees dans la structure

de fonctions grammaticales.

– Le r´esultat d’une analyse en CG, TLG et CCG, est une formule qui repr´esente la

contri-bution globale de la phrase, accompagn´ee d’un arbre de d´erivation qui repr´esente la d´

e-monstration de cette formule. Les d´ependances locales et les relations d’ant´ec´edent simples

que nous consid´erons ici sont r´ealis´ees par simple composition. Les d´ependances `a longue

distance sont cod´ees par des traits co-index´es attach´es `a certaines cat´egories, de mˆeme que

les relations de contrˆole.

8.3. ´El´ements pour le choix du format des structures syntaxiques 135

– Les formalismes qui s’inscrivent dans le courant des Grammaires de D´ependances (DG) [Mel88],

comme les GUST [Kah02,Lis06] et les XDG [Deb06], produisent des structures de d´

epen-dance. Les d´ependances `a longue distance sont indiqu´ees dans la structure de d´ependance

syntaxique de surface, les relations de contrˆole et les relations d’ant´ec´edent sont indiqu´ees

dans la structure de d´ependance syntaxique profonde.

– Le r´esultat d’une analyse en IG est un triplet compos´e d’un ensemble de structures initiales,

d’un arbre syntaxique final et d’une fonction d’interpr´etation qui les relie. Les d´ependances

locales sont cod´ees dans la structure en constituants, les d´ependances `a longue distance,

les relations de contrˆole et les relations d’ant´ec´edent sont cod´ees par des co-r´ef´erences de

traits.

La fa¸con dont les LTAG, les CCG et les IG codent certaines d´ependances dans leurs

struc-tures syntaxiques est compr´ehensible par le linguiste mais requiert d’interpr´eter les structures

syntaxiques. Ces d´ependances sont donc cod´ees d’une fa¸con suffisamment indirecte pour que

leur proc´edure d’extraction soit non triviale. Les proc´edures d’extraction propos´ees pour les

CCG [CHS02,HS07], les LTAG [SG05] et les IG [MGP10] utilisent toutes l’historique d´etaill´e de

l’analyse syntaxique pour retrouver les d´ependances cod´ees indirectement. En LTAG et CCG, la

structure de d´erivation ne suffit pas. Par cons´equent, les m´ethodes d’extraction propos´ees pour

les CCG et les LTAG sont intrusives car elles n´ecessitent de modifier l’algorithme d’analyse.

La m´ethode d’extraction pour les IG repose sur l’analyse du graphe d’interpr´etation, qui repr´

e-sente les structures initiales, la structure finale et la fonction d’interpr´etation. L’explicitation

de la mod´elisation linguistique implicitement adopt´ee dans la grammaire permet de d´ecrire la

r´ealisation des diff´erentes relations grammaticales par des motifs de graphe. Dans ces motifs, les

polarit´es contenues dans les structures initiales jouent un rˆole central pour d´eterminer les mots

qui sont reli´es par une relation grammaticale.

La diversit´e des structures syntaxiques produites par les formalismes grammaticaux

lexicali-s´es nous incite `a rechercher un format de structures syntaxiques plus consensuel. Cette question

s’est d´ej`a pos´ee lors des campagnes d’´evaluation des analyseurs syntaxiques pour lesquels des

formats de structures syntaxiques ont ´et´e propos´es [CMB03].

8.3.3 Structures syntaxiques utilis´ees pour la comparaison et l’´evaluation

d’analyses

De fa¸con g´en´erale, il est tr`es difficile de comparer et d’´evaluer pr´ecis´ement les structures

g´en´er´ees par diff´erents formalismes grammaticaux. Les premi`eres tentatives de comparaison,

assimilant les formalismes aux conceptions linguistiques qui avaient motiv´e leur d´efinition, ont

´et´e faites en termes formels. Le d´ebat se poursuit sur ce terrain mais il a ´et´e ´eclips´e sur le

plan concret par le besoin pragmatique d’´evaluer et de comparer les analyses produites par

diff´erents analyseurs. Des formats de structures syntaxiques ont ´et´e con¸cus pour les campagnes

d’´evaluation, avec pour objectif d’ˆetre neutres par rapport aux formalismes et aux grammaires

tout en repr´esentant une information linguistique pr´ecise.

Comparaison formelle d’analyses

Sur un plan purement formel, les formalismes grammaticaux sont traditionnellement

compa-r´es sous deux aspects, qui correspondent aux deux langages que ces formalismes g´en`erent [Cho65] :

1. les langages de chaˆınes, ce qui constitue leur capacit´e g´en´erative faible;

2. les langages de structures d’analyse, par exemple les arbres d’analyse ou les arbres de

d´emonstration, ce qui constitue leurcapacit´e g´en´erative forte.

Vijay-Shanker et Weir ont par exemple montr´e que les TAG, les Grammaires Index´ees

Li-n´eaires (LIG) [Gaz85], les Grammaires guid´ee par les Tˆetes (HG) [Pol84] et les CCG sont

fai-blement ´equivalentes [VSW94]. Cependant, alors que la capacit´e g´en´erative faible est une notion

clairement ´etablie, la d´efinition pr´ecise de lacapacit´e g´en´erative forte reste floue [Mil99].

Le probl`eme est que, comme les diff´erents formalismes grammaticaux ont ´et´e con¸cus pour

mod´eliser des th´eories linguistiques diff´erentes, ils n’ont pas ´et´e con¸cus pour g´en´erer les mˆemes

structures. L’impossibilit´e pour un formalisme de g´en´erer une structure particuli`ere n’est donc

pas un crit`ere valable pour rejeter sa pertinence pour l’analyse de la langue naturelle. Plus g´en´

era-lement, les structures d’analyse sont trop propres `a un formalisme pour permettre une r´eelle

com-paraison des analyses entre formalismes diff´erents. La pertinence de la capacit´e g´en´erative forte

pour comparer les formalismes grammaticaux est par cons´equent mise en doute [Kal06,Kuh10].

Comparaison linguistique d’analyses

Le besoin d’un format de structures syntaxiques neutre, permettant de repr´esenter une

in-formation linguistique pr´ecise tout en restant neutre par rapport aux formalismes et aux

gram-maires, s’est fait ressentir concr`etement pour la comparaison et l’´evaluation des analyseurs

syn-taxiques.

Les premi`eres campagnes ´evaluaient les analyseurs syntaxiques sur leur capacit´e `a reconnaˆıtre

les constituants d’une phrase. L’examen critique des r´esultats de ces campagnes a amen´e `a

abandonner les constituants au profit des relations grammaticales, not´ees GR pour Grammatical

Relations, consid´er´ees comme fournissant une m´etrique d’´evaluation plus fid`ele [CBS98,CFL

+

02,

KCR

+

03]. Les relations grammaticales englobent les relations de d´ependance (locales et `a longue

distance), les relations de contrˆole et les relations d’ant´ec´edents. Les relations grammaticales sont

consid´er´ees comme moins idiosyncratiques et v´erifiables plus rapidement et intuitivement par

des humains que les structures de constituants.

L’´emergence des analyseurs en d´ependances statistiques a r´ecemment relanc´e l’int´erˆet pour

des corpus d’´evaluation, au format GR, qui testent la capacit´e des analyseurs `a retrouver les

d´ependances difficiles comme les d´ependances `a longue distance [RCS09,NRMGR10], mais ´

ega-lement d’autres relations grammaticales dont le tough-movement et le contrˆole [BFOZ11].

8.3. ´El´ements pour le choix du format des structures syntaxiques 137

Format de la campagne passage Pour le fran¸cais, un format de structures syntaxiques a

´et´e d´efini pour la campagne d’´evaluation des analyseurs syntaxiques passage

13

. Ce format

14

consiste en un d´ecoupage de la phrase en groupes syntaxiques continus non r´ecursifs, similaires `a

deschunks

15

(groupes nominaux not´es GN, groupes pr´epositionnels not´es GP, noyaux verbaux

not´es NV. . . ), et de relations syntaxiques. Les relations sont ´etiquet´ees `a l’aide d’un jeu de

14 ´etiquettes, dont chacune repr´esente une fonction syntaxique et ´eventuellement la cat´egorie

grammaticale du gouverneur de la relation. Par exemple, on distingue la relation modifieur de

nom (MOD N) de celle de modifieur de verbe (MOD V)

Dans le guide d’annotation, les relations sont annot´ees entre deux mots, entre un groupe

syntaxique et un mot ou entre deux groupes syntaxiques. La pr´esence d’une tˆete dans chaque

groupe syntaxique permet cependant de faire syst´ematiquement porter les relations sur les mots

et de se ramener ainsi `a une structure plus proche d’une structure de d´ependance. La structure

form´ee par les relations dans une phrase est libre ; rien n’impose par exemple que ce soit un

arbre. En particulier, le sujet des infinitifs et participes est annot´e d`es que possible : infinitifs

introduits par un verbe `a contrˆole, participes tˆetes de participiales, g´erondifs. . .

L’annotation en groupes et d´ependances syntaxiques au formatpassagede la phrase«Jean

lit un livre que Marie connaˆıt» est donn´ee par la figure 8.3. Pour se conformer `a l’usage en

grammaires de d´ependance, le sens des d´ependances est invers´e par rapport au format officiel

passage. Le d´eterminant«un» reste isol´e car passage ignore les relations d´eterminant-nom.

GN1 NV2 GN3 GN4 GN5 NV6

Jean lit un livre que Marie connaît

SUJ_V COD_V SUJ_V

COD_V

MOD_N

Figure 8.3 – Phrase annot´ee au format passage

Ce format a plusieurs points communs avec le format d’annotation fonctionnelle du ftb en

constituants. Ainsi, ce format ne contient pas les d´ependances internes aux constituants, telles

que le lien entre un d´eterminant et le nom qu’il d´etermine. D’autre part, les constituants doivent

ˆetre continus. Ce qui pourrait ˆetre mod´elis´e dans un autre format par un constituant discontinu

est ici annot´e comme deux constituants distincts qui ont la mˆeme fonction par rapport au verbe.

Les structures hybrides du format passage sont le fruit d’un compromis entre diff´erentes

m´etriques et ne forment pas des structures linguistiques totalement exploitables en tant que

telles. Ce format ne permet pas de construire des structures syntaxiques compl`etes, contrairement

aux formats de relations grammaticales qui ont ´et´e d´efinis pour l’anglais. Il ne nous est donc pas

13. http://atoll.inria.fr/passage/

14. http://www.limsi.fr/Individu/anne/Guide/PEAS_reference_annotations_v2.2.html

possible d’adopter ce format en l’´etat comme point de d´epart au calcul de la s´emantique.