• Aucun résultat trouvé

8.3 El´ ´ ements pour le choix du format des structures syntaxiques

8.3.4 Structures utilis´ ees pour l’annotation de corpus

Nous nous tournons maintenant vers les formats utilis´es pour annoter des corpus. Si nous

voulons pouvoir faire des exp´erimentations `a grande ´echelle, il est en effet primordial d’utiliser

pour les structures syntaxiques un sch´ema qui soit au moins compatible, sinon tr`es similaire `a

un sch´ema d’annotation d’un corpus du fran¸cais. Les premiers corpus annot´es de taille

signifi-cative ont ´et´e annot´es en constituants. Le principal d’entre eux, le Penn Treebank de l’anglais

constitu´e d’articles du Wall Street Journal [MMS93], a amorc´e un mouvement qui a ´et´e suivi

dans d’autres langues, dont le fran¸cais avec le French Treebank constitu´e d’articles du journal

Le Monde [ACT03]. Les structures en constituants sont toutefois moins adapt´ees aux langues `a

ordre des mots libre [Shi85], ce qui a favoris´e la constitution de corpus annot´es en d´ependances,

par exemple en tch`eque [BHHH03]. La popularit´e croissante des repr´esentations en d´ependances

a ensuite fait ´emerger le besoin de disposer de corpus annot´es par des structures de d´

epen-dance syntaxique, y compris en anglais. La solution a alors consist´e `a d´efinir une proc´edure de

conversion des structures en constituants vers des structures en d´ependances et `a appliquer cette

proc´edure aux corpus annot´es en constituants [MMM06,CCDG09].

Nous nous concentrons maintenant sur les sch´emas d’annotation utilis´es pour leFrench

Tree-bank, qui est le corpus du fran¸cais le plus important et le plus utilis´e.

Sch´ema d’annotation fonctionnelle du ftb en constituants

Le French Treebank (ci-apr`esftb) [ACT03,AB04] est constitu´e de 32 000 phrases issues du

journal Le Monde, d´ecoup´ees en constituants continus. Ces constituants sont annot´es par huit

fonctions grammaticales, qui r´ef`erent `a leur rˆole par rapport au verbe principal. Ces fonctions

sont list´ees en figure 8.4.

Fonctions grammaticales

suj sujet

obj objet

a obj objet indirect introduit par«`a»

de obj objet indirect introduit par«de»

p obj objet indirect introduit par une autre pr´eposition que«`a»et«de»

ats attribut du sujet

ato attribut de l’objet

mod modifieur

8.3. ´El´ements pour le choix du format des structures syntaxiques 139

Sch´ema d’annotation du ftb en d´ependances de surface

Un sch´ema d’annotation en d´ependances syntaxiques de surface pour le fran¸cais [CCF11]

a ´et´e d´eriv´e de l’annotation en constituants du ftb [CCDG09, CCD10]. Dans ce sch´ema, la

structure de d´ependance associ´ee `a une phrase est un arbre orient´e dont l’ensemble des nœuds

correspond `a l’ensemble des formes fl´echies de la phrase (mˆeme celles qui sont s´emantiquement

vides) et les arˆetes sont ´etiquet´ees par des relations de d´ependance. Les relations de d´ependance

utilis´ees dans ce sch´ema sont list´ees en figure 8.5.

Relations pour gouverneurs verbaux

suj sujet

suj impers sujet impersonnel

obj objet

a-obj argument pr´epositionnel introduit par«`a», non locatif

de-obj argument pr´epositionnel introduit par«de», non locatif

p-obj autre argument pr´epositionnel

p-obj agt argument pr´epositionnel compl´ement d’agent (passif et causatif)

p-obj loc argument pr´epositionnel locatif

ats attribut du sujet

ato attribut de l’objet

mod modificateur

mod cleft subordonn´ee dans une construction cliv´ee

mod loc modificateur s´emantiquement locatif

aux tps auxiliaire de temps

aux pass auxiliaire du passif

aux caus auxiliaire de causation

aff clitique fig´e (affixe)

aff moyen clitique «se»pour la voix moyenne

Relations pour gouverneurs non verbaux

obj relation entre une pr´eposition et le syntagme qu’elle introduit

arg relation entre une pr´eposition et une autre pr´eposition li´ee (ex :

«de Charybde en Scylla»)

arg comp relation entre une comparative et son gouverneur

arg cons relation entre une cons´ecutive et son gouverneur adverbial

mod modifieur rep´er´e structuralement, sauf subordonn´ee relative

mod rel subordonn´ee relative adnominale

dep d´ependant ambig¨u entre argument et modifieur

det relation entre un ´el´ement d´etermin´e et son d´eterminant

Relations pour la coordination

coord relation entre un ´el´ement coordonn´e et le coordonnant suivant

dep coord relation entre un coordonnant et l’´el´ement coordonn´e suivant

Relations pour la ponctuation

ponct relation entre une tˆete de proposition et une ponctuation

Sur la figure 8.5, toutes les relations ne sont pas sur le mˆeme alignement vertical. Le sch´ema

d’annotation en d´ependances comporte en effet deux niveaux de pr´ecision. Les ´etiquettes align´ees

le plus `a gauche, commesujetobj, forment le jeu de relations de base. C’est ce jeu qui est utilis´e

dans l’annotation en d´ependances du ftb obtenue par conversion automatique de l’annotation

en constituants. Les ´etiquettes du deuxi`eme alignement sont des raffinements des ´etiquettes

pr´ec´edentes, pour certains cas particuliers : un sujet impersonnel est not´e suj impersplutˆot que

suj, un argument pr´epositionnel compl´ement d’agent est not´ep-obj agtplutˆot quep-obj. . . Ces

´

etiquettes plus pr´ecises ne sont actuellement utilis´ees que pour l’annotation manuelle duftb.

La conversion entre le sch´ema d’annotation en constituants et le sch´ema d’annotation en

d´ependances n’est pas imm´ediate pour deux raisons principales :

– Premi`erement, dans le sch´ema d’annotation en d´ependances, chaque forme fl´echie de la

phrase est la source ou la destination d’au moins une relation de d´ependance, y compris

`

a l’int´erieur des constituants. Dans le sch´ema d’annotation en constituants, seuls certains

constituants ont une fonction : ce sont les constituants qui ont une fonction grammaticale

par rapport au verbe principal de la proposition. Les huit fonctions grammaticales utilis´ees

pour les gouverneurs verbaux dans le sch´ema en constituants sont utilis´ees dans le sch´ema

en d´ependances comme ´etiquettes de relations. Dans le sch´ema en d´ependances, l’usage de

ces ´etiquettes est cependant ´etendu et des relations suppl´ementaires sont introduites pour

les auxiliaires, les d´eterminants, les compl´ements et modifieurs de noms et d’adjectifs, les

comparatifs, les coordinations. . .

– Deuxi`emement, le sch´ema d’annotation en d´ependances retenu n’impose pas la projectivit´e

de l’arbre de d´ependances. Cela signifie que la projection d’un nœud, c’est-`a-dire le

sous-arbre des nœuds qu’il gouverne, ne doit pas n´ecessairement correspondre `a un segment

continu de la phrase. La non-projectivit´e permet une mod´elisation simple des constituants

discontinus et des d´ependances `a longue distance.

8.3.5 Bilan

Dans cette section, nous avons dress´e la liste des informations syntaxiques n´ecessaires au

cal-cul de la s´emantique. Nous avons ensuite constat´e que les structures syntaxiques produites par

les diff´erents formalismes grammaticaux pr´esentaient un degr´e ´elev´e de variabilit´e. Ces structures

utilisent des moyens diff´erents pour repr´esenter les mˆemes informations syntaxiques. En quˆete

d’un format de structures qui soit moins idiosyncratique, nous nous sommes tourn´e vers les

struc-tures qui ont ´et´e con¸cues pour l’´evaluation et la comparaison des analyseurs syntaxiques. Les

formats les plus int´eressants ont ´et´e propos´es pour l’anglais ; ils utilisent des relations

grammati-cales. Il n’y a pas de format strictement ´equivalent pour le fran¸cais. Le format le plus proche est

celui de la campagne passage, mais c’est un format hybride qui mˆele un d´ecoupage en groupes

syntaxiques avec des relations grammaticales. Nous avons enfin examin´e les sch´emas qui ont ´et´e

utilis´es pour les structures syntaxiques qui annotent leFrench Treebank. Le sch´ema d’annotation

en d´ependances de surface d´ecrit des structures qui ne repr´esentent pas toute l’information dont

8.4. Proposition de format : extension du sch´ema d’annotation en d´ependances de surface duftb141