8.3 El´ ´ ements pour le choix du format des structures syntaxiques
8.3.4 Structures utilis´ ees pour l’annotation de corpus
Nous nous tournons maintenant vers les formats utilis´es pour annoter des corpus. Si nous
voulons pouvoir faire des exp´erimentations `a grande ´echelle, il est en effet primordial d’utiliser
pour les structures syntaxiques un sch´ema qui soit au moins compatible, sinon tr`es similaire `a
un sch´ema d’annotation d’un corpus du fran¸cais. Les premiers corpus annot´es de taille
signifi-cative ont ´et´e annot´es en constituants. Le principal d’entre eux, le Penn Treebank de l’anglais
constitu´e d’articles du Wall Street Journal [MMS93], a amorc´e un mouvement qui a ´et´e suivi
dans d’autres langues, dont le fran¸cais avec le French Treebank constitu´e d’articles du journal
Le Monde [ACT03]. Les structures en constituants sont toutefois moins adapt´ees aux langues `a
ordre des mots libre [Shi85], ce qui a favoris´e la constitution de corpus annot´es en d´ependances,
par exemple en tch`eque [BHHH03]. La popularit´e croissante des repr´esentations en d´ependances
a ensuite fait ´emerger le besoin de disposer de corpus annot´es par des structures de d´
epen-dance syntaxique, y compris en anglais. La solution a alors consist´e `a d´efinir une proc´edure de
conversion des structures en constituants vers des structures en d´ependances et `a appliquer cette
proc´edure aux corpus annot´es en constituants [MMM06,CCDG09].
Nous nous concentrons maintenant sur les sch´emas d’annotation utilis´es pour leFrench
Tree-bank, qui est le corpus du fran¸cais le plus important et le plus utilis´e.
Sch´ema d’annotation fonctionnelle du ftb en constituants
Le French Treebank (ci-apr`esftb) [ACT03,AB04] est constitu´e de 32 000 phrases issues du
journal Le Monde, d´ecoup´ees en constituants continus. Ces constituants sont annot´es par huit
fonctions grammaticales, qui r´ef`erent `a leur rˆole par rapport au verbe principal. Ces fonctions
sont list´ees en figure 8.4.
Fonctions grammaticales
suj sujet
obj objet
a obj objet indirect introduit par«`a»
de obj objet indirect introduit par«de»
p obj objet indirect introduit par une autre pr´eposition que«`a»et«de»
ats attribut du sujet
ato attribut de l’objet
mod modifieur
8.3. ´El´ements pour le choix du format des structures syntaxiques 139
Sch´ema d’annotation du ftb en d´ependances de surface
Un sch´ema d’annotation en d´ependances syntaxiques de surface pour le fran¸cais [CCF11]
a ´et´e d´eriv´e de l’annotation en constituants du ftb [CCDG09, CCD10]. Dans ce sch´ema, la
structure de d´ependance associ´ee `a une phrase est un arbre orient´e dont l’ensemble des nœuds
correspond `a l’ensemble des formes fl´echies de la phrase (mˆeme celles qui sont s´emantiquement
vides) et les arˆetes sont ´etiquet´ees par des relations de d´ependance. Les relations de d´ependance
utilis´ees dans ce sch´ema sont list´ees en figure 8.5.
Relations pour gouverneurs verbaux
suj sujet
suj impers sujet impersonnel
obj objet
a-obj argument pr´epositionnel introduit par«`a», non locatif
de-obj argument pr´epositionnel introduit par«de», non locatif
p-obj autre argument pr´epositionnel
p-obj agt argument pr´epositionnel compl´ement d’agent (passif et causatif)
p-obj loc argument pr´epositionnel locatif
ats attribut du sujet
ato attribut de l’objet
mod modificateur
mod cleft subordonn´ee dans une construction cliv´ee
mod loc modificateur s´emantiquement locatif
aux tps auxiliaire de temps
aux pass auxiliaire du passif
aux caus auxiliaire de causation
aff clitique fig´e (affixe)
aff moyen clitique «se»pour la voix moyenne
Relations pour gouverneurs non verbaux
obj relation entre une pr´eposition et le syntagme qu’elle introduit
arg relation entre une pr´eposition et une autre pr´eposition li´ee (ex :
«de Charybde en Scylla»)
arg comp relation entre une comparative et son gouverneur
arg cons relation entre une cons´ecutive et son gouverneur adverbial
mod modifieur rep´er´e structuralement, sauf subordonn´ee relative
mod rel subordonn´ee relative adnominale
dep d´ependant ambig¨u entre argument et modifieur
det relation entre un ´el´ement d´etermin´e et son d´eterminant
Relations pour la coordination
coord relation entre un ´el´ement coordonn´e et le coordonnant suivant
dep coord relation entre un coordonnant et l’´el´ement coordonn´e suivant
Relations pour la ponctuation
ponct relation entre une tˆete de proposition et une ponctuation
Sur la figure 8.5, toutes les relations ne sont pas sur le mˆeme alignement vertical. Le sch´ema
d’annotation en d´ependances comporte en effet deux niveaux de pr´ecision. Les ´etiquettes align´ees
le plus `a gauche, commesujetobj, forment le jeu de relations de base. C’est ce jeu qui est utilis´e
dans l’annotation en d´ependances du ftb obtenue par conversion automatique de l’annotation
en constituants. Les ´etiquettes du deuxi`eme alignement sont des raffinements des ´etiquettes
pr´ec´edentes, pour certains cas particuliers : un sujet impersonnel est not´e suj impersplutˆot que
suj, un argument pr´epositionnel compl´ement d’agent est not´ep-obj agtplutˆot quep-obj. . . Ces
´
etiquettes plus pr´ecises ne sont actuellement utilis´ees que pour l’annotation manuelle duftb.
La conversion entre le sch´ema d’annotation en constituants et le sch´ema d’annotation en
d´ependances n’est pas imm´ediate pour deux raisons principales :
– Premi`erement, dans le sch´ema d’annotation en d´ependances, chaque forme fl´echie de la
phrase est la source ou la destination d’au moins une relation de d´ependance, y compris
`
a l’int´erieur des constituants. Dans le sch´ema d’annotation en constituants, seuls certains
constituants ont une fonction : ce sont les constituants qui ont une fonction grammaticale
par rapport au verbe principal de la proposition. Les huit fonctions grammaticales utilis´ees
pour les gouverneurs verbaux dans le sch´ema en constituants sont utilis´ees dans le sch´ema
en d´ependances comme ´etiquettes de relations. Dans le sch´ema en d´ependances, l’usage de
ces ´etiquettes est cependant ´etendu et des relations suppl´ementaires sont introduites pour
les auxiliaires, les d´eterminants, les compl´ements et modifieurs de noms et d’adjectifs, les
comparatifs, les coordinations. . .
– Deuxi`emement, le sch´ema d’annotation en d´ependances retenu n’impose pas la projectivit´e
de l’arbre de d´ependances. Cela signifie que la projection d’un nœud, c’est-`a-dire le
sous-arbre des nœuds qu’il gouverne, ne doit pas n´ecessairement correspondre `a un segment
continu de la phrase. La non-projectivit´e permet une mod´elisation simple des constituants
discontinus et des d´ependances `a longue distance.
8.3.5 Bilan
Dans cette section, nous avons dress´e la liste des informations syntaxiques n´ecessaires au
cal-cul de la s´emantique. Nous avons ensuite constat´e que les structures syntaxiques produites par
les diff´erents formalismes grammaticaux pr´esentaient un degr´e ´elev´e de variabilit´e. Ces structures
utilisent des moyens diff´erents pour repr´esenter les mˆemes informations syntaxiques. En quˆete
d’un format de structures qui soit moins idiosyncratique, nous nous sommes tourn´e vers les
struc-tures qui ont ´et´e con¸cues pour l’´evaluation et la comparaison des analyseurs syntaxiques. Les
formats les plus int´eressants ont ´et´e propos´es pour l’anglais ; ils utilisent des relations
grammati-cales. Il n’y a pas de format strictement ´equivalent pour le fran¸cais. Le format le plus proche est
celui de la campagne passage, mais c’est un format hybride qui mˆele un d´ecoupage en groupes
syntaxiques avec des relations grammaticales. Nous avons enfin examin´e les sch´emas qui ont ´et´e
utilis´es pour les structures syntaxiques qui annotent leFrench Treebank. Le sch´ema d’annotation
en d´ependances de surface d´ecrit des structures qui ne repr´esentent pas toute l’information dont
8.4. Proposition de format : extension du sch´ema d’annotation en d´ependances de surface duftb141
Dans le document
Étiquetage grammatical symbolique et interface syntaxe-sémantique des formalismes grammaticaux lexicalisés polarisés
(Page 153-156)