TAG – formalisme choisi - Formalisme et outils utilisés : LTAG et LLP2

4.3. Formalisme et outils utilisés : LTAG et LLP2

4.3.1. TAG – formalisme choisi

Le formalisme que nous avons choisi dans notre projet pour modéliser la grammaire vietnamienne

est LTAG, qui a été bien étudié pour les grammaires anglaise et française (cf. [XTA 01], Abeillé [ABE

02]). Ce choix est dû à plusieurs facteurs. Théoriquement, l’interface syntaxe sémantique y est plus

simple que dans les grammaires hors-contexte de par le domaine de localité syntaxique étendu proposé

par les TAGs, et la complexité au pire pour l’analyse des TAGs reste polynomiale (en O(n

)). D’un

point de vue pratique, les outils génériques pour les analyseurs basés sur TAG sont nombreux (par

exemple XTAG, Dyalog) et également bien développé au Loria (Crabbé et al. [CRA 03]). Un format

normalisé pour les ressources syntaxiques est disponible : TAGML (Bonhomme and Lopez, [BON

00b]). De plus, la possibilité de convertir une grammaire du formalisme TAG à un autre formalisme

est ouverte (cf. Yoshinaga et al. [YOS 03]). Ces conditions nous permettent de choisir le formalisme

TAG pour construire une grammaire électronique du vietnamien. Ce choix est encore plus motivé par

les caractéristiques suivantes de TAG (cf. le paragraphe suivant sur les notions de base de TAG) :

- les structures de traits en TAG ne contiennent que des valeurs atomiques,

- la représentation arborescente des structures syntaxiques est plus lisible.

Ces caractéristiques, en simplifiant le travail de modélisation, permettent de focaliser la recherche

sur la langue étudiée elle-même plus que sur les spécificités du formalisme employé.

Nous rappelons maintenant les notions de base du formalisme TAG.

4.3.1.2. Notions de base du formalisme TAG

Une grammaire TAG est constituée d’arbres élémentaires (arbres initiaux et arbres auxiliaires), la

construction d’arbres d’analyse syntaxique étant réalisée grâce à trois opérations: l’adjonction, la

substitution et l’unification.

Les arbres initiaux sont des structures linguistiques minimales non récursives (structures

syntagmatiques de phrases simples) :

- tous les nœuds internes sont étiquetés par des non-terminaux

;

- tous les nœuds-feuilles sont étiquetés par des terminaux, ou par des nœuds non-terminaux

marqués pour la substitution (cf. Figure 4-3).

Les arbres auxiliaires sont des structures récursives représentant des constituants adjoints (des

modifieurs) aux structures de base :

- tous les nœuds internes sont étiquetés par des non-terminaux ;

- tous les nœuds feuilles sont étiquetés par des terminaux ou par des nœuds non-terminaux

marqués pour la substitution, à l’exception du nœud-pied, qui a le même nom que la racine,

marqué pour l’adjonction (cf. Figure 4-3).

Figure 4-3 L'arbre initial et l'arbre auxiliaire

À chaque nœud peut être associée une structure de traits spécifiant comment les nœuds

interagissent entre eux. Les structures de traits ont deux parties (1) l’amont (top), qui contient

l'information sur le nœud supérieur et (2) l’aval (bottom), qui contient l'information sur le nœud

inférieur.

Pour la substitution, le nœud-racine d'un arbre élémentaire est combiné avec un nœud-feuille

non-terminal marqué pour la substitution (le nœud racine et le nœud de substitution doivent avoir le même

nom, cf. Figure 4-4).

Pour l’adjonction, un arbre auxiliaire est greffé sur un nœud non-terminal n'importe où dans un

arbre élémentaire (ce nœud et le nœud racine de l’arbre auxiliaire doivent avoir le même nom, cf.

Figure 4-5).

Les opérations de substitution et d’adjonction opèrent également sur les structures de traits, en

réalisant l'unification (cf. Figure 4-4 et Figure 4-5

⁵⁴

), qui permet de spécifier dynamiquement les

contraintes locales, et non statiquement à l'intérieur des arbres.

Figure 4-4 La substitution et l’unification des traits

X X X↓ t tr br t ∪ tr br X↓ _X* X

Figure 4-5 L’adjonction et l’unification des traits

La lexicalisation des grammaires permet de mieux guider les analyses par les propriétés

syntaxiques spécifiques de chaque mot. Shabes et al. [SHA 88] définissent le modèle TAG lexicalisé

(LTAG : Lexicalized TAG), dans lequel toute structure élémentaire a au moins une feuille d'ancrage

lexical, occupée par un item lexical qui lui sert de tête (notée ◊).

L’analyse syntaxique produit comme résultats un arbre dérivé et un arbre de dérivation

.

Considérons l’exemple « Jean dort ». Nous ajoutons l’adverbe « beaucoup » pour illustrer

l’opération d’adjonction.

Exemple simplifié d’une grammaire LTAG :

Arbres élémentaires lexicalisés (Figure 4-6): Deux arbres correspondants aux entrées « Jean »

et « dort » sont des arbres initiaux, l’arbre de l’entrée « beaucoup » est auxiliaire.

Figure 4-6 Exemples d’arbres élémentaires ([ABE 93])

Résultat d’analyse syntaxique (Figure 4-7): Arbre dérivé et arbre de dérivation correspondant

à la phrase « Jean dortbeaucoup ». Dans l’arbre de dérivation, la branche discontinue

représente une opération de substitution, et la branche continue représente une adjonction. À

chaque nœud sont associées les informations suivantes : nom de l’arbre participant à

l’opération, adresse du nœud où l’opération a eu lieu, items lexicaux de tête de l’arbre.

55cf. GLOSSAIRE : arbre dérivé, arbre de dérivation N Jean P N↓ V dort V V* Adv beaucoup (α1) (α2) (β1) X X* X X X tr br t b tf bf t ∪ tr br tf b ∪ bf

Figure 4-7 Exemples d’arbre dérivé et de dérivation en TAG ([ABE 93])

Les arbres dérivés en TAG correspondent à la notion d’arbre syntaxique dans d’autres grammaires

syntagmatiques, alors que les arbres de dérivation sont à la base de l’interprétation sémantique. Dans

une TAG, « ils font apparaître explicitement les relations de dépendances entre items lexicaux (têtes

des arbres élémentaires), en particulier les relations prédicats/arguments qui peuvent être ‘noyées’

dans l’architecture syntagmatique de l’arbre dérivé. Ainsi les arguments sont toujours dominés

directement par leur prédicat dans l’arbre de dérivation, alors qu’ils peuvent en être infiniment

éloignés (en termes d’ordre des mots et de niveau de profondeur) dans l’arbre dérivé. » ([ABE 93]).

La capacité d’exprimer des relations sémantiques en TAG est encore beaucoup plus forte avec le

mécanisme des TAG synchrones (cf. Shieber et Schabes [SHI 90]). Ce mécanisme permet de calculer

la structure sémantique de la phrase, qui est un arbre où les nœuds sont les prédicats sémantiques

associés aux mots et où les branches codent les phénomènes de dépendance sémantique ou de portée.

Il s’agit de mettre en lien deux grammaires d’arbres lexicalisées, une syntaxique et une sémantique, en

assurant une synchronisation des dérivations au fur et à mesure de chaque analyse.

La construction d’une grammaire lexicalisée LTAG doit respecter les principes de bonne

formation des arbres élémentaires suivants (cf. Abeillé [ABE 93, 02]) :

- « principe d’ancrage lexical : tout arbre élémentaire a au moins une tête lexicale non vide ;

- principe de cooccurrence prédicat-arguments : tout prédicat contient dans sa structure

élémentaire au moins un nœud pour chacun des arguments qu’il sous-catégorise (sous forme

de nœud à substitution ou de nœud pied) ;

- principe d’ancrage sémantique : tout arbre syntaxique élémentaire a un correspondant

sémantique non vide. Ceci exclut la plupart des éléments fonctionnels (prépositions « vide »,

complémenteurs, certains pronoms relatifs) en tant qu’entités autonomes de la syntaxe : ces

éléments apparaissent comme co-têtes lexicales dans un arbre élémentaire ayant une tête

lexicale non vide ;

- principe de compositionnalité : un arbre élémentaire correspond à une et une seule unité

sémantique. »

Pour finir ce paragraphe, nous introduisons la notions de règle lexicale.

Les règles lexicales, utilisées par la plupart des grammaires d’unification, représentent des

régularités syntaxiques et sémantiques en mettant en relation des ensembles d’entrées lexicales

(généralement les formes verbales). Elles contraignent ainsi la bonne formation du lexique d’une

langue : par exemple, si celui-ci contient telle forme verbale active, il devra également contenir une

forme verbale passive de même sens, ayant telle construction apparentée (Abeillé [ABE 93, 02]). En

TAG, une règle lexicale s’applique à tous les arbres élémentaires dont la description s’unifie avec la

description partielle de la partie gauche de la règle.

P N V dort Jean ^V Adv beaucoup α3 (dort) (1) α1 (Jean) β2 (beaucoup) (2)

Du point de vue linguistique, deux types de règles lexicales sont distingués (Abeillé [ABE 02]) : le

premier désigne les règles de réalisation des arguments d’un prédicat (phénomènes d’extraction, les

réalisations non canoniques ou les variations d’ordre des mots), qui ne changent ni le sens de

l’expression ni la sous-catégorisation du prédicat, le second, les règles de redistribution fonctionnelle

(phénomènes d’alternance ou de changement de valence).

La section suivante présente la réalisation d’un analyseur LTAG au LORIA.

4.3.2. LTAG à l’équipe Langue et Dialogue

Dans le document Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens (Page 125-129)