• Aucun résultat trouvé

4.4. Descriptions syntaxiques du vietnamien

4.5.3. Construction du corpus arboré

Par rapport aux corpus annotés morpho-syntaxiquement, qui associent à chaque mot des

informations morphologiques et sa catégorie syntaxique, les corpus annotés syntaxiquement

fournissent des informations supplémentaires : découpage des constituants (proposition, syntagme,

etc.), fonction grammaticale des mots ou des constituants, dépendance entre mots ou constituants. Ils

peuvent avoir plusieurs applications directes en TAL :

- évaluation des étiqueteurs et des analyseurs syntaxiques ;

- entraînement des étiqueteurs ou des analyseurs probabilistes ;

- recensement des constructions négligées dans la littérature linguistique ;

- enrichissement des dictionnaires (extraction de collocations, cadres de complémentation) ;

- etc.

Ainsi, pour chaque langue, la disponibilité d’un corpus arboré de référence de grande taille est

précieuse pour toutes les applications en TAL qui font usage d’informations syntaxiques (extraction

d’information, résumé de texte, alignement de texte multilingue, etc.). L’annotation syntaxique est

aussi une préparation à l’annotation sémantique.

Avant d'étudier le codage normalisé des corpus arborés, nous présentons dans la section suivante la

structure (les informations annotées) des corpus arborés.

4.5.3.1. Structure des corpus arborés

L’ouvrage édité par Anne Abeillé ([ABE 03a]) présente de nombreux projets de construction des

corpus arborés (Treebank) d’une assez grande variété de langues. En général, les corpus arborés sont

construits en plusieurs étapes :

- Annotation morphosyntaxique

- Analyse syntaxique partielle

- Analyse syntaxique profonde

Les corpus suivant le modèle du Penn Treebank (introduit à la section 1.1.4) représentent les

informations syntaxiques en réalisant un parenthésage hiérarchique des constituants de la phrase, et en

associant les rôles sémantiques de la structure prédicat-argument à ces constituants (cf. Figure 4-19).

((S (NP-SBJ-1 Jones) (VP followed)

(NP him)

(PP-DIR into

(NP the front room))

, (S-ADV (NP-SBJ *-1) (VP closing (NP the door) (PP behind (NP him))))) .))

Figure 4-19 Exemple d’annotation syntaxique dans le corpus Penn Treebank

D’autres corpus arborés, dont le modèle Prague Dependency Treebank est représentatif, reposent

uniquement sur la grammaire de dépendance (dépendance et rôle sémantique des mots). Les Figure

4-20 et Figure 4-21 montrent des exemples de l’annotation de dépendances.

subj(intend,Paul,_) xcomp(intend,leave,to) subj(leave,Paul) dobj(leave,IBM,_)

Figure 4-21 Exemple de l’annotation de dépendances du tchèque [CME 04]

Le projet NEGRA/TIGER (cf. Brants et al. [BRA 03]) adopte un modèle hybride, qui combine

l’annotation de constituants et de dépendances pour l’allemand. Ce modèle autorise des relations de

dépendances croisées. Ce choix permet notamment de simplifier la représentation des constituants

discontinus de l’allemand, langue pour laquelle l’ordre de mot est très flexible. Ce projet a également

donné lieu à la définition du format TIGER-XML pour le codage des formes et fonctions syntaxiques,

qui est un des formats reconnus au niveau international.

Figure 4-22 Exemple de l’annotation du corpus NEGRA/TIGER

Un autre corpus richement annoté est le Sinica Treebank pour le chinois (cf. [CHE 03]). Il contient

l’annotation des constituants de phrase ainsi que, comme le Prague Dependency Treebank, des rôles

sémantiques de chaque mot. On peut citer également le corpus arboré du polonais, qui vise à devenir

une base de test pour une grammaire HPSG de cette langue (cf. Marciniak et al. [MAR 03]).

En résumé, un corpus arboré richement annoté contiendra des informations suivantes :

- Catégorie syntaxique/rôle grammatical des mots/constituants

- Parenthésage (ou dépendance) des constituants

- Dépendance des rôles grammaticaux des mots/constituants.

Le paragraphe suivant présente une proposition de codage normalisé des corpus arborés, dans le

but de maximiser l’échange, l’évaluation et la réutilisabilité de ces ressources.

4.5.3.2. Codage normalisé du corpus arboré

Ide et Romary ([IDE 03]) proposent un modèle abstrait pour différents types d’annotation

(morphosyntaxique, syntaxique, co-référence, etc.) qui peut être instancié de plusieurs façons selon

l’approche et le but de l’annotateur. Ce modèle, ainsi que plusieurs instanciations, ont été

implémentées en employant des schémas XML et RDF (Resource Definition Framework), et

incorporés dans XCES

66

(cf. Ide et al. [IDE 00b]), qui est en relation étroite avec le travail sur la

définition du cadre d’annotation linguistique mené par le comité ISO/TC 37/SC 4 (cf. 1.2.2).

Suivant un principe similaire aux travaux menés par le SC 4, l’objectif cette recherche est de

définir un méta-modèle et une spécification des catégories de données communes pour chaque type

d’annotation. Le modèle concret sera obtenu par une instanciation du méta-modèle et une

interprétation des catégories de données.

Le modèle sous-jacent pour l’annotation syntaxique spécifie des relations constitué/constituant

entre des composants grammaticaux ou syntaxiques. Ces relations peuvent être soit modélisées par une

structure arborescente, soit données explicitement (cf. les exemples de la section 4.5.3.1).

L’instanciation XML du méta-modèle proposé utilise les balises suivantes pour représenter les

annotations syntaxiques utilisant des arbres (cf. Ide et Romary [IDE 03] pour les détails concernant les

attributs de ces balises) :

- <struct> représente un nœud dans l’arbre ;

- <feat> inclut l’information attachée à un nœud ;

- <alt> permet de représenter les alternatives d’annotation en cas nécessaire ;

- <rel> est utilisé pour identifier un élément relié non adjacent ;

- <seg> référence aux données auxquelles est associée l’annotation, car il est recommandé

d’utiliser une annotation externe (stand-off, cf. Bonhomme [BON 00a])

La hiérarchie de l’élément <struct> correspond à la structure de constituants de la phrase

annotée. Ainsi, on peut dans un sens utiliser la grammaire sous-jacente de l’annotation syntaxique

pour vérifier la grammaticalité de la phrase, et dans l’autre sens détecter les nouvelles structures non

enregistrées dans la grammaire en utilisant des outils pour la génération automatique de la DTD.

Le modèle abstrait impose une distinction claire entre les informations implicite et explicite (par

exemple des relations fonctionnelles déduites des relations structurelles des constituants), entre les

relations syntagmatiques et fonctionnelles. Cela permet une comparaison plus aisée des schémas

d’annotation.

La Figure 4-23 (cf. Ide et Romary [03]) présente le codage XML de l’annotation exemplifiée à la

Figure 4-19. Les têtes (head) des relations, marquées en gras, sont implicites dans l’annotation

originale. L’élément

<feat>

, associé au sujet implicite ([Jones]) de la phrase subordonnée, marqué en

gras, est présent pour refléter le contenu de l’annotation originale.

Une annotation de dépendance telle que celle présentée à la Figure 4-20 est codée par une

hiérarchie plate, comme le montre la Figure 4-24 (cf. Ide et Romary [03]).

Ce cadre XCES et ses supports XML et RDF doivent permettre à l’annotateur de se concentrer sur

la spécification du schéma d’annotation syntaxique (c’est-à-dire des étiquettes morphosyntaxique, des

types de constituant syntaxique, et des structures selon une théorie/modèle linguistique). L’application

du schéma de codage XCES nous aide à obtenir des ressources annotées cohérentes, d’accès et

d’utilisation faciles.

<struct id="s0">

<feat type="Cat">S</feat> <struct id="s1">

<rel type="SBJ" head="s2"/> <feat type="Cat">NP</feat>

<seg target="xptr(substring(/p/s[1]/text(),1,5))"/> <!-- Jones --> </struct>

<struct id="s2">

<feat type="Cat">VP</feat>

<seg target="xptr(substring(/p/s[1]/text(),7,8))"/> <!-- followed --> </struct>

<struct id="s3">

<feat type=“Cat”>NP</feat>

<seg target="xptr(substring(/p/s[1]/text(),16,3))"/> <!-- him --> </struct>

<struct id="s4">

<rel type="DIR" head="s2"/> <feat type="Cat">PP</feat>

<seg target="xptr(substring(/p/s[1]/text(),20,4))"/> <!-- into --> <struct id="s5">

<feat type="Cat">NP</feat>

<seg target="xptr(substring(/p/s[1]/text(),25,14))"/> <!--the room --> </struct>

</struct> <struct id="s6">

<rel type="ADV" head="s2"/> <feat type="Cat">S</feat> <struct id="s7" ref="s1">

<rel type="SBJ" head="s8"/> <!-- [Jones] --> <feat type="Cat">NP</feat>

</struct>

<struct id="s8">

<feat type="Cat">VP</feat>

<seg target="xptr(substring(/p/s[1]/text(),41,7))"/> <!-- closing --> <struct id="s9">

<feat type="Cat">NP</feat>

<seg target="xptr(substring(/p/s[1]/text(),49,8))"/> <!-- the door --> <struct id="s10">

<rel type=“DIR” head="s8"/> <feat type="Cat">PP</feat>

<seg target="xptr(substring(/p/s[1]/text(),57,6))"/> <!-- behind --> <struct id="s11">

<feat type="Cat">NP</feat>

<seg target="xptr(substring(/p/s[1]/text(),64,3))"/><!-- him --> </struct>

</struct> </struct> </struct> </struct>

Figure 4-23 Codage XML abstrait pour l’exemple Penn TreeBank [IDE 03]

<struct>

<rel type="subj" head="mySentence.xml#w2" dependent="mySentence.xml#w1"/> <rel type="xcomp" head="mySentence.xml#w2" dependent="mySentence.xml#w4"

introducer="mySentence.xml#w3"/>

<rel type="subj" head="mySentence.xml#w4" dependent="mySentence.xml#w1"/> <rel type="dobj" head="mySentence.xml#w4" dependent="mySentence.xml#w5"/> </struct>

Figure 4-24 Codage XML abstrait pour l’exemple de dépendances [IDE 03]67

67Ce codage suppose que la phrase en question appartient à un document séparé mySentence.xml sous forme: <s1><w1>Paul</w1><w2>intends</w2><w3>to</w3><w4>leave</w4><w5>IBM</w5></s1>.

S'appuyant sur le principe du modèle de représentation de l'annotation syntaxique proposé

ci-dessus, la définition du codage d'un corpus arboré du vietnamien est en cours dans le cadre de notre

nouveau projet national de recherche en TAL.

4.5.3.3. Annotation syntaxique des textes vietnamiens

Nous souhaitons construire un corpus arboré richement annoté pour le vietnamien. Un tel corpus

doit contenir, comme nous l’avons précisé plus haut, les informations suivantes :

- partie du discours pour chaque mot, accompagnée par une structure de traits contenant les

informations venant du lexique syntaxique ;

- structures des constituants ;

- rôles thématiques reflétant les relations de dépendance entre les mots/constituants.

Le processus d’annotation habituel est :

- étiquetage de catégories syntaxiques ;

- analyse syntaxique par un analyseur syntaxique « profond » (deep parser) comme par

exemple l’analyseur LTAG, ou par un analyseur partiel (shallow parser) ;

- révision manuelle.

Suivant le même principe que nous avons adopté pour la constitution d’autres ressources

linguistiques de taille importante, nous devons assurer la disponibilité des ressources construites sur la

Toile, en créant et maintenant un mécanisme pour le partage et la construction coopérative de ces

ressources (cf. 3.5.1).

Pour tout cela, il faut étudier et développer les outils suivants :

- analyseur partiel pour le vietnamien ;

- documentation et guide d’annotation syntaxique ;

- outils d’accès et d’édition des annotations syntaxiques en ligne ;

- formulaire de contribution de nouvelles annotations en ligne.

Une licence pour assurer une bonne distribution de ces ressources est également nécessaire.

En conclusion, afin de construire des outils et ressources linguistiques pour l’analyse syntaxique du

vietnamien, nous avons présenté les premiers efforts vers la construction d’une grammaire à large

couverture avec le formalisme TAG : il s’agit de modéliser les groupes nominaux en vietnamien, et

d’étudier la structure noyau des phrases pour pouvoir identifier les spécificités du vietnamien par

rapport aux langues indo-européennes comme le français. Cela nous permet de prévoir la possibilité de

modéliser la grammaire vietnamienne avec le formalisme TAG. Nous avons ensuite présenté les pistes

à suivre pour construire les ressources linguistiques importantes pour l’analyse syntaxique en TAL

comme le lexique syntaxique, la base de phrases de test, le corpus annoté syntaxiquement, en étudiant

l’état de l’art sur la construction de ces ressources. Cette construction ne peut pas être, bien entendu,

réalisée dans le cadre de notre thèse, mais le plan de travail proposé pourra trouver son cadre de

réalisation dans les prochains projets de recherche en TAL au Vietnam.

Dans le chapitre suivant, nous présentons les travaux sur l’alignement multilingue, le sujet original

de notre projet de thèse.

Chapitre 5

Traitement de corpus multilingues français - vietnamiens

Nous présentons dans ce chapitre les problèmes concernant l’alignement de textes

multilingues. Nous nous intéressons en particulier à deux aspects de cette

problématique : l’alignement au niveau des phrases et celui au niveau des mots

(unités lexicales), pour lesquels nous avons développé deux outils spécialisés. Pour

l’alignement au niveau des phrases, nous disposons d’un outil fondant son analyse

sur la structure hiérarchique des documents, qui s’est montré d’une grande efficacité

pour le couple de langues français-anglais dans le cadre de la campagne d’évaluation

ARCADE I. Notre première tâche est donc d’évaluer l’adaptation de cet outil aux

textes français-vietnamiens. Nous développons ensuite un outil d’alignement au

niveau des unités lexicales. Dans le temps limité de la thèse, nous ne réalisons qu’une

rapide évaluation de l’application de cet outil à chaque couple de langues d’un texte

multilingue français - vietnamien - anglais, dont chaque texte est soumis à un

pré-traitement lexical, afin de montrer la perspective de la technique utilisée. Nous

présentons également l'évaluation de notre outil sur des corpus en dix langues

différentes dans le cadre du projet A

RCADE

II.

- Introduction : Alignement multilingue

- Méthodologie d’alignement

- Construction de corpus multilingues et codage de données

- Alignement structurel

- Alignement lexical

- Combinaison des approches structurelle et lexicale

- Participation à la campagne ARCADE II

- Bilan et perspectives

5.1. Introduction

L’alignement de corpus multilingues, ou textes parallèles, consiste à apparier automatiquement des

unités de différents niveaux dans deux textes qui sont la traduction l’une de l’autre: paragraphes,

phrases, mots et expressions, etc.

Un texte multilingue aligné constitue une source d’information utilisable pour un vaste ensemble

d’applications : traduction, recherches en terminologie et lexicographie multilingue, recherche

d’information multilingue, désambiguïsation du sens des mots dans des textes, enseignement des

langues, recherches linguistiques comparatives, étude de la traduction, etc. (Véronis [VER 00b]).

Les techniques d’alignement peuvent intervenir lors de la création même de textes parallèles, et

peuvent ainsi fournir un support à la création et à la maintenance de documents multilingues (Isabelle

et al. [ISA 93]).

Pour les langues occidentales, les systèmes automatiques d’alignement au niveau des phrases

atteignent aujourd’hui des résultats plus que satisfaisants. Ils utilisent, pour beaucoup d’entre eux,

uniquement des informations d’ordre statistique concernant les corpus comparés, ce qui leur procure

une quasi-indépendance vis-à-vis des couples de langues étudiés. Les résultats qu’ils procurent sont

tout à fait pertinent puisqu’en fonction des types de textes concernés et leurs qualités, le taux d’erreur

atteint rarement les 8% et se situe habituellement en-dessous de 5%. Il est envisagé d’effectuer un

alignement plus fin, c’est à dire au niveau des syntagmes et des mots. C’est une inflexion qu’a intégré

le projet Arcade I (cf.5.2.2) de l’Agence Universitaire de la Francophonie, avec le lancement d’une

campagne d’évaluation des systèmes d’alignement au niveau des mots à partir de l’année 1998. Ce

nouveau type d’alignement demande cependant un usage plus important de la composante linguistique

et nécessite une prise en compte des spécificités, notamment morphosyntaxique, de chacune des

langues concernées.

L’équipe Langue et Dialogue du LORIA a participé au projet ARCADE I avec un système

d’alignement au niveau des phrases qui se fond sure la structure logique hiérarchique des documents

(cf. 1.2.1). Nous avons amélioré ce système (Nguyen [NGU 99]) afin d’introduire une plus grande

flexibilité en lui permettant de détecter les cas où le codage structurel du corpus dans les différentes

langues considérées n’est pas homogène, et d’adapter son fonctionnement en conséquence. Nous

avons également travaillé à l’extension du domaine d’applicabilité du système, en introduisant le

support de l’UTF-8, d’une part, et surtout en définissant des métriques statistiques ne s’appuyant que

sur les observations réalisées sur le corpus, et donc totalement indépendantes des langues traitées.

Notre premier objectif est d’évaluer l’application de ce système sur le couple de langues

français-vietnamien et, par intérêt comparatif, anglais-français-vietnamien. Le deuxième objectif est d’implémenter et

évaluer un système d’alignement lexical, qui fait l’appel à l’information de lemmatisation des textes

français ou anglais, et d’étiquetage morphosyntaxique des textes vietnamiens. Nous décrivons et

évaluons également un système original combinant ces deux alignements structurel et lexical, qui peut

permettre d’atteindre des résultats de qualité supérieure dans le cas où les textes présentent des

différences importantes (traductions parcellaires, inexactes, etc.).

Dans ce chapitre, nous présentons dans un premier temps la méthodologie de l’alignement

multilingue (techniques d’alignement, mesures d’évaluation). Dans un second temps, nous présentons

le travail que nous avons accompli au cours de cette thèse, consistant à :

- collecter et normaliser le codage d’un corpus de bitextes français – vietnamien et anglais –

vietnamien

- développer un système d’alignement multilingue basé sur la structure hiérarchique des

documents et sur les informations lexicales (textes lemmatisés).