Amélioration du système d’étiquetage lexical

3.5. Bilan et perspectives

45 Clément et al. [CLE 04], http://www.lefff.net/

46http://www.language-archives.org/

Amélioration du système d’étiquetage lexical

3.5. Bilan et perspectives

3.5.2. Amélioration du système d’étiquetage lexical

Outil d’étiquetage

Nous avons déjà présenté au cours de ce chapitre plusieurs pistes envisageables pour accroître la

qualité des résultats de la segmentation et de l’étiquetage automatique, et ne revenons pas ici plus en

détail sur ces considérations techniques.

Deux points de travail restent néanmoins ouverts :

- L’interaction entre segmentation et étiquetage n’a pas été abordée au cours de notre étude,

quoiqu’il s’agisse d’un point potentiellement très important : en particulier, la définition de la

granularité de segmentation cherchée dépend beaucoup du jeu d’étiquettes employé ; il semble

à tout le moins nécessaire que le système d’étiquetage ait la capacité de revenir sur certains

choix effectués au cours de la segmentation, et que le système de segmentation puisse choisir

en cas d’ambiguïté forte de déléguer la responsabilité de la désambiguïsation au système

d’étiquetage. Un travail d’intégration de ces deux outils paraît donc potentiellement

intéressant.

- Le choix du jeu d’étiquettes conditionne largement, comme nous l’avons vu, la qualité de

l’étiquetage obtenu. Nos choix ont dans ce domaine principalement été guidés par les

exigences de la tâche d’analyse syntaxique (que nous présentons en détail au chapitre suivant),

mais il est également possible de considérer qu’il serait plus pertinent de définir pour

l’étiquetage morphosyntaxique des étiquettes « faciles », en laissant à l’analyse syntaxique le

soin d’attribuer des étiquettes plus fines. Une étude systématique serait dans ce cas nécessaire

pour définir le jeu d’étiquettes rencontrant un « succès » optimal.

Corpus annoté de référence

Le but est de concevoir un corpus annoté de grande taille.

Comme nous l’avons déjà mentionné, le Centre de Lexicographie Vietlex possède un large corpus

brut libre de droit de 50 millions de syllabes (environ 2 millions de phrases). Ce corpus, collecté par le

Vietlex durant plusieurs années, fait à l’heure actuelle l’objet de négociations pour pouvoir être mis à

la disposition de la communauté de recherche publique au Vietnam. Selon la main d’œuvre disponible

pour réaliser cette tâche, tout ou partie de l’annotation morphosyntaxique pourra être validée

manuellement.

Le corpus de référence doit fait également l’objet d’une distribution publique au sein de la

communauté de TAL. Des procédures similaires à celles définies pour la distribution du lexique,

présentée au paragraphe ci-dessus, pourraient s’appliquer pour que de multiples équipes de recherche

puissent profiter de ces ressources et les faire évoluer.

En conclusion, nous avons présenté dans ce chapitre les travaux menés pour construire les

ressources linguistiques fondamentales pour l’annotation morphosyntaxique : un lexique avec des

descriptions lexicales à large couverture, et un premier corpus annoté morpho-syntaxiquement. Bien

que les ressources obtenues soient encore loin d’être parfaites, elles sont prêtes à être améliorées et

constituent les premières briques pour l’annotation morphosyntaxique du vietnamien. Nous avons

rencontré beaucoup d’obstacles pour leur construction, dus au faible consensus des linguistes sur la

catégorisation grammaticale du vietnamien et à la difficulté de désambiguïsation manuelle des

étiquettes des mots en contexte (cf. 2.4.1.8). Cependant, cela ne doit pas être une source de

découragement, car l’annotation des corpus réels est en effet un moyen de consolider les choix

linguistiques. Nous avons également mis au point des systèmes pour l’automatisation de la

segmentation et de l’étiquetage des textes vietnamiens, atteignant une relativement bonne précision

pour la première de ces tâches, et proposant pour la seconde une première solution fonctionnelle,

quoique demandant encore à être amendée pour mieux prendre en compte les spécificités de la langue

vietnamienne. Ces premiers outils doivent nous permettre de stimuler le développement de ressources

linguistiques pour le vietnamien, toujours dans un cadre de normalisation permettant leur partage et

réutilisation.

Ce premier niveau de connaissance grammaticale sur les textes vietnamiens étant ainsi atteint, nous

pouvons maintenant nous intéresser à l’étape suivante dans l’analyse des textes et la construction de

ressources linguistiques : l’analyse syntaxique.

Chapitre 4

Ressources linguistiques pour l’analyse syntaxique du

vietnamien

Ce chapitre discute de la modélisation de la grammaire vietnamienne à l’aide du

formalisme TAG (Grammaire d’Arbres Adjoints), que nous avons expérimentée grâce

au parseur LLP2 développé au Loria. Dans le cadre de cette thèse, il n’est bien sûr pas

question d’aboutir à une analyse syntaxique à large couverture, mais nous montrons

que l’approche TAG permet de couvrir suffisamment de phénomènes observables sur

le vietnamien. Nous finissons ce chapitre par une spécification de ce que pourrait être

une TreeBank à la vietnamienne.

- Introduction : Analyse syntaxique

- Formalismes de grammaire et analyseurs syntaxiques

- Descriptions syntaxiques du vietnamien

4.1. Introduction

De nombreuses applications dans le domaine du TAL utilisent directement des composants

syntaxiques : la correction d’orthographe, l’indexation automatique, l’interrogation de bases de

données, la simplification de textes (pour un traitement ultérieur comme le résumé de texte ou la

traduction), l’alignement automatique, l’extraction de connaissances linguistiques à partir de textes, la

génération de phrases, etc. La tâche d’analyse syntaxique est donc essentielle pour le développement

de nombreux outils de TAL. Elle peut être décomposée en plusieurs sous-problématiques distinctes

quoique pas tout à fait indépendantes (Abeillé [ABE 00]) :

- parenthésage (identification des frontières syntagmatiques majeures),

- assignation de fonctions aux syntagmes distingués (ou à leur tête),

- désambiguïsation syntaxique des têtes prédicatives (cadres de sous-catégorisation, actif/passif,

etc.),

- assignation d’une structure syntaxique globale (un arbre) à chaque phrase.