• Aucun résultat trouvé

Amélioration du système d’étiquetage lexical

3.5. Bilan et perspectives

3.5.2. Amélioration du système d’étiquetage lexical

Outil d’étiquetage

Nous avons déjà présenté au cours de ce chapitre plusieurs pistes envisageables pour accroître la

qualité des résultats de la segmentation et de l’étiquetage automatique, et ne revenons pas ici plus en

détail sur ces considérations techniques.

Deux points de travail restent néanmoins ouverts :

- L’interaction entre segmentation et étiquetage n’a pas été abordée au cours de notre étude,

quoiqu’il s’agisse d’un point potentiellement très important : en particulier, la définition de la

granularité de segmentation cherchée dépend beaucoup du jeu d’étiquettes employé ; il semble

à tout le moins nécessaire que le système d’étiquetage ait la capacité de revenir sur certains

choix effectués au cours de la segmentation, et que le système de segmentation puisse choisir

en cas d’ambiguïté forte de déléguer la responsabilité de la désambiguïsation au système

d’étiquetage. Un travail d’intégration de ces deux outils paraît donc potentiellement

intéressant.

45 Clément et al. [CLE 04], http://www.lefff.net/

46http://www.language-archives.org/

47

- Le choix du jeu d’étiquettes conditionne largement, comme nous l’avons vu, la qualité de

l’étiquetage obtenu. Nos choix ont dans ce domaine principalement été guidés par les

exigences de la tâche d’analyse syntaxique (que nous présentons en détail au chapitre suivant),

mais il est également possible de considérer qu’il serait plus pertinent de définir pour

l’étiquetage morphosyntaxique des étiquettes « faciles », en laissant à l’analyse syntaxique le

soin d’attribuer des étiquettes plus fines. Une étude systématique serait dans ce cas nécessaire

pour définir le jeu d’étiquettes rencontrant un « succès » optimal.

Corpus annoté de référence

Le but est de concevoir un corpus annoté de grande taille.

Comme nous l’avons déjà mentionné, le Centre de Lexicographie Vietlex possède un large corpus

brut libre de droit de 50 millions de syllabes (environ 2 millions de phrases). Ce corpus, collecté par le

Vietlex durant plusieurs années, fait à l’heure actuelle l’objet de négociations pour pouvoir être mis à

la disposition de la communauté de recherche publique au Vietnam. Selon la main d’œuvre disponible

pour réaliser cette tâche, tout ou partie de l’annotation morphosyntaxique pourra être validée

manuellement.

Le corpus de référence doit fait également l’objet d’une distribution publique au sein de la

communauté de TAL. Des procédures similaires à celles définies pour la distribution du lexique,

présentée au paragraphe ci-dessus, pourraient s’appliquer pour que de multiples équipes de recherche

puissent profiter de ces ressources et les faire évoluer.

En conclusion, nous avons présenté dans ce chapitre les travaux menés pour construire les

ressources linguistiques fondamentales pour l’annotation morphosyntaxique : un lexique avec des

descriptions lexicales à large couverture, et un premier corpus annoté morpho-syntaxiquement. Bien

que les ressources obtenues soient encore loin d’être parfaites, elles sont prêtes à être améliorées et

constituent les premières briques pour l’annotation morphosyntaxique du vietnamien. Nous avons

rencontré beaucoup d’obstacles pour leur construction, dus au faible consensus des linguistes sur la

catégorisation grammaticale du vietnamien et à la difficulté de désambiguïsation manuelle des

étiquettes des mots en contexte (cf. 2.4.1.8). Cependant, cela ne doit pas être une source de

découragement, car l’annotation des corpus réels est en effet un moyen de consolider les choix

linguistiques. Nous avons également mis au point des systèmes pour l’automatisation de la

segmentation et de l’étiquetage des textes vietnamiens, atteignant une relativement bonne précision

pour la première de ces tâches, et proposant pour la seconde une première solution fonctionnelle,

quoique demandant encore à être amendée pour mieux prendre en compte les spécificités de la langue

vietnamienne. Ces premiers outils doivent nous permettre de stimuler le développement de ressources

linguistiques pour le vietnamien, toujours dans un cadre de normalisation permettant leur partage et

réutilisation.

Ce premier niveau de connaissance grammaticale sur les textes vietnamiens étant ainsi atteint, nous

pouvons maintenant nous intéresser à l’étape suivante dans l’analyse des textes et la construction de

ressources linguistiques : l’analyse syntaxique.

Chapitre 4

Ressources linguistiques pour l’analyse syntaxique du

vietnamien

Ce chapitre discute de la modélisation de la grammaire vietnamienne à l’aide du

formalisme TAG (Grammaire d’Arbres Adjoints), que nous avons expérimentée grâce

au parseur LLP2 développé au Loria. Dans le cadre de cette thèse, il n’est bien sûr pas

question d’aboutir à une analyse syntaxique à large couverture, mais nous montrons

que l’approche TAG permet de couvrir suffisamment de phénomènes observables sur

le vietnamien. Nous finissons ce chapitre par une spécification de ce que pourrait être

une TreeBank à la vietnamienne.

- Introduction : Analyse syntaxique

- Formalismes de grammaire et analyseurs syntaxiques

- Descriptions syntaxiques du vietnamien

4.1. Introduction

De nombreuses applications dans le domaine du TAL utilisent directement des composants

syntaxiques : la correction d’orthographe, l’indexation automatique, l’interrogation de bases de

données, la simplification de textes (pour un traitement ultérieur comme le résumé de texte ou la

traduction), l’alignement automatique, l’extraction de connaissances linguistiques à partir de textes, la

génération de phrases, etc. La tâche d’analyse syntaxique est donc essentielle pour le développement

de nombreux outils de TAL. Elle peut être décomposée en plusieurs sous-problématiques distinctes

quoique pas tout à fait indépendantes (Abeillé [ABE 00]) :

- parenthésage (identification des frontières syntagmatiques majeures),

- assignation de fonctions aux syntagmes distingués (ou à leur tête),

- désambiguïsation syntaxique des têtes prédicatives (cadres de sous-catégorisation, actif/passif,

etc.),

- assignation d’une structure syntaxique globale (un arbre) à chaque phrase.

On distingue deux familles principales d’analyseurs syntaxiques : analyseurs « de surface »

(shallow parsers) et « en profondeur » (deep parsers). Les analyseurs de surface se limitent à

l’identification des frontières syntagmatiques et à la mise en évidence de certains liens syntaxiques

majeurs (typiquement, tête-complément), et se basent uniquement sur les catégories

morphosyntaxiques des mots en employant des règles probabilistes. Ils présentent l’avantage d’être

moins sensibles aux phénomènes d’agrammaticalité des textes analysés et beaucoup plus rapides que

les analyseurs en profondeur, qui associent à chaque phrase une structure arborée complète.

Deux défis majeurs doivent être relevés pour le développement d’analyseurs syntaxiques en

profondeur (Villemonte et Rajman [VIL 03]). Le premier est celui de « couverture grammaticale », qui

implique de définir des grammaires susceptibles de rendre compte d’une part la plus importante

possible des phénomènes grammaticaux observables dans un texte. Néanmoins, le nombre d’analyses

possibles pour une phrase donnée tend à croître considérablement avec la sophistication de la

grammaire employée, faisant apparaître la seconde difficulté a surmonter : celle de maîtrise de

l’ambiguïté.

Avec la stabilisation des formalismes de syntaxe, on constate un effort de construction de

grammaires à large couverture des langues, qui vise à la « réutilisabilité » (et la réversibilité) de ces

grammaires pour multiples tâches ultérieures. Or, « une grammaire électronique doit être basée sur un

formalisme pour être cohérente et extensible, mais aussi sur des données pour être ‘couvrante’ »

(Abeillé [ABE 00]).

Dans le cadre de notre thèse, nous avons pour but de mettre en place un cadre de construction des

ressources linguistiques pour l’analyse syntaxique du vietnamien. Etant donné qu’aucune ressource

pour le vietnamien n’est disponible jusqu’à présent, et aucune modélisation formelle de la langue

vietnamienne n’a été faite, nous tentons donc de développer deux types de ressources :

- Une modélisation de la grammaire vietnamienne suivant un formalisme syntaxique ;

- Un corpus arboré de type TreeBank (cf. 1.1.4) du vietnamien.

Ce chapitre donne une brève introduction des formalismes syntaxiques et des systèmes d’analyse

syntaxique (section 4.2.1), ainsi que des méthodes d’évaluation (section 4.2.2). Cela constitue le

contexte de notre travail, qui nous guide ensuite à choisir un formalisme (section 4.3) pour la

représentation de connaissances syntaxiques du vietnamien (section 4.4) et à analyser la possibilité de

construction des ressources pour le traitement syntaxique de la langue vietnamienne (section 4.5).