3.5. Bilan et perspectives
3.5.2. Amélioration du système d’étiquetage lexical
Outil d’étiquetage
Nous avons déjà présenté au cours de ce chapitre plusieurs pistes envisageables pour accroître la
qualité des résultats de la segmentation et de l’étiquetage automatique, et ne revenons pas ici plus en
détail sur ces considérations techniques.
Deux points de travail restent néanmoins ouverts :
- L’interaction entre segmentation et étiquetage n’a pas été abordée au cours de notre étude,
quoiqu’il s’agisse d’un point potentiellement très important : en particulier, la définition de la
granularité de segmentation cherchée dépend beaucoup du jeu d’étiquettes employé ; il semble
à tout le moins nécessaire que le système d’étiquetage ait la capacité de revenir sur certains
choix effectués au cours de la segmentation, et que le système de segmentation puisse choisir
en cas d’ambiguïté forte de déléguer la responsabilité de la désambiguïsation au système
d’étiquetage. Un travail d’intégration de ces deux outils paraît donc potentiellement
intéressant.
45 Clément et al. [CLE 04], http://www.lefff.net/
46http://www.language-archives.org/
47
- Le choix du jeu d’étiquettes conditionne largement, comme nous l’avons vu, la qualité de
l’étiquetage obtenu. Nos choix ont dans ce domaine principalement été guidés par les
exigences de la tâche d’analyse syntaxique (que nous présentons en détail au chapitre suivant),
mais il est également possible de considérer qu’il serait plus pertinent de définir pour
l’étiquetage morphosyntaxique des étiquettes « faciles », en laissant à l’analyse syntaxique le
soin d’attribuer des étiquettes plus fines. Une étude systématique serait dans ce cas nécessaire
pour définir le jeu d’étiquettes rencontrant un « succès » optimal.
Corpus annoté de référence
Le but est de concevoir un corpus annoté de grande taille.
Comme nous l’avons déjà mentionné, le Centre de Lexicographie Vietlex possède un large corpus
brut libre de droit de 50 millions de syllabes (environ 2 millions de phrases). Ce corpus, collecté par le
Vietlex durant plusieurs années, fait à l’heure actuelle l’objet de négociations pour pouvoir être mis à
la disposition de la communauté de recherche publique au Vietnam. Selon la main d’œuvre disponible
pour réaliser cette tâche, tout ou partie de l’annotation morphosyntaxique pourra être validée
manuellement.
Le corpus de référence doit fait également l’objet d’une distribution publique au sein de la
communauté de TAL. Des procédures similaires à celles définies pour la distribution du lexique,
présentée au paragraphe ci-dessus, pourraient s’appliquer pour que de multiples équipes de recherche
puissent profiter de ces ressources et les faire évoluer.
En conclusion, nous avons présenté dans ce chapitre les travaux menés pour construire les
ressources linguistiques fondamentales pour l’annotation morphosyntaxique : un lexique avec des
descriptions lexicales à large couverture, et un premier corpus annoté morpho-syntaxiquement. Bien
que les ressources obtenues soient encore loin d’être parfaites, elles sont prêtes à être améliorées et
constituent les premières briques pour l’annotation morphosyntaxique du vietnamien. Nous avons
rencontré beaucoup d’obstacles pour leur construction, dus au faible consensus des linguistes sur la
catégorisation grammaticale du vietnamien et à la difficulté de désambiguïsation manuelle des
étiquettes des mots en contexte (cf. 2.4.1.8). Cependant, cela ne doit pas être une source de
découragement, car l’annotation des corpus réels est en effet un moyen de consolider les choix
linguistiques. Nous avons également mis au point des systèmes pour l’automatisation de la
segmentation et de l’étiquetage des textes vietnamiens, atteignant une relativement bonne précision
pour la première de ces tâches, et proposant pour la seconde une première solution fonctionnelle,
quoique demandant encore à être amendée pour mieux prendre en compte les spécificités de la langue
vietnamienne. Ces premiers outils doivent nous permettre de stimuler le développement de ressources
linguistiques pour le vietnamien, toujours dans un cadre de normalisation permettant leur partage et
réutilisation.
Ce premier niveau de connaissance grammaticale sur les textes vietnamiens étant ainsi atteint, nous
pouvons maintenant nous intéresser à l’étape suivante dans l’analyse des textes et la construction de
ressources linguistiques : l’analyse syntaxique.
Chapitre 4
Ressources linguistiques pour l’analyse syntaxique du
vietnamien
Ce chapitre discute de la modélisation de la grammaire vietnamienne à l’aide du
formalisme TAG (Grammaire d’Arbres Adjoints), que nous avons expérimentée grâce
au parseur LLP2 développé au Loria. Dans le cadre de cette thèse, il n’est bien sûr pas
question d’aboutir à une analyse syntaxique à large couverture, mais nous montrons
que l’approche TAG permet de couvrir suffisamment de phénomènes observables sur
le vietnamien. Nous finissons ce chapitre par une spécification de ce que pourrait être
une TreeBank à la vietnamienne.
- Introduction : Analyse syntaxique
- Formalismes de grammaire et analyseurs syntaxiques
- Descriptions syntaxiques du vietnamien
4.1. Introduction
De nombreuses applications dans le domaine du TAL utilisent directement des composants
syntaxiques : la correction d’orthographe, l’indexation automatique, l’interrogation de bases de
données, la simplification de textes (pour un traitement ultérieur comme le résumé de texte ou la
traduction), l’alignement automatique, l’extraction de connaissances linguistiques à partir de textes, la
génération de phrases, etc. La tâche d’analyse syntaxique est donc essentielle pour le développement
de nombreux outils de TAL. Elle peut être décomposée en plusieurs sous-problématiques distinctes
quoique pas tout à fait indépendantes (Abeillé [ABE 00]) :
- parenthésage (identification des frontières syntagmatiques majeures),
- assignation de fonctions aux syntagmes distingués (ou à leur tête),
- désambiguïsation syntaxique des têtes prédicatives (cadres de sous-catégorisation, actif/passif,
etc.),
- assignation d’une structure syntaxique globale (un arbre) à chaque phrase.
On distingue deux familles principales d’analyseurs syntaxiques : analyseurs « de surface »
(shallow parsers) et « en profondeur » (deep parsers). Les analyseurs de surface se limitent à
l’identification des frontières syntagmatiques et à la mise en évidence de certains liens syntaxiques
majeurs (typiquement, tête-complément), et se basent uniquement sur les catégories
morphosyntaxiques des mots en employant des règles probabilistes. Ils présentent l’avantage d’être
moins sensibles aux phénomènes d’agrammaticalité des textes analysés et beaucoup plus rapides que
les analyseurs en profondeur, qui associent à chaque phrase une structure arborée complète.
Deux défis majeurs doivent être relevés pour le développement d’analyseurs syntaxiques en
profondeur (Villemonte et Rajman [VIL 03]). Le premier est celui de « couverture grammaticale », qui
implique de définir des grammaires susceptibles de rendre compte d’une part la plus importante
possible des phénomènes grammaticaux observables dans un texte. Néanmoins, le nombre d’analyses
possibles pour une phrase donnée tend à croître considérablement avec la sophistication de la
grammaire employée, faisant apparaître la seconde difficulté a surmonter : celle de maîtrise de
l’ambiguïté.
Avec la stabilisation des formalismes de syntaxe, on constate un effort de construction de
grammaires à large couverture des langues, qui vise à la « réutilisabilité » (et la réversibilité) de ces
grammaires pour multiples tâches ultérieures. Or, « une grammaire électronique doit être basée sur un
formalisme pour être cohérente et extensible, mais aussi sur des données pour être ‘couvrante’ »
(Abeillé [ABE 00]).
Dans le cadre de notre thèse, nous avons pour but de mettre en place un cadre de construction des
ressources linguistiques pour l’analyse syntaxique du vietnamien. Etant donné qu’aucune ressource
pour le vietnamien n’est disponible jusqu’à présent, et aucune modélisation formelle de la langue
vietnamienne n’a été faite, nous tentons donc de développer deux types de ressources :
- Une modélisation de la grammaire vietnamienne suivant un formalisme syntaxique ;
- Un corpus arboré de type TreeBank (cf. 1.1.4) du vietnamien.
Ce chapitre donne une brève introduction des formalismes syntaxiques et des systèmes d’analyse
syntaxique (section 4.2.1), ainsi que des méthodes d’évaluation (section 4.2.2). Cela constitue le
contexte de notre travail, qui nous guide ensuite à choisir un formalisme (section 4.3) pour la
représentation de connaissances syntaxiques du vietnamien (section 4.4) et à analyser la possibilité de
construction des ressources pour le traitement syntaxique de la langue vietnamienne (section 4.5).
Dans le document
Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens
(Page 113-118)