De nombreuses ressources linguistiques ont été construites ces dernières années, fournissant les
conditions d’un développement accéléré des activités de recherches dans les domaines concernés.
C’est particulièrement le cas pour la langue anglaise, qui concentre l’attention d’une part très
importante de la communauté scientifique.
En ce qui concerne le vietnamien, au moment où nous avons entrepris cette thèse, il n’existait
aucun outil ni ressource linguistique pour le traitement automatique. Dans ce contexte, nous avons
pour objectif de mettre en place les premières briques pour la construction de ces ressources
fondamentales : lexique morphosyntaxique, corpus primaires, corpus étiquetés, grammaire, corpus
multilingues. Il s’agit de concevoir un environnement de développement de ces ressources en termes
de modèle/format et de contenu.
Nous devons donc développer à partir de rien tous les outils et ressources nécessaires à l’analyse
lexicale et syntaxique du vietnamien. Conscient du travail gigantesque des linguistes ainsi que des
informaticiens pour la construction de ressources linguistiques, nous tentons de créer une base de
connaissances linguistiques ouverte au monde de la recherche en TAL. Pour faciliter l’échange et la
maintenance de données, la question de la normalisation de la gestion de ressources est bien
évidemment importante.
Nous présentons rapidement dans la sous-section suivante nos tâches de recherche, puis nous
finissons ce chapitre en introduisant les projets de recherche dans lesquels nous nous avons été
impliquée, et qui ont été l'occasion à la fois d'un enrichissement et d'une valorisation de notre travail.
1.3.1. Travail de thèse
La première tâche de notre thèse est la création des ressources lexicales et construction des outils
pour la construction de corpus de textes vietnamiens annotés morpho-syntaxiquement (cf. Chapitre 3).
Il s'agit, dans une première étape, de construire un lexique avec les descriptions lexicales qui nous
permet de définir ultérieurement les jeux d’étiquettes comparables pour la tâche d’étiquetage
morphosyntaxique. Ainsi, nous étudions les caractéristiques de la langue vietnamienne afin de choisir
une définition convenable des unités lexicales, c'est-à-dire les entrées du lexique, et des descriptions
lexicales appropriées à retenir dans le lexique. Dans la deuxième étape, nous développons des outils
pour la segmentation et l'étiquetage morphosyntaxique de corpus vietnamiens, en évaluant
l'application des méthodes simples sur les textes vietnamiens. D'autres outils d'assistance à la gestion
du lexique et des corpus annotés du vietnamien sont également conçus. En particulier, la normalisation
de codage des ressources est insistée pour la réutilisabilité des ressources construites.
La deuxième tâche est la recherche en vue du développement d’une grammaire et d’un analyseur
syntaxique du vietnamien (cf. Chapitre 4). Il existe plusieurs approches, plus probabilistes ou plus
linguistiques, pour l'analyse syntaxique, qui, à son tour, peut être de surface ou en profondeur en
fonction des applications visées. Etant donné que les recherches en linguistique informatique n'ont pas
été menées au Vietnam, nous avons pour but de fonder une base de ressources grammaticales pour une
usage et développement à long terme. Nous choisissons un formalisme de grammaire parmi des
formalismes conçu comme théorie syntaxique les plus courants et développons une grammaire,
contenant un lexique syntaxique et des règles grammaticales, servie à l'analyse syntaxique du
vietnamien. Nous analysons les structures syntaxiques du vietnamien et essayons de les modéliser
avec le formalisme choisi. Ici encore, la normalisation de représentation des ressources nous préserve
la possibilité de convertir nos ressources pour sa réinitialisation dans un autre système d'analyse
syntaxique.
La troisième tâche est la recherche en vue de la réalisation d’un système d’alignement multilingue
et de la construction d'un corpus multilingue de référence ayant le vietnamien pour langue pivot
(Chapitre 5). Nous développons deux outils spécialisés pour l’alignement au niveau des phrases et
celui au niveau des mots (unités lexicales). Pour l’alignement au niveau de phrase, nous disposons
d’un outil fondant son analyse sur la structure hiérarchique des documents, qui s’est montré d’une
grande efficacité pour le couple de langues français-anglais dans le cadre de la campagne d’évaluation
ARCADE I. Notre première tâche est donc d’évaluer l’adaptation de cet outil aux textes
français-vietnamiens. Nous développons ensuite un outil d’alignement au niveau des unités lexicales et
évaluons celui-ci vis à vis de chaque couple de langues d’un texte multilingue français - vietnamien –
anglais, afin de montrer la perspective de la technique utilisée. Une autre évaluation a été effectuée du
fait de notre participation au programme ARCADE II, dont nous présentons également les résultats.
Ces travaux n'auraient pas pu être réalisés sans les conditions favorables des efforts collectifs : les
projets de recherche auxquels nous avons participé tout au long de la thèse nous ont apporté des
soutiens très importants. La section suivante présente ces projets.
1.3.2. Intégration dans les projets de recherche
Durant cette thèse, nous avons été impliquée dans le projet national vietnamien KC01-03
« Recherche et Développement de la technologie de reconnaissance, de synthèse et du traitement
automatique du vietnamien » (d’octobre 2001 à mai 2004). Ce premier projet national concernant le
traitement automatique du vietnamien comprend trois parties :
- Reconnaissance et synthèse de la parole du vietnamien
- Reconnaissance de l’écriture du vietnamien
- Traitement automatique de la langue vietnamienne
Cette troisième composante inclut notre projet de thèse. L’intégration de celui-ci dans ce projet
national nous permet d’avoir les moyens financiers et institutionnels d’une collaboration étroite avec
les linguistes vietnamiens du Centre de Lexicographie du Vietnam, au niveau non seulement des
compétences mais aussi de l’utilisation de ressources lexicales.
Nous suivons également les activités de normalisation de la gestion des ressources linguistiques de
l’ISO/TC 37/SC 4 et de l'évaluation d'outils d'alignement de la campagne ARCADE II.
Concernant l’ISO/TC 37/SC 4, nos travaux dans le cadre de cette thèse nous ont amenée à
participer (en tant que représentante du Vietnam, membre « observateur » de ce comité) aux activités
suivantes :
- catégories de données (DCR) : catégories grammaticales ;
- schéma de représentation des lexiques opérationnels (LMF) ;
- annotation morphosyntaxique (MAF).
La campagne ARCADE II est la suite logique de l’action ARCADE I (Action de Recherche
Concertée sur l’Alignement de Documents et son Évaluation) financée par l’AUPELF-UREF (cf.
Véronis et Langlais [VER 00a]). ARCADE II se propose d’identifier les évolutions récentes de l’état
de l’art, mais également d’approfondir l’évaluation sur des axes qui n’avaient pas été traités ou qui
avaient seulement été effleurés par l’action précédente : identification des ruptures de parallélisme,
alignement de tri-textes, élargissement à des langues présentant de fortes dissimilarités avec le
français, identification des cognats, appariement lexical. Nous faisons partie des six participants
officiels du projet, en présentant notre système d’alignement multilingue.
Nous introduisons au chapitre suivant les notions élémentaires du vietnamien, avant de présenter
nos travaux sur cette langue.
Chapitre 2
Notions élémentaires de vietnamien
Ce chapitre a pour but de fournir au lecteur une connaissance des principes de base
de la langue vietnamienne suffisante pour comprendre les difficultés particulières
liées à l’exploitation informatique de cette langue, et ainsi les facteurs qui ont guidé
les choix que nous avons effectués au cours de nos travaux. Nous présentons les
principales caractéristiques du vietnamien du point de vue de l’écriture, de la
phonétique, du vocabulaire ainsi que d’autres attributs grammaticaux importants
d’une langue isolante.
- Généralité : origine et typologie
- Écriture et phonétique
- Lexique
- Grammaire
- Bilan
Dans le document
Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens
(Page 49-53)