• Aucun résultat trouvé

De nombreuses ressources linguistiques ont été construites ces dernières années, fournissant les

conditions d’un développement accéléré des activités de recherches dans les domaines concernés.

C’est particulièrement le cas pour la langue anglaise, qui concentre l’attention d’une part très

importante de la communauté scientifique.

En ce qui concerne le vietnamien, au moment où nous avons entrepris cette thèse, il n’existait

aucun outil ni ressource linguistique pour le traitement automatique. Dans ce contexte, nous avons

pour objectif de mettre en place les premières briques pour la construction de ces ressources

fondamentales : lexique morphosyntaxique, corpus primaires, corpus étiquetés, grammaire, corpus

multilingues. Il s’agit de concevoir un environnement de développement de ces ressources en termes

de modèle/format et de contenu.

Nous devons donc développer à partir de rien tous les outils et ressources nécessaires à l’analyse

lexicale et syntaxique du vietnamien. Conscient du travail gigantesque des linguistes ainsi que des

informaticiens pour la construction de ressources linguistiques, nous tentons de créer une base de

connaissances linguistiques ouverte au monde de la recherche en TAL. Pour faciliter l’échange et la

maintenance de données, la question de la normalisation de la gestion de ressources est bien

évidemment importante.

Nous présentons rapidement dans la sous-section suivante nos tâches de recherche, puis nous

finissons ce chapitre en introduisant les projets de recherche dans lesquels nous nous avons été

impliquée, et qui ont été l'occasion à la fois d'un enrichissement et d'une valorisation de notre travail.

1.3.1. Travail de thèse

La première tâche de notre thèse est la création des ressources lexicales et construction des outils

pour la construction de corpus de textes vietnamiens annotés morpho-syntaxiquement (cf. Chapitre 3).

Il s'agit, dans une première étape, de construire un lexique avec les descriptions lexicales qui nous

permet de définir ultérieurement les jeux d’étiquettes comparables pour la tâche d’étiquetage

morphosyntaxique. Ainsi, nous étudions les caractéristiques de la langue vietnamienne afin de choisir

une définition convenable des unités lexicales, c'est-à-dire les entrées du lexique, et des descriptions

lexicales appropriées à retenir dans le lexique. Dans la deuxième étape, nous développons des outils

pour la segmentation et l'étiquetage morphosyntaxique de corpus vietnamiens, en évaluant

l'application des méthodes simples sur les textes vietnamiens. D'autres outils d'assistance à la gestion

du lexique et des corpus annotés du vietnamien sont également conçus. En particulier, la normalisation

de codage des ressources est insistée pour la réutilisabilité des ressources construites.

La deuxième tâche est la recherche en vue du développement d’une grammaire et d’un analyseur

syntaxique du vietnamien (cf. Chapitre 4). Il existe plusieurs approches, plus probabilistes ou plus

linguistiques, pour l'analyse syntaxique, qui, à son tour, peut être de surface ou en profondeur en

fonction des applications visées. Etant donné que les recherches en linguistique informatique n'ont pas

été menées au Vietnam, nous avons pour but de fonder une base de ressources grammaticales pour une

usage et développement à long terme. Nous choisissons un formalisme de grammaire parmi des

formalismes conçu comme théorie syntaxique les plus courants et développons une grammaire,

contenant un lexique syntaxique et des règles grammaticales, servie à l'analyse syntaxique du

vietnamien. Nous analysons les structures syntaxiques du vietnamien et essayons de les modéliser

avec le formalisme choisi. Ici encore, la normalisation de représentation des ressources nous préserve

la possibilité de convertir nos ressources pour sa réinitialisation dans un autre système d'analyse

syntaxique.

La troisième tâche est la recherche en vue de la réalisation d’un système d’alignement multilingue

et de la construction d'un corpus multilingue de référence ayant le vietnamien pour langue pivot

(Chapitre 5). Nous développons deux outils spécialisés pour l’alignement au niveau des phrases et

celui au niveau des mots (unités lexicales). Pour l’alignement au niveau de phrase, nous disposons

d’un outil fondant son analyse sur la structure hiérarchique des documents, qui s’est montré d’une

grande efficacité pour le couple de langues français-anglais dans le cadre de la campagne d’évaluation

ARCADE I. Notre première tâche est donc d’évaluer l’adaptation de cet outil aux textes

français-vietnamiens. Nous développons ensuite un outil d’alignement au niveau des unités lexicales et

évaluons celui-ci vis à vis de chaque couple de langues d’un texte multilingue français - vietnamien –

anglais, afin de montrer la perspective de la technique utilisée. Une autre évaluation a été effectuée du

fait de notre participation au programme ARCADE II, dont nous présentons également les résultats.

Ces travaux n'auraient pas pu être réalisés sans les conditions favorables des efforts collectifs : les

projets de recherche auxquels nous avons participé tout au long de la thèse nous ont apporté des

soutiens très importants. La section suivante présente ces projets.

1.3.2. Intégration dans les projets de recherche

Durant cette thèse, nous avons été impliquée dans le projet national vietnamien KC01-03

« Recherche et Développement de la technologie de reconnaissance, de synthèse et du traitement

automatique du vietnamien » (d’octobre 2001 à mai 2004). Ce premier projet national concernant le

traitement automatique du vietnamien comprend trois parties :

- Reconnaissance et synthèse de la parole du vietnamien

- Reconnaissance de l’écriture du vietnamien

- Traitement automatique de la langue vietnamienne

Cette troisième composante inclut notre projet de thèse. L’intégration de celui-ci dans ce projet

national nous permet d’avoir les moyens financiers et institutionnels d’une collaboration étroite avec

les linguistes vietnamiens du Centre de Lexicographie du Vietnam, au niveau non seulement des

compétences mais aussi de l’utilisation de ressources lexicales.

Nous suivons également les activités de normalisation de la gestion des ressources linguistiques de

l’ISO/TC 37/SC 4 et de l'évaluation d'outils d'alignement de la campagne ARCADE II.

Concernant l’ISO/TC 37/SC 4, nos travaux dans le cadre de cette thèse nous ont amenée à

participer (en tant que représentante du Vietnam, membre « observateur » de ce comité) aux activités

suivantes :

- catégories de données (DCR) : catégories grammaticales ;

- schéma de représentation des lexiques opérationnels (LMF) ;

- annotation morphosyntaxique (MAF).

La campagne ARCADE II est la suite logique de l’action ARCADE I (Action de Recherche

Concertée sur l’Alignement de Documents et son Évaluation) financée par l’AUPELF-UREF (cf.

Véronis et Langlais [VER 00a]). ARCADE II se propose d’identifier les évolutions récentes de l’état

de l’art, mais également d’approfondir l’évaluation sur des axes qui n’avaient pas été traités ou qui

avaient seulement été effleurés par l’action précédente : identification des ruptures de parallélisme,

alignement de tri-textes, élargissement à des langues présentant de fortes dissimilarités avec le

français, identification des cognats, appariement lexical. Nous faisons partie des six participants

officiels du projet, en présentant notre système d’alignement multilingue.

Nous introduisons au chapitre suivant les notions élémentaires du vietnamien, avant de présenter

nos travaux sur cette langue.

Chapitre 2

Notions élémentaires de vietnamien

Ce chapitre a pour but de fournir au lecteur une connaissance des principes de base

de la langue vietnamienne suffisante pour comprendre les difficultés particulières

liées à l’exploitation informatique de cette langue, et ainsi les facteurs qui ont guidé

les choix que nous avons effectués au cours de nos travaux. Nous présentons les

principales caractéristiques du vietnamien du point de vue de l’écriture, de la

phonétique, du vocabulaire ainsi que d’autres attributs grammaticaux importants

d’une langue isolante.

- Généralité : origine et typologie

- Écriture et phonétique

- Lexique

- Grammaire

- Bilan