• Aucun résultat trouvé

2.3. Lexique

2.4.2. Syntaxe

Dans cette section, nous réalisons une brève introduction des structures syntagmatiques et

syntaxiques du vietnamien.

2.4.2.1. Procédés syntaxiques

Comme nous l’avons vu à la section 2.1.2, les sens grammaticaux se manifestent par l’ordre des

mots, les mots outils, le redoublement des mots ainsi que, pour l’oral, l’intonation du locuteur.

L’ordre des mots permet de distinguer les différents rapports entre les constituants des phrases. En

vietnamien, les constituants se mettent toujours dans l’ordre tête - complément et thème - rhème. Par

exemple :

- Nom - modificateur : nhà = maison, gạch = brique, đẹp = beau, nghỉ = se reposer

o nhà gạch = maison en brique

o nhà đẹp = belle maison

o nhà nghỉ = maison de repos

- Verbe - complément d’objet : đọc = lire, sách = livre

o đọc sách = lire un livre

- Verbe - adverbe de manière : đi = aller, nhanh = vite

o đi nhanh = aller vite

- Thème - rhème : gió = vent, thổi = souffler

o gió thổi = le vent souffle.

Les mots outils sont utilisés pour exprimer le pluriel dans les groupes nominaux, le temps dans les

groupes verbaux, la conjonction dans les structures de coordination ou de subordination. Voici

quelques exemples.

- Le pluriel : những = pluriel indéfini, các = pluriel défini, gà = poulet, con =

classificateur (pour les animaux)

o những con gà = des poulets

o các con gà = les poulets

- Le temps : đã = temps passé, anh ấy = il, về = rentrer

o Anh ấy về = Il rentre

o Anh ấy đã về = Il est rentré.

- Conjonction de coordination et de subordination : gà = poulet, mẹ = mère, và = et, của = de

(possession)

o gà mẹ = la mère poule

o gà và mẹ = le poulet et la mère

o gà của mẹ = le poulet de la mère

La forme redoublée des mots permet notamment de modifier l’intensité des adjectifs. Le

redoublement peut être combiné avec des mots outils pour souligner un constituant. Par exemple :

- Redoublement des mots d’une syllabe : vàng = jaune

o lúng ta lúng túng = perdre contenance (sens plus fort)

- Redoublement des mots en ajoutant des mots outils : đẹp = beau, là = mot introductif

o đẹp đẹp là = très beau(exclamation)

En outre, dans les dialogues, on remarque également le redoublement d’un mot quelconque en

ajoutant des mots qui ont une relation phonique ou sémantique avec le mot redoublé. Considérons

l’exemple suivant comme l’illustration :

- phòng est synonyme de ngừa = prévenir, xà phòng

25

= savon => forme redoublée : xà

phòng xà ngừa.

L’intonation du locuteur peut changer le sens de la phrase, par exemple transformer une

affirmation en négation.

2.4.2.2. Structure « thème - rhème »

Du point de vue de la grammaire fonctionnelle, le vietnamien appartient aux langues avec

préférence du thème (topic prominent languages, cf. Li et Thompson [LIT 76]). Cette propriété se

manifeste en vietnamien par les phénomènes suivants.

- Le sujet ne peut pas être identifié par la morphologie (il n’y a pas de variation morphologique

en vietnamien), ni par sa position dans la phrase, alors que le thème, qui est un groupe

nominal quelconque et qui peut n’avoir aucun lien syntaxique avec le prédicat de la phrase, est

toujours à la position initiale dans la structure phrastique. La Figure 2-2 illustre cette structure

« thème - rhème » du vietnamien.

Figure 2-2 Structure « thème - rhème » de la phrase « Cet arbre, les feuilles sont grandes »

- La passivation n’est pas une construction naturelle, car c’est le thème et non pas le sujet qui

joue le rôle plus important dans la construction de la phrase.

- Il n’y a pas de sujet impersonnel en vietnamien, car le sujet n’est pas obligatoirement présent.

Par exemple, pour dire « il fait très froid ici », on dit tout simplement « ở đây rất lạnh »

= « ici très froid ».

- La construction des phrases à double sujet est familière en vietnamien. L’exemple de la Figure

2-2 est un cas très courant.

- C’est le thème mais pas le sujet qui contrôle la co-référentialité dans la phrase. Considérons

l’exemple suivant :

o Cây đó lá to nên tôi không thích =

litt

Arbre ce feuille grand donc je

non aimer = Cet arbre, les feuilles sont grandes, donc je ne l’aime pas.

25 mot français d’écriture vietnamisée.

Phrase Thème Rhème Thème Rhème Cây đó Arbre - ce feuille to grand

Dans cet exemple, le constituant supprimé de la fin de la phrase ne fait pas référence au

sujet « feuille » mais au thème « arbre ».

2.4.2.3. Grammaire formelle

Dans l’état actuel des recherches au Vietnam, la notion de grammaire formelle est encore restreinte

à la communauté Informatique pour les langages de programmation. La problématique de

formalisation de la grammaire vietnamienne est discutée au Chapitre 4.

2.5. Bilan

Ce chapitre nous a permis de présenter les bases de la langue vietnamienne : origine, type des

langues, composition (graphique et sémantique) des mots, catégorisation grammaticale, structure

syntaxique.

En nous basant sur ces connaissances, nous présentons aux chapitres suivants le travail que nous

avons mené afin de construire une banque de données du vietnamien pour les recherches en TAL. Les

outils et ressources discutés concernent l’annotation morphosyntaxique (Chapitre 3), l’analyse

syntaxique (Chapitre 4), ainsi que l’alignement multilingue (Chapitre 5).

Outre les nombreux travaux existant sur l’anglais et sur le français, grâce auquel nous bénéficions

d’un important héritage de méthodes et d’outils, nous prenons comme références les travaux menés

sur le chinois et le thaï, qui ont sans doute beaucoup de points communs avec le vietnamien. De plus,

le chinois est étudié par une communauté importante, et les recherches en TAL pour le thaï ont

commencé bien plus tôt que pour le vietnamien.

Chapitre 3

Construction d’outils et ressources linguistiques pour

l’analyse morphosyntaxique du vietnamien

Nous présentons dans cette partie les travaux sur l’annotation morphosyntaxique des

corpus vietnamiens. Il s’agit de la construction des ressources lexicales (lexique,

corpus annotés) du vietnamien et des outils d’étiquetage morphosyntaxique. Nous

insistons particulièrement sur le fait qu’il n’y a pas, jusqu’à présent, de consensus sur

la question de parties de discours du vietnamien dans la communauté linguistique.

Une partie importante de notre travail est donc de construire un lexique avec des

descriptions lexicales qui nous permettent de définir ultérieurement les jeux

d’étiquettes comparables pour la tâche d’étiquetage. Nous discutons ensuite du

problème de segmentation des textes vietnamiens en unités lexicales, et des solutions

possibles. Enfin, nous présentons une méthode statistique simple fondée sur

l’utilisation d’un modèle de Markov caché pour l’étiquetage automatique de corpus

vietnamiens. Par ailleurs, toutes les ressources construites font l’objet d’une

discussion sur leur représentation normalisée.

- Introduction

- Méthodes pour l’étiquetage morphosyntaxique

- Construction de ressources lexicales

- Annotation morphosyntaxique de textes vietnamiens