2.3. Lexique
2.4.2. Syntaxe
Dans cette section, nous réalisons une brève introduction des structures syntagmatiques et
syntaxiques du vietnamien.
2.4.2.1. Procédés syntaxiques
Comme nous l’avons vu à la section 2.1.2, les sens grammaticaux se manifestent par l’ordre des
mots, les mots outils, le redoublement des mots ainsi que, pour l’oral, l’intonation du locuteur.
L’ordre des mots permet de distinguer les différents rapports entre les constituants des phrases. En
vietnamien, les constituants se mettent toujours dans l’ordre tête - complément et thème - rhème. Par
exemple :
- Nom - modificateur : nhà = maison, gạch = brique, đẹp = beau, nghỉ = se reposer
o nhà gạch = maison en brique
o nhà đẹp = belle maison
o nhà nghỉ = maison de repos
- Verbe - complément d’objet : đọc = lire, sách = livre
o đọc sách = lire un livre
- Verbe - adverbe de manière : đi = aller, nhanh = vite
o đi nhanh = aller vite
- Thème - rhème : gió = vent, thổi = souffler
o gió thổi = le vent souffle.
Les mots outils sont utilisés pour exprimer le pluriel dans les groupes nominaux, le temps dans les
groupes verbaux, la conjonction dans les structures de coordination ou de subordination. Voici
quelques exemples.
- Le pluriel : những = pluriel indéfini, các = pluriel défini, gà = poulet, con =
classificateur (pour les animaux)
o những con gà = des poulets
o các con gà = les poulets
- Le temps : đã = temps passé, anh ấy = il, về = rentrer
o Anh ấy về = Il rentre
o Anh ấy đã về = Il est rentré.
- Conjonction de coordination et de subordination : gà = poulet, mẹ = mère, và = et, của = de
(possession)
o gà mẹ = la mère poule
o gà và mẹ = le poulet et la mère
o gà của mẹ = le poulet de la mère
La forme redoublée des mots permet notamment de modifier l’intensité des adjectifs. Le
redoublement peut être combiné avec des mots outils pour souligner un constituant. Par exemple :
- Redoublement des mots d’une syllabe : vàng = jaune
o lúng ta lúng túng = perdre contenance (sens plus fort)
- Redoublement des mots en ajoutant des mots outils : đẹp = beau, là = mot introductif
o đẹp đẹp là = très beau(exclamation)
En outre, dans les dialogues, on remarque également le redoublement d’un mot quelconque en
ajoutant des mots qui ont une relation phonique ou sémantique avec le mot redoublé. Considérons
l’exemple suivant comme l’illustration :
- phòng est synonyme de ngừa = prévenir, xà phòng
25= savon => forme redoublée : xà
phòng xà ngừa.
L’intonation du locuteur peut changer le sens de la phrase, par exemple transformer une
affirmation en négation.
2.4.2.2. Structure « thème - rhème »
Du point de vue de la grammaire fonctionnelle, le vietnamien appartient aux langues avec
préférence du thème (topic prominent languages, cf. Li et Thompson [LIT 76]). Cette propriété se
manifeste en vietnamien par les phénomènes suivants.
- Le sujet ne peut pas être identifié par la morphologie (il n’y a pas de variation morphologique
en vietnamien), ni par sa position dans la phrase, alors que le thème, qui est un groupe
nominal quelconque et qui peut n’avoir aucun lien syntaxique avec le prédicat de la phrase, est
toujours à la position initiale dans la structure phrastique. La Figure 2-2 illustre cette structure
« thème - rhème » du vietnamien.
Figure 2-2 Structure « thème - rhème » de la phrase « Cet arbre, les feuilles sont grandes »
- La passivation n’est pas une construction naturelle, car c’est le thème et non pas le sujet qui
joue le rôle plus important dans la construction de la phrase.
- Il n’y a pas de sujet impersonnel en vietnamien, car le sujet n’est pas obligatoirement présent.
Par exemple, pour dire « il fait très froid ici », on dit tout simplement « ở đây rất lạnh »
= « ici très froid ».
- La construction des phrases à double sujet est familière en vietnamien. L’exemple de la Figure
2-2 est un cas très courant.
- C’est le thème mais pas le sujet qui contrôle la co-référentialité dans la phrase. Considérons
l’exemple suivant :
o Cây đó lá to nên tôi không thích =
littArbre ce feuille grand donc je
non aimer = Cet arbre, les feuilles sont grandes, donc je ne l’aime pas.
25 mot français d’écriture vietnamisée.
Phrase Thème Rhème Thème Rhème Cây đó Arbre - ce lá feuille to grand
Dans cet exemple, le constituant supprimé de la fin de la phrase ne fait pas référence au
sujet « feuille » mais au thème « arbre ».
2.4.2.3. Grammaire formelle
Dans l’état actuel des recherches au Vietnam, la notion de grammaire formelle est encore restreinte
à la communauté Informatique pour les langages de programmation. La problématique de
formalisation de la grammaire vietnamienne est discutée au Chapitre 4.
2.5. Bilan
Ce chapitre nous a permis de présenter les bases de la langue vietnamienne : origine, type des
langues, composition (graphique et sémantique) des mots, catégorisation grammaticale, structure
syntaxique.
En nous basant sur ces connaissances, nous présentons aux chapitres suivants le travail que nous
avons mené afin de construire une banque de données du vietnamien pour les recherches en TAL. Les
outils et ressources discutés concernent l’annotation morphosyntaxique (Chapitre 3), l’analyse
syntaxique (Chapitre 4), ainsi que l’alignement multilingue (Chapitre 5).
Outre les nombreux travaux existant sur l’anglais et sur le français, grâce auquel nous bénéficions
d’un important héritage de méthodes et d’outils, nous prenons comme références les travaux menés
sur le chinois et le thaï, qui ont sans doute beaucoup de points communs avec le vietnamien. De plus,
le chinois est étudié par une communauté importante, et les recherches en TAL pour le thaï ont
commencé bien plus tôt que pour le vietnamien.
Chapitre 3
Construction d’outils et ressources linguistiques pour
l’analyse morphosyntaxique du vietnamien
Nous présentons dans cette partie les travaux sur l’annotation morphosyntaxique des
corpus vietnamiens. Il s’agit de la construction des ressources lexicales (lexique,
corpus annotés) du vietnamien et des outils d’étiquetage morphosyntaxique. Nous
insistons particulièrement sur le fait qu’il n’y a pas, jusqu’à présent, de consensus sur
la question de parties de discours du vietnamien dans la communauté linguistique.
Une partie importante de notre travail est donc de construire un lexique avec des
descriptions lexicales qui nous permettent de définir ultérieurement les jeux
d’étiquettes comparables pour la tâche d’étiquetage. Nous discutons ensuite du
problème de segmentation des textes vietnamiens en unités lexicales, et des solutions
possibles. Enfin, nous présentons une méthode statistique simple fondée sur
l’utilisation d’un modèle de Markov caché pour l’étiquetage automatique de corpus
vietnamiens. Par ailleurs, toutes les ressources construites font l’objet d’une
discussion sur leur représentation normalisée.
- Introduction
- Méthodes pour l’étiquetage morphosyntaxique
- Construction de ressources lexicales
- Annotation morphosyntaxique de textes vietnamiens
Dans le document
Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens
(Page 68-73)