• Aucun résultat trouvé

VNSpeechCorpus : un corpus de parole en vietnamien

Chapitre 4 Application au vietnamien

5. VNSpeechCorpus : un corpus de parole en vietnamien

Un corpus de parole vietnamien est toujours en cours d’enregistrement au Centre MICA. En

2005, il contenait 39 locuteurs, 19 femmes et 20 hommes, venant des régions nord, centre et sud

du Vietnam. Chaque locuteur a enregistré environ 1 heure de parole, ce qui fait un total de 39

heures. Le corpus contient non seulement des séquences de phonèmes, de nombres et de mots

isolés, mais aussi la lecture de phrases complètes et de paragraphes.

Dans cette section, nous présentons la structure du corpus VNSpeechCorpus, la collection

d’énoncés, l’enregistrement du corpus, l’évaluation et l’utilisation du corpus obtenu. Des détails

supplémentaires sur les ressources collectées pour le vietnamien se trouvent dans [Tran 2003] et

[Le 2004].

5.1. Organisation du corpus

VNSpeechCorpus comprend 5 types de données différentes :

- phonèmes ;

- chiffres et nombres ;

- commande ;

- phrases de dialogue et paragraphes courts de texte.

Les phonèmes sont lus par tous les locuteurs. Les voyelles et les diphtongues peuvent être

lus indépendamment sauf les voyelles ă

[ă]

et â

[Ǵɹ]

, parce qu’ils n’existent que dans le contexte

d’un mot, par exemple : ngắn (court), tân (nouveau)... Pour les consonnes, nous les combinons

avec la voyelle ơ

[Ǵ]

dans les énoncés.

Une syllabe peut être combinée avec chacun des six tons de la langue, ce qui lui donne alors

six significations différentes [Doan 1999], par exemple : ba (trois), bà (grand-mère), bá (roi),

bả (appas), bã (déchet), bạ (n’importe). Donc, les locuteurs prononcent également des mots

avec des tons différents.

Le corpus de chiffres et nombres vietnamiens se compose des chiffres de 0 à 9 et de

nombres comme le numéro téléphonique, le numéro de carte bancaire, etc. Dans le système

numérique vietnamien, la plupart des chiffres sont lus de manière unique mais il y a quelques

cas particuliers de synonymes comme les nombres se terminant par les chiffres 4 et 5 qui

peuvent être lus de plusieurs façons différentes. Afin de couvrir tous les cas, le corpus se

compose de toutes les variantes (synonymes) de ces chiffres.

Un ensemble de plus de 50 mots clés de commande (application words) est défini dans le

corpus VNSpeechCorpus. Chaque mot correspond à une action qui est utilisée dans plusieurs

applications telles que service vocal téléphonique, interface homme-machine, ...

Après avoir collecté et traité des paragraphes de texte et des phrases, le corpus de phrases

est divisé en deux parties : une partie commune à tous les locuteurs et une partie privée. La

partie commune contient 33 dialogues courts et 37 paragraphes de texte qui sont lus par tous les

locuteurs. La partie privée inclut environ 2 000 paragraphes de texte. Elle est divisée en 50

tranches de 40 paragraphes dont chaque tranche est lue indépendamment par chaque locuteur.

5.2. Collection d’énoncés pour l’enregistrement

Deux phases de collecte de données de texte ont été réalisées dans le cadre du projet de

collaboration international CORUS. Dans la première phase, les données sont collectées par

quelques experts afin d'assurer les conditions désirées [Tran 2003]. Dans la deuxième phase, les

données sont récupérées et filtrées automatiquement à partir de corpus de textes issus du Web.

Les données textuelles recueillies sur le Web ne sont cependant pas sous une forme

présentable à un locuteur pour être enregistrées. Il faut donc les traiter et les filtrer en appliquant

la boîte à outils CLIPS-Text-Tk. Par exemple, les nombres (dates, numéros de téléphone,

numéros de carte bancaire) ont été transcrits sous forme textuelle (exemple : “12/3/1998” a été

transcrit en : ″ngày mười hai tháng ba năm mt nghìn chín trăm chín mươi tám″, le

numéro de portable ″0904266805″ a été transcrit en : ″không chín không bn hai sáu sáu

tám không năm″) [Le 2003a].

Nous constatons que les données textuelles choisies couvrent différents domaines de la vie

quotidienne et contiennent beaucoup de dialogues et paragraphes courts (environ 130 mots à

170 mots équivalents à environ 20-25 secondes de parole par paragraphe ou conversation). Des

détails supplémentaires sur la génération d’énoncés se trouvent dans [Le 2003a].

5.3. Enregistrement du corpus VNSpeechCorpus

A terme, le corpus VNSpeechCorpus contiendra 50 locuteurs (25 hommes et 25 femmes),

dans une tranche d’âge de 15 à 45 ans. Les locuteurs choisis sont issus de quatre grandes villes

et provinces du Vietnam : Hanoï, Nghe An, Hà Tinh et Ho Chi Minh ville, qui représentent les 3

régions dialectales principales.

Le logiciel d’enregistrement et de gestion du corpus vocal que nous avons utilisé est le

logiciel EMACOP-Unicode

1

, spécialement conçu dans notre laboratoire [Vaufreydaz 1998], et

que nous avons adapté aux caractères Unicode (voir chapitre 3).

En 2005, 39 locuteurs dont 19 femmes et 20 hommes ont été enregistrés dans le studio du

Centre MICA, Hanoi, Vietnam. Chaque locuteur a prononcé environ 60 minutes de parole, qui

inclut 45-50 minutes communes (phonèmes, tons, chiffres, mots de commande et corpus de

phrases et paragraphes communs) et 12-14 minutes privées (40 paragraphes courts).

5.4. Évaluation du corpus vocal

Le corpus sera entre autres utilisé, comme nous l’avons déjà précisé, pour l’entraînement

d’un modèle acoustique pour faire de la reconnaissance automatique de la parole. Nous devons

donc vérifier que la distribution des phonèmes de notre corpus n’est pas trop éloignée de celle

de la langue vietnamienne. A notre connaissance, il n’existait pas encore de recherche sur la

distribution phonétique de la langue vietnamienne, ainsi nous avons dû analyser nous-mêmes la

distribution phonétique du vietnamien. Pour ce faire, nous utilisons un grand corpus de texte

extrait à partir du Web qui couvre un grand nombre de domaines. Ce corpus est dont considéré

comme une représentation de la langue vietnamienne.

Pour évaluer la distribution phonétique d’un corpus de texte, nous avons phonétisé toutes les

phrases dans le corpus à l’aide du phonétiseur VNPhoneAnalyzer que nous avons construit.

Les transcriptions de monophones (phonèmes), diphones, triphones, tons, parties initiales,

parties finales des syllabes sont accumulées pour obtenir les fréquences d’apparition de chaque

unité dans le corpus de texte. La figure 4.11 illustre une comparaison de la distribution

phonétique des monophones (phonèmes) et la distribution des tons entre le grand corpus tiré du

Web et le corpus vocal VNSpeechCorpus (partie privée et commune).

1

0% 2% 4% 6% 8% a a X b c d e f h i ie j k l m n o p s t t' u uo v w z N O OX E EX G 7 7X M M7 J s` t` z` X corpus de Web partie commune partie privée

a) Distribution des phonèmes

0% 5% 10% 15% 20% 25% 30% 35%

plat descendant brisé interrogatif aigu grave corpus du Web partie commune partie privée

b) Distribution des tons

Figure 4.11: Distribution phonétique dans le corpus VNSpeechCorpus par rapport à la

distribution dans le grand corpus de texte récupéré sur le Web

Par ailleurs, nous avons obtenu des coefficients de corrélation entre les fréquences des

différentes unités acoustiques du corpus VNSpeechCorpus et celles des unités acoustiques

correspondante dans le grand corpus de texte issu du Web (tableau 4.11). Les coefficients de

corrélation entre unités acoustiques de notre corpus vocal et du corpus de texte sont très proches

de 1. Par conséquent, notre corpus peut être considéré comme équilibré phonétiquement.

Coefficient de corrélation

Unité acoustique

Partie privée Partie commune

Monophone 0,99 0,99

Diphone 0,98 0,95

Triphone 0,98 0,94

Ton 0,99 0,98

Partie initiale de la syllabe 0,99 0,96

Partie finale de la syllabe 0,99 0,97

Tableau 4.11 : Coefficients de corrélation entre unités acoustiques du corpus vocal

et du corpus de texte du Web

5.5. Répartition du corpus vocal obtenu

Au moment où nous avons réalisé nos expérimentations sur la portabilité et l’adaptation des

modèles acoustiques multilingues pour le vietnamien, il y avait seulement 10 locuteurs ayant

accompli l’enregistrement sur la première tranche du corpus VNSpeechCorpus dans le studio du

Centre MICA [Le 2004]. Cela explique que dans les sections suivantes, nous utiliserons

seulement 7 locuteurs pour l’apprentissage et l’adaptation des modèles acoustiques et 3

locuteurs pour l’évaluation des performances du système de reconnaissance du vietnamien.

Parmi les 7 locuteurs d’apprentissage et d’adaptation, nous n’utilisons que leurs énoncés

correspondant aux paragraphes de texte, dont 50% des énoncés sont communs à tous les

locuteurs et 50% des énoncés sont privés. Pour évaluer l’influence de la quantité de données

d’adaptation sur la qualité des modèles acoustiques, nous divisons ce corpus d’apprentissage et

d’adaptation en 3 sous-corpus :

- corpus-0,5h contient 30 minutes de données vocales enregistrées par les 2 premiers

locuteurs ;

- corpus-1h contient 60 minutes de données vocales enregistrées par les 4 premiers

locuteurs ;

- corpus-2,25h contient 135 minutes de données vocales enregistrées par les 7 locuteurs

du corpus d’apprentissage.

Pour les 3 locuteurs de test, nous utilisons seulement leurs énoncés contenant des phrases de

type « dialogue » soit 136 phrases par locuteur. Le tableau 4.12 présente la répartition du corpus

d’apprentissage et du corpus de test.

Sous-corpus Nombre de

locuteurs

Durée totale

du signal

Nombre de phrases

(nombre de mots)

corpus-0,5h 2 30 min 330 (7933)

corpus-1h 4 60 min 672 (16080)

Corpus

d’apprentissage

corpus-2,25h 7 135 min 1440 (34700)

Phrases de dialogue 3 20 min 408 (4347)

Corpus de test

Nombres connectés 3 13,6 min 194 (2138)

Tableau 4.12 : Répartition du corpus d’apprentissage et corpus de test

Très récemment, nous avons aussi conduit une évaluation des performances de notre

système sur un grand corpus de signaux en vietnamien ; nous utilisons le corpus de 39 locuteurs

qui ont été enregistrés jusqu’alors. Sans compter les 3 locuteurs d’évaluation qui sont uniques

pour toutes les expérimentations dans ce chapitre, nous avons alors dans ce dernier cas 36

locuteurs d’apprentissage et d’adaptation, soit 14 heures de signaux environ.