Chapitre 4 Application au vietnamien
6. Modélisation acoustique à base de modèles multilingues
6.3. Initialisation des modèles acoustiques crosslingues
Dans le chapitre 3 – section 5, nous avons présenté quelques méthodes de portabilité des
modèles acoustiques vers une nouvelle langue peu dotée. Nous présentons dans cette section
l’application de ces méthodes sur la langue vietnamienne. La langue source est les français ou
un groupe de langues (multilingue).
1
6.3.1. Portabilité des modèles acoustiques indépendants du contexte
La portabilité des modèles acoustiques indépendants du contexte vers une nouvelle langue
cible consiste à déterminer les couples de phonèmes les plus proches ou bien à construire un
tableau de correspondances phonémiques (phone mapping table) source/cible. En effet, en
appliquant la méthode de construction de tableaux de correspondances phonémiques présenté
dans le chapitre 3, un tableau de correspondances phonémiques entre la langue cible
(vietnamien) et la langue source (français, ou modèle multilingue issu de sept langues) est
construit dans notre expérimentation (tableau 4.13).
Phonème français Phonème issu d’un ensemble
multilingue (GlobalPhone)
Phonème
vietnamien Obtenu
manuellement
Obtenu
automatiquement
Obtenu
manuellement
Obtenu
automatiquement
t t t t t dz g g dz g χ k k χ χ ŋ ŋ ŋ ŋ ŋ Ȓ s s Ȓ Ȓ w w w w au e e e e e uo uœ o uǤ u ie jø i iǫ i ... ... ... ... ...Tableau 4.13 : Exemple du tableau de correspondances phonémiques avec pour
langue source le français et multilingue et pour langue cible le vietnamien
Après avoir obtenu le tableau de correspondances phonémiques source / cible, les modèles
acoustiques indépendants du contexte (monophones) en langue source peuvent être dupliqués
pour obtenir des modèles acoustiques en langue cible. L’avantage d’une telle approche est
qu’elle ne nécessite pas ou peu de signaux d’apprentissage en langue cible puisque les modèles
acoustiques du système de reconnaissance en langue cible sont, en fait, ceux d’une autre langue.
Des tels modèles acoustiques sont ainsi appelés les modèles acoustiques crosslingues.
Ensuite, nous avons testé deux techniques d’obtention du tableau de correspondances
phonémiques (knowledge-based et data driven) à partir des modèles acoustiques en langue
source multilingues (MM7) et français (FR). Les taux d’exactitude en syllabes (Syllable
Accuracy – SA) du système de reconnaissance automatique de la parole continue du vietnamien
testé sur un corpus des phrases du type « dialogue » et sur un corpus de nombres connectés sont
présentées dans la figure 4.12.
16,13 80,56 18,52 19,26 87,84 18,72 74,28 94,19 0 20 40 60 80 100
Test sur nombre connecté Test sur dialogue
%SA FR/VN-CI-Knowledge
FR/VN-CI-Data MM7/VN-CI-Knowledge MM7/VN-CI-Data
Figure 4.12 : Comparaison des performances des méthodes de portabilité des modèles
acoustiques indépendantes du contexte
(langue source : français et multilingue ; langue cible : vietnamien)
Ces résultats montrent le potentiel de l’approche automatique pour la génération du tableau
de correspondances phonémiques qui donne des performances équivalentes à celle obtenues
avec la méthode manuelle. La méthode data-driven est meilleure que la méthode
knowledge-based dans l’expérimentation monolingue (FR) mais elle est plus faible dans l’expérimentation
multilingue (MM7).
Cependant, si les performances sur la reconnaissance de nombres connectés sont correctes,
les performances restent inacceptables pour la reconnaissance de phrases. Précisons toutefois
qu’à ce stade de l’expérimentation, aucun signal vietnamien n’a été utilisé pour apprendre les
modèles acoustiques qui sont empruntés à d’autres langues.
Nous pouvons ajouter à cela quelques remarques :
- la qualité du tableau de correspondances phonétiques obtenu par la méthode automatique
(data-driven) dépend de la performance du décodeur acoustico-phonétique et de la qualité des
fichiers d’étiquettes phonétiques ;
- la couverture des phonèmes vietnamiens par l’ensemble des phonèmes français n’est pas
optimale (63%) : il y a des phonèmes vietnamiens (par exemple, les diphtongues) qui n’existent
pas dans la langue française. En conséquence, il est plus difficile de trouver un phonème en
langue source qui est proche d’un phonème en langue cible dans le tableau API (méthode
knowledge-based). Ainsi, la méthode data-driven est meilleure que la méthode
knowledge-based dans ce cas. Par contre, pour les modèles multilingues qui présentent une meilleure
couverture (87%), nous pouvons trouver plus facilement les phonèmes similaires dans le tableau
API et la méthode knowledge-based est meilleure dans ce cas.
Nous constatons que le système multilingue MM7/VN-CI-Knowledge obtient le meilleur
résultat dans cette expérimentation. Par conséquent, nous utiliserons ce système dans les
expérimentations d’adaptation de la section 6.4.
MM7/VN-CI-Knowledge comme les modèles acoustiques initiaux pour aligner temporellement
automatiquement des données vocales en langue vietnamienne par l’algorithme Viterbi.
Pratiquement, si aucun modèle acoustique n’existe au départ, nous pouvons utiliser les
stratégies d’initialisation de modèles acoustiques : démarrage aléatoire (random start),
démarrage uniforme (flat start), etc. Puis, les données vocales sont alignées temporellement à
l’aide de ces modèles acoustiques initiaux. Les modèles acoustiques sont ensuite ré-entraînés à
partir du corpus de signaux étiquetés et l’on réitère le cycle jusqu’à l’état stable du système est
atteint. Cependant, les résultats présentés dans [Wheatley 1994, Schultz 1997] montrent que les
modèles acoustiques initiaux crosslingues sont appris plus rapidement et mieux que les modèles
acoustiques générés par les stratégies de démarrage aléatoire ou démarrage uniforme. Les
étiquettes temporelles des données d’adaptation en vietnamien créées par les modèles
acoustiques crosslingues seront donc utilisées dans les expérimentations d’adaptation suivantes.
6.3.2. Portabilité des modèles acoustiques dépendants du contexte
Dans la section précédente, nous avons montré le potentiel de l’emploi de modèles
acoustiques multilingues à la place de modèles acoustiques monolingues pour avoir une
meilleure couverture phonémique. Dans cette section, nous utilisons des modèles acoustiques
multilingues dépendants du contexte (MM6-CD) pour construire des modèles acoustiques en
langue vietnamienne.
Nous utilisons tout d’abord 2,25 heures de données vocales en vietnamien pour développer
un arbre de décision (PT
T) pour 500, 1000 et 2000 distributions de sous-triphones. Nous notons
que le terme de « sous-polyphone » (sub-polyphone en anglais) signifie un polyphone (triphone
ou quintphone) qui est divisé en trois états : début, milieu et fin [Schultz 2001]. Par ailleurs, un
arbre de décision multilingue (MM6) est déjà disponible avec 12000 distributions de
sous-quinphones entraînés sur une base de données de signaux multilingues.
En appliquant la méthode de portabilité des modèles acoustiques dépendant du contexte
présentée dans le chapitre 3 - section 5.4.2, les modèles acoustiques en vietnamien sont obtenus
à partir des modèles acoustiques multilingues. Les résultats expérimentaux obtenus avec des
modèles dépendants du contexte seront présentés dans la section suivante.
Dans le document
Reconnaissance automatique de la parole pour des langues peu dotées
(Page 128-131)