Initialisation des modèles acoustiques crosslingues

Chapitre 4 Application au vietnamien

6. Modélisation acoustique à base de modèles multilingues

6.3. Initialisation des modèles acoustiques crosslingues

Dans le chapitre 3 – section 5, nous avons présenté quelques méthodes de portabilité des

modèles acoustiques vers une nouvelle langue peu dotée. Nous présentons dans cette section

l’application de ces méthodes sur la langue vietnamienne. La langue source est les français ou

un groupe de langues (multilingue).

6.3.1. Portabilité des modèles acoustiques indépendants du contexte

La portabilité des modèles acoustiques indépendants du contexte vers une nouvelle langue

cible consiste à déterminer les couples de phonèmes les plus proches ou bien à construire un

tableau de correspondances phonémiques (phone mapping table) source/cible. En effet, en

appliquant la méthode de construction de tableaux de correspondances phonémiques présenté

dans le chapitre 3, un tableau de correspondances phonémiques entre la langue cible

(vietnamien) et la langue source (français, ou modèle multilingue issu de sept langues) est

construit dans notre expérimentation (tableau 4.13).

Phonème français ^{Phonème issu d’un ensemble}

multilingue (GlobalPhone)

Phonème

vietnamien _Obtenu

manuellement

Obtenu

automatiquement

Obtenu

manuellement

Obtenu

automatiquement

t t t t t ǳ g g ǳ g χ k k χ χ ŋ ŋ ŋ ŋ ŋ Ȓ s s Ȓ Ȓ w w w w au e e e e e uo uœ o uǤ u ie jø i iǫ i ... ... ... ... ...

Tableau 4.13 : Exemple du tableau de correspondances phonémiques avec pour

langue source le français et multilingue et pour langue cible le vietnamien

Après avoir obtenu le tableau de correspondances phonémiques source / cible, les modèles

acoustiques indépendants du contexte (monophones) en langue source peuvent être dupliqués

pour obtenir des modèles acoustiques en langue cible. L’avantage d’une telle approche est

qu’elle ne nécessite pas ou peu de signaux d’apprentissage en langue cible puisque les modèles

acoustiques du système de reconnaissance en langue cible sont, en fait, ceux d’une autre langue.

Des tels modèles acoustiques sont ainsi appelés les modèles acoustiques crosslingues.

Ensuite, nous avons testé deux techniques d’obtention du tableau de correspondances

phonémiques (knowledge-based et data driven) à partir des modèles acoustiques en langue

source multilingues (MM7) et français (FR). Les taux d’exactitude en syllabes (Syllable

Accuracy – SA) du système de reconnaissance automatique de la parole continue du vietnamien

testé sur un corpus des phrases du type « dialogue » et sur un corpus de nombres connectés sont

présentées dans la figure 4.12.

16,13 80,56 18,52 19,26 87,84 18,72 74,28 94,19 0 20 40 60 80 100

Test sur nombre connecté Test sur dialogue

%SA FR/VN-CI-Knowledge

FR/VN-CI-Data MM7/VN-CI-Knowledge MM7/VN-CI-Data

Figure 4.12 : Comparaison des performances des méthodes de portabilité des modèles

acoustiques indépendantes du contexte

(langue source : français et multilingue ; langue cible : vietnamien)

Ces résultats montrent le potentiel de l’approche automatique pour la génération du tableau

de correspondances phonémiques qui donne des performances équivalentes à celle obtenues

avec la méthode manuelle. La méthode data-driven est meilleure que la méthode

knowledge-based dans l’expérimentation monolingue (FR) mais elle est plus faible dans l’expérimentation

multilingue (MM7).

Cependant, si les performances sur la reconnaissance de nombres connectés sont correctes,

les performances restent inacceptables pour la reconnaissance de phrases. Précisons toutefois

qu’à ce stade de l’expérimentation, aucun signal vietnamien n’a été utilisé pour apprendre les

modèles acoustiques qui sont empruntés à d’autres langues.

Nous pouvons ajouter à cela quelques remarques :

- la qualité du tableau de correspondances phonétiques obtenu par la méthode automatique

(data-driven) dépend de la performance du décodeur acoustico-phonétique et de la qualité des

fichiers d’étiquettes phonétiques ;

- la couverture des phonèmes vietnamiens par l’ensemble des phonèmes français n’est pas

optimale (63%) : il y a des phonèmes vietnamiens (par exemple, les diphtongues) qui n’existent

pas dans la langue française. En conséquence, il est plus difficile de trouver un phonème en

langue source qui est proche d’un phonème en langue cible dans le tableau API (méthode

knowledge-based). Ainsi, la méthode data-driven est meilleure que la méthode

knowledge-based dans ce cas. Par contre, pour les modèles multilingues qui présentent une meilleure

couverture (87%), nous pouvons trouver plus facilement les phonèmes similaires dans le tableau

API et la méthode knowledge-based est meilleure dans ce cas.

Nous constatons que le système multilingue MM7/VN-CI-Knowledge obtient le meilleur

résultat dans cette expérimentation. Par conséquent, nous utiliserons ce système dans les

expérimentations d’adaptation de la section 6.4.

MM7/VN-CI-Knowledge comme les modèles acoustiques initiaux pour aligner temporellement

automatiquement des données vocales en langue vietnamienne par l’algorithme Viterbi.

Pratiquement, si aucun modèle acoustique n’existe au départ, nous pouvons utiliser les

stratégies d’initialisation de modèles acoustiques : démarrage aléatoire (random start),

démarrage uniforme (flat start), etc. Puis, les données vocales sont alignées temporellement à

l’aide de ces modèles acoustiques initiaux. Les modèles acoustiques sont ensuite ré-entraînés à

partir du corpus de signaux étiquetés et l’on réitère le cycle jusqu’à l’état stable du système est

atteint. Cependant, les résultats présentés dans [Wheatley 1994, Schultz 1997] montrent que les

modèles acoustiques initiaux crosslingues sont appris plus rapidement et mieux que les modèles

acoustiques générés par les stratégies de démarrage aléatoire ou démarrage uniforme. Les

étiquettes temporelles des données d’adaptation en vietnamien créées par les modèles

acoustiques crosslingues seront donc utilisées dans les expérimentations d’adaptation suivantes.

6.3.2. Portabilité des modèles acoustiques dépendants du contexte

Dans la section précédente, nous avons montré le potentiel de l’emploi de modèles

acoustiques multilingues à la place de modèles acoustiques monolingues pour avoir une

meilleure couverture phonémique. Dans cette section, nous utilisons des modèles acoustiques

multilingues dépendants du contexte (MM6-CD) pour construire des modèles acoustiques en

langue vietnamienne.

Nous utilisons tout d’abord 2,25 heures de données vocales en vietnamien pour développer

un arbre de décision (PT

) pour 500, 1000 et 2000 distributions de sous-triphones. Nous notons

que le terme de « sous-polyphone » (sub-polyphone en anglais) signifie un polyphone (triphone

ou quintphone) qui est divisé en trois états : début, milieu et fin [Schultz 2001]. Par ailleurs, un

arbre de décision multilingue (MM6) est déjà disponible avec 12000 distributions de

sous-quinphones entraînés sur une base de données de signaux multilingues.

En appliquant la méthode de portabilité des modèles acoustiques dépendant du contexte

présentée dans le chapitre 3 - section 5.4.2, les modèles acoustiques en vietnamien sont obtenus

à partir des modèles acoustiques multilingues. Les résultats expérimentaux obtenus avec des

modèles dépendants du contexte seront présentés dans la section suivante.

Dans le document Reconnaissance automatique de la parole pour des langues peu dotées (Page 128-131)

Initialisation des modèles acoustiques crosslingues

Chapitre 4 Application au vietnamien

6. Modélisation acoustique à base de modèles multilingues

6.3. Initialisation des modèles acoustiques crosslingues

Dans le chapitre 3 – section 5, nous avons présenté quelques méthodes de portabilité des

modèles acoustiques vers une nouvelle langue peu dotée. Nous présentons dans cette section

l’application de ces méthodes sur la langue vietnamienne. La langue source est les français ou

un groupe de langues (multilingue).

6.3.1. Portabilité des modèles acoustiques indépendants du contexte

La portabilité des modèles acoustiques indépendants du contexte vers une nouvelle langue

cible consiste à déterminer les couples de phonèmes les plus proches ou bien à construire un

tableau de correspondances phonémiques (phone mapping table) source/cible. En effet, en

appliquant la méthode de construction de tableaux de correspondances phonémiques présenté

dans le chapitre 3, un tableau de correspondances phonémiques entre la langue cible

(vietnamien) et la langue source (français, ou modèle multilingue issu de sept langues) est

construit dans notre expérimentation (tableau 4.13).

Phonème français Phonème issu d’un ensemble

multilingue (GlobalPhone)

Phonème

vietnamien Obtenu

manuellement

Obtenu

automatiquement

Obtenu

manuellement

Obtenu

automatiquement

Tableau 4.13 : Exemple du tableau de correspondances phonémiques avec pour

langue source le français et multilingue et pour langue cible le vietnamien

Après avoir obtenu le tableau de correspondances phonémiques source / cible, les modèles

acoustiques indépendants du contexte (monophones) en langue source peuvent être dupliqués

pour obtenir des modèles acoustiques en langue cible. L’avantage d’une telle approche est

qu’elle ne nécessite pas ou peu de signaux d’apprentissage en langue cible puisque les modèles

acoustiques du système de reconnaissance en langue cible sont, en fait, ceux d’une autre langue.

Des tels modèles acoustiques sont ainsi appelés les modèles acoustiques crosslingues.

Ensuite, nous avons testé deux techniques d’obtention du tableau de correspondances

phonémiques (knowledge-based et data driven) à partir des modèles acoustiques en langue

source multilingues (MM7) et français (FR). Les taux d’exactitude en syllabes (Syllable

Accuracy – SA) du système de reconnaissance automatique de la parole continue du vietnamien

testé sur un corpus des phrases du type « dialogue » et sur un corpus de nombres connectés sont

présentées dans la figure 4.12.

Figure 4.12 : Comparaison des performances des méthodes de portabilité des modèles

acoustiques indépendantes du contexte

(langue source : français et multilingue ; langue cible : vietnamien)

Ces résultats montrent le potentiel de l’approche automatique pour la génération du tableau

de correspondances phonémiques qui donne des performances équivalentes à celle obtenues

avec la méthode manuelle. La méthode data-driven est meilleure que la méthode

knowledge-based dans l’expérimentation monolingue (FR) mais elle est plus faible dans l’expérimentation

multilingue (MM7).

Cependant, si les performances sur la reconnaissance de nombres connectés sont correctes,

les performances restent inacceptables pour la reconnaissance de phrases. Précisons toutefois

qu’à ce stade de l’expérimentation, aucun signal vietnamien n’a été utilisé pour apprendre les

modèles acoustiques qui sont empruntés à d’autres langues.

Nous pouvons ajouter à cela quelques remarques :

- la qualité du tableau de correspondances phonétiques obtenu par la méthode automatique

(data-driven) dépend de la performance du décodeur acoustico-phonétique et de la qualité des

fichiers d’étiquettes phonétiques ;

- la couverture des phonèmes vietnamiens par l’ensemble des phonèmes français n’est pas

optimale (63%) : il y a des phonèmes vietnamiens (par exemple, les diphtongues) qui n’existent

pas dans la langue française. En conséquence, il est plus difficile de trouver un phonème en

langue source qui est proche d’un phonème en langue cible dans le tableau API (méthode

knowledge-based). Ainsi, la méthode data-driven est meilleure que la méthode

knowledge-based dans ce cas. Par contre, pour les modèles multilingues qui présentent une meilleure

couverture (87%), nous pouvons trouver plus facilement les phonèmes similaires dans le tableau

API et la méthode knowledge-based est meilleure dans ce cas.

Nous constatons que le système multilingue MM7/VN-CI-Knowledge obtient le meilleur

résultat dans cette expérimentation. Par conséquent, nous utiliserons ce système dans les

expérimentations d’adaptation de la section 6.4.

MM7/VN-CI-Knowledge comme les modèles acoustiques initiaux pour aligner temporellement

automatiquement des données vocales en langue vietnamienne par l’algorithme Viterbi.

Pratiquement, si aucun modèle acoustique n’existe au départ, nous pouvons utiliser les

stratégies d’initialisation de modèles acoustiques : démarrage aléatoire (random start),

démarrage uniforme (flat start), etc. Puis, les données vocales sont alignées temporellement à

l’aide de ces modèles acoustiques initiaux. Les modèles acoustiques sont ensuite ré-entraînés à

partir du corpus de signaux étiquetés et l’on réitère le cycle jusqu’à l’état stable du système est

atteint. Cependant, les résultats présentés dans [Wheatley 1994, Schultz 1997] montrent que les

modèles acoustiques initiaux crosslingues sont appris plus rapidement et mieux que les modèles

acoustiques générés par les stratégies de démarrage aléatoire ou démarrage uniforme. Les

étiquettes temporelles des données d’adaptation en vietnamien créées par les modèles

acoustiques crosslingues seront donc utilisées dans les expérimentations d’adaptation suivantes.

Phonème français ^{Phonème issu d’un ensemble}

vietnamien _Obtenu