• Aucun résultat trouvé

Chapitre 5. Conversion visuo-acoustique, approche indirecte

5.2.  Décodage visuo-phonétique

5.2.3.  Résultats

Plusieurs stratégies ont été présentées dans les sections précédentes pour l’extraction des caractéristiques visuelles, la combinaison des modalités ultrasonore et vidéo et enfin pour la prise en compte du contexte. Afin de les valider, une première série d’expériences est réalisée (Figure 5.6). Les résultats sont présentés et interprétés dans les sections suivantes92. Afin d’évaluer uniquement la qualité de la modélisation, les performances du décodeur ne sont pour l’instant évaluées que dans le cas du scénario « non contraint », c’est-à-dire en l’absence d’informations linguistiques a priori.

91 analyse par « fenêtre glissante » effectuée en décalant de 10 ms une fenêtre (de Hanning) couvrant 20 ms de signal, vecteur de caractéristiques acoustiques constitué de 13 coefficients mel-cepstraux, complétés par la valeur de leurs dérivées premières et secondes.

92 Les expériences décrites ci-après ont fait l’objet des articles (Hueber et al., 2007b; 2008a; 2009a).

Figure 5.6 : Série d’expériences réalisée dans le but de valider les différentes stratégies proposées pour la mise en œuvre du décodeur visuo-phonétique.

Expérience 1 : Type de caractéristiques visuelles

Le Tableau 5.2 compare les performances du décodeur en fonction de l’approche utilisée pour l’extraction des caractéristiques visuelles (voir section 3.2.3). Une stratégie de « fusion au niveau des caractéristiques » est adoptée pour combiner les modalités ultrasonores et vidéo. Les classes phonétiques sont ici modélisées de façon indépendante du contexte.

Base B1 Base B2

TCD EigenTongues/EigenLips TCD EigenTongues/EigenLips

Tp(%) 58.5 57.7 58.3 66.9

Δ95%(%) 1.0 1.0 1.0 0.9

Tableau 5.2 : Comparaison des performances du décodage visuo-phonétique en fonction du type de caractéristiques visuelles (fusion des caractéristiques ultrasonores et vidéo, modélisation

indépendante du contexte, scénario de décodage non-contraint)

Si les deux approches fournissent des résultats comparables dans le cas de la base B1, (écart non significatif), l’approche EigenTongues/EigenLips devance nettement l’approche par TCD sur la base B2. Ce résultat, cohérent avec les observations effectuées dans le cas de l’approche directe de la conversion visuo-acoustique, se retrouve également dans les expériences décrites ultérieurement (MMC multi-flux, prise en compte du contexte). Aussi, nous ne présenterons par la suite que les résultats basés sur l’approche EigenTongues/EigenLips.

Expérience 2 : Combinaison des modalités ultrasonore et vidéo

Le Tableau 5.3 compare la stratégie de « fusion au niveau de caractéristiques » à celle basée sur l’utilisation de MMC multi-flux (« Early Integration »). Les classes phonétiques sont ici modélisées de façon indépendante du contexte.

Base B1 Base B2

Fusion MMC multi-flux Fusion MMC multi-flux

Tp(%) 57.7 59.5 66.9 67.5

Δ95%(%) 1.0 1.0 0.9 0.9

Tableau 5.3 : Comparaison des performances du décodage visuo-phonétique en fonction de la stratégie adoptée pour combiner les modalités ultrasonore et vidéo (caractéristiques visuelles du

type EigenTongues/EigenLips, modélisation indépendante du contexte, scénario de décodage non-contraint)

L’utilisation de MMC multi-flux est à l’origine d’une amélioration des performances. Cette dernière n’est cependant statistiquement significative que dans le cas de la base B1. Rappelons que les valeurs optimales des poids associés à chacune des deux modalités visuelles sont déterminées par validation croisée (minimisation du taux de reconnaissance phonétique sur les deux listes de validation). En moyenne ces valeurs sont de l’ordre de 0.7 pour la modalité ultrasonore et de 0.3 pour la modalité vidéo. Un décodeur basé sur des MMC multi-flux accorde donc, de fait, plus d’importance à la modalité ultrasonore. Ceci semble cohérent avec le fait que, pour l’articulation de nombreux phonèmes, la position de la langue est plus décisive que celle des lèvres. Dans la suite des expériences, la stratégie de fusion des caractéristiques est abandonnée au profit de l’approche par MMC multi-flux.

Expérience 3 : Intérêt de la modélisation dépendante du contexte

Le Tableau 5.4 compare les performances obtenues dans le cadre de modélisations indépendantes et dépendantes du contexte (triphone).

Base B1 Base B2

CI CD CI CD

Tp(%) 59.5 65.6 67.5 70.8

Δ95%(%) 1.0 0.9 0.9 0.9

Tableau 5.4 : Comparaison des performances du décodage visuo-phonétique en fonction de la prise en compte du contexte dans la modélisation des classes phonétiques (scénario de décodage

non-contraint).

La modélisation de classes phonétiques « en contexte » permet donc d’améliorer de façon significative les performances du décodeur (environ 6% d’amélioration absolue). Ce résultat était attendu car, comme nous l’avons précédemment souligné, les phénomènes de co-articulation et d’anticipation gestuelle sont ici mieux pris en compte. Néanmoins, cette amélioration est atteinte au prix d’une modélisation plus complexe, le nombre de paramètres à estimer étant a priori plus important que dans le cas d’une modélisation hors contexte. La procédure de partage des données d’apprentissage entre les états des MMC contextuels permet cependant de réduire sensiblement ce nombre. Dans notre cas, le nombre d’états dont il faut réellement estimer les paramètres est réduit à 6 % du nombre d’états total (moyenne sur l’ensemble des phonèmes). Néanmoins, avec 8885 triphones, soit autant de MMC à trois états dont les probabilités d’émission sont modélisées par un mélange de 4 gaussiennes, le nombre de paramètres à estimer est de,

soit environ deux fois plus qu’en modélisation hors contexte (voir l’équation 5.9).

Décodage visuo-phonétique versus décodage acoustico-phonétique

Les expériences précédentes ont permis de déterminer les meilleures stratégies à adopter pour l’apprentissage des modèles visuels (caractéristiques visuelles du type EigenTongues/EigenLips, modélisation basée sur des MMC multi-flux, modélisation dépendante du contexte). Le Tableau 5.5 compare à présent la performance du décodeur visuo-phonétique à une « borne supérieure », c’est-à-dire à la performance d’un décodeur acoustico-phonétique entraîné et évalué sur les mêmes données et à l’aide des mêmes procédures.

Base B1 Base B2

Visuel Acoustique Visuel Acoustique

Tp(%) 65.6 82.4 70.8 81.6

Δ95%(%) 0.9 0.8 0.9 0.8

Tableau 5.5 : Décodage visuo-phonétique versus décodage acoustico-phonétique (modélisation par MMC-multiflux (visuel), dépendants du contexte (visuel et acoustique), scénario de

décodage non contraint)

Ainsi, la performance d’un décodeur phonétique basé sur les modalités visuelles est de l’ordre de 80 % de celle d’un décodeur basé sur la modalité audio. Par ailleurs, pour cette expérience comme pour les précédentes, et de façon similaire à ce qui a été observé dans le cas de la conversion visuo-acoustique « directe », les performances observées sont systématiquement meilleures sur la base B2 que sur la base B1. Il est difficile de déterminer avec certitude l’origine de ces écarts de performance car ces corpus sont basés sur des locutrices différentes. Cependant, les performances du décodage à partir de la modalité audio étant quasiment identiques pour les deux bases, ces écarts ne proviennent a priori pas de la quantité de données disponibles pour l’apprentissage (légèrement supérieure pour la base B2). On peut donc les expliquer par la différence de qualité des données visuelles, entre les deux bases (les données de la base B2 présentant une meilleure résolution spatiale et temporelle que celles de la base B1).

Contributions respectives des modalités ultrasonore et vidéo

L’expérience décrite ci-après vise à comparer les quantités d’informations véhiculées par les deux modalités visuelles. Le Tableau 5.6 présente les performances de deux décodeurs visuo-phonétiques, le premier n’exploitant que les données ultrasonores, le second, que les données vidéo. Ces expérimentations sont réalisées sur la base B2 (qui présente les données vidéo avec la meilleure résolution spatiale et temporelle).

Ultrason et vidéo Ultrason Video

Tp(%) 70.8 62.2 43.6

Δ95%(%) 0.9 1.0 1.0

Tableau 5.6 : Comparaison des performances du décodeur phonétique dans le cas où une seule des deux modalités visuelles n’est utilisée (base B2, approche EigenTongues/EigenLips,

modélisation dépendante du contexte, scénario de décodage non contraint).

De façon attendue, la modalité ultrasonore apporte plus d’informations sur la production que la modalité vidéo.

Scénarios de décodage

L’introduction d’une étape préalable de décodage phonétique dans le processus de conversion visuo-acoustique est motivée par la volonté d’introduire des informations linguistiques a priori. Dans le cas du scénario de décodage dit non contraint, ces informations sont fournies par le modèle de langage (ML) au niveau phonétique (bigramme) dont la mise en œuvre a été décrite précédemment. Dans le cas du scénario de décodage « contraint », cet apport d’information prend la forme d’une limitation sur le vocabulaire et le décodage est réalisé au niveau lexical (à l’aide d’un dictionnaire de 3000 mots contenant notamment les mots du corpus CMU Arctic). Les performances obtenues dans le cadre de ces différents scénarios sont présentées dans le Tableau 5.7 (où figurent également les nombres d’omissions D, d’insertions I, et de substitutions S).

Base B1 B2

Scénario Libre Libre+ML

phonétique Contraint Libre Libre+ML

phonétique Contraint

Tp(%) 65.6 66.2 74.7 70.8 71.4 83.3

Δ95%(%) 0.9 1.0 0.8 0.9 0.9 0.8

D 4294 3397 3964 4412 4543 3363

S 6279 6377 3613 5289 5103 2389

I 1397 1987 1232 1393 1227 590

N 34693 37970

Tableau 5.7 : Comparaison des performances du décodeur visuo-phonétique en fonction du scénario de décodage mis en œuvre (caractéristiques visuelles du type EigenTongues/EigenLips,

modélisation dépendante du contexte par MMC multi-flux).

Dans le cas du scénario non contraint, l’apport du modèle de langage apparaît comme très faible (amélioration de la performance à peine supérieure à la largeur de l’intervalle de confiance). Le modèle bigramme au niveau phonétique est donc ici peu informatif. Rappelons que ce dernier est entraîné (et évalué) sur le corpus CMU Arctic qui, construit de sorte à couvrir l’espace de diphones, peut faire apparaître des séquences phonétiques « exotiques » difficilement modélisables.

De façon attendue, la restriction du vocabulaire (scénario contraint) est à l’origine d’une nette amélioration des performances (de l’ordre de 10 % pour les deux bases de données). Dans les deux bases, le nombre de substitutions est notamment réduit de plus de 40 % par rapport au scénario non contraint. Pour analyser en détail la nature des erreurs (restantes), les matrices de confusions associées au décodage des bases B1 et B2, dans le cas du scénario contraint, sont présentées à la Figure 5.7. De façon prévisible, les phonèmes qui ne différent que par leurs caractéristiques de voisement et de nasalité (sauf en cas de contact linguovélaire) sont ceux qui sont le plus souvent confondus. Ainsi, les principales erreurs de substitution s’effectuent au sein

des groupes ([p], [b], [m]), ([t], [d], [n]), ([f], [v]), ([s],[z]), ([k], [g]), ([ch], [jh]), ([th], [dh]).

Le manque d’informations sur la position de l’apex peut par ailleurs expliquer les erreurs commises au sein du groupe ([t], [d], [s], [z], [sh]). Des erreurs sont également commises sur les voyelles. Le phénomène de réduction est très certainement à l’origine de la substitution de nombreuses d’entres elles par la voyelle « centrale » [ah]. Les diphtongues pour lesquelles le point d’articulation varie constamment au cours de la réalisation grâce notamment à un mouvement continu de la langue (glissement ou glide en anglais), sont parfois décodées comme une suite de deux voyelles « stables ». Ceci peut expliquer les substitutions au sein des groupes ([ey], [ah]), ([oy], [iy]) et ([ow], [ao]). Enfin, certaines voyelles très proches sont également confondues, comme [uh] et [uw] d’une part et [iy] et [ih] d’autre part.

Le scénario de décodage contraint donne l’accès à un niveau de description linguistique encore supérieur, le niveau lexical. Comme nous le verrons ultérieurement, ce niveau de description sera utilisé dans le cadre de la synthèse du signal de parole, pour la génération du contenu prosodique « cible ». Aussi, il apparaît nécessaire d’évaluer la performance du décodeur, non plus uniquement en terme de taux de reconnaissance phonétique, mais en terme de taux de reconnaissance « en mots ». Ce dernier, noté ici Tm est obtenu de façon classique, à l’aide de l’équation 5.11, en ne considérant plus le niveau phonétique, mais le niveau lexical93. La valeur de ce taux sur chacune des deux bases de données est présentée au Tableau 5.8.

Base B1 Base B2

Tm(%) 48.7 61.6

Δ95%(%) 2.1 2.0

Tableau 5.8 : Taux de reconnaissance « en mots » (caractéristiques visuelles du type EigenTongues/EigenLips, modélisation dépendante du contexte par MMC multi-flux,

dictionnaire de 3000 mots, aucun modèle de langage n’est ici utilisé).

De façon attendue, ce dernier reste relativement faible en l’absence de modèle de langage.

Néanmoins, avec un taux de reconnaissance phonétique de l’ordre de 75 % pour la base B1 et de plus de 80 % pour la base B2, le scénario de décodage contraint est le scénario privilégié pour la seconde étape de l’approche indirecte de la conversion visuo-acoustique : la synthèse du signal de parole.

=

Figure 5.7 : Matrices de confusion du décodage visuo-phonétique dans le cas du scénario contraint (en haut, base B1, en bas, base B2, en abscisse, la référence, en ordonnée, la

prédiction, OMI : omission, INS : insertion).