• Aucun résultat trouvé

1.3 Prédiction des mouvements articulatoires

1.3.2 Prédire par sélection de références

Initié par les travaux de Atal et al. (1978), l’inversion acoustique par codebook peut à première vue ressembler aux approches dérivées du Actors System. Ici aussi, ces méthodes se basent sur la construction d’une table de correspondance entre vecteurs acoustiques et vecteurs articulatoires. Cependant, les entrées de cette table ne sont pas ici conçues par l’humain, mais résultent d’un échantillonnage de l’espace articulatoire, espace obtenu par acquisition d’une faible quantité de données ou par l’utilisation d’un modèle de conduit vocal. Cet échantillonnage peut-être régulier (Atal et al., 1978), aléatoire (Schroeter and Sondhi, 1992; Boë et al., 1992), une interpolation depuis des vecteurs racines (Larar et al., 1988; Sorokin and Trushkin, 1996), ou encore adaptatif (Charpentier, 1984; Sorokin and Trushkin, 1996; Ouni and Laprie, 2005a; Potard and Laprie, 2007). De plus, là ou les systèmes "Acteurs" proposent une fonction d’interpolation pour effectuer la transition d’une référence à l’autre, en étant incapable de sortir des limites imposées par ces réfé- rences, l’inversion acoustique par codebook propose elle de modéliser la relation acous- tique/articulatoire aux voisinages d’une entrée de la table, afin de pouvoir modifier le vecteur articulatoire correspondant à la plus proche entrée de la table en fonction de la différence entre l’entrée de la table et le vecteur acoustique. Cette relation est définie bien différemment en fonction des auteurs : constante dans un petit voisinage (Atal et al., 1978; Larar et al., 1988; Schroeter and Sondhi, 1992), linéaire (Atal et al., 1978; Charpentier, 1984; Sorokin and Trushkin, 1996; Ouni and Laprie, 2005a), polynomiale (Potard and Laprie, 2007) ou encore stochastique (Laboissière, 1992; Hogden et al., 1996).

Nous pouvons noter qu’un grand nombre de ces méthodes sont des inversions dites point à point, cherchant à retrouver l’état du conduit vocal et/ou de certains articulateurs pour un vecteur acoustique donné, et non pas pour un segment de parole. L’utilisation naïve de telle méthode pour une inversion de segment entraîne donc une totale omission de la contrainte temporelle inhérente à la production de la parole, résultant dans des tra- jectoires impossibles à réaliser par l’être humain. Retrouver la trajectoire des articulateurs à partir des modèles à base de codebook se réalise donc principalement en deux étapes, une première recherche de trajectoire articulatoire initiale depuis le codebook, souvent à l’aide de la programmation dynamique (Ouni and Laprie, 2005b; Potard and Laprie,

1.3. Prédiction des mouvements articulatoires 33 2009), puis par une procédure de lissage afin de s’assurer d’un mouvement plausible des articulateurs en retirant les aspérités des trajectoires.

L’approche de synthèse par concaténation fut largement exploitée pour la synthèse 3D de la parole visuelle, suite à des travaux exploratoires de Hallgren and Lyberg (1998); Kuratate et al. (1998) sur la concaténation de polyphones, des configurations de mesh 3D correspondant aux phonèmes, équivalent des visèmes. Très rapidement, ces systèmes de concaténation se sont mis à prendre en compte le contexte lors de la sélection d’unité, afin d’englober et de considérer un maximum des effets de la coarticulation. Nous retrouvons par exemple une prise en compte du contexte phonétique (Minnis and Breen, 2000; Edge and Hilton, 2006), mais aussi du contexte visuel (Breen et al., 1996; Engwall, 2002). En particulier, Cao et al. (2004) prend en compte le contexte phonétique tout en minimisant le nombre de concaténations nécessaire à la synthèse. Dans son étude comparative, Bailly et al. (2002) montre que son système à base de concaténation aboutit à de meilleurs résultats qu’un ensemble de règles induit depuis le même corpus audiovisuel. Nous pouvons également citer des approches par concaténation étant de véritable synthèse audiovisuelle de la parole depuis le texte, à l’image des travaux de Ouni et al. (2013) qui réalisent leur synthèse concaténant des unités bimodales contenant le visuel et l’acoustique.

Du côté de la synthèse visuelle de la parole en 2D, un travail pionnier est celui de Bregler et al. (1997), qui propose le Video Rewrite, un système extractant les formes de bouches depuis une base de données et en les réorganisant par visèmes associés à chaque triphone. Ces visèmes pourront par la suite être selectionnés en fonction du flux audio, et ajoutés à une image de fond représentant le reste du visage. Bien entendu, une importante étape de traitement d’image est nécessaire afin que le rendu final soit perçu comme un tout, et non pas comme une simple superposition d’images.

Ces grands principes seront repris par de nombreuses études (Cosatto and Graf, 2000; Fagel, 2006; Thies et al., 2016), dont les plus récentes et performantes utilisent des modèles statistiques pour guider la sélection (Fan et al., 2016; Suwajanakorn et al., 2017), ce qui rapproche grandement ces modèles de ceux présentés à la section suivante. Par exemple, Suwajanakorn et al. (2017) utilise des réseaux LSTM pour prédire les coefficients ACP d’une représentation éparse du contour des lèvres servant de critère de sélection de l’unité à concaténer. Depuis le corpus vidéo, les auteurs ont extrait 18 points 3D formant le contour des lèvres, et on conduit une analyse en composante principale afin de réduire ces vecteurs de dimension 36. Nous pouvons également noter qu’un décalage temporel d est effectué pour fournir au réseau une quantité fixe d’information future par rapport à l’instant t (i.e. à l’instant t + d, le réseau doit prédire la représentation de la bouche à l’instant t), ceci dans le but de prendre en compte les effets de la coarticulation anticipative. L’étude de

34 Chapitre 1. L’articulation multimodale : données, modélisation et prédiction Fan et al. (2015, 2016) quant à elle utilise des LSTM bidirectionnels afin de prédire les coefficients AAM correspondants à la partie basse du visage. Les auteurs ont ici profité des informations phonétiques (triphones) et acoustiques (MFCC, Mel-Frequency Cepstral Coefficients).