Mod` ele d’apparence - parole audiovisuelle

parole audiovisuelle

11.2 Mod` ele d’apparence

2. ces postures BD sont envoyées à Attitude Studio où sont générées les postures HD

corres-pondantes par la méthode précédemment décrite ;

3. une régression linéaire entre les paramètres articulatoires et les coordonnées 3D des pos-tures HD est calculée, ce qui nous donne le modèle HD de la main.

A cet instant, nous sommes en possession de deux modèles de forme HD qui sont pilotés avec les paramètres articulatoires et de roto-translation déduits des corpora dynamiques.

11.2 Mod`ele d’apparence

Ayant un modèle de forme HD, il nous est maintenant possible d’ajouter un modèle d’appa-rence à nos objets. Dans les deux cas, nous utilisons une méthode de plaquage de texture sur le maillage 3D.

11.2.1 Le visage

En utilisant les différentes vues du corpus tête en rotation pour un même visème et

une technique de projection-inverse [2], on crée une texture cylindrique du visage de notre codeuse (représentation sur la figure 11.7 en haut). Même si pour ce corpus, le nombre de

billes et de pastilles est beaucoup moins important que pour le corpus visage+billes, il est

nécessaire d’effacer ou plutôt de maquiller manuellement les traces laissées par ces marqueurs (représentation sur la figure 11.7 en bas).

Fig. 11.7 – Textures cylindriques de notre codeuse pour le vis`eme [

] : en haut, texture directe-ment obtenue apr`es projection-inverse des 16 vues ; en bas, retouche manuelle pour effacer les billes et pastilles coll´ees sur le visage.

11.2.2 Les dents

Des prises de vue haute résolution des dents (voir figure 11.8 (a)) permettent d’habiller le modèle 3D de dents calculé à partir du moulage des dents.

(a) (b)

Fig.11.8 – Images utilis´ees comme textures pour les dents (a) et pour la main (b).

11.2.3 La main

Pour ce qui est de la main, c’est Attitude Studio qui nous a fourni, avec les coordonn´ees 3D du maillage pour les 128 configurations, une image (voir figure 11.8 (b)) ainsi qu’une table de conversion (image vers maillage).

11.3 R´esum´e

Le chapitre précédent décrivait la mise en oeuvre de la pièce clé de notre système de synthèse, le modèle de contrôle. Toutefois s’il n’est pas associé à des modèles de forme et d’apparence performants, la qualité globale du système sera dégradée.

C’est donc de ces deux modules qui viennent se greffer au bout de la chaˆıne dont il est question dans ce chapitre. L’analyse des données dynamiques nous avait fourni un modèle de forme BD inadapté avec un modèle d’apparence. Nous avons donc construit un modèle de forme HD pour chacun des objets : le visage et la main suivant des méthodologies différentes. Dans le premier cas, nous nous sommes basés sur une série de photographies de plusieurs visèmes et dans le second cas, nous nous sommes basés sur le moulage de la main. Après avoir fait concorder nos données sur un ensemble pertinent (l’erreur engendrée sera traitée dans la partie suivante), nous avons créé des modèles HD. Cette densité de points importante dans ces modèles nous a permis de rajouter des modèles d’apparence basés sur le plaquage de texture. Nous avons finalement en bout de chaˆıne un clone vidéo-réaliste capable de synthétiser du code LPC à partir de n’importe quel nouveau texte (comme représenté sur la figure 11.9).

R ´EF ´ERENCES BIBLIOGRAPHIQUES 139

Fig. 11.9 – Passage des paramètres articulatoires et de roto-translation délivrés par le système

de synthèse par concaténation à un visage et une main vidéoréalistes.

R´ef´erences bibliographiques

[1] M. B´erar, G. Bailly, M. Chabanas, M. Desvignes, F. Elisei, M. Odisio, and Y. Pahan.Towards

a better understanding of speech production processes, chapter Towards a generic talking head, pages 341–362. Psychology Press, New York, 2006.

[2] M. Odisio and F. Elisei. Clonage 3D et animation articulatoire du visage d’une personne

réelle pour la communication parlée audiovisuelle. In Journées de l’AFIG, pages 225–232,

Grenoble, France, 2000.

[3] L. Rev´eret, G. Bailly, and P. Badin. MOTHER : a new generation of talking heads providing a

flexible articulatory control for video-realistic speech animation. InInternational Conference

on Speech and Language Processing, pages 755–758, Beijing, China, 2000.

[4] L. Rev´eret and C. Benoˆıt. A new 3D lip model for analysis and synthesis of lip motion in

Chapitre 12

R´esum´e de la partie

Après avoir défini notre stratégie face aux verrous technologiques qui se présentaient à nous, nous décrivons la phase d’enregistrement puis de pré-traitement des données. Ces deux phases préliminaires mènent bien évidemment à la phase d’analyse des données car bien que des études aient déjà été faites sur la production de la Langue fran¸caise Parlée Complétée, nos données

sont de nature différente et nous tenions à être sûr de ce qu’elles contenaient. Les conclusions

des différentes analyses effectuées sur les divers corpora nous donnent des voies de réflexion pour résoudre les verrous technologiques.

Fig. 12.1 – Diagramme du système de synthèse de Langue fran¸caise Parlée Complétée à partir

du texte.

Nous avons opté pour une solution qui consiste à synthétiser en 2 temps les différents pa-ramètres pour résoudre les contraintes temporelles des différents articulateurs.

Cependant, les premiers corpora enregistrés ne sont pas suffisants pour générer une géométrie 141

haute définition de la main et du visage. De nouveaux corpora sont donc utilisés pour compléter nos données et pouvoir ainsi générer des objets 3D vidéo-réalistes.

Finalement, le diagramme complet de notre système de synthèse est celui représenté sur la figure 12.1.

Dans la partie suivante, nous allons nous attacher à évaluer notre système de synthèse tant de fa¸con objective que subjective.

Dans le document Conception et évaluation d'un système de synthèse 3D de Langue française Parlée Complétée (LPC) à partir du texte (Page 140-146)