• Aucun résultat trouvé

parole audiovisuelle

11.2 Mod` ele d’apparence

2. ces postures BD sont envoy´ees `a Attitude Studio o`u sont g´en´er´ees les postures HD

corres-pondantes par la m´ethode pr´ec´edemment d´ecrite ;

3. une r´egression lin´eaire entre les param`etres articulatoires et les coordonn´ees 3D des pos-tures HD est calcul´ee, ce qui nous donne le mod`ele HD de la main.

A cet instant, nous sommes en possession de deux mod`eles de forme HD qui sont pilot´es avec les param`etres articulatoires et de roto-translation d´eduits des corpora dynamiques.

11.2 Mod`ele d’apparence

Ayant un mod`ele de forme HD, il nous est maintenant possible d’ajouter un mod`ele d’appa-rence `a nos objets. Dans les deux cas, nous utilisons une m´ethode de plaquage de texture sur le maillage 3D.

11.2.1 Le visage

En utilisant les diff´erentes vues du corpus tˆete en rotation pour un mˆeme vis`eme et

une technique de projection-inverse [2], on cr´ee une texture cylindrique du visage de notre codeuse (repr´esentation sur la figure 11.7 en haut). Mˆeme si pour ce corpus, le nombre de

billes et de pastilles est beaucoup moins important que pour le corpus visage+billes, il est

n´ecessaire d’effacer ou plutˆot de maquiller manuellement les traces laiss´ees par ces marqueurs (repr´esentation sur la figure 11.7 en bas).

Fig. 11.7 – Textures cylindriques de notre codeuse pour le vis`eme [

] : en haut, texture directe-ment obtenue apr`es projection-inverse des 16 vues ; en bas, retouche manuelle pour effacer les billes et pastilles coll´ees sur le visage.

11.2.2 Les dents

Des prises de vue haute r´esolution des dents (voir figure 11.8 (a)) permettent d’habiller le mod`ele 3D de dents calcul´e `a partir du moulage des dents.

(a) (b)

Fig.11.8 – Images utilis´ees comme textures pour les dents (a) et pour la main (b).

11.2.3 La main

Pour ce qui est de la main, c’est Attitude Studio qui nous a fourni, avec les coordonn´ees 3D du maillage pour les 128 configurations, une image (voir figure 11.8 (b)) ainsi qu’une table de conversion (image vers maillage).

11.3 R´esum´e

Le chapitre pr´ec´edent d´ecrivait la mise en oeuvre de la pi`ece cl´e de notre syst`eme de synth`ese, le mod`ele de contrˆole. Toutefois s’il n’est pas associ´e `a des mod`eles de forme et d’apparence performants, la qualit´e globale du syst`eme sera d´egrad´ee.

C’est donc de ces deux modules qui viennent se greffer au bout de la chaˆıne dont il est question dans ce chapitre. L’analyse des donn´ees dynamiques nous avait fourni un mod`ele de forme BD inadapt´e avec un mod`ele d’apparence. Nous avons donc construit un mod`ele de forme HD pour chacun des objets : le visage et la main suivant des m´ethodologies diff´erentes. Dans le premier cas, nous nous sommes bas´es sur une s´erie de photographies de plusieurs vis`emes et dans le second cas, nous nous sommes bas´es sur le moulage de la main. Apr`es avoir fait concorder nos donn´ees sur un ensemble pertinent (l’erreur engendr´ee sera trait´ee dans la partie suivante), nous avons cr´e´e des mod`eles HD. Cette densit´e de points importante dans ces mod`eles nous a permis de rajouter des mod`eles d’apparence bas´es sur le plaquage de texture. Nous avons finalement en bout de chaˆıne un clone vid´eo-r´ealiste capable de synth´etiser du code LPC `a partir de n’importe quel nouveau texte (comme repr´esent´e sur la figure 11.9).

R ´EF ´ERENCES BIBLIOGRAPHIQUES 139

Fig. 11.9 – Passage des param`etres articulatoires et de roto-translation d´elivr´es par le syst`eme

de synth`ese par concat´enation `a un visage et une main vid´eor´ealistes.

R´ef´erences bibliographiques

[1] M. B´erar, G. Bailly, M. Chabanas, M. Desvignes, F. Elisei, M. Odisio, and Y. Pahan.Towards

a better understanding of speech production processes, chapter Towards a generic talking head, pages 341–362. Psychology Press, New York, 2006.

[2] M. Odisio and F. Elisei. Clonage 3D et animation articulatoire du visage d’une personne

r´eelle pour la communication parl´ee audiovisuelle. In Journ´ees de l’AFIG, pages 225–232,

Grenoble, France, 2000.

[3] L. Rev´eret, G. Bailly, and P. Badin. MOTHER : a new generation of talking heads providing a

flexible articulatory control for video-realistic speech animation. InInternational Conference

on Speech and Language Processing, pages 755–758, Beijing, China, 2000.

[4] L. Rev´eret and C. Benoˆıt. A new 3D lip model for analysis and synthesis of lip motion in

Chapitre 12

R´esum´e de la partie

Apr`es avoir d´efini notre strat´egie face aux verrous technologiques qui se pr´esentaient `a nous, nous d´ecrivons la phase d’enregistrement puis de pr´e-traitement des donn´ees. Ces deux phases pr´eliminaires m`enent bien ´evidemment `a la phase d’analyse des donn´ees car bien que des ´etudes aient d´ej`a ´et´e faites sur la production de la Langue fran¸caise Parl´ee Compl´et´ee, nos donn´ees

sont de nature diff´erente et nous tenions `a ˆetre sˆur de ce qu’elles contenaient. Les conclusions

des diff´erentes analyses effectu´ees sur les divers corpora nous donnent des voies de r´eflexion pour r´esoudre les verrous technologiques.

Fig. 12.1 – Diagramme du syst`eme de synth`ese de Langue fran¸caise Parl´ee Compl´et´ee `a partir

du texte.

Nous avons opt´e pour une solution qui consiste `a synth´etiser en 2 temps les diff´erents pa-ram`etres pour r´esoudre les contraintes temporelles des diff´erents articulateurs.

Cependant, les premiers corpora enregistr´es ne sont pas suffisants pour g´en´erer une g´eom´etrie 141

haute d´efinition de la main et du visage. De nouveaux corpora sont donc utilis´es pour compl´eter nos donn´ees et pouvoir ainsi g´en´erer des objets 3D vid´eo-r´ealistes.

Finalement, le diagramme complet de notre syst`eme de synth`ese est celui repr´esent´e sur la figure 12.1.

Dans la partie suivante, nous allons nous attacher `a ´evaluer notre syst`eme de synth`ese tant de fa¸con objective que subjective.