• Aucun résultat trouvé

Fort de cette premi`ere exp´erience, une deuxi`eme s´erie de corpus a ´et´e enre-gistr´ee avec un nouveau protocole. Cette s´erie de corpus [Beller 2008b], qui r´eunit les corpus Combe2006, Roullier2006, Olivia2006 et Daniele2006 a ´et´e baptis´ee : IrcamCorpusExpressivity.

2.6.1 Protocole

Chaque s´eance a ´et´e guid´ee par l’interm´ediaire d’une interface informatique per-mettant la bonne conduite de l’enregistrement (texte, consigne, s´equentialit´e). Cette interface poss`ede un ´ecran pr´esentant la phrase, l’expression et l’intensit´e `a r´ealiser.

Le com´edien d´eclenche et termine l’enregistrement grˆace `a une p´edale. L’utilisation de cette interface-conducteur facilite le travail du com´edien qui n’a plus `a se concen-trer sur la s´equentialit´e des tˆaches. Cette interface facilite aussi la post-production puisqu’elle permet la synchronisation, l’annotation et la segmentation du corpus au fur et `a mesure que celui-ci est enregistr´e. Ainsi l’acteur peut se tromper ou re-commencer sans que cela n’entraˆıne de d´ecalages. Les com´ediens ont ´et´e enregistr´es dans les mˆemes conditions et dans un environnement qu’ils connaissent puisque il est leur lieu de travail. Le studio de doublage pr´esente l’avantage d’une acous-tique propre, tout en ´etant suffisamment r´everb´erante. Ainsi les acteurs ressentent moins de fatigue vocale que dans le cas de la chambre an´echo¨ıque, qui poss`ede une acoustique inhabituelle et particuli`erement s`eche. Un micro statique de qualit´e a permis l’acquisition des donn´ees en qualit´e ADAT (16 bit, 48000 Hz). Des donn´ees issues d’un laryngographe (EGG) ont aussi ´et´e enregistr´ees sur certaines parties du corpus.

2.6.2 Support : Texte utilis´e

Le texte choisi pour ces corpus est plus court que celui utilis´e pr´ec´edemment.

Il provient d’un corpus d’ensembles de dix phrases, phon´etiquement ´equilibr´es [Combescure 1981]. L’ensemble choisi parmi les 20 ensembles, regroupent des phrases s´emantiquement neutres vis `a vis de l’expressivit´e :

2.6. Corpus expressif : IrcamCorpusExpressivity 31

Fig. 2.4: Interface d’aide `a l’enregistrement r´ealis´ee dans l’environnement Max/MSP.

Stextephrase Description : Texte orthographique

Type : Symbolique et cat´egorielle Unit´e : Phrase

Alphabet :





























“C’est un soldat `a cheveux gris.”

“Alfred prit la tˆete de l’exp´edition.”

“Il ne pourra pas me voir si j’´eteins la lampe.”

“Il entre avec sa chandelle, dans la vieille chambre.”

“Le nez du personnage s’abaisse, au-dessus de sa moustache.”

“Vous ˆetes vraiment ob´eissant !”

“En attendant, c’est moi qui vais ouvrir.”

“Je ne pourrai jamais, me plier `a son autorit´e.”

“Tout le monde sait que tu es la meilleure.”

“Je me demande, o`u se trouve cet endroit ?”

Cardinalit´e : 10

L’accentuation de ces phrases a ´et´e annot´ee par la ponctuation et par des syl-lables en lettres capitales. Cela permet de varier les lieux de pro´eminence d’une phrase `a l’autre, et donc la prosodie, malgr´e une longueur similaire. De plus, cela permet aussi de figer l’accentuation de la phrase, de mani`ere `a fixer la s´emantique d’une r´ep´etition `a l’autre (aspect pragmatique). Ces phrases ne perdent pas de sens, quelque soit l’expression avec laquelle elles sont prononc´ees. Elles sont donc

“s´emantiquement neutres” vis `a vis de l’expressivit´e.

32 Chapitre 2. Constitution d’un corpus expressif

2.6.3 Identit´e et style

De mani`ere `a faire varier l’identit´e du locuteur (pour le respect de l’hypoth`ese N˚4) et ainsi, d’observer les diff´erences inter-acteurs, le corpus IrcamCorpusEx-pressivity est compos´e d’enregistrements de 4 acteurs : Jacques, conteur/com´edien (environ 40 ans ; le mˆeme acteur que pour Combe2005), Philippe, com´edien dou-bleur (environ 40 ans), Olivia, com´edienne doubleuse (environ 25 ans) et Danielle, com´edienne doubleuse (environ 50 ans).

Sspeakerphrase Description : Nom de l’acteur

Type : Symbolique cat´egorielle Unit´e : Phrase

Alphabet :{“Combe”, “Roullier”, “Olivia”, “Daniele”} Cardinalit´e : 4

Ils se distinguent notamment par le sexe, variable prise en compte pour obtenir une variation de l’identit´e du locuteur (et donc satisfaire `a l’hypoth`ese N˚4).

Ssexephrase Description : Sexe du locuteur

Type : Symbolique et cat´egorielle Unit´e : Phrase

Alphabet :{“homme”, “femme”} Cardinalit´e : 2

Il a ´et´e formellement demand´e aux acteurs de ne pas utiliser de style particulier (style th´eˆatral ou autre).

2.6.4 Expressivit´e

De mani`ere `a pouvoir repr´esenter les expressions enregistr´ees dans un es-pace dimensionnel dont les axes sont la valence (positif vs n´egatif), l’intensit´e (degr´e d’intensit´e de l’expression) et l’activation (introversion vs extraversion) [Schroeder 2003], et dans le but de fournir aux acteurs une description d´etaill´ee, sous la forme de vecteurs lexicaux, de l’expressivit´e (voir conclusion de la partie 2.2), nous leurs avons demand´e d’exprimer des ´emotions utilitaires avec plusieurs degr´es d’intensit´e et selon deux versions relatives `a l’introversion et `a l’extraver-sion. Les expressions choisies ont ´et´e d´esign´ees par le comit´e de pilotage du projet ANR-VIVOS6 qui impliquait notamment des acteurs et de potentiels utilisateurs du syst`eme de transformation de l’expressivit´e (Studio de doublage Chinkel). Les expressions ainsi retenues sont :

6VIVOS :http://www.vivos.fr

2.6. Corpus expressif : IrcamCorpusExpressivity 33

“col`ere introvertie” : col`ere contenue ou froide

“col`ere extravertie” : col`ere explosive ou chaude

“joie introvertie” : joie douce ou maternelle

“joie extravertie” : joie explosive ou enthousiaste

“peur introvertie” : peur contenue ou t´etanisante

“peur extravertie” : peur explosive ou alarmante

“tristesse introvertie” : tristesse contenue

“tristesse extravertie” : tristesse explosive ou larmoyante

“discr´etion”

“d´egoˆut”

“confusion”

“surprise positive” : pour le locuteur

“surprise n´egative” : pour le locuteur

“excitation”

Cardinalit´e : 15

Pour ces derni`eres expressions (en caract`ere normal), les com´ediens ont direc-tement dit tout le texte avec le niveau d’intensit´e le plus fort possible. Pour les expressions en italique, le degr´e d’intensit´e a ´et´e vari´e selon 5 niveaux.

Sdegreephrase Description : Degr´e d’intensit´e de l’expression

Type : Symbolique et cat´egorielle Unit´e : Phrase

Alphabet :{“1”, “2”, “3”, “4”, “5”, “6”} Cardinalit´e : 6

2.6.5 Contenu du corpus

Le d´eroulement de l’enregistrement est d´ecrit par la proc´edure suivante. Pour une expression donn´ee, le locuteur lit la premi`ere phrase de mani`ere neutre. Puis il r´ep`ete 5 fois cette phrase, avec l’expression d´esir´ee, en accroissant son degr´e d’intensit´e. Ensuite il passe `a la phrase suivante et recommence cette progression.

Enfin, il r´eit`ere ce sch´ema avec les autres expressions. Cette proc´edure permet no-tamment d’obtenir une intensification de l’expressivit´e sans que le locuteur n’ait

`

a relire le texte `a chaque fois. D’une intensit´e `a une autre, ni la phrase, ni son accentuation ne change, laissant apparaˆıtre seulement les variations imputables `a l’intensit´e de l’expressivit´e. Les acteurs ont eu pour consigne explicite de ne pas varier la prononciation de leurs r´ealisations d’une mˆeme phrase. Ceci de mani`ere

`

a minimiser les variations dues aux ph´enom`enes de coarticulation, de liaison et

34 Chapitre 2. Constitution d’un corpus expressif d’´elision. Dans le but de comparer les diff´erentes r´ealisations, il leur a aussi ´et´e demand´e de ne pas employer de restructurations et de sons non verbaux. Ces der-niers ont ´et´e enregistr´es s´epar´ement `a la fin (car ils n’´etaient pas l’objet direct de l’´etude, au d´epart). Les fillers7 suivants ont enregistr´es avec chaque expression :

“Ah”, “oh”, “rire”, “pleurs”, “peur”, “panique”, “joie”, “euh”, “interrogation”,

“argh”, “effort”, “course”, “hhh”, “fff ”.

C’est sur ce dernier corpus que se fondent les analyses et les mod`eles de trans-formation qui sont pr´esent´es dans la suite de ce manuscrit. Les donn´ees collect´ees durant l’enregistrement consistent en un fichier audio pour chaque phrase et un fichier XML correspondant, contenant les annotations de l’expressivit´e (cat´egorie, activation et intensit´e), du texte d´eclam´e, et des informations relatives `a l’iden-tit´e du locuteur (ˆage, sexe, nom). Au final, plus de 500 phrases ont ´et´e recueillies par acteur, formant un corpus d’une dur´ee totale d’environ 12 heures de parole expressive.

7Le terme “filler”, provenant de l’anglais, est largement employ´e dans le doublage de cin´ema, pour d´ecrire certains sons non verbaux.