• Aucun résultat trouvé

4.8 Discussions

4.8.5 Synth`ese de sons paralinguistiques

Pour la synth`ese de parole expressive, il est possible d’ins´erer des sons paralin-guistiques tels que des respirations et des fillers (rires, pleurs...). Une tentative a ´et´e men´ee dans la synth`ese semi-param´etrique de rires propres `a un locuteur donn´e, ne poss´edant qu’une seule phrase de ce locuteur (voir l’annexe D). Grˆace `a l’examen d’une base de donn´ees de rires, nous avons ´etabli un mod`ele statistique. Le syst`eme est alors capable de synth´etiser un rire `a partir d’un seule phrase donn´ee. La voyelle la plus serr´ee (du point de vue de la qualit´e vocale), ainsi qu’une consonne sont concat´en´ees, dupliqu´ees puis transform´ees selon des patrons produits par le mod`ele appris. Le r´esultat est un rire (ou plusieurs, car plusieurs solutions sont propos´ees), qui conserve l’identit´e du locuteur. Si les r´esultats sont variables selon la phrase pr´esent´ee, il sont encourageants tant la perception de l’expressivit´e de la phrase peut s’en trouver modifi´ee. A titre d’exemple, la tristesse peut ˆetre per¸cue seule-ment par un pleur et la peur, seuleseule-ment par un cri, sans aucun autre mot verbal.

Plus finement, une exp´erience perceptive informelle montre que le simple ajout local d’une respiration au milieu d’une phrase neutre peut changer l’expression per¸cue de toute la phrase (en l’occurence, l’expression per¸cue ´etait la peur). Le pouvoir

4.8. Discussions 135 expressif des mots non verbaux est tel, qu’il devient n´ecessaire aux synth´etiseurs de parole de les g´en´erer.

136 Chapitre 4. Le syst`eme Expresso

4.9 Conclusion

Ce chapitre a pr´esent´e le syst`eme Expresso de transformation de l’expressi-vit´e. Une premi`ere partie a mis en ´evidence les diff´erents plusieurs paradigmes de g´en´eration des param`etres de transformation. Ils peuvent ˆetre d´efinis de mani`ere heuristique, ou bien de mani`ere adaptative au signal `a transformer, appel´e source.

Dans ce cas, diff´erentes “adaptativit´es” sont d´ecrites selon qu’elles prennent en compte des informations de type symbolique, des informations de type acoustique ou bien la r´eunion de ces deux types d’information. Le syst`eme propos´e implique un mod`ele qui r´eagit en fonction des donn´ees symboliques et des donn´ees acous-tiques caract´erisant la phrase `a transformer. Cela permet notamment de changer l’expression d’une phrase sans en alt´erer les autres niveaux d’information (identit´e du locuteur...), par l’observation des diff´erences entre cas neutre et cas expressifs d’une base de donn´ees.

Puis le mod`ele g´en´eratif utilis´e pour la transformation de l’expressivit´e d’une nouvelle phrase a ´et´e pr´esent´e. Un mod`ele g´en´eratif statistique est appris sur une base de donn´ees de parole expressive multi-locuteur. Les param`etres des transfor-mations acoustiques varient dans le temps et sont d´ependants des contextes sym-boliques extraits du texte et d’une d´efinition de l’´etat du locuteur. Il a ´et´e montr´e comment un r´eseau bay´esien r´ealise le passage entre un mod`ele `a base de r`egles et un mod`ele guid´e par les donn´ees. L’un des points cruciaux r´eside dans la capacit´e de g´en´eralisation du mod`ele `a des contextes non observ´es. Pour cela nous avons r´ealis´e un algorithme d’inf´erence qui r´eduit le contexte jusqu’`a trouver un nombre suffisant d’exemples pour estimer les param`etres de transformation.

Une fois les param`etres de transformation g´en´er´es, ils sont appliqu´es par des algorithmes de traitement du signal. Les op´erations de transposition, de dilata-tion/compression temporelle, de gain, de dilatadilata-tion/compression de l’enveloppe spectrale et de changement de la qualit´e vocale permettent de modifier les cinq dimensions de la prosodie que sont respectivement l’intonation, le d´ebit de parole, l’intensit´e, le degr´e d’articulation et la qualit´e vocale.

Enfin, ce chapitre a pr´esent´e la mise en place d’un test perceptif pour l’´evaluation du syst`eme Expresso. Conform´ement `a notre d´efinition de l’expressivit´e, ce test perceptif de mesure directe repose sur la cat´egorisation de l’expressivit´e de stimuli act´es et transform´es. Une interface web a ´et´e impl´ement´ee pour permettre une diffusion large du test et ainsi r´ecolter une population importante de participants.

Les r´esultats du test sont encourageants bien que les taux de reconnaissance soient assez faibles. Malheureusement, cette ´evaluation reste partielle, car elle pr´esente trop peu de stimuli, et probl´ematique, car elle pr´esente trop de classes expressives.

Toutefois, elle permet de pr´eparer le terrain d’´evaluations futures, et de pressentir certains comportements du syst`eme. En moyenne, les performances d’Expresso sont de moiti´e celles des acteurs. De plus, les matrices de confusion ont permis de mettre en ´evidence qu’un mod`ele hybride, bas´es sur diff´erents acteurs selon l’expression, pourraient donner de meilleurs r´esultats.

Chapitre 5

Conclusion g´ en´ erale

138 Chapitre 5. Conclusion g´en´erale Cette th`ese s’inscrit dans les recherches actuelles sur les ´emotions et les r´eactions

´emotionnelles, sur la mod´elisation et la transformation de la parole, ainsi que sur l’interpr´etation musicale. Pour transformer ces r´eactions, il est tout d’abord n´ecessaire de d´efinir la notion d’expressivit´e, d’un point de vue th´eorique. Puis, d’un point de vue pratique, il faut modifier le signal de parole, de mani`ere `a ce que la perception de l’expressivit´e en soit chang´ee. Cette apparente simplicit´e cache de nombreux verrous th´eoriques et techniques (notamment li´es `a la nature idio-syncrasique des ´emotions, et `a la variabilit´e, `a la richesse et `a la complexit´e du ph´enom`ene de la parole), que cette th`ese a tent´e de mettre en ´evidence, tout en essayant d’y apporter quelques ´el´ements de r´eponse. D’un point de vue pratique, un programme exp´erimental a ´et´e cr´ee, permettant de conf´erer `a n’importe quelle phrase, en fran¸cais, enregistr´ee ou synth´etis´ee, une expression d´esir´ee avec un cer-tain degr´e d’intensit´e. Des exemples sonores sont disponibles `a l’adresse suivante : http://recherche.ircam.fr/equipes/analyse-synthese/beller.

Un ´etat de l’art des th´eories sur le contrˆole des ´emotions et une revue des techniques exp´erimentales d’acquisition des donn´ees ´emotionnelles ont montr´e la n´ecessit´e de s´eparer l’´emotion de sa r´eaction ´emotionnelle usuellement associ´ee.

En guise de r´eponse, une d´efinition originale de l’expressivit´e a ´et´e donn´ee. Cette d´efinition a ´et´e mise `a l’´epreuve dans le contexte de la performance artistique.

L’´etude conjointe des interpr´etations verbales et musicales a permis la constitution de six hypoth`eses pour l’observation exp´erimentale et scientifique de l’expressivit´e de l’interpr´etation qui sont pr´esent´ees dans la partie suivante. Une m´ethode de repr´esentation hybride cat´egorico-dimensionnelle de l’expressivit´e a ´et´e propos´ee.

Elle a ´et´e employ´ee, avec les hypoth`eses pr´ec´edentes, pour la r´ealisation de trois corpus expressifs, dont l’un est constitu´e d’interpr´etations musicales (violon). Les deux corpus de parole expressive ont ´et´e exploit´es par un syst`eme original de gestion de corpus (voir l’annexeA). Puis, un nouveau mod`ele de la parole a ´et´e appliqu´e aux corpus dans le but de fournir des analyses symboliques et acoustiques de l’influence de l’expressivit´e sur l’interpr´etation verbale. Ces r´esultats, associ´es `a des algorithmes de traitement du signal, dont un permettant la modification du degr´e d’articulation, ont permis l’´etablissement d’un mod`ele bay´esien g´en´eratif pour la transformation de l’expressivit´e de la parole. Ces diff´erentes contributions sont explicit´ees ci-dessous.

D’un point de vue th´eorique, cette th`ese a propos´e une d´efinition de l’expres-sivit´e, une d´efinition de l’expression neutre, un nouveau mode de repr´esentation de l’expressivit´e, ainsi qu’un ensemble de cat´egories expressives communes `a la pa-role et `a la musique, dans la partie perspective. Elle a situ´e l’expressivit´e parmi le recensement des niveaux d’information disponibles dans l’interpr´etation qui peut ˆetre vu comme un mod`ele de la performance artistique. Elle a propos´e un mod`ele original de la parole et de ses constituants, ainsi qu’un nouveau mod`ele prosodique hi´erarchique.

D’un point de vue exp´erimental, cette th`ese a fourni un protocole pour l’acqui-sition de donn´ees expressives interpr´et´ees. Colat´eralement, elle a rendu disponible trois corpus pour l’observation de l’expressivit´e. Elle a produit une nouvelle mesure statistique du degr´e d’articulation ainsi que plusieurs r´esultats d’analyses

concer-139 nant l’influence de l’expressivit´e sur la parole.

D’un point de vue technique, elle a propos´e un algorithme de traitement du si-gnal permettant la modification du degr´e d’articulation. Elle a pr´esent´e un syst`eme de gestion de corpus novateur qui est, d’ores et d´ej`a, utilis´e par d’autres applica-tions du traitement automatique de la parole, n´ecessitant la manipulation de corpus (comme la synth`ese `a partir du texte, par exemple). Elle a montr´e l’´etablissement d’un r´eseau bay´esien en tant que mod`ele g´en´eratif de param`etres de transformation d´ependants du contexte.

D’un point de vue technologique, un syst`eme exp´erimental de transformation, de haute qualit´e, de l’expressivit´e d’une phrase neutre, en fran¸cais, synth´etique ou enregistr´ee, a ´et´e produit. De mˆeme, une interface web a ´et´e constitu´e de mani`ere

`

a ´evaluer ses performances, sur la base d’un test perceptifs.

Enfin et surtout, d’un point de vue prospectif, cette th`ese propose diff´erentes pistes de recherche pour l’avenir, tant sur les plans th´eorique, exp´erimental, tech-nique, que technologique. Parmi celles-ci, la confrontation des manifestations de l’expressivit´e dans les interpr´etations verbales et musicales semble ˆetre une voie prometteuse, comme le montre la partie suivante.

La suite de cette th`ese propose une partie prospective d´edi´ee `a la comparaison des manifestations de l’expressivit´e dans la parole et dans l’interpr´etation musicale.

S’il existe des cat´egories expressives communes `a la parole et `a la musique, est-ce qu’elles se manifestent de la mˆeme mani`ere `a travers ces deux moyens d’expression ?

Chapitre 6

Perspective : Expressivit´ e de l’interpr´ etation musicale

Sommaire

6.1 esum´e du chapitre . . . 143 6.2 Emotions verbales et musicales . . . 144 6.2.1 Caract`eres dans la musique classique occidentale . . . . 145 6.2.2 Emotions musicales contemporaines . . . . 145 6.2.3 Emotions musicales d’aujourd’hui. . . . 147 6.2.4 Emotions communes `a la parole et `a la musique. . . . 149 6.3 L’interpr´etation . . . 151 6.3.1 Acteurs de la performance. . . . 151 6.3.2 Contextes des acteurs . . . . 152 6.4 Expressivit´e de la performance . . . 153 6.4.1 Expressivit´e d’une cr´eation . . . . 153 6.4.2 Expressivit´e per¸cue par l’auditeur . . . . 153 6.4.3 Expressivit´e de la performance . . . . 154 6.4.4 Expressivit´e de l’interpr´etation . . . . 154 6.4.5 Hypoth`eses d’´etude de l’expressivit´e de l’interpr´etation. . . . 154 6.5 L’expressivit´e de l’interpr´etation musicale . . . 157 6.5.1 Le mod`ele GERMS. . . . 157 6.5.2 Les niveaux d’information . . . . 158 6.6 Expressivit´e de l’interpr´etation . . . 160 6.6.1 Le support . . . . 161 6.6.2 L’identit´e . . . . 161 6.6.3 Le style . . . . 161 6.6.4 L’aspect pragmatique . . . . 161 6.6.5 L’expressivit´e . . . . 162 6.6.6 Conclusion . . . . 162 6.7 Corpus d’interpr´etations musicales . . . 163 6.7.1 Particularit´es de l’interpr´etation musicale . . . . 163 6.7.2 Support : Partition utilis´ee . . . . 164 6.7.3 Identit´e et style. . . . 164 6.7.4 expressions . . . . 164 6.7.5 Contenu du corpus . . . . 165

6.8 Comparaison de l’expressivit´e des interpr´etations verbale et musicale166 6.8.1 Prosodie instrumentale. . . . 166

142 Chapitre 6. Perspective : Expressivit´e de l’interpr´etation musicale

6.9 Conclusion . . . 168

143

6.1 R´ esum´ e du chapitre

Cette partie, plus prospective, permet d’examiner ce qu’il se passe dans le cas de l’interpr´etation musicale, et dans le cas de l’interpr´etation en g´en´eral. L’id´ee cen-trale est que la parole et la musique partage un pouvoir expressif. La premi`ere question abord´ee concernant ce pouvoir expressif est : Est-ce qu’il est commun ? Une revue des cat´egories ´emotionnelles que l’on trouve dans la musique permet de penser qu’il existe certaines expressions communes `a la parole et `a la musique, bien que la majorit´e d’entre elles sont diff´erentes, compte tenu des diff´erents rˆoles que tiennent ces deux m´ediums de communication. La seconde question abord´ee est : Peut-on observer l’expressivit´e de l’interpr´etation musicale ? Une analogie est alors construite entre la parole et la musique, sur la base de l’interpr´etation d’un support. L’observation des diff´erents niveaux d’information de la parole et de l’in-terpr´etation musicale permet de bˆatir un ensemble d’hypoth`eses pour l’observation de l’expressivit´e dans l’interpr´etation. Ces hypoth`eses, qui ont ´et´e respect´ees pour la constitution du corpus de parole expressif IrcamCorpusExpressivity, permettent la constitution d’un corpus d’interpr´etations musicales expressives, semblable aux corpus de parole. Ce corpus est pr´esent´e car il a ´et´e enregistr´e durant cette th`ese.

Malheureusement son exploitation n’est pas d´ecrite par ce manuscrit, bien que des pistes pour le faire soient donn´ees. Parmi ces pistes, un axe de recherche est ´evoqu´e,

`

a partir de l’´ecoute compar´ee des corpus de parole et d’interpr´etations musicales : Par analogie, l’expressivit´e de la parole est en partie r´ev´el´ee par la prosodie, ce qui laisse `a penser que l’expressivit´e de l’interpr´etation musicale puisse aussi ˆetre, en partie, r´ev´el´ee par ce que l’on appelle : uneprosodie instrumentale. Cette perspec-tive est d´evelopp´ee dans cette th`ese, pour indiquer nos axes futurs de recherche, et parce qu’elle peut contribuer `a l’am´elioration de notre mod`ele g´en´eratif. S’il existe des gestes acoustiques de l’expressivit´e, communs `a la parole et `a l’interpr´etation musicale, alors leur confrontation peut nous aider `a mieux les cerner, dans chacun de leurs contextes respectifs. Ce qui nous am`ene `a la derni`ere question : L’expres-sivit´e se r´ev`ele t’elle dans la parole et dans l’interpr´etation musicale, par des gestes acoustiques communs ?

144 Chapitre 6. Perspective : Expressivit´e de l’interpr´etation musicale