• Aucun résultat trouvé

3.2 Mod` ele de la parole

Afin d’observer l’influence de l’expressivit´e sur la parole, nous d´ecrivons dans cette partie diff´erents ph´enom`enes que la communication verbale implique. Nous pr´esentons ces ph´enom`enes par le sch´ema de la figure 3.1 et les relions `a la perspective du double codage de la parole, propos´ee par F´onagy [F´onagy 1983, F´onagy 1972a,Fon`agy 1972b].

3.2.1 Double codage de la parole

Le ”double codage de la parole” propos´e par Fon`agy [F´onagy 1983] diff´erencie le canal linguistique du canal paralinguistique. Le canal linguistique est porteur du ni-veau d’information s´emantique et peut ˆetre transcod´e, sans perte d’information, en un texte. D’un point de vue acoustique, il est support´e par des s´equences d’´el´ements sonores dits segmentaux, appel´es phones. Ces phones sont des r´ealisations de phon`emes, qui constituent le dictionnaire symbolique ferm´e des sons d’une langue.

Leur r´ealisation est tr`es variable compte-tenu de plusieurs ph´enom`enes segmentaux tels que la coarticulation, la liaison ou l’´elision. Lors d’une prononciation intelligible, et pour quiconque en connaissance de ces pr´ec´edents ph´enom`enes et de la langue, chacun des phones est attribuable `a la r´ealisation d’un mot, ou d’une suite de mots, permettant ainsi la compr´ehension du message linguistique (ou le d´ecodage du canal linguistique).

La r´ealisation de ces phones est aussi influenc´ee par des ph´enom`enes supra-segmentaux. Ces ph´enom`enes ont une port´ee d´epassant le phone et n’affectent pas leur intelligibilit´e (c’est `a dire qu’ils ne privent pas un phone de son appartenance

`

a une cat´egorie phon´etique). Ces ph´enom`enes regroup´es sous le nom de prosodie, sont les vecteurs du canal paralinguistique. Le canal paralinguistique v´ehicule les autres niveaux d’information que le niveau s´emantique. Par exemple, l’intonation peut `a elle seule, v´ehiculer la modalit´e et la pro´eminence.

D’un point de vue temporel, ces deux canaux d’information sont transmis si-multan´ement. Les ´el´ements segmentaux sont modul´es par les ph´enom`enes supra-segmentaux, d´efinissant de concert, une forme acoustique dans laquelle, l’interlocu-teur reconnaˆıtra les diff´erents niveaux d’information attenant `a la communication verbale (voir chapitre 2.4.5).

Si cette s´eparation permet de montrer une diff´erence entre un texte et sa r´ealisation acoustique, il n’en reste pas moins que l’appareil vocal est susceptible de produire d’autres sons que les phones, mˆeme en situation de communication.

Campbell relate qu’`a peu pr`es 30% d’un dialogue spontan´e enregistr´e est compos´e de sons non verbaux [Campbell 2007a]. Ces sons non verbaux sont aussi modul´es par la prosodie, comme c’est le cas pour le rire (voir annexesD). De plus, bien que la syntaxe attenante au message linguistique apparaisse via le canal linguistique, de nombreuses restructurations non grammaticales entrent en jeu, surtout dans la parole spontan´ee, encore plus dans le dialogue spontan´e et d’avantage dans le cas de la parole expressive. C’est pourquoi nous introduisons ces ph´enom`enes dans notre

40 Chapitre 3. Analyses du corpus mod`ele de la parole (voir figure 3.1).

Fig. 3.1: Repr´esentations de diff´erents ph´enom`enes de la parole. Les mots et la syntaxe constituent le canal linguistique. Les sons non verbaux, la prosodie et les restructurations sons les vecteurs du canal paralinguistique.

3.2.2 Mots verbaux et non verbaux

Un mot verbal poss`ede un sens s´emantique et une transcription linguistique. Il peut s’´ecrire grˆace `a l’usage d’un terme issu du dictionnaire des noms communs et des noms propres d’une langue. Il d´epend donc de la langue et de normes socio-culturelles. Par opposition, un mot non verbal ne poss`ede pas de transcription stan-dard et est d´epourvu de sens linguistique. Toutefois, il n’est pas rare de trouver des transcriptions phon´etico-orthographiques de ces sons comme “ah ah ah” ou “(rire)”

pour ´ecrire un rire dans un texte (de la bande-dessin´ee au roman, en passant par le script d’une pi`ece de th´eˆatre). C’est `a cause de cette fonction communicationnelle que nous parlons ici de mots et non de sons non verbaux.

Comme les mots non verbaux ne poss`edent pas de transcription standardis´ee, ils sont difficilement verbalisables et qualifiables autrement que par reproduc-tion. Malgr´e une grande vari´et´e, on distingue parmi les mots non verbaux, les

”fillers” (rires, cris, pleurs,...), les pauses, les respirations (inspirations, reprises de souffle, expirations) [Beller 2006b] et d’autres bruits (gutturaux, nasaux...). Il semble que ces mots non verbaux soit de riches porteurs de sens pour l’expres-sivit´e [Schroeder 2006]. La tristesse peut ˆetre per¸cue seulement par un pleur et la peur, seulement par un cri, sans aucun autre mot verbal. Plus finement, une exp´erience perceptive informelle montre que le simple ajout local d’une respira-tion au milieu d’une phrase neutre peut changer l’expression per¸cue de toute la phrase (en l’occurence, l’expressivit´e per¸cue ´etait la peur). Le pouvoir expressif

3.2. Mod`ele de la parole 41 des mots non verbaux est tel, que les synth´etiseurs de parole commencent `a les g´en´erer (voir annexes D), de mani`ere `a accentuer le naturel et l’expressivit´e de la synth`ese. Cela n´ecessite, entre autre, la d´efinition de standard pour leurs transcrip-tions. Les r´ecentes tentatives reposent en majorit´e sur des extensions du langage SSML1 [Eide 2004,Blankinship 2001,Auberg´e 2006].

3.2.3 Syntaxe et restructurations

La mani`ere dont sont agenc´es temporellement les mots verbaux et non verbaux est informative. Ceci est bien connu dans le cas des mots verbaux dont l’agence-ment temporel est d´efini par des contraintes syntaxiques. Dans le cas d’une com-munication spontan´ee, ces mots peuvent toutefois ne plus respecter l’ordre r´egi par les r`egles grammaticales tout en conservant leur fonctions syntaxiques. En ef-fet, la s´equentialit´e entre sons non verbaux et verbaux forcent ces derniers `a de possibles r´eorganisations temporelles, appel´ees restructurations. Ainsi, bien que la syntaxe du message linguistique organise a priori les mots et donc les s´equences de phones, de nombreuses restructurations non grammaticales entrent en jeu, comme la r´ep´etition de syllables, de mots entiers ou bien mˆeme de propositions enti`eres (re-setting). En parole spontan´ee, la r´ep´etition qui est fr´equente n’affecte pas forc´ement la compr´ehension des mots et de leurs relations syntaxiques. En revanche, elle peut r´ev´eler de l’h´esitation ou de la confusion qui sont des expressions. D’autres restruc-turations sont porteuses de sens pour l’expressivit´e, alors qu’elles sont g´en´eralement consid´er´ees comme des disfluences pour la parole neutre [Piu 2007] et concerne la prononciation : la coarticulation, la c´esure, la liaison et l’´elision en sont des exemples.

3.2.4 Prosodie

Le flux de parole est donc une s´equence de mots verbaux et de mots non verbaux organis´ee par la double action des r`egles syntaxiques et des possibles restructura-tions. Dans le mˆeme temps, la r´ealisation acoustique de tous ces ´el´ements sonores est modul´ee par la prosodie. Si ceci est bien connu en ce qui concerne les mots verbaux, cela reste vrai pour les mots non verbaux comme le rire, par exemple (voir annexesD). La prosodie comprend des traits phonologiques supra-segmentaux dont la port´ee d´epasse l’horizon du phone (la syllable, le groupe accentuel, le mot, la cli-tique, le groupe de souffle, le groupe prosodique, la phrase...) et qui n’annihilent pas leur intelligibilit´e (c’est `a dire qu’ils ne privent pas un phone de son appartenance `a une cat´egorie phon´etique). Cinq traits caract´eristiques sont g´en´eralement cit´es dans la litt´erature comme les cinq dimensions de la prosodie [Pfitzinger 2006] :

– l’intonation : fr´equence fondamentale, hauteur, pitch – l’intensit´e : ´energie, volume

– le d´ebit de parole : vitesse d’´elocution

– le degr´e d’articulation : prononciation, configurations du conduit vocal, dy-namique des formants

1SSML : Speech Synthesis Markup Language :http://www.w3.org/TR/speech-synthesis/

42 Chapitre 3. Analyses du corpus – la phonation : excitation glottique, qualit´e vocale (voix press´ee, normale,

souffl´ee), mode vibratoire (fry, normal, falsetto), fr´equence de voisement...

Durant un demi-si`ecle d’´etude de la parole neutre, la prosodie a souvent ´et´e r´eduite `a l’intonation. l’intonation a ainsi b´en´efici´e de beaucoup d’attention et de mod´elisation, car, ais´ee `a observer, elle a permis `a elle seule, de faire ´emerger des fonctions de la prosodie (modalit´e, emphase...). Le cas de la parole expressive semble n´ecessiter plus fortement l’observation des autres dimensions [Campbell 2003]. En-fin, de part son caract`ere continu dans le temps, la prosodie accompagne la pro-duction de sons verbaux et non verbaux et interagit donc avec la syntaxe et les restructurations.