• Aucun résultat trouvé

7. La qualité de voix

7.8. Estimation par filtrage inverse

La  théorie  source‐filtre  de  production  de  la  parole (Fant,  1960) considère le  signal  acoustique d’un son de parole comme la résultante du son produit au niveau de la glotte  par le passage de l’air en provenance des poumons, modifié lors du passage au travers  du conduit vocal, puis à nouveau lors du passage par les lèvres. La pente spectrale de  l’excitation glottique est en moyenne de ‐12 décibels par octave. Cette pente spectrale est  relevée de 6 décibels par octave par la radiation aux lèvres. 

Dans cette théorie, le conduit vocal est considéré comme un filtre linéaire, dont les  propriétés seraient indépendantes de celles de la source glottique. Plus généralement, les  trois  étapes  dont  résulterait  le  signal  de  parole  pourraient  être  étudiées  indépendamment. La Figure 19 présente schématiquement les spectres correspondant  aux trois étapes considérées par la théorie source‐filtre, ainsi que le spectre du signal de  parole résultant. 

       

21 Le programme que nous avons développé sous environnement Matlab®nommé Glottalizer, est  distribué librement sous licence Creative Commons et téléchargeable avec sa documentation à l’URL 

Considérant ce mécanisme de production comme assimilable à un circuit acoustique  élémentaire, la théorie source‐filtre de production de la parole peut être traduite sous  forme d’une équation dans l’espace des nombres complexes. Ainsi le signal de parole  S(z) peut être codé sous la forme : 

Excitation (source) Conduit vocal Radiation aux lèvres Parole   Figure 19 : Représentation schématique des spectres correspondant aux différentes composantes  considérées par la théorie source‐filtre (Fant, 1960), et spectre du signal de parole résultant de la  modification de la source par le conduit vocal puis la radiation aux lèvres22. D’après Airas (2008). 

La  théorie  source‐filtre,  qui  permet  de  rendre  compte  d’un  grand  nombre  de  phénomènes mesurables dans la parole, s’appuie sur l’hypothèse forte d’une absence  d’interactions entre les mouvements de la glotte et le conduit vocal. Or, il existe un  couplage physique entre la glotte et le conduit vocal (voir par exemple Fant & Lin  (1987)). Comme l’indique Henrich (2008), la première conséquence de ce couplage est  une asymétrie de l’onde de débit glottique, qui est toutefois généralement prise en  compte dans les modèles de débit glottique. Elle mentionne également un second aspect  de l’interaction source‐filtre qui est une perturbation du débit glottique provoquant un  phénomène d’oscillation de l’onde de débit dérivée ou ripple dans le cas d’une proximité  de la fréquence fondamentale et du premier formant, tout en soulignant qu’étant donné  les plages de F0 utilisées dans la parole, cet aspect n’est pas problématique en voix parlée  pour la plupart des voyelles. Enfin le troisième aspect de l’interaction source‐filtre est  l’influence de l’impédance de la glotte et du couplage avec le conduit subglottal sur la  fonction de transfert du conduit vocal (Barney et al., 2007). Bien que les limites de la  théorie source‐filtre liées à l’interaction entre source et filtre puissent être sensibles dans  le cas  de  la voix chantée  (Henrich,  2008),  cette  théorie est  considérée  comme  une  approximation  satisfaisante  des  mécanismes  de  production  de  la  parole,  en  raison         

22 Les abscisses sont ici représentées en Hertz sur une échelle linéaire, d’où la forme du spectre  correspondant à la radiation aux lèvres. Ce spectre est le plus souvent représenté sur une échelle  logarithmique sous forme d’une droite de pente 6 dB/octave. 

notamment de l’impédance élevée de la glotte qui permet d’assimiler la source glottique  à une source parfaite indépendante de la pression supraglottique (voir par exemple  Vincent (2007)). 

7.8.2 La problématique de l’inversion 

Considérant, selon le principe de la théorie source‐filtre, la production de parole comme  résultant des effets successifs et linéairement indépendants de la source glottique, du  conduit vocal et de la radiation aux lèvres, il est possible en définissant des contraintes  liées à l’anatomie et à la physiologie de l’appareil phonatoire de calculer à partir du  signal acoustique les paramètres mis en œuvre dans le mécanisme de production de  parole. 

Nous ne décrirons pas de façon détaillée les techniques permettant de retrouver la  configuration articulatoire du conduit vocal dans le cadre de la production de certaines  voyelles ou consonnes. Soulignons cependant que ces techniques ont fait la preuve de  leur efficacité. Ainsi Mawass et al. (2000) ont validé par cinéradiographie ainsi que par  confrontation aux données audio l’inversion de consonnes fricatives du français, ce qui  leur a permis d’appliquer leurs résultats en synthèse. 

7.8.3 Le filtrage inverse 

La technique du filtrage inverse consiste en une estimation de l’onde de débit glottique à  partir du signal acoustique, en s’appuyant sur les hypothèses de la théorie source‐filtre  de production de la parole. Ainsi, le filtrage inverse consiste en un passage du signal  acoustique à travers un filtre dont la fonction de transfert est l’inverse de la fonction de  transfert supraglottale. Le filtrage inverse est complété par l’annulation de la radiation  des lèvres, réalisé par une simple intégration du signal en considérant cette radiation  comme assimilable à l’effet d’un filtre dérivateur. Une estimation de l’onde de débit  glottique ou de sa dérivée est ainsi obtenue, ce qui permet de calculer les paramètres de  la source glottique. 

En reprenant l’équation présentée ci‐dessus, étant donné que ses trois composantes sont  considérées  comme  linéairement indépendantes, ce problème  peut  se  traduire (voir  Airas (2008)) comme la résolution de l’équation : 

où Q(z) est la dérivée de l’onde de débit glottique considérée comme équivalente au  produit de la source glottique et de la radiation aux lèvres. V(z) étant également inconnu,  la résolution de cette équation est un problème de déconvolution aveugle. 

Diverses méthodes, dont le principe général est fondé sur la mesure de la position des  formants et de leur largeur de bande ont été proposées pour résoudre cette équation en  séparant l’influence du conduit vocal de celle du débit glottique dérivé. Airas (2008)  passe en revue la plupart de ces techniques. La première a été proposée par Miller (1959)  antérieurement à la publication de la théorie source‐filtre (Fant, 1960) et consiste en une  mesure manuelle des positions et largeurs de bande des deux premiers formants. La plus  couramment utilisée est celle de Wong et al. (1979) qui s’appuie sur la phase fermée du  cycle glottique au cours de laquelle l’estimation du filtre V(z) modélisant les résonances  du conduit vocal est plus aisée. Cependant, comme le remarque Airas (2008), cette  méthode présente  l’inconvénient de  ne pas être  adaptée  aux cas extrêmes de  voix  soufflées. En effet, dans ces types de phonation les plis vocaux ne se referment pas  entièrement, et il n’est donc pas possible de s’appuyer sur une phase fermée clairement  marquée. 

Une méthode alternative consiste en une mise en relation de la sortie du filtre inverse  avec un modèle de source glottique, les paramètres de la source étant dérivés du modèle  d’onde glottique résultant. C’est par exemple la méthode adoptée par Arroabarren & 

Carlosena (2003). Pour que cette méthode soit efficace, le modèle de source utilisé doit à  la fois permettre de représenter de façon fidèle la véritable onde de débit glottique, et  être suffisamment souple pour capturer les différents modes de phonation. 

La méthode du filtrage inverse montre ses limites dans le cas des modes de phonation  autres que la voix modale, et lorsque la fonction de transfert du conduit vocal subit des  changements rapides. En effet, l’efficacité de cette méthode repose sur une estimation  précise de cette fonction de transfert fondée sur l’analyse de la position des formants et  de leur largeur de bande, qui selon Ní Chasaide & Gobl (2000), ne peut en pratique être  réalisée de manière entièrement automatique que pour une phonation modale. 

7.9.  Le Quotient d’Amplitude Normalisé (NAQ)