Estimation par filtrage inverse - La qualité de voix

7. La qualité de voix

7.8. Estimation par filtrage inverse

La théorie source‐filtre de production de la parole (Fant, 1960) considère le signal acoustique d’un son de parole comme la résultante du son produit au niveau de la glotte par le passage de l’air en provenance des poumons, modifié lors du passage au travers du conduit vocal, puis à nouveau lors du passage par les lèvres. La pente spectrale de l’excitation glottique est en moyenne de ‐12 décibels par octave. Cette pente spectrale est relevée de 6 décibels par octave par la radiation aux lèvres.

Dans cette théorie, le conduit vocal est considéré comme un filtre linéaire, dont les propriétés seraient indépendantes de celles de la source glottique. Plus généralement, les trois étapes dont résulterait le signal de parole pourraient être étudiées indépendamment. La Figure 19 présente schématiquement les spectres correspondant aux trois étapes considérées par la théorie source‐filtre, ainsi que le spectre du signal de parole résultant.

21 Le programme que nous avons développé sous environnement Matlab^®, nommé Glottalizer, est distribué librement sous licence Creative Commons et téléchargeable avec sa documentation à l’URL

Considérant ce mécanisme de production comme assimilable à un circuit acoustique élémentaire, la théorie source‐filtre de production de la parole peut être traduite sous forme d’une équation dans l’espace des nombres complexes. Ainsi le signal de parole S(z) peut être codé sous la forme :

Excitation (source) Conduit vocal Radiation aux lèvres Parole Figure 19 : Représentation schématique des spectres correspondant aux différentes composantes considérées par la théorie source‐filtre (Fant, 1960), et spectre du signal de parole résultant de la modification de la source par le conduit vocal puis la radiation aux lèvres²². D’après Airas (2008).

La théorie source‐filtre, qui permet de rendre compte d’un grand nombre de phénomènes mesurables dans la parole, s’appuie sur l’hypothèse forte d’une absence d’interactions entre les mouvements de la glotte et le conduit vocal. Or, il existe un couplage physique entre la glotte et le conduit vocal (voir par exemple Fant & Lin (1987)). Comme l’indique Henrich (2008), la première conséquence de ce couplage est une asymétrie de l’onde de débit glottique, qui est toutefois généralement prise en compte dans les modèles de débit glottique. Elle mentionne également un second aspect de l’interaction source‐filtre qui est une perturbation du débit glottique provoquant un phénomène d’oscillation de l’onde de débit dérivée ou ripple dans le cas d’une proximité de la fréquence fondamentale et du premier formant, tout en soulignant qu’étant donné les plages de F0 utilisées dans la parole, cet aspect n’est pas problématique en voix parlée pour la plupart des voyelles. Enfin le troisième aspect de l’interaction source‐filtre est l’influence de l’impédance de la glotte et du couplage avec le conduit subglottal sur la fonction de transfert du conduit vocal (Barney et al., 2007). Bien que les limites de la théorie source‐filtre liées à l’interaction entre source et filtre puissent être sensibles dans le cas de la voix chantée (Henrich, 2008), cette théorie est considérée comme une approximation satisfaisante des mécanismes de production de la parole, en raison

22 Les abscisses sont ici représentées en Hertz sur une échelle linéaire, d’où la forme du spectre correspondant à la radiation aux lèvres. Ce spectre est le plus souvent représenté sur une échelle logarithmique sous forme d’une droite de pente 6 dB/octave.

notamment de l’impédance élevée de la glotte qui permet d’assimiler la source glottique à une source parfaite indépendante de la pression supraglottique (voir par exemple Vincent (2007)).

7.8.2 La problématique de l’inversion

Considérant, selon le principe de la théorie source‐filtre, la production de parole comme résultant des effets successifs et linéairement indépendants de la source glottique, du conduit vocal et de la radiation aux lèvres, il est possible en définissant des contraintes liées à l’anatomie et à la physiologie de l’appareil phonatoire de calculer à partir du signal acoustique les paramètres mis en œuvre dans le mécanisme de production de parole.

Nous ne décrirons pas de façon détaillée les techniques permettant de retrouver la configuration articulatoire du conduit vocal dans le cadre de la production de certaines voyelles ou consonnes. Soulignons cependant que ces techniques ont fait la preuve de leur efficacité. Ainsi Mawass et al. (2000) ont validé par cinéradiographie ainsi que par confrontation aux données audio l’inversion de consonnes fricatives du français, ce qui leur a permis d’appliquer leurs résultats en synthèse.

7.8.3 Le filtrage inverse

La technique du filtrage inverse consiste en une estimation de l’onde de débit glottique à partir du signal acoustique, en s’appuyant sur les hypothèses de la théorie source‐filtre de production de la parole. Ainsi, le filtrage inverse consiste en un passage du signal acoustique à travers un filtre dont la fonction de transfert est l’inverse de la fonction de transfert supraglottale. Le filtrage inverse est complété par l’annulation de la radiation des lèvres, réalisé par une simple intégration du signal en considérant cette radiation comme assimilable à l’effet d’un filtre dérivateur. Une estimation de l’onde de débit glottique ou de sa dérivée est ainsi obtenue, ce qui permet de calculer les paramètres de la source glottique.

En reprenant l’équation présentée ci‐dessus, étant donné que ses trois composantes sont considérées comme linéairement indépendantes, ce problème peut se traduire (voir Airas (2008)) comme la résolution de l’équation :

où Q(z) est la dérivée de l’onde de débit glottique considérée comme équivalente au produit de la source glottique et de la radiation aux lèvres. V(z) étant également inconnu, la résolution de cette équation est un problème de déconvolution aveugle.

Diverses méthodes, dont le principe général est fondé sur la mesure de la position des formants et de leur largeur de bande ont été proposées pour résoudre cette équation en séparant l’influence du conduit vocal de celle du débit glottique dérivé. Airas (2008) passe en revue la plupart de ces techniques. La première a été proposée par Miller (1959) antérieurement à la publication de la théorie source‐filtre (Fant, 1960) et consiste en une mesure manuelle des positions et largeurs de bande des deux premiers formants. La plus couramment utilisée est celle de Wong et al. (1979) qui s’appuie sur la phase fermée du cycle glottique au cours de laquelle l’estimation du filtre V(z) modélisant les résonances du conduit vocal est plus aisée. Cependant, comme le remarque Airas (2008), cette méthode présente l’inconvénient de ne pas être adaptée aux cas extrêmes de voix soufflées. En effet, dans ces types de phonation les plis vocaux ne se referment pas entièrement, et il n’est donc pas possible de s’appuyer sur une phase fermée clairement marquée.

Une méthode alternative consiste en une mise en relation de la sortie du filtre inverse avec un modèle de source glottique, les paramètres de la source étant dérivés du modèle d’onde glottique résultant. C’est par exemple la méthode adoptée par Arroabarren &

Carlosena (2003). Pour que cette méthode soit efficace, le modèle de source utilisé doit à la fois permettre de représenter de façon fidèle la véritable onde de débit glottique, et être suffisamment souple pour capturer les différents modes de phonation.

La méthode du filtrage inverse montre ses limites dans le cas des modes de phonation autres que la voix modale, et lorsque la fonction de transfert du conduit vocal subit des changements rapides. En effet, l’efficacité de cette méthode repose sur une estimation précise de cette fonction de transfert fondée sur l’analyse de la position des formants et de leur largeur de bande, qui selon Ní Chasaide & Gobl (2000), ne peut en pratique être réalisée de manière entièrement automatique que pour une phonation modale.

7.9. Le Quotient d’Amplitude Normalisé (NAQ)

Dans le document Prosodie de la parole expressive : dimensionnalité d'énoncés méthodologiquement contrôlés authentiques et actés ~ Association Francophone de la Communication Parlée (Page 133-137)