• Aucun résultat trouvé

Systèmes d’externalisation vocale faisant usage d’une tablette graphique 8

Quand l’utilisation des tablettes graphiques s’est développée, l’interface a fait consensus pour le contrôle de la synthèse vocale : la plupart des systèmes de contrôle performatif de la voix qui ont vu le jour depuis le début de ce siècle en font usage. [Wright et al. 1997] fournit une évaluation positive d’une tablette Wacom pour un contrôle musical, car elle offre un grand nombre de degrés de liberté. En effet, le stylet d’une tablette Wacom permet en contrôle en 5 dimensions : les données émises correspondent à sa position et au degré d’inclinaison dans le plan (x, y) (4 dimen-sions), mais également à la pression qui y est appliquée (axe z). De plus, les stylets possèdent deux boutons poussoirs accessibles avec l’index.

La façon dont les différents paramètres vocaux sont contrôlés diffère selon le système. Pour ce qui est de l’articulation des voyelles, la plupart des systèmes uti-lisent un plan vocalique en deux dimensions, tel que celui présenté Figure 1.6: les combinaisons de fréquences centrales des deux premiers formants F1 et F2 peuvent à elles seules représenter la totalité des voyelles non-nasales.

Le premier système de synthèse vocale faisant usage d’une tablette graphique permettait de contrôler le synthétiseur CHANT [Wanderley et al. 2000]. La hauteur et l’effort vocal étaient contrôlés par un capteur de position et de pression, et les voyelles par la position (x, y) du stylet sur la tablette graphique, qui représentait alors le plan vocalique.

Dans le système Voicer7, présenté en haut de la Figure 1.7, [Kessous 2004a,

Kessous 2004b] a mis en place une méthode de contrôle circulaire de la hauteur sur une tablette graphique, permettant d’outrepasser les limitations spatiales pour

4. https://youtu.be/rL5YKZ9ecpgà partir de 12m50 5. https://youtu.be/a5tLniLHUgYà 5m45

6. https://youtu.be/aveUEZkcQnoà 11m46 7. www.jmc.blueyeti.fr/Videos/Voicer.mpg

Figure1.6 – Représentation des voyelles extrêmes du français dans le plan des deux premiers formants. Image issue de [Perrotin 2015].

le cas de variations mélodiques importants. Il a également testé la déportation du contrôle des voyelles sur un joystick (en haut à gauche dans la Figure 1.7).

Le Speech Conductor Project [d’Alessandro et al. 2005] a été l’événement fon-dateur des systèmes que nous allons présenter par la suite (en dehors du Pink Trombone). Il a engendré la version temps-réel du modèle de source glottique CALM [D’Alessandro et al. 2006a,d’Alessandro 2009], ainsi que le système RAM-CESS [d’Alessandro et al. 2006b, Le Beux 2009], permettant de produire une voix synthétique de façon performative à partir de méthodes d’analyse/synthèse d’une base de données vocale.

L’espace de contrôle HandSketch8, présenté au centre de la figure, est une adap-tation de la tablette graphique, sur laquelle sont ajoutés un masque de contrôle angulaire, ainsi qu’un jeu de capteurs FSR. Cet espace a été utilisé pour le contrôle de plusieurs synthétiseurs, vocaux ou non. Dans tous ces synthétiseurs, la position angulaire du stylet contrôle la fréquence fondamentale. L’un des synthétiseurs vo-caux à en faire usage était un synthétiseur à formants [D’Alessandro & Dutoit 2007,

D’Alessandro & Dutoit 2009]. La position radiale du stylet permettait de contrôler des paramètres de qualité vocale, et les capteurs FSR permettaient de produire sauts de notes rapides, et d’articuler des phonèmes. Un autre synthétiseur vocal ayant fait usage de l’espace HandSketch est le MAGE [Astrinaki et al. 2012]9, un synthétiseur paramétrique basé sur une modélisation HMM d’un corpus de parole. Une fois un texte fourni au système, la position radiale du stylet permet d’en contrôler la vitesse de lecture, la pression l’intensité, et l’inclinaison la taille du conduit vocal.

8. https://youtu.be/EK1Q7X_c3Q8

Le Cantor Digitalis [Feugère et al. 2017] est un synthétiseur à formants, dont la surface de contrôle est représentée en bas à gauche de la figure. Ce masque est apposé à la tablette graphique de la même manière que celui du HandSketch. La position et la pression du stylet permettent de contrôler la hauteur et l’effort vo-cal, et la position du doigt dans l’espace vocalique (carré rouge), faisant usage de la fonction tactile d’une tablette Wacom Touch, permet de contrôler l’articulation des voyelles. [Feugere 2013] a également développé une version du Cantor Digitalis nommée Digitartic, qui permet d’articuler certaines consonnes avec une deuxième tablette graphique. La position du stylet sur l’axe x définissait la consonne, et l’axe y permettait de contrôler la transition Voyelle (stylet en bas) / Consonne (stylet en haut). Dans cette représentation10, le second musicien en partant de la gauche contrôle le Digitartic, les autres le Cantor Digitalis.

Le dernier système de contrôle performatif de la synthèse vocale que nous souhai-terions présenter est le Pink Trombone de Neil Thapen, dont la surface de contrôle est présentée en bas à droite de la figure. Il n’est pas contrôlé par une tablette graphique, mais peut être contrôlé par une interface de type tablette tactile ou smartphone11, ou encore à la souris12. Il permet de produire des voyelles et des consonnes à partir d’un modèle géométrique du conduit vocal manipulable directement avec les doigts. Bien qu’il ne permette pas de tenir une conversation, nous trouvons ce paradigme de contrôle intéressant, et estimons qu’il méritait d’être présenté dans cette section.

1.4 Bilan et contenu du manuscrit

L’historique des systèmes de synthèse performative que nous venons de présenter nous a permis de mettre en évidence le succès qu’ont connu les tablettes graphiques pour une utilisation dans le cadre du contrôle de la synthèse vocale : avant leur appa-rition, chaque nouveau système utilisait des méthodes de contrôle très différentes des précédents. Aujourd’hui, tous les nouveaux systèmes d’externalisation vocale font usage de la tablette graphique pour le contrôle de la hauteur (sauf pour la pédale Miku Stomp de Korg dont l’objectif est plutôt commercial). Parmi tous les systèmes d’externalisation vocale que nous avons présentés, nous pouvons distinguer ceux qui permettent un contrôle au niveau segmental (voyelles et consonnes) de ceux qui permettent un contrôle de la vitesse de lecture de signaux préparés. Nous avons pu voir à plusieurs reprises que le contrôle segmental est très difficile, et qu’il demande de longs temps d’apprentissage pour des résultats peu convaincants : les mains et

10. https://youtu.be/d4TV-IcK8c8à 6m40 11. https://youtu.be/7LGnozlwU1o

Figure 1.7 – Systèmes de synthèse vocale contrôlés avec une tablette. Le Voicer [Kessous 2004a, Kessous 2004b], le HandSketch [D’Alessandro & Dutoit 2007,

D’Alessandro & Dutoit 2009, Astrinaki et al. 2012] et le Cantor Digitalis [Feugère et al. 2017] utilisent des tablettes graphiques équipées d’un stylet. Le Pink Trombone [https://dood.al/pinktrombone/] est contrôlable sur tablette et smartphone.

tablette graphique pour le contrôle de la hauteur vocale.

Le Chapitre2présente d’abord une revue des principales méthodes de modifi-cation vocale. Il présente ensuite la méthode VoPTiQ (Voice Pitch Time and Quality modification) que nous avons mise en place. Cette méthode regroupe plusieurs tech-niques de traitement de signal, qui ensemble permettent de modifier en temps-réel la hauteur, la durée, la taille du conduit vocal, la force de voix et la tension vocale de signaux de voix pré-enregistrés.

La question du contrôle du rythme vocal sera traitée dans le Chapitre3. Une réflexion sur la nature du rythme vocal y sera apportée, ce qui nous permettra de définir une structure rythmique inter-linguistique invariable pour le séquencement du rythme vocal. Nous y présenterons les différentes méthodes et interfaces de contrôle que nous avons pu explorer pour permettre le séquencement du rythme vocal.

Le Chapitre4traite la question de la pertinence de la tablette graphique pour le contrôle de la hauteur et des paramètres de qualité vocale, dans une époque où de nouvelles interfaces continues de contrôle musical voient régulièrement le jour.

Le Chapitre 5 présente le logiciel Vokinesis. Nous verrons comment il fonc-tionne d’un point de vue général, et nous détaillerons son architecture, afin de défi-nir la façon dont les différents éléments du système communiquent les uns avec les autres. Les stratégies de mapping que nous avons mises en place seront présentées, ainsi que certains détails de programmation du cœur du système. La dernière section présentera le fonctionnement complet de Vokinesis.

Dans le Chapitre6, nous présenterons les utilisations musicales que nous avons pu explorer avec Vokinesis. Une première section sera concentrée sur les différentes représentations publiques du Chorus Digitalis, un ensemble de voix synthétiques faisant usage de Vokinesis et du Cantor Digitalis. La seconde section présentera la façon dont Vokinesis peut être utilisé dans un cadre de composition assistée par ordinateur.

VoPTiQ : Voice Pitch, Time and

Quality modification

Sommaire

2.1 Transformation d’un signal vocal . . . 14

2.1.1 Vocoders . . . . 15

2.1.2 Modèles sinusoïdaux . . . . 17

2.1.3 PSOLA . . . . 18

2.1.4 Expressivité et modification de la qualité vocale. . . . 19