• Aucun résultat trouvé

6.3 Génération du corpus artificiel VocADom@ARTIF

6.3.4 Synthèse vocale

La méthode de génération du corpus artificiel présentée plus haut ne génère que des énoncés textuels. Or, pour effectuer la tâche de SLU il est nécessaire d’obtenir des énon-cés acoustiques. La deuxième phase nécessaire de création de corpus est alors la génération

6.3. Génération du corpus artificiel VocADom@ARTIF 127

TABLE6.7 – Corpus artificiel - présentation des formats aligné, non aligné, et des transcrip-tions enrichies de symboles

Aligné

Tri-CRF (“vocadom appelle médecin")

(Source) vocadom appelle médecin (Cible)

O vocadom / -1=<s> +1=appelle +2=médecin action-B appelle / -2=<s> -1=vocadom +1=médecin +2=</s> person-B médecin / -2=vocadom -1=appelle +1=</s>

CONTACT

Att-RNN (“vocadom appelle le médecin")

(Source) vocadom appelle le médecin (Cible) O B-action B-person I-person CONTACT

Non aligné

Seq2seq (“vocadom ferme la porte")

(Source) vocadom ferme la porte

(Cible) intent[set_device], action[close], device[door]

Transcription enrichie de symboles

E2E (ESPnet) (“vocadom allume la lumière")

(transcriptions + étiquettes cibles insérées) @ VocADom ^allume^ }la lumière} @

SET_DEVICE=@ Action=^ Device=}

TABLE6.8 – Étiquettes symboliques associées à chaque classe d’intention

Intention Symbole check_device # contact [ get_room_property { get_world_property ] set_device @ set_device_property _ set_room_property &

d’une base d’énoncés de parole artificielle. À cette fin, nous avons utilisé une technique de synthèse vocale.

6.3.4.1 Intérêt de la synthèse vocale pour la compréhension et la reconnaissance auto-matique de la parole

La technique d’augmentation de données par synthèse vocale est très proche deLugosch et coll.(2020) qui ont utilisé de la synthèse vocale pour générer des données de parole arti-ficielle en anglais pour l’apprentissage d’un modèle de SLU E2E. Ce modèle a été généré à l’aide de VoiceLoop (Taigman et coll.,2018) de Facebook qui contient 22 voix synthétiques.

TABLE6.9 – Étiquettes symboliques associées à chaque concept Concept Symbole action ^ device } device-component * device-setting , location-floor ; location-house ! location-inroom ? location-room > organization § person-name + person-occupation = person-relation -room-property / value-artist . value-numeric % value-qualitative | world-property ◦

TABLE 6.10 – Comparaison de performances SLU sur des données réelles (réel) et sur un mélange de données réelles et artificielles (réel + artif.) (Lugosch et coll.,2020)

Modèle Précision (%)

réel 65.5

réel + artif. 71.4

Ils ont combiné les données synthétiques qui en résultent avec des données d’entraînement de parole réelle, en utilisant l’ensemble de données English Fluent Speech Commands ( Lu-gosch et coll., 2019). Les performances de leur approche SLU ont été comparées pour un modèle combinant des données artificielles et réelles d’une part, et un modèle avec unique-ment des données réalistes d’autre part. Les résultats du tableau 6.10 montrent les meilleures performances de leur modèle avec les données augmentées.

(Li et coll.,2018) ont présenté un modèle de RAP de bout en bout qui est entraîné avec des données de synthèse. Les auteurs rapportent que leur modèle obtient des performances de RAP optimales en utilisant 50 % de données de synthèse et 50 % de parole réelle dans le corpus d’apprentissage.

6.3. Génération du corpus artificiel VocADom@ARTIF 129

Ce court état de l’art montre que la synthèse vocale est une approche intéressante pour combler le manque de données réelles. Nous avons donc utilisé la voix de synthèse vocale Open Source Ubuntu SVOX1française féminine2pour générer de la parole artificielle.

Ce moteur de synthèse prend un énoncé textuel en entrée et génère en sortie un fichier au format MS-WAV échantillonné à 16 kHz. Son style conversationnel rend cette voix in-téressante car le style de la parole des locuteurs de notre ensemble de test est également

conversationnel. Cependant, sa qualité prosodique est médiocre et des erreurs de

pronon-ciation fréquentes se produisent entre autres pour les noms propres des mots-clés. Nous avons comparé cette voix à la voix de synthèse vocale Open Source Google (gTTS) pour le français3. Pour chaque phrase d’entrée, un fichiers au format MP3 à 24 kHz est produit, fi-chier que nous avons ensuite converti au format MS-WAV à 16 kHz. Bien que sa prosodie et sa qualité phonétique soient meilleures par rapport à la voix française de synthèse vocale SVOX, son style de parole n’est pas conversationnel et il s’agit plutôt d’un style de lecture. En comparant les deux voix en tant que données d’apprentissage, la voix SVOX conversation-nelle s’est avérée plus adaptée à notre approche SLU. Ces expérimentations et évaluations sont décrites en détail dans le chapitre 8.

6.3.4.2 Évaluation de la qualité de la synthèse vocale

Pour mesurer la pertinence de l’approche par synthèse vocale, nous avons comparé la parole artificielle avec les données de parole réelle VocADom@A4H, en calculant les dis-tances acoustiques entre les deux ensembles de données. Nous avons ainsi généré de la pa-role artificielle à partir des 6747 énoncés de l’ensemble de test VocaDom@A4H et calculé la distance acoustique entre les énoncés de la parole réelle et les énoncés de la parole

arti-ficielle en appliquant la technique de déformation temporelle dynamique (DTW) que nous

avons décrit dans le chapitre 5, section 5.5.3.

La figure 6.9 illustre cette distance d’édition minimale pour un échantillon de la parole réelle (VocADom@A4H) avec 20 MFCC sur 168 trames, et un échantillon de synthèse vocale avec 20 MFCC sur 179 trames pour la commande « chanticou arrêtez les stores de la salle de bains ». Les figures 6.10 et 6.11 montrent respectivement les signaux et spectrogrammes des deux échantillons de parole réelle et de synthèse vocale. La ligne bleue de la figure 6.9 montre le chemin de déformation qui minimise la distance entre le signal vocal artificiel et le signal vocal réel. Les régions plus foncées symbolisent un coût et une distance plus élevées.

Le tableau 6.11 montre les résultats du calcul de DTW entre les échantillons de synthèse vocale (féminine) et réels (Synthèse vocale ↔ réel) d’une part, et les résultats au niveau inter-locuteur pour les échantillons de parole réelle pour des phrases identiques entre les locu-teurs d’autre part (Inter-locuteur-réel). Les distances ont été normalisées de trois manières différentes. Nous avons divisé la distance totale par la longueur de la séquence la plus longue (Long norm.), par la longueur la plus courte (Court norm.) et par la longueur du chemin de

1. https://launchpad.net/ubuntu/+source/svox

2. https://doc.ubuntu-fr.org/svoxpico

FIGURE6.9 – Distance DTW entre VocADomA4H et VocADomArtif pour la phrase « chanticou arrêtez les stores de la salle de bains »

FIGURE 6.10 – Échantillon de parole naturelle « chanticou arrêtez les stores de la salle de bains »

FIGURE6.11 – Échantillon de parole synthétique « chanticou arrêtez les stores de la salle de bains »