• Aucun résultat trouvé

Analyse des performances de la RAP et de la SLU au niveau symbolique

(Pitch Diff.) entre le CER d’un modèle sans variation de pitch et avec variation de pitch est le plus élevé pour (M(2)) (10.92).

TABLE9.15 – Performances de la RAP et de la SLU après suppression des variations de pitch dans le corpus VocADom@A4H

Modèle Param. Sans var. pitch Avec var. pitch Pitch

acoust. WER (%) CER (%) WER (%) CER (%) Diff.

RAP SLU séq : MFCC 21.48 - 22.92 - -1.44

RAP E2E : fbank 50.20 - 46.50 - 3.7

MFCC 49.90 - 47.60 - 2.3

SLU E2E : fbank - 40.02 - 32.12 7.9

M(1). fbank - 41.94 - 32.90 9.04

F(1). fbank - 36.58 - 30.74 5.84

F0 > F0 moyen loc.

M(2). fbank - 53.32 - 42.40 10.92

F(2). fbank - 37.89 - 32.36 5.53

De ces résultats, il s’avère que les paramètres MFCC sont plus robustes aux énoncés sans variation de pitch que les paramètres fbank. Ceci est davantage le cas pour les énoncés avec un pitch au-dessus de la moyenne par locuteur. Cela indique que par rapport aux paramètres fbank, les paramètres MFCC utilisés avec un modèle de réseaux de neurones profonds E2E réduisent les performances pour les énoncés avec un pitch élevé dû à leur représentation compressée.

Cette hypothèse est en résonance avec les résultats de l’étude de (Abdel-Hamid et coll., 2012) selon laquelle l’intégration de CNN dans un système de RAP E2E, en combinaison avec des paramètres fbank, contribue à l’amélioration de ses performances (chapitre 3, section 3.1.4.2.3). Contrairement aux paramètres MFCC, aucune transformée en cosinus discrète (DCT - Discrete Cosinus Transform) n’a été appliquée aux paramètres fbank de sorte que ceux-ci ne sont pas décorrélés et que les réseaux de neurones exploitent cette redondance.

9.3 Analyse des performances de la RAP et de la SLU au

ni-veau symbolique

Après avoir effectué des analyses au niveau acoustique, nous présentons ensuite une ana-lyse au niveau symbolique. Nous mesurons l’impact des mots hors vocabulaire (OOV – out of

vocabulary) de l’ensemble de test VocADom@A4H, sur les performances de SLU séquentielle

et de SLU E2E. Nous mesurons également la robustesse de ces modèles sur des données de test contenant une variabilité syntaxique augmentée.

9.3.1 Mots hors vocabulaire (OOV)

Pour mesurer l’impact d’un taux de mots hors vocabulaire augmenté, nous avons pro-gressivement remplacé des mots par des synonymes n’apparaissant pas dans le vocabulaire

des données d’apprentissage comme cela est présenté en annexe B à la table B.1. Ceci a été fait en 4 étapes, selon le concept auquel les mots se rattachent :

— Étape 1 :actionetdevice-setting

— Étape 2 : Étape 1 etdevice

— Étape 3 : Étape 2 etlocation

— Étape 4 : Étape 3 etmots-clés

L’exemple ci-dessous montre une commande vocale extraite du corpus de test VocA-Dom@A4H contenant une intention et des concepts symboliques avant (1) et après (2) sub-stitution par des mots hors vocabulaire (étape 4) :

( 1 ) @ ah vocadom euh ^allume^ } l a b o u i l l o i r e } @

( 2 ) @ ah ursule euh ^enclenche^ } l a b o u i l l o t t e } @

La table 9.16 montre que les mots substitués à l’étape 4 représentent 26,15% du nombre total de mots et 3,48 % du nombre total de types de mots.

TABLE 9.16 – Modification du corpus Vocadom@A4H pour l’analyse des performances au niveau symbolique : nombre de mots hors vocabulaire par rapport au nombre total de mots

Substitutions #Type #Mots (%) Type (%) Total

mots Mots Mots

Étape 1 22 1785 1.50 5.72

Étape 2 34 4276 2.32 13.70

Étape 3 41 5516 2.80 17.68

Étape 4 51 8160 3.48 26.15

Total 1462 31k -

-Les phrases générées de chaque étape ont alimenté un synthetiseur vocal en utilisant le même outil de synthèse vocale que celui que nous avons utilisé pour la génération du cor-pus artificiel (chapitre 6, section 6.3.4). Les données de test artificielles qui en résultent sont les énoncés d’entrée des outils de SLU séquentielle et E2E. Cependant, la partie acoustique des données d’apprentissage du modèle de SLU E2E, contient de la parole artificielle, ce qui n’est pas le cas pour le module de RAP de l’approche SLU séquentielle. Par conséquent, nous avons utilisé les transcriptions d’hypothèse de RAP E2E (ESPnet) comme transcrip-tions d’entrée de l’outil de SLU séquentielle pour effectuer une comparaison équitable des 2 approches SLU.

Pour les 2 approches SLU, les tables 9.17 et 9.18 montrent que les performances de pré-diction de concepts (concept CER) et d’intention (Intent. F-mesure) se détériorent en cas d’augmentation des taux d’OOV. D’une manière générale, les décalages (Diff.) entre les per-formances de prédiction de concepts (concept) et d’intentions (Intent.) pour Complet synth. d’une part et Étape 4 d’autre part, sont plus petits pour le modèle E2E que pour le modèle de SLU séquentielle. Cela indique une plus grande robustesse du modèle E2E pour faire face à une augmentation du taux de mots hors vocabulaire.

9.3. Analyse des performances de la RAP et de la SLU au niveau symbolique 175

TABLE9.17 – Impact des mots hors vocabulaire et de la variation syntaxique sur les perfor-mances de la SLU séquentielle testée sur le corpus VocADom@4H

Modèle Réf. Hyp.

(=NLU) (=RAP+NLU)

Concept Intent. Concept Intent.

CER (%) F-mesure (%) CER (%) F-mesure (%)

Complet réel 33.78 85.51 36.24 84.21 Complet synth. - - 37.07 83.34 Hors vocab : Étape 1 37.75 81.50 45.43 79.56 Étape 2 53.77 72.39 62.03 72.48 Étape 3 63.01 69.58 68.07 70.29 Étape 4 90.45 63.66 86.44 65.03 Diff. 56.67 21.85 49.37 18.31 Var. syntax. : Étape 1 38.41 81.06 50.40 77.45 Étape 2 38.34 81.19 52.75 76.36 Diff2. 4.56 4.32 15.68 6.98

Pour la SLU séquentielle, dans la plupart des cas, les performances sur des données tex-tuelles manuellement annotées (tableau 9.17, Réf.) dépassent largement les performances sur les transcriptions de RAP d’hypothèse (Hyp.). Cependant, plus le taux d’OOV est élevé, plus ce décalage diminue.

Pour le modèle E2E, les performances de prédiction d’intentions diminuent considé-rablement pour Complet synth. par rapport à Complet réel. Ceci est particulièrement dû à un taux d’erreurs augmenté pour les intentionsNonequi consistent en parole réelle dans les données d’entraînement, alors que nous avons utilisé des données d’évaluation synthé-tiques pour l’évaluation de l’impact des mots hors vocabulaire.

TABLE 9.18 – Impact des mots hors vocabulaire et de la variation syntaxique sur perfor-mances de la SLU E2E testée sur le corpus VocADom@A4H

Tâche RAP Concept Intention

WER (%) CER (%) F-mesure (%)

Complet réel 46.50 32.12 74.57 Complet synthétique 39.30 25.00 53.70 Hors vocabulaire : Étape 1 44.00 30.75 50.39 Étape 2 53.20 46.75 50.26 Étape 3 52.50 50.89 51.59 Étape 4 55.90 58.80 51.43 Diff. 16.6 33.8 2.27 Var. syntaxique : Étape 1 44.40 16.29 52.59 Étape 2 50.90 22.07 49.09 Diff2. 11.60 2.93 4.61

9.3.2 Variation syntaxique

Nos utilisateurs cibles sont des personnes âgées qui ont tendance à s’écarter d’un en-semble prédéfini de commandes vocales. Nous avons pris en compte la variabilité syn-taxique de la parole de nos utilisateurs cibles. Dans cette section, nous mesurons la robus-tesse des modèles de SLU séquentielle et E2E, en prédisant des concepts et des intentions sur des données d’évaluation avec une variabilité syntaxique progressive en deux étapes,

— Étape 1 : nous avons substitué 32 verbes faisant partie des conceptsactionpar des constructions syntaxiques plus complexes (Annexe B, tableau B.2)

— Étape 2 : Les substitutions d’Étape 1 ont été augmentées de disfluences qui entourent les termes de 18 concepts étiquetés dedevice(Annexe B, tableau B.3)

L’exemple suivant montre une commande vocale contenant une intention et des concepts symboliques du corpus de test VocADom@A4H avant (1) et après (2) insertion de constructions syntaxiques plus complexes et de disfluences (étape 2) :

( 1 ) @ ah vocadom euh ^allume^ } l a b o u i l l o i r e } @

( 2 ) @ ah vocadom euh est −ce que tu pourrais ^allumer^ bou l a } b o u i l l o i r e } @

Nous avons également généré de la synthèse vocale basée sur les ensembles de test mo-difiés qui en résultent, et nous les avons évalués de la même façon que pour les mots hors vocabulaire comme expliqué dans la section précédente.

Pour les deux approches SLU, les tableaux 9.17 et 9.18 montrent que les décalages (Diff2.) entre les performances de prédiction de concepts et d’intentions (Intent.) pour Complet

synth. d’une part et Var. syntax., Étape 2 d’autre part, sont plus petits pour le modèle E2E

que pour le modèle de SLU séquentielle. Cela indique de nouveau une plus grande robus-tesse du modèle E2E pour faire face à une variation syntaxique augmentée.

Le tableau 9.18 montre également, que les performances du modèle E2E pour la pré-diction des concepts, s’améliorent avec une syntaxe plus complexe. Ceci peut être dû à une longueur de phrase moyenne de 15 mots pour les énoncés du corpus artificiel, tandis que la longueur de phrase moyenne pour les énoncés d’évaluation (d’origine) n’est que de 5. La variation syntaxique accrue, augmente également la longueur des énoncés d’évaluation qui s’approche par conséquent de la longueur moyenne des énoncés du corpus artificiel.

9.4 Analyse d’erreurs de RAP et de SLU spécifiques aux