• Aucun résultat trouvé

Apprentissage du modèle SLU E2E : impact des données artificielles

si les performances RAP de ESPnet sont deux fois moins bonnes que celles de Kaldi, nous pouvons atteindre des performances de SLU dépassant celles de l’approche séquentielle.

8.4 Apprentissage du modèle SLU E2E : impact des données

artificielles

Pour l’apprentissage du modèle SLU E2E de ESPnet, nous avons utilisé les mêmes condi-tions d’apprentissage que pour celles choisies pour la RAP et en utilisant les transcripcondi-tions enrichies. Les paramètres du modèle sont ceux décrits en section 8.2.

De la même manière que pour la RAP, nous avons voulu mesurer l’impact de l’utilisation de données artificielles et réelles sur les performances de la tâche de SLU. Ainsi, différentes proportions de parole générée par synthèse vocale ont été utilisées pour constituer le cor-pus d’apprentissage. L’ensemble de test est toujours le corcor-pus VocADom@A4H. Cette tech-nique est également utilisée dans l’étude deLi et coll.(2018). Dans la suite de cette section, nous présentons tout d’abord l’effet sur la prédiction d’intentions puis sur la prédiction de concepts.

8.4.1 Prédiction d’intentions

Les résultats des différents modèles appris sont résumés dans le tableau 8.3. Ce tableau décrit :

— La quantité de données d’apprentissage qui sont constituées d’une combinaison d’énoncés de parole réelle et artificielle (+Artif.) par expérimentation (Ensemble

d’ap-prentissage), sans ou avec un décodage en utilisant un modèle de langage (+ML).

— Le ratio de données générées par synthèse vocale dans le corpus d’apprentissage. — Les performances (F-mesure) sur le corpus de test VocADom@A4H.

— Le ratio de phrases sans commande vocale (intentionNone).

Nous comparons également les performances en effectuant un décodage sans, et avec ML. La première expérience a consisté à apprendre un modèle uniquement à partir de l’en-semble d’apprentissage +Artif. (553.9 heures de parole, modèle entraîné sur toutes les don-nées réelles et artificielles, annexe A, figure A.1, ESPnet-complet(Artif.+Réal.)). Les résultats

8.4. Apprentissage du modèle SLU E2E : impact des données artificielles 149

montrent que les classes d’intention ne sont pas bien prédites pour l’ensemble de test VocA-Dom@A4H. Ces résultats indiquent une distance trop large entre les caractéristiques acous-tiques des données artificielles de synthèse vocale et les données de parole réelle VocA-Dom@A4H.

La deuxième expérience a consisté à déplacer 1k phrases de l’ensemble de test vers l’ensemble d’apprentissage. Dans ce cas, la prédiction d’intention augmente ce qui signi-fie que la prédiction des classes d’intention bénéficie davantage des données réelles ajou-tées(+Artif.+VocADom@A4H_1k).

Ces deux premières expériences montrent également un biais d’apprentissage dû à l’in-tentionnonetrès majoritaire. Pour prendre en compte ce biais, nous avons traité les don-nées sur-représentées ou sous-représentées de la manière suivante.

— +Artif.+VocADom@A4H_1k+dim. : en diminuant les instances de classe d’intention

nonesur-représentées. Nous avons réduit l’impact des énoncés sans commande

vo-cale en ne laissant que 11k énoncés avec une étiquette de classe none dans le cor-pus d’apprentissage. Cette manipulation permet d’améliorer légèrement les perfor-mances.

— +Artif.+VocADom@A4H_1k+augm. : en augmentant les instances des classes d’intention sous-représentées set_device_property, set_room_property,

check_device, get_world_property, get_room_property, jusqu’à envi-ron 20k instances par classe. Ceci a eu pour conséquence d’augmenter la F-mesure. — +Artif.+VocADom@A4H_1k+dim.+ML, +Artif.+VocADom@A4H_1k+augm.+ML : un

décodage avec ML est effectué. Les symboles des classes d’intentions ont été ajoutés aux phrases des corpus artificiel et SWEET-HOME, faisant partie des données de ML, également utilisées pour le décodage du module de RAP de l’approche séquentielle de SLU (chapitre 7, section 7.1.1.3). L’ajout de connaissance a priori sur la tâche via le ML (au niveau caractère), améliore considérablement la F-mesure des intentions que cela soit dans le cas dim. ou augm. La matrice de confusion (figure 8.1) montre par contre que l’impact des classes majoritaires d’intentions des commandes vocales

set_deviceetNonen’a pas disparu.

La performance SLU E2E maximale a été atteinte, en variant le poids α pour

optimi-ser l’équilibre pour l’apprentissage multi-tâche attention-CTC, et nous avons obtenu les meilleurs performances en utilisant le poidsα = 0.5. Pour le poids de β, nous avons obtenu

les meilleurs résultats de 1, avec une influence maximale du ML.

8.4.2 Prédiction de concepts

Pour évaluer les performances d’inférence de concepts de l’approche SLU E2E, nous avons appris des modèles à partir de l’ensemble de données complet (tableau 8.3, + Artif.) que nous avons renommé ESPnet-complet (9) dans le tableau 8.4 ainsi que sur les données du corpus VocADom@ARTIF uniquement (ESPnet-Artif.-uniq. (10)). Le lecteur peut se réfé-rer au plan des corpus en annexe A, figure A.1 pour un meilleur suivi des expérimentations.

FIGURE 8.1 – Matrice de confusion de la prédiction d’intentions avec le modèle réduit de ESPnet

TABLE8.3 – Évaluation de la prédiction d’intentions par ESPnet sur le corpus de test VocA-Dom@A4H (F-mesure)

Ensemble d’apprentissage + Quantité Ratio (%) F-mesure Ratio (%)

(décodage sans/avec ML) (heures) synth. voc. test (%) None

+Artif. 553.90 14.67 47.31 86.58 +Artif.+VocADom@A4H_1k 554.50 14.41 50.99 86.41 +Artif.+VocADom@A4H_1k+augm. 669.66 29.13 53.15 70.01 +Artif.+VocADom@A4H_1k+augm.+ML 669.66 29.13 67.95 70.01 +Artif.+VocADom@A4H_1k+dim. 84.69 94.39 53.92 13.70 +Artif.+VocADom@A4H_1k+dim.+ML 84.69 94.39 70.21 13.70

Le tableau 8.4 résume les performances obtenues sur le corpus de test. On peut voir que les performances de SLU E2E (ESPnet-complet)), pour la prédiction des concepts ne surpassent pas les performances de concepts de l’approche de SLU séquentielle de réfé-rence Kaldi-Seq2seq-complet(7) qui a été reportée dans ce tableau. Les pires performances sont affichées pour le modèle constitué uniquement de données artificielles

(ESPnet-Artif.-uniq.(10)).

Enfin, lorsque l’apprentissage est effectué sur le même ensemble de données réduit que celui qui avait donné les meilleures performances pour la prédiction d’intentions (cf. ta-bleau 8.3), alors on obtient les meilleures performances de prédiction de concepts avec un CER de 26,17% bien inférieur au CER de l’approche séquentielle (36,24 %). Ces résultats étant cohérents avec les résultats précédents, ceci valide l’approche SLU E2E comme une alterna-tive crédible à l’approche séquentielle.

Afin de mieux comprendre la différence de capacité de généralisation des deux ap-proches, nous avons comparé l’effet du corpus réduit sur Kaldi et ESPnet sur la tâche de RAP. L’apprentissage de Kaldi sur cet ensemble a conduit à un WER supérieur à 90% alors

8.4. Apprentissage du modèle SLU E2E : impact des données artificielles 151

que ESPnet affiche un WER de 60,6% sur l’ensemble de test. Il semble donc que ESPnet soit moins impacté par une faible quantité de données que les modèles DNN de Kaldi. En re-considérant l’approche séquentielle avec le meilleur des deux modules RAP (ici ESPnet) le module NLU ne permet pas de surpasser les performances du module de SLU E2E

(ESPnet-Seq2seq-réduit). C’est donc bien la tâche conjointe de bout-en-bout qui permet d’obtenir les

meilleures performances de prédiction de concepts.

TABLE8.4 – Évaluation de la prédiction de concepts par ESPnet sur le corpus de test VocA-Dom@A4H, CER (%)

Ensemble d’apprentissage Quantité Ratio (%) de CER F1

(heures) synthèse vocale Concept Intention

Kaldi-Seq2seq-complet 472.65 0.00 36.24 84.21 ESPnet-complet 553.90 14.67 51.87 47.31 ESPnet-Artif.-uniq. 81.25 100.00 56.00 35.94 ESPnet-réduit 84.69 94.39 26.17 70.21 ESPnet-Seq2seq-réduit 84.69 94.39 35.62 61.35

8.4.3 Bilan

Les performances obtenues avec ESPnet pour la prédiction de concepts par SLU sont bien meilleures que dans le cas de la RAP E2E. Cela semble donc confirmer que la SLU E2E ne semble dépendre que partiellement des performances de la RAP. Le choix du corpus d’ap-prentissage s’est avéré extrêmement important. En effet, nous avons obtenu les meilleures performances pour notre approche de SLU E2E sur un ensemble de données d’apprentissage bien plus réduit que le corpus complet. Ce corpus réduit se compose d’énoncés du corpus artificiel, d’un minimum de données réalistes incluant le corpus SWEET-HOME et égale-ment 1000 énoncés qui ont été déplacés du corpus de test VocADom@A4H vers l’ensemble de données d’apprentissage.

Avec un modèle ESPnet qui n’est entraîné que sur des énoncés synthétiques (tableau 8.4, ESPnet-Artif.-uniq.), il s’avère que la prédiction des concepts est possible mais très erro-née. Par contre, en combinant ce corpus artificiel avec des énoncés réalistes, nous obtenons de bonnes performances globales qui permettent de tirer un bon parti du corpus artificiel pour l’adéquation à la tâche et des données réalistes. Cependant, pour atteindre ces per-formances, il a fallu déplacer une partie des énoncés de parole réelle de l’ensemble de test VocADom@A4H vers les données d’apprentissage, ce qui viole nos conditions de départ (ap-prentissage sans exemples du corpus de test). Cependant, ces expérimentations nous four-nissent les informations suivantes sur l’approche E2E.

— Il est faisable d’apprendre un modèle crédible en utilisant de petits ensembles de don-nées spécifiques au domaine.

— Un modèle peut être appris à l’aide de données d’apprentissage artificielles

— L’augmentation de la proportion de données d’apprentissage réelles, spécifiques au domaine augmente également les performances.

— Une combinaison naïve des données réelles et artificielles n’apporte pas nécessaire-ment une hausse de performances.