• Aucun résultat trouvé

Classification d’intentions à base des paramètres acoustiques MFCC

4.2 Compréhension de la parole de bout en bout (SLU E2E)

4.2.1 Classification d’intentions à base des paramètres acoustiques MFCC

MFCC, guidés par l’intuition que nous ne comprenons pas nécessairement la parole en re-connaissant et comprenant chacun des mots d’un énoncé. Par contre, la parole est directe-ment comprise lorsque une attention est accordée aux concepts directedirecte-ment liés à la tâche. Une telle approche permet aux composantes prosodiques du signal de parole d’être exploi-tées par le modèle E2E pour la classification d’intention. Les différences prosodiques entre une question et par exemple la voix impérative peuvent contribuer à aider la classification des intentions.

Les auteurs ont proposé d’utiliser un modèle SLU E2E entraîné à l’aide d’un GRU RNN bi-directionnel à 4 couches d’encodeur-décodeur. La longueur de la séquence est réduite avec un LSTM pyramidal bidirectionnel (Chan et coll., 2016), pour extraire les représentations au niveau de la syllabe selon la représentation de la figure 4.4. Une couche softmax est utili-sée pour calculer les probabilités d’intention postérieures. Les données d’apprentissage sont composées de 320 heures de données du corpus ATIS étiquetées avec 35 types d’intentions, dix autres heures du même corpus sont les données de validation. Le tableau 4.8 montre que

TABLE 4.8 – SLU E2E - évaluation de la classification d’intentions à partir des paramètres acoustiques MFCC (Serdyuk et coll.,2018)

Modèle Précision (%)

Référence 80.00

E2E 74.10

E2E bruité 72.00

les performances du modèle E2E ne dépassent pas le modèle de référence séquentiel. Les performances d’un deuxième modèle E2E qui est appris sur la parole bruitée, baissent en-core plus. Par contre, cette approche montre la faisabilité d’effectuer de la SLU à partir du signal acoustique.

FIGURE4.4 – SLU E2E - GRU RNN bidirectionnel à 4 couches (Serdyuk et coll.,2018)

4.2.2 Apprentissage multitâche à base de transcriptions augmentées de

concepts symboliques

Ghannay et coll.(2018) enrichissent leurs données de parole d’apprentissage avec des étiquettes de concepts. Ces étiquettes de concepts sont injectées dans les transcriptions de RAP sous forme d’étiquettes symboliques. Ces données sont transmises au système de RAP par réseaux de neurones de Baidu Deep Speech (chapitre 3, section 3.1.4.1), qui se compose de deux couches CNN et de six couches récurrentes bidirectionnelles, utilisant la fonction de coût CTC (Connectionist Temporal Classification) (Amodei et coll.,2016). Pour le décodage, le CTC est lié à un ML basé sur caractères, puis une recherche de faisceau (Beam Search) est ap-pliquée. Au lieu d’appliquer le schéma BIO d’étiquetage de concepts (Begin-Inside-Outside) aux données d’apprentissage, des balises qui représentent huit concepts sont injectées dans les transcriptions de la RAP.

Huit balises différentes marquent le début de chacun des huit concepts, tandis qu’une balise identique marque la fin du concept. Dans l’exemple,

4.2. Compréhension de la parole de bout en bout (SLU E2E) 95

TABLE4.9 – SLU E2E multitâche - transcriptions augmentées de concepts symboliques - pré-diction de concepts (Ghannay et coll.,2018)

Modèle SLU F-mesure (%)

Séquentiel 64.00

E2E 67.10

E2E* 69.00

"le sculpteur [antoine] est mort # hier]",

le concept personne est précédée de la balise [, la balise représentant l’entité ’temps’ est précédée de#. Les deux entités sont suivies d’une seule et même balise]qui marque la fin de l’inclusion.

Afin de réduire l’importance que la fonction de coût CTC accorde à chaque caractère et d’attirer davantage l’attention sur les concepts, toutes les suites de caractères qui ne contiennent pas de concepts sont remplacées par le symbole *. L’exemple ci-dessus est transformé en,

"* [antoine] * # hier]"

après avoir remplacé les suites de caractères sans concepts par le symbole*. Les données d’entraînement sont composées de parties des corpus ESTER1, ETAPE et QUAERO (Névéol et coll.,2014), pendant que les données de test de développement et de validation sont com-posées respectivement de parties des corpus ESTER1 et ESTER2, et d’ETAPE. Les données contiennent 107 heures de données d’entraînement, 24 heures de données de test et 30 heures de données de développement.

Une approche d’apprentissage multitâche est appliquée. Dans un premier temps, le ré-seau est entraîné uniquement pour la RAP sans émettre de caractères représentant des concepts. Dans une seconde étape, la couche softmax est réinitialisée pour prendre en compte les marqueurs de concepts et un deuxième apprentissage est fait. Les performances de cette approche sont comparées à une approche SLU séquentielle de référence. Le tableau 4.9 montre que les performances des deux modèles E2E, E2E sans, et E2E* avec symboles d’astérisque ajoutés au données d’apprentissage, dépassent le modèle de référence séquen-tiel CRF.

Hatmi et coll.(2013) décrivent une méthode de RAP qui prédit également des concepts, pour améliorer la qualité des transcriptions de sortie de RAP. Les transcriptions du lexique et du ML sont augmentés d’étiquettes de concepts. Puis le système de RAP génère des trans-criptions étiquetées de concepts au niveau du mot. Les transtrans-criptions de RAP sont générées en utilisant le système de transcription de la parole LIUM, basé sur le système de RAP Sphinx (Deléglise et coll., 2005, 2009). Le MA est entraîné sur 240 heures de données des corpus ESTER1 et ESTER2. 16 émissions du corpus ESTER2 ont été utilisées comme ensemble de test. Les modèles de langage de quadri-grammes, tri-grammes bi-grammes interpolés ont

TABLE4.10 – SLU E2E - transcriptions augmentées de concepts, évaluation de RAP et de SLU (%) (Hatmi et coll.,2013)

Modèle WER F-mesure (%)

RAP de référence 20.23

-SLU E2E (RAP+concept) 21.17 63

SLU séquentielle - 58

été créés à base des corpus AFP, APW, Le Monde, Afrik, L’humanité, et de ESTER1.

Les corpus utilisés pour créer les ML et le lexique ont été annotés manuellement de concepts. L’exemple suivant montre le schéma de balises de concepts IOB, intérieur, exté-rieur, début, (Inside-Outside-Begin), utilisé pour l’une des 7 catégories de concepts :

Il est vingt -time-B heures-time-I (4.1)

Ils comparent 2 systèmes de RAP sans et avec reconnaissance de concepts dont le compo-sant d’étiquetage de concept est LIANE (Béchet et Charton,2010). Cette approche de RAP qui utilise également l’information de concepts, et que l’on peut considérer comme approche SLU E2E, est comparée avec une approche SLU séquentielle.

Au niveau de RAP, le tableau 4.10 montre que le système de RAP qui intègre la recon-naissance de concepts (RAP+concept), ne surpasse pas le système de RAP de référence. Par contre, au niveau de SLU, le système de RAP avec reconnaissance de concept surpasse l’ap-proche séquentielle.