• Aucun résultat trouvé

7.2 Système de compréhension de langage naturel (NLU)

7.2.1 Approches alignées

Nous examinons les performances des modèles NLU à l’état de l’art, entraînés sur le cor-pus artificiel et testés sur le corcor-pus réaliste VocADom@A4H. Nous avons ainsi construit deux modèles NLU correspondant aux méthodes de Tri-CRF (Jeong et Lee, 2008), et d’Att-RNN (Liu et Lane,2016); notre approche de référence est obtenue à partir de l’outil commercial

Open Source Rasa (Braun et coll.,2017) que nous avons présenté au chapitre 3, respective-ment en sections 3.2.4, 3.2.6 et 3.2.5. Le modèle RASA contient des modèles séparés pour prédire l’intention et les concepts. Les concepts sont associés à des morceaux de texte, en utilisant une approche de CRF, alors que l’intention est associée à l’ensemble de la phrase, en utilisant une approche de classification par SVM. Par contre les modèles Tri-CRF et Att-RNN appliquent un apprentissage multi-tâche. Ils peuvent prédire une intention associée à l’ensemble de la séquence d’entrée et une séquence de concepts simultanément.

7.2.1.1 Paramétrisation des outils de NLU

Nous avons utilisé ces trois outils de NLU de l’état de l’art en utilisant les paramètres suivants :

7.2. Système de compréhension de langage naturel (NLU) 139

TABLE7.5 – Less corpus VocADom@ARTIF, VocADom@A4H et Port-Media utilisé pour l’éva-luation du système de NLU

Ensemble de données Énoncés Mots Intent. Concept Concept valeurs

VocADom @Artif 28k 28000 156 7 16 60

VocADom @Artif 42k 42195 157 7 16 60

VocADom @Artif (complet) 77481 187 7 17 69

VocADom@A4H. 6747 1462 8 14 60

Port-Media 18026 3062 4 32 378

faible probabilité (< 0.1%) et initialisés les poids en utilisant la pseudo-vraisemblance (pseudo likelihood) pour 30 itérations d’apprentissage. L’apprentissage comportait 200 itérations.

— Att-RNN : Dans notre implémentation de l’outil Att-RNN, l’encodeur et le décodeur d’un BLSTM sont des couches de 128 unités. L’optimisation est faite par descente de gradient stochastique (SGD – Stochastic Gradient Descent) avec une taille de lot (batch

size) de 16, un écrêtage de gradient (gradient clipping) avec une norme de 0,5, une

régularisation par abandon (dropout) avec une probabilité de maintien de 0,5. L’ap-prentissage pouvait se poursuivre jusqu’à 10000 étapes (steps).

— RASA : L’outil utilise un modèle CRF pour prédire les étiquettes de concepts et une table de correspondance pour déterminer leurs valeurs. Le modèle utilise séparément un SVM basé sur une représentation vectorielle des mots (Word Embeddings) pré-appris en appliquant word2vec sur des données Wikipedia, OpenSubtitles et Wiki-news. Le vocabulaire final contient 1 184 651 mots et les vecteurs ont une longueur de 300 unités.

7.2.1.2 Étape préparatoire de validation sur le corpus Port-Media

Pour valider l’implantation des modèles NLU alignées, nous utilisons l’ensemble de don-nées Port-Media (Lefèvre et coll., 2012) contenant des informations touristiques et de ré-servations de billets en français pour le festival de musique d’Avignon de 2010. L’ensemble de données contient des énoncés naturels de 140 locuteurs dans une tâche de réserva-tion téléphonique simulée. Il contient des annotaréserva-tions de concept et d’étiquettes de valeur. Dans ce corpus, les intentions sont également des concepts, associés à des sous-ensembles d’énoncés - nous extrapolons simplement ces attributs comme des intentions au niveau de l’énoncé. Une comparaison entre le corpus Port-Media, les différentes versions du corpus VocADom@ARTIF et VocADom@A4H est fournie dans le tableau 7.5. Comme indiqué, Port-Media est riche en termes d’étiquettes et de valeurs de concept et d’une taille comparable à notre première version de l’ensemble de données artificielles (Artif. 28k13). Il est donc adé-quat de comparer les performances du modèle de NLU avec les performances des ensembles de données obtenues en habitat intelligent.

TABLE7.6 – Performances de NLU aligné (%) sur le corpus Port-Media

Modèle Intention Concept

NLU Précision Rappel F-Mesure Précision Rappel F-Mesure

Rasa-NLU 92.20 92.52 92.26 95.17 94.22 94.16

Tri-CRF 96.42 96.43 96.36 95.31 95.74 95.39

Att-RNN 97.56 97.56 97.56 95.96 96.36 96.11

Le tableau 7.6 montre les résultats pour Port-Media, ce jeu étant partitionné entre un en-semble d’apprentissage (90%) et de développement (10%). Les performances pour la prédic-tion des concepts et les intenprédic-tions, affichées concernent seulement le jeu de développement. Att-RNN atteint sans surprise les meilleures performances pour les 2 tâches. Rasa est moins performant que les 2 autres méthodes. Ces résultats sur Port-Media montrent le niveau de performance qui peut être atteint avec les 3 modèles NLU à l’état de l’art sur des tâches de complexité similaire à celles rencontrées en habitat intelligent14.

En ce qui concerne le domaine de l’habitat intelligent, le jeu de données d’apprentis-sage artificielles (tableau 7.5, Artif. 28k et annexe A, figure A.1) a été réparti aléatoirement entre apprentissage (90%) et développement (10%). Nous avons normalisé tous les mots-clés (vocadom, minouche, bérénio etc.) des ensembles d’apprentissage artificiel et de test VocADom@A4H, en les remplaçant par "KEYWORD". Enfin, le corpus de test était constitué de 2612 énoncés de VocADom@A4H. Ce corpus contenant des énoncés sans intentions do-motique (p.ex., “d’accord”), ceux-ci ont été exclus ce qui explique que seuls 2612 énoncés ont été retenus.

Les résultats obtenus sur les 2612 phrases avec intention (tableau 6.4), du corpus réaliste VocADom@A4H sont affichés sur le tableau 7.7 et la figure A.1 (RASA-NLU(1), Tri-CRF(2),

Att-RNN1(3)). Les performances des modèles Att-RNN (3) et Att-RNN (4) dans le tableau

7.7, surpassent celles de RASA-NLU (1) et de Tri-CRF (2). Les meilleures performances de

Att-RNN2 (4) par rapport à Att-RNN1 (3) montrent l’impact d’un ensemble d’entraînement

d’une plus grande taille. Ces résultats sont aussi une première indication qu’on peut utili-ser des données d’apprentissage NLU artificielles et de données de test réalistes, malgré la distance linguistique entre ces deux ensembles de données.

TABLE7.7 – Performances des systèmes RASA, Tri-CRF, Att-RNN NLU aligné et Seq2seq NLU non-aligné (%) sur les données VocADom@A4H

Modèles Intention Concept

NLU Précision Rappel F-Mesure Précision Rappel F-Mesure

Artif. 28k : RASA-NLU(1) 90.48 71.39 76.57 85.72 73.54 79.03 Tri-CRF(2) 84.11 79.47 76.36 77.28 52.65 60.64 Att-RNN1(3) 93.77 90.28 91.30 69.19 66.24 66.09 Artif. 42k : Att-RNN2(4) 96.81 96.63 96.70 77.32 73.67 74.27 Seq2seq1(5) 95.37 94.59 94.74 48.95 55.27 51.06

7.2. Système de compréhension de langage naturel (NLU) 141

FIGURE 7.1 – Matrice de confusion entre l’intention none et les autres intentions dans le corpus Port-Media

7.2.1.3 Bilan de l’approche de NLU alignée

Pour évaluer les prédictions des concepts et des intentions, nous avons utilisé les me-sures standards de précision, rappel et F-mesure présentées au chapitre 5 en section 5.5.2. Les performances sur le corpus réaliste VocADom@A4H sont moins bonnes que sur Port-Media et particulièrement pour la prédiction des étiquettes de concept. Cependant, nous de-vons considérer la forte précision de prédiction des intentions sur Port-Media comme biai-sée par la présence d’une forte proportion d’intentionsnonecomme le montre la matrice de confusion de la figure 7.1. Le corpus artificiel VocADom@ARTIF ne contient pas de phrases sans intention. Remarquons aussi que Port-Media contient seulement 4 classes d’intention alors que le corpus VocADom@A4H dans sa totalité en contient 7, la classenoneintention n’étant pas prise en compte, ce qui rend la prédiction plus difficile.

Les résultats de reconnaissance de concepts sur VocADom@A4H sont particulièrement insatisfaisants. La raison la plus probable est qu’il contient des variations significatives de vocabulaire et de syntaxe par rapport au corpus artificiel. Les répétitions, les disfluences et les interjections (ex. "euh") conduisent à des énoncés syntaxiquement différents de ceux du corpus artificiel. C’est le modèle Att-RNN qui a montré la meilleure performance sur les in-tentions, mais sur les concepts, c’est RASA qui a été le plus performant. Cela peut être dû au fait que contrairement à Tri-CRF et à Att-RNN, RASA utilise une représentation vectorielle des mots (Word Embeddings) pré-entraînés sur des données externes ce qui lui permet de prendre en compte les mots hors vocabulaire. Par ailleurs, la taille de vocabulaire des in-tentions du corpus réaliste VocADom@A4H complet (430 mots) est plus du double de celui du corpus artificiel complet (187 mots). La perplexité 3-gram du ML artificiel calculée sur le corpus VocADom@A4H est 124, ce qui est assez élevé pour un vocabulaire aussi restreint. Le nombre de mots OOV est important, avec 307 mots absents du corpus artificiel (tableau 6.6).