Analyse de la robustesse aux variations lexicales et grammaticales

5.7 Analyse de la robustesse aux variations lexicales et

gram-maticales

Pour mesurer la robustesse des modèles aux variations lexicales et grammaticales, nous avons défini deux tests.

Le premier test s’intéresse à l’impact des mots hors vocabulaire (OOV - Out Of

Voca-bulary) de l’ensemble de test VocADom@A4H, sur les performances de SLU séquentielle et

de SLU E2E (Chapitre 9). Pour mesurer l’impact d’un taux de mots hors vocabulaire aug-menté, nous avons progressivement, en 4 étapes, remplacé le vocabulaire des énoncés par des types de mots qui n’apparaissent pas dans l’ensemble de données d’apprentissage. Par étape, nous avons ciblé un type de concept avec une haute fréquence dans le corpus de test, et ensuite remplacé ses mots de valeur par des mots hors vocabulaire, mais appartenant au même concept. À chaque nouvelle étape, nous avons accumulé les mots hors vocabulaire de l’étape précédente.

Le deuxième test s’intéresse à la variabilité syntaxique de la parole de nos utilisateurs cibles. Nous mesurerons la robustesse des modèles de SLU séquentielle et de SLU E2E, en prédisant les concepts et les intentions sur des énoncés des données d’évaluation dont les syntagmes sont placés d’une manière différente de celle des énoncés du corpus d’appren-tissage. Là encore, la stratégie est d’augmenter le nombre de perturbations de manière gra-duelle, en 2 étapes, pour mettre en évidence une tendance. Dans une première étape, des verbes fréquents ont été remplacés par des structures syntaxiques plus complexes et moins fréquentes. Dans l’étape suivante, des disfluences telles que des répétitions, des corrections etc. ont été ajoutées, et cumulées avec les modifications introduites lors de la première étape. L’hypothèse de test est que l’apprentissage multi-tâche du modèle de SLU E2E, qui com-bine CTC et attention, peut renforcer la robustesse sur des données d’évaluation présentant une variabilité linguistique augmentée.

5.8 Conclusion

L’objectif de cette thèse est de comprendre quels avantages une approche SLU de bout-en-bout(E2E) peut offrir par rapport à une approche en pipeline classique. Dans ce chapitre,

5.8. Conclusion 111

nous avons posé les questions de recherche et donné un aperçu des étapes de la démarche que nous avons définie pour y répondre. Nous avons également présenté les outils néces-saires pour construire notre approche de SLU E2E cible et l’approche de référence séquen-tielle.

Le point essentiel de cette thèse est que la démarche d’évaluation ne se limite pas seule-ment à concevoir un modèle SLU performant mais aussi à analyser quelles propriétés du signal acoustique entrent en jeu pour obtenir cette performance.

Par ailleurs, la démarche se place dans un cadre résolument difficile en considérant, au contraire des démarches d’apprentissage classique, le cas réaliste où les données d’appren-tissage et de test sont issues de sources différentes.

CHAPITRE

6

Collecte et génération de corpus oral pour la commande

vocale

Au cours des chapitres précédents, nous avons montré que les méthodes de SLU, no-tamment les modèles de réseaux de neurones profonds nécessitent des corpus de taille suf-fisante et adaptés aux besoins de notre étude. Dans le chapitre 2, nous avons pu constater que, pour une tâche de NLU, la taille du vocabulaire et le nombre d’intentions des corpus dis-ponibles sont plutôt réduits. Pour les commandes vocales, il s’agit très souvent de phrases très courtes qui doivent suivre un motif syntaxique strict pour faciliter l’interprétation par un système de NLU ou de SLU.

Cependant, nos utilisateurs cibles sont des personnes âgées et des études ont montré que ce type de population a tendance à s’écarter d’une grammaire trop rigide (Möller et coll., 2008; Takahashi et coll.,2003;Vacher et coll.,2015). Cela signifie que nos modèles doivent être entraînés sur des corpus de commandes vocales avec des énoncés assez variés tant du point de vue syntaxique que lexical. Dans ce chapitre, nous apporterons une réponse à la question de recherche énoncée au chapitre 5 : comment apprendre des modèles profonds

à partir d’une faible quantité de données initiales?

Nous commencerons par définir quelles sont les caractéristiques que devra satisfaire le corpus que nous utiliserons en s’appuyant sur notre définition de l’espace sémantique pré-sentée au chapitre 5 en section 5.2). Ensuite, nous présenterons le processus que nous avons suivi pour enregistrer le corpus réaliste VocADom@A4H. Celui-ci implique plusieurs locu-teurs interagissant par commande vocale avec un habitat intelligent grâce à un magicien d’Oz.

Le corpus obtenu, VocADom@A4H, étant de taille limitée, nous avons été amenés à créer un second corpus en mettant à profit l’expérience acquise lors de ce premier en-registrement notamment en ce qui concerne le contenu sémantique. Ce second corpus, VocADom@ARTIF, se compose d’un ensemble de phrases automatiquement étiquetées de concepts et d’intentions appartenant au domaine de la domotique. Dans ce chapitre, nous décrirons la méthode utilisée pour créer ce corpus d’apprentissage artificiel afin de l’utiliser dans un contexte de SLU séquentielle. Pour l’utiliser dans un contexte de SLU de bout en bout, nous expliquerons comment nous avons enrichi les transcriptions d’étiquettes sym-boliques de concepts et d’intentions. Nous estimerons également la distance entre ce cor-pus et l’ensemble réel VocADom@A4H. Enfin, nous décrirons le processus par lequel nous

avons sélectionné des énoncés sans intention afin de constituer un ensemble d’exemples d’apprentissage négatifs pour rendre le système capable d’identifier des énoncés hors du domaine de la domotique et pour étendre la quantité d’énoncés de parole réelle.

6.1 Caractéristiques attendues

Dans le cadre du projet VocADom, il a été décidé qu’une commande vocale se compose d’un mot-clé suivi d’une intention. La présence du mot-clé (ou Wake-up Word) est néces-saire pour que le système comprenne que l’on s’adresse à lui et que la suite de l’énoncé est une commande vocale. Considérons la commande vocale suivante : « Ichefix, est-ce que la porte est ouverte? ». Le mot-clé « Ichefix », suivi d’une commande, activera le système do-motique et est utilisé comme identifiant de l’habitat intelligent. Son utilisation permet à la maison intelligente de savoir si la commande vocale s’adresse bien à elle et non à un autre habitant de la maison. Mise à part le mot-clé, la commande vocale doit transporter une in-tention claire. Dans l’exemple « Ichefix, est-ce que la porte est ouverte? », l’inin-tention doit être classifiée commecheck_device, une requête demandant de vérifier si un appareil/objet (la porte) est dans un état précis (fermée). Enfin, la commande vocale doit faire usage de termes liés à des concepts tels quedevice(la porte) oudevice_setting(ouverte).

Par la suite, pour faciliter le travail de l’étape de décision, nous partons du principe que : — le mot-clé est toujours le premier de la phrase (nous verrons que cette contrainte est

difficile à respecter à l’usage);

— la commande vocale ne concerne qu’un seul device (la porte) ou un groupe de

device(les portes) de même type. Par exemple la commande » Ichefix, est-ce que la porte et la télé sont ouvertes? » n’est pas une commande acceptable;

— chaque énoncé contient une seule commande. Par exemple, la commande « Ichefix, éteint la lumière et ferme les volets » ne sera pas reconnue. Il s’agit de deux commandes qui doivent faire l’objet de deux énoncés séparés.

6.1.1 Mots-clés

Le choix des mots-clés possibles doit obéir à des critères bien précis. Les mots-clés de-vront comporter de 3 à 4 syllabes ce qui permet une durée suffisante pour assurer une RAP correcte. De plus, comme les utilisateurs cibles sont des personnes âgées, les mots-clés doivent être particulièrement faciles à prononcer et à reconnaître. L’étude Aman(2014) a montré que, dans l’alphabet phonétique international (IPA), les consonness, S, m, Ket l et les voyellesi, y, u, Eet e étaient les mieux reconnues par les systèmes de RAP quand il s’agis-sait de voix âgées. Nous avons donc privilégié ces dix phonèmes dans le choix des mots-clés. Les mots respectant ces contraintes ont été extraits automatiquement d’un dictionnaire, ensuite filtrés et finalement discutés entre les chercheurs du projet VocaDom pour obtenir la liste suivante de mots-clés : téraphim, ulysse, ichefix, chanticou, vocadom, écirrus, hé

mi-6.1. Caractéristiques attendues 115

nouche. Ces mots clés conservés ont soit un rapport avec le projet (vocadom) soit un rapport

avec la maison ( Vesta – déesse romaine du foyer –, Théraphim – dieu du foyer sémitique –, Minouche – nom populaire donné à un chat).

6.1.2 Intentions

Dans le chapitre 5, section 5.2.1 nous avons décrit et défini les composants sémantiques de base de notre espace sémantique. Au niveau des intentions nous avons défini 8 classes d’intentions à base des 4 catégories générales définies par l’espace sémantique. Le tableau 6.1 présente un aperçu des intentions en donnant pour chaque intention un exemple ainsi que sa fréquence dans le corpus artificiel VocADom@ARTIF et l’ensemble de test réaliste VocADom@A4H.

TABLE6.1 – Intentions dans les corpus VocADom artificiel et réaliste - exemples et fréquences

Intention Énoncé Fréquence

Artif. Réel.

Check_device minouche est-ce que la fenêtre est ouverte?

2754 284

Contact vocadom appelle un médecin 567 114

Get_room_property bérénio quelle est la tempéra-ture?

9 3

Get_world_property ulysse quelle heure est-il? 9 3

None la fenêtre est ouverte - 4135

Set_device hestia baisse les stores 63,288 2178

Set_device_property ichefix diminue le volume de la télé

7290 9

Set_room_property chanticou diminue la tempéra-ture

3564 21

6.1.3 Concepts

Nous avons défini 17 catégories à base des 8 catégories générales définies par l’espace sémantique au chapitre 5 en section 5.2.2). Ces concepts peuvent être représentés de ma-nière hiérarchique comme le montre la figure 6.1. Le tableau 6.2 présente un aperçu des concepts avec pour chaque intention un exemple et sa fréquence dans le corpus artificiel Vo-cADom@ARTIF et dans l’ensemble de test réaliste VocADom@A4H. Beaucoup de concepts sont liés à la localisation alors que d’autres apparaissent en fait assez peu dans le corpus réel. Le corpus artificiel pourrait donc permettre de compenser ce déséquilibre. Bien en-tendu, toutes les commandes sont conçues pour être compatibles avec une approche de “slot-filling”.

TABLE6.2 – Concepts dans les corpus VocADom artificiel et réaliste - exemples et fréquences

Concept Énoncé Fréquence

Artif. Réel.

action ichéfix diminuer chauffage 70332 2211

device téraphim stoppe la télévision 68769 2473

device-component hestia change de chaîne 7290 5

device-setting hé cirrus est-ce que la bouilloire est éteinte

2579 284

location-floor dis vocadom ferme les stores de la chambre du haut

47643 805

location-house euh minouche éteins toutes les lumières de l’appartement

47643 9

location-inroom vocadom éteins la lumière du

plafond

522 34

location-room éteindre la lumière de la salle de

bain

71475 1055

organization minouche appelle le

supermar-ché

273 4

person-name vocadom appelle Marie 269 0

person-occupation minouche appelle un médecin 60 2

person-relation téraphim s’il te plaît appelle ma

fille

29 0

room-property dis bérénio diminuez la

tempé-rature

3573 24

value-artist vocadom joue David Bowie dans la radio

1215 0

value-numeric hestia mets la deux 1944 1

value-qualitative ulysse baisse un peu la lumière 3840 2

world-property ichéfix quelle est la température 21 3

6.2 Enregistrement du corpus réaliste VocADom@A4H

Dans le document Apport des modèles neuronaux de bout-en-bout pour la compréhension automatique de la parole dans l'habitat intelligent (Page 111-117)