Capacité d’adaptation en ligne - Solution d’apprentissage sans données de référence pour la com

5.2 Solution d’apprentissage sans données de référence pour la compréhension 135

5.3.4 Capacité d’adaptation en ligne

Cette section vise a présenter les résultats obtenus avec les deux stratégies

d’adap-tation en ligne du ZSSP proposées dans la section5.2.2. Pour ce faire, les transcriptions

des énoncés utilisateur du corpus d’apprentissage du DSTC2 sont employées pour

si-muler des retours utilisateur sur les sorties du système pour initier le processus

d’adap-tation de la base de connaissanceKdécrit dans l’algorithme1. Nous exploitons ici les

transcriptions manuelles pour s’abstraire de l’impact du bruit dû aux erreurs de

trans-cription automatique qui compliquerait grandement la procédure de simulation

em-ployée (annotations sémantiques de référence pour les sorties ASR indisponibles dans

les corpus considérés).

Dans un premier temps nous étudierons l’impact de retours binaires sur les

hypo-thèses du module de compréhension avec diverses configurations du modèle sans

don-nées de référence. Puis dans un second temps nous étudierons l’intérêt de considérer

l’optimisation en ligne de la stratégie d’adaptation employée.

Adaptation du modèle par retours binaires sur les hypothèses SLU

Pour rendre possible la phase d’adaptation, les retours des utilisateurs sont simulés

en comparant la meilleure hypothèse du modèle avec l’étiquette sémantique de

réfé-rence des phrases utilisateurs dans le corpus d’apprentissage DSTC2. Toutes les formes

de surface de notre meilleure hypothèse ayant une étiquette sémantique présente dans

l’annotation de référence sont considérées comme positives et toutes les autres comme

négatives.Kest mise à jour à la fin de chaque tour en suivant l’algorithme1présenté

dans la section5.2.2(avecα

= α

=1).

Dans le but de quantifier l’influence de l’espace sémantique considéré F et de la

base de connaissance initiale K sur l’approche sans données de références proposée,

nous avons fait le choix d’étudier trois configurations différentes de cette dernière.

Nous distinguerons donc de l’approche ZSSP classique (base de connaissance K de

qualité et un espace sémantique reposant sur une représentationword2vecapprise sur

une grande quantité de données) deux variantes : la première, notéeZSSP.˜F, utilise une

représentation sémantique « dégradée » et réduite à 50 dimensions, à savoir une

repré-sentationword2vecapprise avec l’algorithmeSkip-gram(avec une fenêtre de 5 mots) sur

des données non annotées issues du corpus d’apprentissage du DSTC2 (190366 mots

en contexte) ; la seconde, notéeZSSP. ˜Kutilise une version « dégradée » de Koù 10%

des formes de surface (exemples de types d’actes de dialogues) ont été retirées. Il est à

noter qu’en l’état aucune étiquette sémantique n’a été enlevée du modèle.

Dans le but de positionner notre approche par rapport à l’état de l’art, les mêmes

systèmes de référence que précédemment sont utilisés.

Les résultats présentés dans la figure 5.5 montrent l’évolution de la F-mesure en

fonction du nombre de dialogues utilisés pour l’adaptation. Même avant l’adaptation

ZSSP(0, 794) et ZSSP. ˜K(0, 775) atteignent des performances proches d’un système à

base de règle (0, 782). Mais un espace sémantique appris sur une petite quantité de

don-nées peut avoir un impact significatif sur cette performance (comme le montreZSSP.˜F,

0, 684) dû à la fois à des mots hors vocabulaire et des mauvaises propriétés de

générali-sation de cet espace sémantique.

Néanmoins, dans toutes les configurations deZSSP, la performance augmente

conjoin-tement avec le nombre de dialogues d’adaptation. En effet, à la foisZSSPet ZSSP. ˜K

obtiennent, après seulement 100 dialogues, des performances nettement meilleures que

les modèles de références (0.811 contre 0, 782 pourS-règleset 0, 803 pourS-appris

).

10. Les performances de S-appris n’ont pas été reportées sur la figure.5.5dans le but d’éviter une

pos-sible confusion (au regard de l’axe des abscisses) sachant qu’il utilise beaucoup plus de données

d’appren-tissage.

0 50 100 150 200

0.68

0.7

0.72

0.74

0.76

0.78

0.8

0.82 Nombre de dialogues utilisés pour l’adaptation

F-mesur

e

sur

acttype(concept=valeur) ZSSP

ZSSP. ˜K

S-règles

ZSSP.˜F

F

IGURE

5.5 –Performances de 3 configurations de la méthode ZSSP en terme de F-mesure, fonction

du nombre de dialogues utilisés pour l’adaptation.

En outre, même l’écart entre ZSSP.˜F et le modèle à base de règles est nettement

réduit tout au long du processus d’adaptation en ligne (de 0, 098 à 0, 017 après 200

dia-logues). Cette observation montre que la méthode proposée peut aussi fonctionner avec

un espace sémantique de mauvaise qualité. Ces résultats confirment donc l’avantage de

la méthode d’adaptation en ligne proposée pour faire face aux limites de la couverture

initiale deKet à la robustesse de l’espace sémantiqueF.

Optimisation en ligne de la stratégie d’adaptation du modèle

Afin de tester l’algorithme d’apprentissage de la politique d’adaptation du modèle,

nous avons choisi dans ces travaux de simuler les réponses de l’utilisateur. Pour ce

faire, nous avons mis en place un indicateur à même de déterminer la qualité de la

meilleure proposition du SLU en fonction d’une référence. En raison du fait que les

étiquettes sémantiquesacttype(concept= valeur)n’étaient pas alignées aux mots dans

le corpus considéré (ici DSTC2) et sachant que ce dernier est une condition préalable

pour pouvoir simuler l’annotation en séquence de couples

forme-de-surface/étiquette-sémantique nous avons donc au préalable du procéder à un alignement automatique

similaire à celui proposé dans (Huet et Lefèvre,2011). Ainsi, à chaque tour, nous avons

suffisamment d’informations pour être en mesure de répondre avec précision à

l’ac-tion de la machine (séquences d’actes de dialogue de référence et leurs alignements

aux mots). Ici, un sous-ensemble de transcriptions de l’ensemble d’apprentissage de

DSTC2 (750 transcriptions d’énoncés utilisateur) est exploité pour évaluer le modèle

d’adaptation en ligne.

Dans notre configuration expérimentale, un utilisateur simulé est employé pour

répondre aux actions d’adaptation du modèle pour chaque tour de parole dans le

dialogue d’origine. Cet utilisateur peut faire usage de trois actions distinctes :Affirm,

Negate et Inform. Les actions Affirm et Negate sont employées pour répondre aux

de-mandes de confirmation liées à l’application des actions d’adaptation du modèle

(As-kAnnotation et YesNoQuestions). L’action Inform est utilisée exclusivement dans les

échanges supplémentaires ayant lieu dans le cadre de l’action système AskAnnotation

(par exempleInform(acttype=request),Inform(boundaries="austrian food")). Ici, nous

sup-posons que les sous-dialogues d’annotation peuvent être gérés par un système réel avec

un niveau de précision élevé (par exemple en utilisant une grammaire bien calibrée et

une logique d’interaction finement réglée). Bien sur cette hypothèse devra être

confir-mée en pratique.

Dans ce travail, nous avons délibérément dégradéKen enlevant quelques concepts

importants tels quenameetsignatureet des valeurs (par exemple en gardant seulement

11 valeurs pour le conceptfood). Ainsi, nous commençons avec une F-mesure plus faible

de 0, 70 sur les transcriptions du corpus de test DSTC2. Au total, 404 exemples sont

considérés et assignés à 78 actes de dialogue différents (sur les 663 possibles d’après

l’ontologie d’origine). Du fait que la technique Exp3 emploie une certaine forme

d’ex-ploration stochastique (iciγ

^′

= 0, 2) nous utiliserons 20 processus indépendants

d’ap-prentissage en ligne. Ainsi, les résultats présentés plus bas pour cette méthode

corres-pondront en fait aux moyennes de ceux observés sur ces 20 processus distincts.

F

IGURE

5.6 –Distribution de probabilité estimée par l’Exp3 au cours du temps sur les différentes

actions.

La figure5.6donne l’évolution de la probabilitép

(t)associée à chaque actionitelle

qu’estimée par l’algorithme Exp3 (γ=0, 5). Nous pouvons observer que chaque action

est sélectionnée avec une probabilité comparable au début de la procédure

d’optimi-sation, Exp3 explore. Puis, à mesure que le nombre de tours considérés augmente, on

observe que l’influence des deux actions YesNoQuestions et Skip croît. On remarque

cependant un avantage clair à l’action Skip lorsqu’il devient plus difficile d’obtenir de

nouvelles informations eu égard au coût impliqué pour les collecter.

F

IGURE

5.7 –Impact deγsur l’effort utilisateur (coûts) cumulé.

Exp3 en terme d’effort utilisateur cumulé. Les stratégies AskAnnotation et

YesNo-Questions(stratégies réalisant la même action à chaque tour) sont introduites ici a des

fin de comparaison comme méthodes de référence. Nous considérons les performances

pourγ ∈ {0, 0, 3, 0, 5, 0, 7, 1}. Nous pouvons observer que la stratégieAskAnnotation

est la plus coûteuse, suivie par YesNoQuestions. Faire varier le paramètre γ semble

avoir l’effet escompté sur l’apprentissage de la stratégie d’adaptation. Ainsi, plusγest

grand, moins le coût a un impact sur l’apprentissage. De ce fait, lorsque celui-ci est

totalement ignoré dans la fonction de perte (γ = 1, 0), l’algorithme Exp3 a tendance à

favoriser les actions les plus coûteuses car elles permettent de réduire significativement

la mesure d’inefficacité du modèle. Ainsi,γpermet de régler le compromis entre l’effort

de l’utilisateur et l’efficacité du modèle pour une application donnée.

Enfin, dans la figure 5.8 Exp3 (γ = 0, 5) est comparée à Askannotation et

Yes-NoQuestion en termes de F-mesure sur les transcriptions du corpus de test DSTC2.

Comme prévuAskAnnotationobtient les meilleures performances. En effet,

l’utilisa-tion des nouvelles annotal’utilisa-tions permet au modèle ZSSP de couvrir dynamiquement des

actes de dialogue supplémentaires grâce à la mise à jourKavec des exemples robustes.

En raison du fait que l’objectif de l’algorithme Exp3 est de trouver un compromis entre

le fait de réduire l’effort de l’utilisateur et l’efficacité du modèle, cette méthode est

ca-pable d’atteindre à plus faible coût des performances proches de celles obtenues avec

AskAnnotationet bien meilleures que celles observées pourYesNoQuestion(cette

der-nière ne pouvant pas capturer de nouveaux concepts).

Dans le document Apprentissage automatique en ligne pour un dialogue homme-machine situé (Page 155-159)