5.2 Solution d’apprentissage sans données de référence pour la compréhension 135
5.3.4 Capacité d’adaptation en ligne
Cette section vise a présenter les résultats obtenus avec les deux stratégies
d’adap-tation en ligne du ZSSP proposées dans la section5.2.2. Pour ce faire, les transcriptions
des énoncés utilisateur du corpus d’apprentissage du DSTC2 sont employées pour
si-muler des retours utilisateur sur les sorties du système pour initier le processus
d’adap-tation de la base de connaissanceKdécrit dans l’algorithme1. Nous exploitons ici les
transcriptions manuelles pour s’abstraire de l’impact du bruit dû aux erreurs de
trans-cription automatique qui compliquerait grandement la procédure de simulation
em-ployée (annotations sémantiques de référence pour les sorties ASR indisponibles dans
les corpus considérés).
Dans un premier temps nous étudierons l’impact de retours binaires sur les
hypo-thèses du module de compréhension avec diverses configurations du modèle sans
don-nées de référence. Puis dans un second temps nous étudierons l’intérêt de considérer
l’optimisation en ligne de la stratégie d’adaptation employée.
Adaptation du modèle par retours binaires sur les hypothèses SLU
Pour rendre possible la phase d’adaptation, les retours des utilisateurs sont simulés
en comparant la meilleure hypothèse du modèle avec l’étiquette sémantique de
réfé-rence des phrases utilisateurs dans le corpus d’apprentissage DSTC2. Toutes les formes
de surface de notre meilleure hypothèse ayant une étiquette sémantique présente dans
l’annotation de référence sont considérées comme positives et toutes les autres comme
négatives.Kest mise à jour à la fin de chaque tour en suivant l’algorithme1présenté
dans la section5.2.2(avecα
p= α
n=1).
Dans le but de quantifier l’influence de l’espace sémantique considéré F et de la
base de connaissance initiale K sur l’approche sans données de références proposée,
nous avons fait le choix d’étudier trois configurations différentes de cette dernière.
Nous distinguerons donc de l’approche ZSSP classique (base de connaissance K de
qualité et un espace sémantique reposant sur une représentationword2vecapprise sur
une grande quantité de données) deux variantes : la première, notéeZSSP.˜F, utilise une
représentation sémantique « dégradée » et réduite à 50 dimensions, à savoir une
repré-sentationword2vecapprise avec l’algorithmeSkip-gram(avec une fenêtre de 5 mots) sur
des données non annotées issues du corpus d’apprentissage du DSTC2 (190366 mots
en contexte) ; la seconde, notéeZSSP. ˜Kutilise une version « dégradée » de Koù 10%
des formes de surface (exemples de types d’actes de dialogues) ont été retirées. Il est à
noter qu’en l’état aucune étiquette sémantique n’a été enlevée du modèle.
Dans le but de positionner notre approche par rapport à l’état de l’art, les mêmes
systèmes de référence que précédemment sont utilisés.
Les résultats présentés dans la figure 5.5 montrent l’évolution de la F-mesure en
fonction du nombre de dialogues utilisés pour l’adaptation. Même avant l’adaptation
ZSSP(0, 794) et ZSSP. ˜K(0, 775) atteignent des performances proches d’un système à
base de règle (0, 782). Mais un espace sémantique appris sur une petite quantité de
don-nées peut avoir un impact significatif sur cette performance (comme le montreZSSP.˜F,
0, 684) dû à la fois à des mots hors vocabulaire et des mauvaises propriétés de
générali-sation de cet espace sémantique.
Néanmoins, dans toutes les configurations deZSSP, la performance augmente
conjoin-tement avec le nombre de dialogues d’adaptation. En effet, à la foisZSSPet ZSSP. ˜K
obtiennent, après seulement 100 dialogues, des performances nettement meilleures que
les modèles de références (0.811 contre 0, 782 pourS-règleset 0, 803 pourS-appris
10).
10. Les performances de S-appris n’ont pas été reportées sur la figure.5.5dans le but d’éviter une
pos-sible confusion (au regard de l’axe des abscisses) sachant qu’il utilise beaucoup plus de données
d’appren-tissage.
0 50 100 150 200
0.68
0.7
0.72
0.74
0.76
0.78
0.8
0.82
Nombre de dialogues utilisés pour l’adaptation
F-mesur
e
sur
acttype(concept=valeur) ZSSP
ZSSP. ˜K
S-règles
ZSSP.˜F
F
IGURE5.5 –Performances de 3 configurations de la méthode ZSSP en terme de F-mesure, fonction
du nombre de dialogues utilisés pour l’adaptation.
En outre, même l’écart entre ZSSP.˜F et le modèle à base de règles est nettement
réduit tout au long du processus d’adaptation en ligne (de 0, 098 à 0, 017 après 200
dia-logues). Cette observation montre que la méthode proposée peut aussi fonctionner avec
un espace sémantique de mauvaise qualité. Ces résultats confirment donc l’avantage de
la méthode d’adaptation en ligne proposée pour faire face aux limites de la couverture
initiale deKet à la robustesse de l’espace sémantiqueF.
Optimisation en ligne de la stratégie d’adaptation du modèle
Afin de tester l’algorithme d’apprentissage de la politique d’adaptation du modèle,
nous avons choisi dans ces travaux de simuler les réponses de l’utilisateur. Pour ce
faire, nous avons mis en place un indicateur à même de déterminer la qualité de la
meilleure proposition du SLU en fonction d’une référence. En raison du fait que les
étiquettes sémantiquesacttype(concept= valeur)n’étaient pas alignées aux mots dans
le corpus considéré (ici DSTC2) et sachant que ce dernier est une condition préalable
pour pouvoir simuler l’annotation en séquence de couples
forme-de-surface/étiquette-sémantique nous avons donc au préalable du procéder à un alignement automatique
similaire à celui proposé dans (Huet et Lefèvre,2011). Ainsi, à chaque tour, nous avons
suffisamment d’informations pour être en mesure de répondre avec précision à
l’ac-tion de la machine (séquences d’actes de dialogue de référence et leurs alignements
aux mots). Ici, un sous-ensemble de transcriptions de l’ensemble d’apprentissage de
DSTC2 (750 transcriptions d’énoncés utilisateur) est exploité pour évaluer le modèle
d’adaptation en ligne.
Dans notre configuration expérimentale, un utilisateur simulé est employé pour
répondre aux actions d’adaptation du modèle pour chaque tour de parole dans le
dialogue d’origine. Cet utilisateur peut faire usage de trois actions distinctes :Affirm,
Negate et Inform. Les actions Affirm et Negate sont employées pour répondre aux
de-mandes de confirmation liées à l’application des actions d’adaptation du modèle
(As-kAnnotation et YesNoQuestions). L’action Inform est utilisée exclusivement dans les
échanges supplémentaires ayant lieu dans le cadre de l’action système AskAnnotation
(par exempleInform(acttype=request),Inform(boundaries="austrian food")). Ici, nous
sup-posons que les sous-dialogues d’annotation peuvent être gérés par un système réel avec
un niveau de précision élevé (par exemple en utilisant une grammaire bien calibrée et
une logique d’interaction finement réglée). Bien sur cette hypothèse devra être
confir-mée en pratique.
Dans ce travail, nous avons délibérément dégradéKen enlevant quelques concepts
importants tels quenameetsignatureet des valeurs (par exemple en gardant seulement
11 valeurs pour le conceptfood). Ainsi, nous commençons avec une F-mesure plus faible
de 0, 70 sur les transcriptions du corpus de test DSTC2. Au total, 404 exemples sont
considérés et assignés à 78 actes de dialogue différents (sur les 663 possibles d’après
l’ontologie d’origine). Du fait que la technique Exp3 emploie une certaine forme
d’ex-ploration stochastique (iciγ
′= 0, 2) nous utiliserons 20 processus indépendants
d’ap-prentissage en ligne. Ainsi, les résultats présentés plus bas pour cette méthode
corres-pondront en fait aux moyennes de ceux observés sur ces 20 processus distincts.
F
IGURE5.6 –Distribution de probabilité estimée par l’Exp3 au cours du temps sur les différentes
actions.
La figure5.6donne l’évolution de la probabilitép
i(t)associée à chaque actionitelle
qu’estimée par l’algorithme Exp3 (γ=0, 5). Nous pouvons observer que chaque action
est sélectionnée avec une probabilité comparable au début de la procédure
d’optimi-sation, Exp3 explore. Puis, à mesure que le nombre de tours considérés augmente, on
observe que l’influence des deux actions YesNoQuestions et Skip croît. On remarque
cependant un avantage clair à l’action Skip lorsqu’il devient plus difficile d’obtenir de
nouvelles informations eu égard au coût impliqué pour les collecter.
F
IGURE5.7 –Impact deγsur l’effort utilisateur (coûts) cumulé.
Exp3 en terme d’effort utilisateur cumulé. Les stratégies AskAnnotation et
YesNo-Questions(stratégies réalisant la même action à chaque tour) sont introduites ici a des
fin de comparaison comme méthodes de référence. Nous considérons les performances
pourγ ∈ {0, 0, 3, 0, 5, 0, 7, 1}. Nous pouvons observer que la stratégieAskAnnotation
est la plus coûteuse, suivie par YesNoQuestions. Faire varier le paramètre γ semble
avoir l’effet escompté sur l’apprentissage de la stratégie d’adaptation. Ainsi, plusγest
grand, moins le coût a un impact sur l’apprentissage. De ce fait, lorsque celui-ci est
totalement ignoré dans la fonction de perte (γ = 1, 0), l’algorithme Exp3 a tendance à
favoriser les actions les plus coûteuses car elles permettent de réduire significativement
la mesure d’inefficacité du modèle. Ainsi,γpermet de régler le compromis entre l’effort
de l’utilisateur et l’efficacité du modèle pour une application donnée.
Enfin, dans la figure 5.8 Exp3 (γ = 0, 5) est comparée à Askannotation et
Yes-NoQuestion en termes de F-mesure sur les transcriptions du corpus de test DSTC2.
Comme prévuAskAnnotationobtient les meilleures performances. En effet,
l’utilisa-tion des nouvelles annotal’utilisa-tions permet au modèle ZSSP de couvrir dynamiquement des
actes de dialogue supplémentaires grâce à la mise à jourKavec des exemples robustes.
En raison du fait que l’objectif de l’algorithme Exp3 est de trouver un compromis entre
le fait de réduire l’effort de l’utilisateur et l’efficacité du modèle, cette méthode est
ca-pable d’atteindre à plus faible coût des performances proches de celles obtenues avec
AskAnnotationet bien meilleures que celles observées pourYesNoQuestion(cette
der-nière ne pouvant pas capturer de nouveaux concepts).
Dans le document
Apprentissage automatique en ligne pour un dialogue homme-machine situé
(Page 155-159)