• Aucun résultat trouvé

5.2 Solution d’apprentissage sans données de référence pour la compréhension139

5.3.3 Évaluation de l’approche standard

Démarrage de zéro du module de compréhension

Afin de constituer notre espace sémantique, un modèle word2vec (Mikolov et al., 2013a) a été utilisé pour apprendre une représentation vectorielle des mots sur 300 di-mensions. Ce modèle a été appris avec l’algorithmeSkip-gram(avec une fenêtre de 10 mots) avec un softmax hiérarchique grâce à l’outil Gensim7(Rehuuˇrek et Sojka,ˇ 2010) sur une grande quantité de données disponibles librement et présentant une grande couverture thématique. Plus exactement, ont été employé les corpus anglais enwik9, One Billion Word Language Modelling Benchmark,Brown corpus,English GigaWordde 1 à 5. Ce qui représente au total plus de 4 milliards de mots en contexte (phrases).

Ce type de représentation présente certaines régularités avec les propriétés syn-taxiques et sémantiques des mots comme celles montrées dans (Mikolov et al.,2013c) ainsi qu’une structure linéaire permettant la combinaison des représentations des mots par une simple addition vectorielle élément par élément. Cette technique est donc utili-sée pour projeter nos formes de surface vers leur représentation sémantique vectorielle de typeword2vecvue comme une somme des représentations individuelles de chaque mot les constituant.

Plusieurs travaux état-de-l’art ont montré que la similarité cosinus (équation5.11) est une métrique pertinente pour comparer les vecteurs de motsword2vec entre eux

7. https ://radimrehurek.com/gensim/

(Mikolov et al., 2013a,c). Cette métrique considère le cosinus de l’angle θ entre deux vecteurs A et B de n dimension comme une mesure de similarité. Une valeur de−1 indiquera des vecteurs opposés, 0 que l’on est en présence de vecteurs indépendants et 1 que les vecteurs sont similaires. Cette mesure, très commune en NLP, est obtenue en appliquant la formule :

cosθ = A·B

kAk · kBk (5.11)

Nous avons également utilisé cette métrique dans l’algorithme de typekplus proche voisins pour la prédiction sur les formes de surface et l’adaptation de la base de connais-sance. Ainsi, dans les expériences considérées, k = 1 pour l’analyse sémantique et 20 pour les valeursknndans la matrice d’affectation.

Le graphe sémantique (transducteur) est obtenu à l’aide de l’outil OpenFst8et l’al-gorithme du plus court chemin est employé pour déterminer la ou les meilleures hypo-thèse9(voir la section5.2.1.).

Les bases de connaissances liées aux deux tâches utilisées pour nos expériences sont extraites des descriptions ontologiques fournies dans le cadre de ces défis scien-tifiques (e.g. listes des concepts/valeurs) ainsi que d’un ensemble d’information géné-rique en suivant la procédure automatique décrite dans la section5.2.1. La sémantique du domaine DSTC2 est constituée de 8 concepts et 215 valeurs et celle du DSTC3 de 13 concepts et 279 valeurs (voir détails dans l’annexeC.2). Pour les deux tâches 16acttype sont considérés, il en résultent donc 663 étiquettes sémantiques possibles pour DSTC2 et 855 pour DSTC3.

Nous avons définis manuellement 53 formes de surface associées aux différents act-types. Par exemple « say again » est utilisé pour représenter l’acterepeat(). Cet effort est commun aux deux tâches cibles. Dans les deux descriptions ontologiques considérées, les concepts et les valeurs ont des noms significatifs (lexicalisés) qui peuvent directe-ment être utilisés dans les formes de surface comme « address », « french », « has tv »).

Au total, 4160 formes de surface ont été ainsi générées automatiquement et sont utili-sées pour DSTC2, 6555 pour DSTC3.

Pour évaluer nos propositions, les résultats sont comparés avec deux systèmes état de l’art : le premier est un système à base de règles expertes utilisé dans le défi DSTC et le second est un système présenté dans (Williams,2014), appris sur les données d’ap-prentissage du DSTC2 (nommé SLU1 dans l’article de Williams). Ces deux systèmes sont respectivement référencés par « S-règles » et « S-appris » dans la suite.

Les résultats de nos expériences (présentés dans le tableau 5.1) montrent que l’ap-proche proposée, nomméZSSP(pourZero-Shot Semantic Parser) par la suite, atteint un niveau de performance (en termes de F-mesure) légèrement meilleur que celui de l’ap-proche à base de règles (0, 794 contre 0, 782 sur DSTC2 et 0, 826 contre 0, 824 sur DSTC3)

8. www.openfst.org

9. La distance cosinus interviendra dans le calcul des poids des arcs. Cette dernière est définie comme dcosθ(A,B) =1(1+cosθ)

2 pour être à valeur dans[0, 1]

5.3. Expériences et résultats

Tâche Modèle Entrée F-mesure P R DSTC2

S-règles n-meilleures 0,782 0,900 0,691 S-appris n-meilleures 0,802 0,846 0,762

ZSSP manuelle 0,919 0,898 0,942

n-meilleures 0,794 0,796 0,792 DSTC3

S-règles n-meilleures 0,824 0,852 0,797

ZSSP manuelle 0,899 0,873 0,928

n-meilleures 0,826 0,806 0,849

TABLE5.1 –Evaluation des performances de l’analyseur sémantique, ZSSP, basé sur l’apprentis-sage sans données de référence en termes de F-mesure,Précision etRappel.

et comparable à celui d’un modèle appris (0, 794 contre 0, 802 sur DSTC2). Ainsi le mo-dèle proposé atteint dans son état initial des performances état-de-l’art sans utilisation de nombreuses règles spécifiques manuellement établies (coût d’experts humains) ni de données d’apprentissage (coût de collecte et d’annotation).

Cependant, afin de mesurer l’impact de la représentation sémantique choisie sur la performance globale de l’approche, un système qui n’utilise pas ce type de représen-tation a été construit. Un F-mesure de 0, 839 (contre 0, 919 en configuration normale) est obtenu sur les transcriptions manuelles du DSTC2 par une simple stratégie de dé-tection de patrons de mots à partir des exemples de la même base de connaissances K. Cette dernière observation confirme l’avantage d’avoir recours à une représentation sémantique riche apprise sur une grande quantité de données non annotées. En effet, cette dernière permet une meilleure généralisation des connaissances lexicales initiales (qui elles peuvent être assez limitées).

Généralisation

L’avantage majeur de l’utilisation d’un modèle word2vecpar rapport à un simple modèle de détection par mots clés est l’intégration d’une représentation continue des mots dans le processus de décodage. Cette caractéristique confère au système une capa-cité de généralisation intrinsèque permettant de couvrir des mots inconnus correspon-dant à des valeurs non présentes dans l’ontologie définie du domaine ou de la tâche. Par exemple, dans le contexte d’un domaine de recherche de restaurant, il est intéressant pour un système de dialogue de détecter certaines situations où un utilisateur parle d’un type d’aliment inconnu jusqu’alors par le système (si ce dernier n’est pas dans la base de données d’origine) ou au moins être en mesure de proposer une alternative en conséquence (en exploitant par exemple la proximité dans l’espace sémantique).

Afin d’évaluer la capacité de généralisation de notre système, nous avons volon-tairement supprimé de la base de connaissances de DSTC2 des formes de surface cor-respondant à différents pourcentages des valeurs possibles de certains concepts spé-cifiques. Dans cette étude préliminaire, nous avons choisi d’étudier l’impact sur les conceptsfood,areaetpricerange. Les performances du modèle sur les transcriptions ma-nuelles ont été évaluées en termes de F-mesure sur le DA sans valeur (acttype(concept)

uniquement au lieu deacttype(concept=valeur)) afin d’évaluer le niveau de détection des concepts de haut niveau uniquement.

Ainsi, nous comparons la performance de ZSSPavec une autre configuration de l’analyseur, notéeZSSP-wordspot. Cette dernière étiquette uniquement les segments qui atteignent un degré de similarité très élevé (une correspondance quasi parfaite de 0, 94). Vu que ce modèle est capable d’exploiter l’espace sémantique, cette configuration peut être assimilée à une stratégie robuste de détection de mots clés.

0 20 40 60 80

0.7 0.75 0.8 0.85 0.9 0.95

% d’exemples de valeurs retirées dansK

F-mesuresuracttype(concept)

ZSSP ZSSP-wordspot

FIGURE 5.4 –Capacité de généralisation de ZSSP sur le corpus de test DSTC2 en terme de F-mesure sur la détection d ’actes de dialogue génériques (i.e. acttype(concept)), fonction du pourcen-tage d’exemples de valeurs retirées dans K.

Les résultats présentés dans la figure5.4 montrent clairement une légère baisse de performance lorsque le pourcentage de valeurs retirées est grand. La différence entre les deux configurations est de 0, 044 à 0% et de 0, 111 à 80%. Cela confirme que l’approche proposée est tolérante à une faible densité de données dansK. Cette caractéristique peut être utile pour développer un système de dialogue générique permettant une évolution transparente de la base de connaissances contenant une base de données croissante.