• Aucun résultat trouvé

THE ISSMALL ISRED

3. la complétude de la requête : c’est-à-dire la proportion d’informations présentes dans la requête en langue naturelle que l’on retrouve dans la requête produite par DIG

6.5.2 Annotation des phrases

6.5.2.1 Définition des activités conversationnelles du corpus Daft

Nous avons réalisé différentes études du corpus Daft qui seront détaillées dans le chapitre7, et avons besoin ici pour l’annotation des phrases issues de DIG de la notion de d’activité conver-sationnelle. Nous allons donc pour le moment poser ce concept, et renvoyons à la section 7.2

pour plus de détails.

Nous avons pu distinguer, au sein des phrases collectées dans le corpus Daft quatre grandes classes d’activités, représentant les attentes de l’utilisateur vis-à-vis du système :

1. le contrôle : où l’utilisateur se sert de l’agent comme médiateur pour effecteur des tâches au sein de l’environnement de l’application assistée ;

2. l’assistance directe : lorsque l’utilisateur fait explicitement appel à l’agent et à ses connaissances pour l’aider dans la réalisation d’une tâche ;

3. l’assistance indirecte : quand l’utilisateur masque son besoin d’aide en le formulant par exemple sous la forme d’un regret (“dommage qu’on ne puisse pas. . . ”) ;

4. la discussion : qui regroupe toutes les interactions davantage centrées sur le person-nage de l’agent que sur l’application qu’il assiste, et où l’on retrouve toutes les requêtes typiquement recueillies par un agent conversationnel classique (non assistant).

La distribution des requêtes au sein de ces classes est donnée par le diagramme circulaire de la figure 6.8. 15% 40% Contrôle Assist. Directe Assist. Indirecte 15% 36% 9% 40% Contrôle Assist. Directe Assist. Indirecte Discussion

Figure 6.8 Répartition des principales activités conversationnelles du corpus

6.5.2.2 Sous-ensemble de Daft annoté

Dans la mesure où les schèmes de DAFT ont été définis essentiellement pour traiter les requêtes d’utilisateurs dans le contexte de l’assistance, nous excluons de cette étude les re-quêtes relevant de la discussion qui requièrent de traiter une part beaucoup plus importante de la langue naturelle, nous faisant perdre l’intérêt de travailler dans le cadre d’un

sous-langage. L’annotation a donc été réalisée sur les 640 phrases du sous-corpus Daftsub(défini en

section 3.3.3.2) relevant du contrôle ou de l’assistance.

6.5.2.3 Résultats

Paramètres considérés indépendamment. Les résultats de l’annotation, paramètre par paramètre, sont synthétisés par la figure 6.9, montrent que :

− la proportion de requêtes complètes (score de 2 ou 3 pour EC) est relativement constant, de l’ordre de 90%. Cela montre que bien qu’un certain nombre de clés sémantiques n’ont pour le moment pas eu de champ DAFTINFO associé, les éléments les plus utilisés ont bien un ou plusieursschèmes associés.

− la proportion de requêtes ayant un sens (score de 2 ou 3 pour EQ) est de l’ordre de 90% pour les requêtes de contrôle, mais seulement de 80% dans le cas des requêtes d’assistance à proprement parler. Ce résultat était prévisible : les requêtes de contrôle étant généralement plus simples et plus courtes (cf. section7.3.2) : elles mettent en jeu moins d’entités, et donc il y a moins de risques d’erreurs en les combinant entre elles. − la proportion de requêtes dont le sens est bien représenté (score de 2 ou 3 pour ER) diffère

sensiblement selon les activités conversationnelles considérées : 80% pour le contrôle, 65% pour l’assistance directe et 60% pour l’assistance indirecte. On retrouve ici l’illustration de l’idée intuitive selon laquelle les requêtes d’assistance directe, et encore plus indirecte, sont plus complexes en langue naturelle, donc plus complexes à représenter de manière formelle et en conséquence, plus difficiles à interpréter.

Non traitée ici, on peut toutefois imaginer l’allure qu’aurait l’histogramme pour l’activité de discussion. En effet, si toutes les clés du corpus s’étaient vu associer desentités, de manière à ce que le score de complétude soit du même ordre de grandeur (90%) pour les requêtes de discussion que pour les autres activités conversationnelles, on peut estimer que les scores de ERvariraient grandement d’une requête à l’autre dans la mesure où la complexité des requêtes varient grandement (cf. section7.2.4).

Scores de EQRC. Si on considère maintenant les 3 notes prises conjointement sous forme d’un triplet, sur les 64 valeurs théoriquement possibles, seules 39 apparaissent effectivement (selon une loi de Zipf, tel que représenté sur la figure6.11), ce qui est logique, d’après les liens entre les paramètres qui ont été mentionnés précédemment. Les cinq valeurs les plus fréquentes sont :

0% 20% 40% 60% 80% 100% Qualité Représentativité Complétude 0 1 2 3 (a) Contrôle 0% 20% 40% 60% 80% 100% Qualité Représentativité Complétude 0 1 2 3

 

(b) Assistance directe 0% 20% 40% 60% 80% 100% Qualité Représentativité Complétude 0 1 2 3

 

0% 20% 40% 60% 80% 100% (c) Assistance indirecte

Figure 6.9 Évaluation des requêtes dans EQ, ER et EC, en fonction de leur activité conversationnelle

− 333 : pour les requêtes parfaitement analysées,

− 223 : pour les requêtes pas complètement bien formées mais pour lesquelles les erreurs n’ont qu’un impact mineur sur le sens,

− 233 : pour les requêtes pas complètement bien formées mais sans que cela n’empêche d’extraire le sens général de la requête pour un annotateur humain,

− 213 : pour les requêtes pas complètement bien formées tel que cela a un impact significatif sur le sens de la requête par rapport à la requête en langue naturelle,

− 000 : pour les requêtes non traitées par DIG (faute de schèmesassociés aux clés). Si comme précédemment on cherche à distinguer ces scores en fonction des activités conver-sationnelles (cf. figure 6.10), on retrouve de manière assez nette les différences déjà évoquées rien que dans l’allure des courbes : la proportion de 333 est nettement majoritaire pour les requêtes de contrôle, légèrement majoritaire pour les requêtes d’assistance (suivi de près par 223) et seulement le quatrième score le plus fréquent pour les requêtes d’assistance indirecte.

6.6 Conclusion

Dans ce chapitre, nous avons introduit DIG, un outil permettant de produire de manière automatique des requêtes en DAFT de manière à les rendre exploitables par l’agent rationnel

333 223 233 213 000 323 113 313 103 211 101 203 222 111 212 112 002 003 321 322 311 332 221 102 202 303 301 201 100 312 001 331 210 200 302 232 013 122 0

50 100 150

Figure 6.10 Évaluation des requêtes dans EQRC (nombre de requêtes pour chaque score)

AR (qui sera abordé dans le chapitre 8. Nous avons vu que cette automatisation n’était pas triviale, et que divers mécanismes (ajout de champs, règles de combinaisons spécifiques. . . ) devaient être mis en œuvre afin d’atteindre le résultat voulu. Nous avons enfin proposé une méthodologie d’évaluation des requêtes produites, qui pourra être de nouveau appliquée pour évaluer l’impact de futures améliorations - notamment si l’on associe de nouveaux schèmes

aux différentes clés sémantiques de KG.

Notons qu’en ce qui concerne le temps d’exécution, DIG est à peu près comparable à GRASP, avec un temps moyen de 0,3 seconde d’analyse par requête du corpus Daft, soit une moyenne totale pour l’ensemble {GRASP + DIG} de 0,7 seconde par requête. En sachant que la chaîne de traitement doit encore comporter le module correspondant à l’agent rationnel AR, ce temps d’analyse semble raisonnable pour permettre une utilisation en pratique du système DAFT.

333 233 213 000 223 313 211 323 103 332 221 111 232 331 203 222 303 311 301 013 212 003 210 122 113 0 20 40 60 80 (a) Contrôle 333 223 233 213 000 323 113 313 222 103 101 212 203 112 111 002 321 003 322 211 100 303 102 332 202 311 221 200 210 312 301 331 001 302 0 20 40 60 80 (b) Assistance directe 223 233 213 333 101 323 113 311 203 103 000 221 222 202 312 2 4 6 8 (c) Assistance indirecte

Figure 6.11 Évaluation des requêtes dans EQRC, selon leur activité conversa-tionnelle