De l’interprétation d’un énoncé à la commande destinée au robot

Dans le document The DART-Europe E-theses Portal (Page 39-42)

IV.4 Matrice de confusion résultat du processus de fusion (en %)

I.3.2 De l’interprétation d’un énoncé à la commande destinée au robot

Voyons maintenant comment ce principe s’applique dans notre contexte robotique.

I.3COMPRÉHENSION DE LA PAROLE DANS LE CONTEXTE IHR 35

a) Énoncés classique, énoncés déictiques

Dans notre contexte robotique, notre interpréteur doit être capable d’interpréter l’ensemble des tâches qu’un robot est susceptible de se voir assigner. Les tâches les plus classiques consistent en des déplacements du robot, des demandes d’informations, et autres actes de communication n’impliquant aucune connaissance autre que celles dont dispose le robot en interne ou celles données dans la phrase elle-même. Quelques exemples de telles phrases sont données dans la première partie du tableau I.1.

Mais notre robot doit également être capable de répondre à des demandes plus complexes, notamment celles contenant une référence à l’homme. Il s’agit alors de tâches nécessitant un langage spatial, c’est-à-dire des tâches telles que : un mouvement par rapport à la position de l’utilisateur, une action basée sur un geste de pointage, ou encore une interaction physique avec ce dernier (par exemple un échange d’objet). La deuxième partie du tableau I.1 donne quelques exemples.

b) Implémentation

En pratique, notre interpréteur commence par rechercher une action (viens, tourne, avance, recule, cherche, conduit, guide, etc) ou une expression d’interaction (bonjour, au-revoir, oui, non, etc) qui lui permettra d’associer à la phrase cible un modèle d’interprétation. Puis, il re-cherche les paramètres de l’action trouvée (ou des actions s’il y a ambiguïté) : 3 mètres, 20 degrés,un peu,le verre, etc.

Quel est l’état de tes batteries ? Conduis-nous à la salle de robotique.

Donne moi l’état de tes batteries. Guide-nous jusqu’à la salle Gérard Bauzil.

(a) Exemple de phrases à interpréter.

INFO = V_INFO + O_INFO ACTION = V_ACTION + O_ACTION V_INFO : l’état V_ACTION : Conduit-nous O_INFO : batteries V_ACTION : Guide-nous

O_ACTION : salle de robotique O_ACTION : salle Gérard Bauzil (b) Exemple de grammaire sémantique modélisant les phrases précédentes.

TAB. I.3: Exemple de ressources lexicales et grammaticales construites pour Julian.

Afin d’effectuer cette tâche, le système a donc besoin d’une grammaire qui lui permette de faire correspondre des mots ou groupes de mots d’une phrase avec des unités sémantiques. Illus-trons ce processus d’interprétation par un exemple simple. Le tableau I.3 prend pour exemple quatre phrases à interpréter. Les grammaires sont ici composées des axiomes «INFO» et

«ACTION», de règles de production (« :» et «=», ici «+» permet de séparer plus clai-rement les symboles non-terminaux entre eux) et de symboles terminaux (en minuscules) et

non-terminaux (en majuscules). Afin d’interpréter une phrase, l’interpréteur commencerait donc ici par rechercherV_INFOetV_ACTIONdans la phrase, car il s’agit du symbole le plus dis-criminant et qui permet de définir le type de tâche auquel la machine aura à faire face. Ensuite on recherchera lesOBJETqui permettront de définir l’objet de la tâche.

c) Limites de cette approche

L’exemple I.3 montre un cas simple : sans ambiguïté possible entre les deux modèles d’in-terprétation et sans besoin d’une gestion quelconque de l’ordre des mots dans la phrase. Des ambiguïtés pourraient être générées par la présence dans la grammaire de deux phrases telles que « Jido, avance moins vite. » et « Jido, avance ton bras. ». En effet, leurs modèles d’action (« avance ») sont identiques, mais leurs paramètres ([« moins »,« vite »] et « bras ») sont diffé-rents en nombre et en qualité, ce qui permet à la seconde passe de notre algorithme de lever l’ambiguïté. De même, si l’on ajoute dans les possibilités une phrase telle que « Jido, avance vers moi. », il est possible de supprimer l’ambiguïté créée en spécialisant le modèle d’action (« avance vers »). Force est donc de constater que s’il est possible, dans la plupart des cas, de lever toute ambiguïté pour la phase d’interprétation, cela se fait au dépend de la commodité de la grammaire. En effet, l’augmentation du nombre de phrases reconnaissables par le système entraîne un supplément d’ambiguïtés qui devront se traduire par une plus grande complexité de la grammaire d’interprétation.

D’autre part, la gestion de l’ordre des mots modélisant dans une phrase est difficile avec une telle approche. Par exemple, si l’on ne prend pas en compte l’ordre des mots dans une phrase telle que « Pose le cube bleu sur le cube rouge. », il est impossible d’être sûr que les couleurs seront correctes dans son interprétation. Mais une telle prise en compte n’est possible qu’au prix d’un accroissement de la complexité et de la rigidité de la grammaire d’interprétation.

Ainsi, dans tous les cas, lorsque la grammaire qui a généré ces phrases s’étend, nous nous apercevons que la grammaire qui doit les interpréter devient de plus en plus lourde et figée. De plus, chaque modification de la grammaire de reconnaissance doit s’accompagner d’une modi-fication, parfois conséquente à cause de nouvelles ambiguïtés, de la grammaire d’interprétation.

Partant de ce constat, cette approche, suffisante dans un premier temps afin de simplifier le problème, ne peut pas être conservée à long terme. C’est pourquoi nous avons décidé de la faire évoluer, ce qui fera l’objet de la sous-section I.4.2.

d) Évaluation de la compréhension

La sortie de notre système de reconnaissance et de compréhension de la parole doit alimen-ter un module de fusion ou un superviseur (voir chapitre IV). Le système ne pourra donc être évalué que sur la qualité des interprétations qu’il fournira à partir des phrases prononcées par l’utilisateur. Il convient par conséquent de définir une nouvelle mesure : le taux d’erreur sur les interprétations (ouIER, pour "Interpretation Error Rate"). Ce taux ne représente pas, contraire-ment par exemple à [J. Goulian, 2003], un taux d’échec de l’interpréteur après reconnaissance, mais le taux d’interprétations erronées par rapport à l’interprétation voulue lors de la pronon-ciation d’une phrase. En effet, nous modélisons dans notre système l’ensemble des phrases de

I.4INTÉGRATION ET AMÉLIORATIONS 37 la grammaire de reconnaissance, ce qui signifie que l’interpréteur ne connait aucun échec après reconnaissance (sauf erreur dans la conception de la grammaire d’interprétation). Une consé-quence est que, comme nous le verrons dans la section I.5, cette mesure annoncera toujours un taux d’échec inférieur à celui duSER, deux phrases pouvant avoir la même interprétation.

I.4 Intégration et améliorations

Nous sommes ici dans le cadre d’un module destiné à être utilisé sur nos robots. Cette section détaille les améliorations apportées au module de base, décrit précédemment, afin de l’adapter aux objectifs et contraintes de notre contexte.

Dans le document The DART-Europe E-theses Portal (Page 39-42)