• Aucun résultat trouvé

de services numériques arbitraires en utilisant le langage naturel. L’assistant virtuel utilise la structure inhérente aux commandes en langage naturel de l’utilisateur pour organiser les éléments perceptuels primitifs en procédures. Cela permet à l’assistant de s’adapter aux différents services et à la variabilité des choix des utilisateurs quant à l’utilisation de la langue. L’apprentissage a d’abord été utilisé pour apprendre à ancrer les énoncés du langage naturel dans des commandes perceptuelles et motrices indépendantes du domaine afin d’exécuter des actions de base (par exemple, ouvrir Gmail, créer un brouillon de courrier, définir le sujet, etc). Sur la base de ces constructions apprises, l’assis- tant virtuel a ensuite appris à exécuter des tâches plus complexes, caractérisées par la composition de ces constructions précédemment apprises et les procé- dures correspondantes, avec le passage d’argument entre elles (par exemple, le terme de recherche de Gmail étant passé à Wikipedia, et la définition ré- sultante étant renvoyée à Gmail). Ainsi, il est démontré que les procédures apprises sont utilisées dans une définition récursive ou compositionnelle d’une nouvelle procédure comme « envoyer un courriel à pfdominey@gmail.com au sujet de la programmation avec la définition de python», que l’utilisateur peut expliquer en langage naturel en décomposant dans la procédure « envoyer un courriel», et une autre procédure apprise qui obtient des définitions de Wi-

kipedia. La capacité d’ancrer les commandes dans des actions primitives par

l’observation d’un utilisateur sur son interface graphique, puis la capacité de composer ces commandes purement par le langage illustre comment des mé- canismes récursifs simples pour créer des structures étiquetées fournissent un puissant mécanisme de composition pour spécifier des interactions complexes avec le monde (Goucha, Zaccarella et Friederici 2017).

Nous montrons qu’en prenant une perspective développementale le sys- tème obtenu présente également plusieurs avantages. Cette conception permet d’éviter la nécessité d’une ingénierie des connaissances inhérente à une langue et à un domaine spécifique, tout en offrant une capacité d’apprentissage sub- stantielle. Dans ce contexte, d’autres systèmes offrent la possibilité pour un utilisateur d’enseigner à un assistant virtuel, mais avec l’exigence que l’in- teraction avec différents domaines (e-mail, moteur de recherche, etc.) doit être pré-spécifiée. Le système est plus résilient aux défauts présents dans les phrases de l’utilisateur tels que les mots rares ou spécifiques à un domaine non présents dans le lexique, des mots mal orthographiés ou des entités nommées inconnues. Et enfin l’utilisateur peut obtenir une meilleure appréhension des limites du système. Par l’expérience partagée qu’il a avec son assistant, il connaît les demandes qui seront correctement interprétées. Dans le cas contraire, il a la possibilité d’expliquer comment les réaliser dans le même flux d’interactions. Ceci s’oppose aux systèmes qui rompent l’interaction en exécutant une com- mande par défaut, comme une recherche sur une moteur de recherche.

8.2

Pertinence de l’approche

Sun et al (Sun, Chen et Rudnicky 2016) ont investigué comment des agents virtuels pouvaient assister les utilisateurs à réaliser des actions de haut niveau

Chapitre 8. Discussion et conclusion

comme« help me plan an evening out with my friends » lorsque plusieurs ap- plications distinctes sont impliquées (par exemple : Yelp, OpenTable et Mes- senger). L’utilité de tels agents est que les utilisateurs ont souvent le besoin de réaliser ce genre d’actions complexes mais que la plupart des assistants actuels sont conçus pour être performants dans un domaine spécifique. Notre exemple d’intégration du service Gmail avec Wikipédia, qui reste encore simple, est une première démonstration de ce but. Tandis que le système de Sun nécessite une phase dans laquelle le langage et les actions sont collectés avant que le système ne puisse fournir son rôle premier, notre système permet à l’utilisateur de lier le langage aux actions pendant son utilisation.

Dans le contexte du développement du langage, notre système fait face à un problème similaire à celui de l’enfant humain : la manière dont la relation entre la structure argumentative du langage et la structure des événements liés à une action est apprise. On peut considérer ce point dans le contexte du sys- tème d’analyse perceptuel du sens (PAM) de Mandler. Ce système produit un ensemble de représentations primitives comme des chemins, des déplacements ou des relations spatiales à partir de données sensorimotrices (Mandler 2012). Ces représentations servent de base pour interpréter les événements qui sont observés et sur lesquels le langage s’ancrent et les enrichissent de structures additionnelles (Mandler 2012). D’une façon similaire, notre module Sensor-

Process produit ces représentations primitives (fill, execute, focus et retain) à

partir de l’interaction de l’utilisateur sur une page Web. Ces représentations servent de base au module InterpreterProcess pour créer des constructions grammaticales qui lient ces primitives à la phrase de l’utilisateur. Ainsi, il n’y a pas de représentations pré-programmées sous forme de prédicats au sein du système. La structure argumentative de la phrase est directement liée à la re- présentation des actions résultantes. Cette représentation est une spécification préliminaire de comment la structure argumentative peut émerger.

Pour Tomasello, un point clef de la cognition humain est sa capacité à construire des structures compositionnelles qui peuvent être réutilisées pour construire à nouveaux des structures de plus haut niveau (Tomasello 2009 ; Goucha, Zaccarella et Friederici 2017). La recherche actuelle fait progresser l’état de l’art dans le domaine des assistants intelligents en fournissant une capacité d’apprentissage qui permet de construire une structure composition- nelle labellisée. Il est intéressant de noter que cette capacité a été identifiée comme étant au cœur de la capacité humaine à traiter le langage (Goucha, Zaccarella et Friederici 2017). Ainsi, une méthode a été mise en place pour créer de nouveaux éléments à partir d’éléments existants de façon récursive et où chaque éléments peut être étiqueté. La capacité d’étiqueter ces nouveaux éléments permet de les réutiliser et d’aller et venir entre une représentation interne et un acte de langage (Goucha, Zaccarella et Friederici 2017). La mé- thode employée est simple, mais a permis d’illustrer l’intérêt de cette capacité linguistique humaine pour la conception de système « intelligent ».