• Aucun résultat trouvé

Cette recherche prend son origine dan une convention CIFRE (N˚ 320/2007) avec la société Virtuoz, aujourd’hui Nuances. La convention, qui a eu lieu entre 2007 et 2010, nous a permis de contribuer au développement d’une grammaire de dépendances pour

l’espagnol où nous avons pu tester l’architecture formelle nécessaire pour implémenter diverses structures sans verbe.

La société Vituoz / Nunances désigne des agents conversationnels qui, intégrés dans des sites web commerciaux, réalisent la fonction service client à l’aide d’un système de communication chat homme-machine. Le but de cette convention a été d’améliorer les capacités de compréhension des agents en langue espagnole en implémentant les structures des énoncés sans verbe dans la grammaire de dépendances du moteur de dialogue de Virtuoz / Nuances. Le but était ainsi d’élargir la base de données de la grammaire de dépendances créée en 2005-2006 lors de mon stage au sein de la société. L’implémentation des constructions pour les énoncés sans verbe et autres structures dans la grammaire électronique de Virtuoz / Nuances a permis de vérifier l’applicabilité des constructions proposées dans une grammaire électronique avec un emploi commercial, capable d’analyser une grande partie des énoncés des utilisateurs des agents

conversationnels espagnols. Il a été intéressant de noter les différences dans

l’implémentation des phrases sans verbe dans une grammaire syntagmatique comme HPSG, et la grammaire de dépendances de Virtuoz / Nuances, que nous avons exposé en Marchena (2008a). Également, le travail avec des corpus des agents-clients, comme Garnier, a permis d’observer les particularités du langage employé par les utilisateurs lors de leur dialogue homme - machine.

Cette convention a donné lieu à deux communications (Marchena (2008a) et Marchena (2008b)) et trois publications (Marchena (2007a), Marchena (2007b) et Marchena (2012)), qui détaillent divers aspects de la création de la grammaire formelle et de l’intégration des énoncés sans verbe. Premièrement, Marchena (2007a) traite le fonctionnement de l’architecture du système de dialogue, basé sur une grammaire

d’unification sens-texte (Kahane (2002) et Kahane and Lareau (2005)) ; deuxièmement, Marchena (2007b) présente la méthodologie suivie pour le développement des

grammaires, avec une description de la plate-forme de développement, MorphOz.

Troisièmement, Marchena (2008b) expose quelques problèmes d’analyse des énoncés sans verbe qui rencontrent la grammaire de dépendances de Virtuoz / Nuances et propose une analyse et une implémentation des énoncés sans verbe qui ont comme tête un nom déverbal. Quatrièmement, Marchena (2008a) traite certaines différences dans

l’implémentation de quelques aspects particuliers de la grammaire de l’espagnol d’une grammaire syntagmatique (HPSG) et dans la grammaire de dépendances de VirtuOz / nuances, comme l’ordre de mots, les sujets pro-drops et le marquage prépositionnel des COD humaines. Enfin, Marchena (2012) présente des solutions pour l’implémentation de la coordination dans une grammaire de dépendances.

L’implémentation de cette grammaire formelle pour l’espagnol a permis la création d’agents conversationnels espagnol, ce qui a eu comme conséquence la création d’un corpus de dialogue homme - machine. Ce corpus a cependant des propriétés particulières qui le distinguent des corpus de dialogues entre humains. En effet, les productions de l’agent se limitent à un set de réponses qui, sans être petit, se répète à chaque nouvelle conversation. Les réponses de l’humain sont aussi très conditionnées par l’intervention de l’agent. Le corpus résultat met donc en jeu un même dialogue se reproduit des nombreuses fois avec des variantes. En conséquence, nous avons préféré pour la recherche de cette thèse un corpus qui présente des dialogues naturels comme le CORLEC.

La convention CIFRE a permis ainsi d’établir une collaboration productive pour la

recherche de cette thèse et pour le développement des systèmes de dialogue chez Virtuoz / Nuances. Les modèles d’analyse des phrases averbales et des fragments ont pu être testés dans la grammaire électronique de la société, et celle-ci a élargi ses bases de données incrémentant ainsi la couverture de ses analyses et améliorant les capacités de "compréhension" ou de reconnaissance des agents conversationnels.

L’intégration de nouvelles constructions pour ces structures a permis de soulever un nombre de questions pratiques, qui sont externes à la recherche théorique : premièrement,

l’intégration sans régression ; c’est-à-dire, sans que d’autres phénomènes de la grammaire soient affectés par cet ajout dans la grammaire. En effet, l’ajout de nouvelles constructions dans la grammaire peut causer que d’autres phrases soient analysées par la nouvelle construction, générant des analyses indésirables.

Deuxièmement, l’utilité de la nouvelle construction. La grammaire électronique doit assurer un équilibre, et être robuste, pour analyser le plus grand nombre de phénomènes linguistiques, mais aussi rapide, car les analyses sont faites en temps réel pendant le dialogue homme - machine. Pour cela, les constructions doivent couvrir un maximum de phénomènes, tout en évitant celles qui n’analysent que des phénomènes rares, ce qui complexifie la tâche d’implémenter des constructions pour les énoncés sans verbe.

Troisièmement, la cohérence entre les constructions. Puisque l’objectif de cette grammaire électronique est de fournir une même analyse sémantique pour des constructions

syntaxiques différentes avec le même contenu sémantique, il a été nécessaire de prendre en compte les constructions qui analysent d’autres structures qui ont le même contenu que les constructions qu’on veut ajouter dans la grammaire.

Ainsi, cette convention CIFRE a permis d’élargir la grammaire électronique de l’espagnol que nous avions créée lors d’un stage de Master 2, et d’y intégrer un nombre de

phénomènes comme les fragments, les phrases sans verbe, et d’autres en relation avec ceux-ci, comme les SN déverbaux, et la coordination. Cependant, le travail présente dans ce thèse a eu lieu après.

Etat de l’art

2.1

Introduction à l’état de l’art

Cette section présente l’état de l’art de ces trois domaines : l’ellipse, les phrases averbales et les fragments. Le premier présentera les phénomènes suivants, analysés comme elliptiques : gapping, stripping, sluicing, coordination de séquences, et effacement comparatif. Ainsi, nous avons limité l’analyse elliptique à ces phénomènes, et on analyse différemment les phrases averbales et les fragments. La littérature sur le sujet est vaste, et on se limitera ici à décrire ces phénomènes, et à présenter ses propriétés en espagnol tels qu’elles ont été présentés par plusieurs auteurs, comme détaillé par la suite.

Quant aux phrases averbales, on présente les limites, types et propriétés qui ont été traités, en anglais et dans des langues romanes comme le français et l’espagnol. Cette présentation nous permettra de cerner l’extension du phénomène, mais surtout d’expliciter les critères qui permettent de considérer une structure comme phrase averbale.

Quant à l’état de l’art des fragments, la présentation de ces travaux est suivie d’une conclusion critique qui permet de signaler les aspects qui ont servi de point de départ à notre analyse, et qui ont permis de développer la classification présentée dans le chapitre 7.