• Aucun résultat trouvé

État de l’art

1.2 Systèmes de Dialogue Homme-Machine

1.2.1 Structure générale d’un système de dialogue

La gestion d’un dialogue est une tâche complexe mettant en jeu des techniques issues de nombreux sous-domaines duTALN. En effet, un système de dialogue est constitué de plusieurs modules, dont l’agencement communément admis (voir par exemple à cet effetJurafsky et al.

[2008]) est représenté sur la figure 1.1. Nous allons donc les aborder par ordre d’apparition dans la chaîne de traitement.

un module d’acquisition : il s’agit dans un premier temps de capturer la requête langagière émise oralement par l’utilisateur du système en faisant appel à un système de reconnais-sance de la parole. Dans ce domaine, les approches les plus efficaces aujourd’hui sont

Système de reconnaissance de la parole Gestionnaire de dialogue Générateur de réponse en langue naturelle Système de synthèse de la parole Analyseur syntaxico-sémantique Lexique Règles grammaticales Règles sémantiques

Traitement de la parole Traitement de la langue Traitement du discours

Modèle de dialogue Modèle acoustique Modèle de la langue Lexique de reconnaissance

Figure 1.1 Architecture classique d’un système de dialogue homme-machine

fondées sur des méthodes probabilistes [Lamel & Gauvain,2003], qui se fondent sur un apprentissage à partir de corpus2 :

− un corpus de textes : le plus représentatif possible des entrées du système, visant à estimer la fréquence des différentsN-grammes(soit ici les séquences de N mots). Il permet de disposer d’un modèle de la langue.

− un corpus de parole : dont la transcription manuelle permet de l’associer aux fréquences observées sur le corpus de textes, et où l’extraction d’éléments acous-tiques spécifiques suite à l’analyse du signal sert d’entrée à un système d’apprentis-sage, classiquement à base de modèle de Markov caché (ou Hidden Markov Model

(HMM)). On obtient ainsi un modèle acoustique.

Le principe de décodage consiste alors à confronter le signal analysé en entrée aux deux modèles ainsi construits et au lexique faisant le lien entre les deux, afin de déterminer la séquence de mots correspondante la plus probable. La difficulté principale est alors liée à l’optimisation de la recherche dans le large espace formé par les deux modèles. un module d’analyse syntaxique et sémantique : en se basant sur diverses ressources

linguistiques (lexique de mots utilisés, règles pour l’analyse grammaticale de la phrase, règles de désambiguisations pour associer le sens exact à chaque mot ou locution) qui peuvent être génériques ou adaptées aux particularités du système de dialogue, ce module produit une représentation structurée de l’énoncé fourni en entrée. Les techniques mises en œuvre ici seront détaillées dans la section1.2.2.

un module de gestion du dialogue : en resituant l’énoncé dans le contexte des échanges précédents, éventuellement par rapport à la tâche en cours d’accomplissement (s’il s’agit d’un dialogue orienté tâche), et en utilisant un certain nombre de règles conversation-nelles plus ou moins générales, le système prend une décision et produit un énoncé formel

2Les intérêts de l’approche corpus seront discutés en détail dans le cadre du chapitre3, lorsque nous y aurons

de réponse définissant le contenu sémantique devant être exprimé dans celui-ci (i.e. ce qu’on veut dire) : on parle de macroplanification. Ce point sera abordé de manière plus complète dans la section1.2.3.

un module de génération de réponse : à partir de la représentation formelle et structu-rée de la réponse (généralement sous forme d’arbre), trois autres étapes, représentées sur la figure1.2, sont communément admises comme nécessaires pour produire automa-tiquement un énoncé correct en langue naturelle [Bateman & Zock,2003] :

1. la microplanification : alors que la macroplanification a déterminé préalablement les actes de dialogue (ce qu’il faut dire), il s’agit ici de choisir les éléments détaillant l’organisation interne de la phrase (comment le dire) [Levelt, 1989]. Cette étape s’intéresse donc à la gestion des références, à l’agrégation des éléments redondants en leur substituant des anaphores, et à la lexicalisation en choisissant les mots appropriés pour exprimer chaque notion.

2. la réalisation de surface : qui gère l’application des règles de grammaire en termes de choix de constructions, mais aussi d’accords des différents éléments entre eux et s’occupe par ailleurs de l’ajout de prépositions.

3. la présentation physique : finalement en charge de la coarticulation des phrases et de l’ajout de la ponctuation ; dans le cas d’un système de dialogue oral, cette étape peut aussi servir à l’ajout d’indicateurs prosodiques, la prosodie pouvant aussi être porteuse de sens, en insistant par exemple sur la prononciation de certains mots que l’on souhaite souligner [Walker & Rambow,2002]. Cette étape n’est toutefois pas indispensable dans un système de dialogue où les réponses demeurent bien souvent relativement courtes, et n’est en outre pas considérée comme indépendante par tous les auteurs [Hovy,2000].

Notons que cette tâche de génération de réponse peut être substantiellement simpli-fiée lorsque l’on travaille dans un domaine restreint permettant l’usage d’un langage

contrôlé, comme l’ont montréDanlos et al. [2000].

Macro-planification Micro-planification Réalisation de surface Présentation physique

Que dire ? Comment le dire ? Le dire

Vers TTS plan de contenu plan de phrase phrase spécifiée texte écrit formaté

Figure 1.2 Architecture classique d’un système de génération de langue naturelle

un module de synthèse de réponse : ou Text-To-Speech (TTS), reçoit en entrée une ou plusieurs phrases, correctes d’un point de vue sémantique (si le gestionnaire de dialogue a bien fonctionné) et syntaxique (si le générateur de réponse a fait de même) qui doivent être vocalisées. Typiquement, d’aprèsDutoit & Stylianou[2003], ce module est lui-même constitué par :

1. un préprocesseur : pour transformer tout nombre ou symbole dans le texte équi-valent et déterminer les limites des phrases. Par exemple, “Le prix est de 42 e” deviendra “Le prix est de quarante-deux euros”.

2. unanalyseur morphosyntaxique : dans la mesure où lorsqu’un mot a plusieurs

naturespossibles, celle-ci peut avoir un impact sur sa prononciation. Ainsi, le nom

“couvent” (/ku.v˜A/) ne se prononce pas comme le verbe “couver” conjugué à la troisième personne du pluriel (/kuv/).

3. un phonétiseur : chargé d’associer à chaque morphème le phonème correspondant (par exemple /k/, /u/, /v/ ou /˜A/), généralement en utilisant conjointement des lexiques de morphèmes voire de mots et des règles de transcription graphème vers phonème, en donnant la priorité à l’un ou à l’autre.

4. un générateur de prosodie : qui modifie l’ensemble de phonèmes produit précédem-ment de manière à adapter l’accentuation, la hauteur ou la longueur de certaines syllabes en fonction de l’utilisation conjointe de certains mots ou de la ponctuation (le ton montant par exemple à la fin d’une question).

5. un synthétiseur vocal : générant le signal audio à proprement parler, soit en utilisant un certain nombre de règles pour simuler la formation de sons dans les cavités vocales ou produites par l’articulation, soit en concaténant de manière particulière des unités acoustiques enregistrées auprès d’un locuteur humain (ce qui procure généralement un caractère moins mécanique au rendu de la voix ainsi produit).

Le premier étage du système n’est utile que si l’on s’intéresse à un dialogue oral (à la fois en entrée et en sortie), ce qui est le cas de la plupart des exemples de systèmes de SDHM. Si l’on considère une interaction langagière de type dialogue mais par écrit, cette étape devient inutile : en entrée, la requête est recueillie via un simple champ texte où l’utilisateur tape sa requête au clavier et il faut donc lui substituer un système de correction orthographique qui fournira idéalement, comme le module d’acquisition, une phrase correcte en langue naturelle. En sortie, il suffit d’afficher à l’écran la requête en langue naturelle normalement transmise au système de synthèse vocale.

Dans le cadre de cette thèse, nous nous sommes restreints à la modalité écrite en entrée et en sortie ; même si l’on ne s’interdit pas d’utiliser un outil de synthèse vocale en complément de la réponse écrite en sortie, il s’agit ici d’un simple aspect technologique et non pas d’une question scientifique. À ce titre, nous nous proposons de développer ici uniquement l’étude du fonctionnement des modules d’analyse grammaticale (cf. section 1.2.2) et de gestion du dialogue (cf. section1.2.3). La problématique de la génération de réponse ne sera donc traitée qu’au niveau de la macroplanification, sans se préoccuper particulièrement de la génération automatique de phrases grammaticalement correctes. Cette focalisation sur ces deux modules nous servira également de grille d’analyse pour l’étude d’exemples de systèmes existants menée dans la section1.2.4.