• Aucun résultat trouvé

2.4 Approches pour la compréhension de la parole

2.4.1 Approches linguistiques

Les approches linguistiques pour la compréhension de la parole sont fondées sur une analyse syntaxique et/ou sémantique de la phrase à étiqueter. En général cette ap-proche associe à chaque mot tous ses sens possibles et ensuite garde l’hypothèse qui donne un sens cohérent pour la totalité de la phrase. Cette approche, telle que décrite par (Allen, 1987) permet de construire l’arbre sémantique associé à une phrase don-née en utilisant la logique du domaine. La FIGURE2.2présente un exemple de l’arbre sémantique de la phrase "je voudrais réserver un hôtel à Paris le 5 juin”.

Ce formalisme est basé sur un ensemble de catégories caractérisées par une fonc-tion et un argument. Dans l’exemple précédent, la catégorie “ville” a la foncfonc-tion “à” et l’argument “Paris”.

Chomsky (Chomsky, 1957, 1959) a été un des premiers à tenter de représenter la langue de cette manière en utilisant des grammaires dites “formelles” (formal gram-mars). Ces grammaires permettent d’analyser une langue donnée en utilisant un

tel-00818970, version 1 - 30 Apr 2013

2.4. Approches pour la compréhension de la parole

FIGURE2.2 –Arbre sémantique associé à la phrase "je voudrais réserver un hôtel à Paris le 5 Juin”.

nombre fini de règles qui représentent les différentes associations possibles des mots de cette langue. Les grammaires formelles sont classées par Chomsky et Schützenber-ger (Chomsky and SchützenberSchützenber-ger,1963) selon leur expressivité en 4 types : les gram-maires non restreintes (unrestricted grammars), les gramgram-maires contextuelles (context-sensitive grammars), les grammaires algébriques hors contexte (context-free grammars) et enfin les grammaires régulières (regular grammars). Les grammaires non restreintes n’imposent aucune contrainte alors que les autres types de grammaires sont de plus en plus restrictives.

Malgré le fait que les grammaires hors contexte soient les plus utilisées dans les approches linguistiques du traitement automatique des langues, ces grammaires res-tent incapables de modéliser le langage naturel d’une manière fine et correcte. C’est pourquoi Woods (Woods, 1970) a proposé d’utiliser des grammaires à base de ré-seaux de transitions augmentées (Augmented Transition Network Grammars, ATNG) pour mieux modéliser le langage naturel. Ces grammaires représentent une combinai-son entre les connaissances sémantiques sensibles au contexte et les informations syn-taxiques.

Dans le contexte de dialogues nous avons affaire à de la parole et donc à des phrases spontanées qui ont leurs spécificités (répétition, hésitation, reprise, ...) et donc ce sont souvent des phrases agrammaticales. Pour faire face à ce genre de phrase, des grammaires basées sur les aspects sémantiques ont été proposées telles que les gram-maires de cas (Case Grammar) aussi appelées “cadres sémantiques” (Fillmore,1985).

Ces grammaires sont basées sur un ensemble de cas qui représentent les relations entre un verbe et ses composants nominaux. Selon (Bruce,1975), un cas est une relation entre un verbe et un de ses arguments. L’ensemble de cas qui couvre une langue donnée peut être nommée “une grammaire de cas”.

Dans le cadre de la compréhension de la parole, les approches par grammaire de cas peuvent être utilisées pour fournir un support sémantique lors de l’analyse de ces phrases. Le sens d’un énoncé est déterminé par une analyse de cas qui détermine le sens de la requête. Plusieurs travaux ont appliqué les grammaires de cas dans le cadre de systèmes de dialogue (Matrouf et al.,1989;Lamel et al.,1999;Bennacef et al.,1996;

tel-00818970, version 1 - 30 Apr 2013

CASEFRAME : flight-time

KEYWORDS : vol, voyager, aller, partir from : (quitte, de)@city

to : (à, pour, vers)@city

torelative-departure-time : (partir+)avant, après departure-time : (partir+)@hour-minute

CASEFRAME : @city

{city : dallas, boston, atlanta, ...}

CASEFRAME : @hour-minute {...}

TABLE2.2 –Exemple de cadre sémantique pour la tâche ATIS.

Villaneau et al.,2004). Le tableau2.2donne un exemple de grammaire de cas pour la tâche ATIS en français (Bennacef et al.,1994).

Dans le tableau 2.2 nous observons trois cadres sémantiques. Le premier (flight-time) est associé à plusieurs éléments (from, to, torelative-time, departure-time). Chaque élément est associé à un ou plusieurs attributs. Ces attributs ont des valeurs définies (avant, après) ou sont associés à un autre cadre (@city).

D’autres modèles de représentation de l’information sont les réseaux sémantiques proposés par (Quillian,1968). Un réseau sémantique est un graphe dont les sommets représentent des concepts sémantiques et les arcs représentent les relations entre ces concepts.

Les grammaires formelles ont évolué vers des grammaires stochastiques pour pren-dre en compte l’ambigüité d’analyse liée aux spécificités de la parole. Une grammaire hors contexte probabiliste peut donc estimer la probabilité d’une analyse en se basant sur un corpus d’apprentissage. Un exemple de ces grammaires est l’analyseur linguis-tique TINA développé à l’institut de technologie du Massachussetts (MIT) (Seneff, 1989). Cet analyseur utilise une grammaire hors contexte transformée de façon auto-matique en un automate portant des probabilités sur les arcs, permettant d’avantager les constructions les plus courantes.

Les approches linguistiques pour la compréhension de la parole sont limitées par la structure des messages de l’utilisateur. Ces messages sont souvent agrammaticaux ou inachevés et donc une partie importante de l’information contenue dans ces mes-sages est perdue dans l’analyse linguistique. En plus, les systèmes de reconnaissance de la parole génèrent un nombre important d’erreurs sur les messages de parole ce qui encourage le passage aux approches stochastiques qui peuvent être plus robustes aux erreurs de transcription et s’adaptent mieux aux spécificités de l’oral.

tel-00818970, version 1 - 30 Apr 2013

2.4. Approches pour la compréhension de la parole