• Aucun résultat trouvé

CHAPITRE 4. SYSTEME DE DETECTION AUTOMATIQUE DE QUESTIONS

4.3. M ODELE LEXICAL

4.3.1. Modèle lexical développé pour le corpus en français

Le modèle lexical a pour but de modéliser la présence de termes ou d’expressions interrogatifs.

La position de ces termes interrogatifs est aussi importante pour pouvoir déterminer si la phrase est de type interrogatif ou non. La présence et la position de termes interrogatifs sont des bons indices lexicaux pour la détection de question. Le terme « qui » par exemple, quand il se trouve au début de la phrase comme « Qui est le Président de la France ? », signale que la phrase est une question ; quand il se trouve au milieu de la phrase comme « C’est Mr Jacques Chirac qui est le président de la France », il n’est plus un terme interrogatif. C’est pourquoi au niveau des paramètres du modèle, nous avons créé les paramètres qui visent à capturer la présence ainsi que la position des mots interrogatifs dans la phrase. Les paramètres peuvent se diviser en 3 groupes en fonction de leur signification :

• 1er groupe : les paramètres dans ce groupe visent à détecter si certains termes interrogatifs suivants sont présentés au début de la phrase : "pourquoi" ; "qui" ; "quand"

; "pour quand" ; "comment" ; "combien" ; "pour combien" ; "de combien" ; "où" ;

"quel" ; "quelle" ; "quels" ; "quelles" ; "de quel" ; "lequel" ; "laquelle" ; "lesquels" ;

"lesquelles" ; "jusqu'où". Il est fort probable que la phrase est une question si ces termes interrogatifs sont présents au début de la phrase.

• 2ème groupe : les paramètres dans ce groupe visent à détecter si certains termes et expressions de demande suivants sont présents dans la phrase : "je voudrais savoir" ;

"j'aimerais savoir" ; "j'voudrais savoir" ; "j'aimerais vous demander" ; "je voudrais vous demander" ; "j'voudrais vous demander" ; "je voudrais vous d'mander" ; "j'voudrais vous d'mander" ; "est-ce que" ; "est-ce qu'il" ; "est-ce qu'elle" ; "est-ce qu'ils" ; "est-ce qu'elles" ; "qu'est-ce que" ; "qu'est-ce qu'il" ; "qu'est-ce qu'elle" ; "qu'est-ce qu'ils" ;

"qu'est-ce qu'elles" ; "qu'est qui" ; si ces expressions de demande se présentent dans la phrase, alors la phrase a une forte probabilité d’être une question.

• 3ème groupe : les paramètres dans ce groupe visent à détecter si certains termes interrogatifs suivants sont présentés à la fin de la phrase : "n'est-ce pas" ; "pardon" ;

"ah bon" ; "qui" ; "quand" ; "pour quand" ; "comment" ; "combien" ; "pour combien" ;

"de" ; "combien" ; "où" ; "en quoi" ; "pourquoi" ; "allô" ; "c'est clair" ; "ça va" ; "c'est bon" ; "c'est tout bon" ; "c'est ça" ; "c'est bien ça" ; "non" ; "ou pas" ; "mhm" ; "hein" ;

"d'accord" ; "alors" ; Lors de la présence de ces termes interrogatifs à la fin de la phrase, la phrase a une forte probabilité d’être une question.

No Nom du paramètre Description

1 OneWordBefore_pourquoi Le mot avant le terme pourquoi dans la phrase

2 TwoWordBefore_pourquoi Les deux mots avant le terme pourquoi dans la phrase

3 OneWordBefore_qui Le mot avant le terme qui dans la phrase

Tableau 25 : Exemple des paramètres lexicaux pour le corpus en langue française Ces termes interrogatifs et ces expressions de demande ont été présentés en détail dans le 3.1. Ils comprennent les termes comme par exemple "Allô" ; "Mhm" ; "Hein"… qui sont trouvés dans notre corpus. Ensuite, la liste de ces termes a été complétée et enrichie avec des termes présentés dans la thèse de Natalie Colineau [Colineau, 1997]. Cette thèse, réalisée aussi au sein du laboratoire CLIPS, porte sur l’étude des marqueurs discursifs (dont les marques interrogatives)

Chapitre 4 : Système de détection automatique de question 77

dans le dialogue finalisé. Dans cette thèse, une liste exhaustive des termes interrogatifs est présentée.

Nous avons alors au total 71 paramètres lexicaux associés chacun à un terme interrogatif dans les 3 groupes. Quelques paramètres sont présentés dans le Tableau 25, la liste complète se trouve en annexe C.1.

Pour représenter la position du début ou de la fin de phrase, la phrase est mise entre deux balises spéciales : START et END. Cette étape de balisage est appliquée sur toutes les phrases avant l’entrée du système de classification.

Afin de clarifier la signification des paramètres, examinons les exemples suivants. Supposons qu’il y a un exemple d’une phrase « qui va jouer le rôle ? » qui est une question. Si la phrase est obtenue à la sortie d’un simple système de reconnaissance de parole, il y a donc pas de point d’interrogation « ? ». Après le balisage, nous avons :

START qui va jouer le rôle END

Dans l’étape d’extraction des paramètres pour ce cas, le paramètre « OneWordBefore_qui » aura la valeur de « START » qui signifie que le terme interrogatif « qui » est présent et se trouve au début de la phrase, les autres paramètres auront tous une valeur spéciale « N/A » abbréviation de

« NotAvaillable » qui signifient que les autres termes interrogatifs correspondant à ces paramètres ne sont pas présentés dans cette phrase. De cette façon, les paramètres peuvent encoder à la fois la présence et la position d’un terme interrogatif dans la phrase.

Regardons maintenant un autre exemple d’une phrase nonquestion : « oui c'est vrai il y avait ça aussi », après le balisage, la phrase sera :

START oui c'est vrai il y avait ça aussi END

Pour cette phrase, aucun des 71 paramètres ci-dessus ne peut donner une valeur. Ils sont alors tous assignés à « N/A ». Cela veut dire qu’il y a aucun terme interrogatif, ni expression de demande présentés dans la phrase.

De cette manière, les paramètres du modèle lexical discutés ci-dessus peuvent satisfaire les objectifs fixés : modéliser les indices pertinents pour la reconnaissance d’une phrase question en capturant la présence et la position des termes interrogatifs et les expressions de demande si ces derniers sont présents dans la phrase. En raison d’un grand nombre de termes interrogatifs et/ou expressions de demande dont la langue française dispose, les paramètres lexicaux sont proportionellement nombreux (jusqu’à 71 paramètres) afin de pouvoir couvrir le maximum possible des formes de phrases de type question. La liste complète se trouve en annexe C.1.

Nous avons calculé ces paramètres lexicaux pour chaque phrase dans le corpus. Ces paramètres sont ensuite utilisés pour construire le modèle lexical qui est aussi sous forme d’un arbre de décision. Dans le 5.2.4, section 5.2.4.1 nous allons voir en détail l’efficacité de ce modèle lexical.