• Aucun résultat trouvé

5.2 Récolte et traitement du corpus

5.2.3 Le corpus RITEL

RITEL est un projet du LIMSI qui a pour but de réaliser un système de dialogue Homme-Machine, permettant d’interroger oralement une base de donnée, via un sys-tème de recherche d’information généraliste [Galibertet al., 2005]. Le système pourra

- Didier Bezace , alors , dans votre théâtre de la Commune , vous mettez actuellement en scène deux pièces :

- oui

- "Chère Éléna Serguéfné... - oh ! Serguéiévna

- Serguéiévna ! je savais que j’allais buter là-dessus ! Serguéiévna - et encore (il) y a le nom de l’auteur qui est pire

- on en parlera tout à l’heure , justement . - c’est un texte contemporain euh russe

- euh donc ce sera pour la deuxième partie de l’émission oui absolument euh spécial patinage pour moi hmm hmmmm

- et puis seconde pièce que vous mettez en scène , "le square" de de Marguerite Duras

- un texte finalement assez peu connu de cet auteur qui a marqué la fin du vingtième siècle oui oui - euh Duras pour vous euh c’est à la fois une première fois et et pas tout à fait

- non , pas tout à fait oui .

- pas tout à fait une première (en)fin le le le projet de monter "le square" est très ancien pour moi ; c’est un texte que qui m’a toujours tenu à cœur et qui m’a toujours euh paru important je dirais que c’est pour moi un texte du du de la littérature du vingtième siècle qui est très important et euh le projet a été remis pour un tas de raisons et puis voilà i(l)... sort maintenant comme ça arrive souvent alors effectivement euh j’ai j’ai adapté et mis en scène euh (il) y a je sais pas combien de temps une dizaine d’années ou peut-être un peu plus

- en 92

- en 92 voilà bon euh voilà merci de me le rappeler euh... des conversations entre euh Marguerite Du-ras et... François Mitterrand qui avaient été publiées dans "l’Autre journal" et euh ce spectacle s’appelait "Marguerite et le président " euh il a eu beaucoup de succès et a été peu joué parce que il avait comme particularité que Marguerite était jouée par une petite fille de douze ans elle l’a vue , elle , Marguerite, ce spectacle , dont elle était très très amoureuse et euh et à partir de là euh j’ai su qu’un jour je ferai "le square" , voilà

5.2. Récolte et traitement du corpus

a non

actuellement en scène deux pièces oh

alors on en

ce spectacle ou

c’est un texte oui

c’est un texte que qui oui absolument euh spécial

dans parce que il avait comme

dans votre théâtre de la par une petite fille de douze ans elle

de de pas tout à fait oui

de raisons et puis voilà pas tout à fait une première

des pièce que vous

dont elle était très très pour moi hmm

elle pour un

en pour vous euh c’est à la fois une première fois et et

pas tout à fait

en scène que

entre euh qui avaient été

est très ancien pour moi qui est pire

était qu’un jour je

et encore sort maintenant comme ça arrive souvent alors ef-fectivement euh

et euh ce spectacle toujours euh paru important je dirais que c’est pour moi un texte du du de la littérature du ving-tième siècle qui est très important et euh le projet a été

et euh et à partir de là euh toujours tenu à cœur et qui

et le président tout à l’heure

et mis en scène euh un peu plus

et puis un texte finalement assez peu connu de cet auteur

qui a marqué la fin du vingtième siècle oui oui

euh voilà

euh donc ce sera pour la deuxième partie de voilà bon euh voilà merci de me le euh il a eu beaucoup de succès et a été peu vous

je vue

justement y a je sais pas combien de temps une

le le le projet de monter y a le nom de

Fusion Concepts Corpus d’apprentissage sémantique Classes Corpus d’apprentissage du classifieur Site Web - FAQ

Données propres au domaine Corpus RITEL (Q/R) Corpus EPAC (Dialogues) Données hors-domaine Filtrage textuel Corpus d’apprentissage Pour la RAP Modèle Conceptuel Modèle de Classification Modèle de Langage Corpus WEB

FIG.5.2: Vue d’ensemble du système d’extraction des données d’apprentissage du système.

interagir avec l’utilisateur afin d’affiner ou de préciser la recherche (Extrait du corpus dans le tableau5.6).

Le corpus issu de ce projet est composé de questions et de réponses. Les questions, une fois extraites du corpus, vont composer le nouveau corpus issu du corpus ori-ginel RITEL. Ce nouveau corpus contient les informations de formulation des ques-tions. C’est cette notion de formulation de questions qui a retenu notre attention. En effet, notre système de routage d’appel est voué à utiliser les questions des utilisateurs pour caractériser les appels. Nous avons donc besoin d’informations linguistiques spé-cifiques aux questions, chose que ce corpus nous apporte.

5.2.4 Création du corpus d’apprentissage à partir des corpus à disposition

La création du corpus d’apprentissage est le résultat d’un mélange des trois corpus décrits précédemment. Ce mélange ne se fait pas au hasard, nous utilisons la mesure de la perplexité du modèle de langage issu du mélange de corpus. Afin d’aller au plus simple et au plus rapide, nous avons concaténé les trois corpus et avons extrait le mo-dèle de langage pour le système de RAP. Nous pouvons voir, dans le tableau5.8, les résultats de cette perplexité sur la transcription manuelle de notre corpus de test. Il est couramment admis qu’une perplexité en dessous de 100 points est considérée comme bonne.