5.2 Récolte et traitement du corpus
5.2.3 Le corpus RITEL
RITEL est un projet du LIMSI qui a pour but de réaliser un système de dialogue Homme-Machine, permettant d’interroger oralement une base de donnée, via un sys-tème de recherche d’information généraliste [Galibertet al., 2005]. Le système pourra
- Didier Bezace , alors , dans votre théâtre de la Commune , vous mettez actuellement en scène deux pièces :
- oui
- "Chère Éléna Serguéfné... - oh ! Serguéiévna
- Serguéiévna ! je savais que j’allais buter là-dessus ! Serguéiévna - et encore (il) y a le nom de l’auteur qui est pire
- on en parlera tout à l’heure , justement . - c’est un texte contemporain euh russe
- euh donc ce sera pour la deuxième partie de l’émission oui absolument euh spécial patinage pour moi hmm hmmmm
- et puis seconde pièce que vous mettez en scène , "le square" de de Marguerite Duras
- un texte finalement assez peu connu de cet auteur qui a marqué la fin du vingtième siècle oui oui - euh Duras pour vous euh c’est à la fois une première fois et et pas tout à fait
- non , pas tout à fait oui .
- pas tout à fait une première (en)fin le le le projet de monter "le square" est très ancien pour moi ; c’est un texte que qui m’a toujours tenu à cœur et qui m’a toujours euh paru important je dirais que c’est pour moi un texte du du de la littérature du vingtième siècle qui est très important et euh le projet a été remis pour un tas de raisons et puis voilà i(l)... sort maintenant comme ça arrive souvent alors effectivement euh j’ai j’ai adapté et mis en scène euh (il) y a je sais pas combien de temps une dizaine d’années ou peut-être un peu plus
- en 92
- en 92 voilà bon euh voilà merci de me le rappeler euh... des conversations entre euh Marguerite Du-ras et... François Mitterrand qui avaient été publiées dans "l’Autre journal" et euh ce spectacle s’appelait "Marguerite et le président " euh il a eu beaucoup de succès et a été peu joué parce que il avait comme particularité que Marguerite était jouée par une petite fille de douze ans elle l’a vue , elle , Marguerite, ce spectacle , dont elle était très très amoureuse et euh et à partir de là euh j’ai su qu’un jour je ferai "le square" , voilà
5.2. Récolte et traitement du corpus
a non
actuellement en scène deux pièces oh
alors on en
ce spectacle ou
c’est un texte oui
c’est un texte que qui oui absolument euh spécial
dans parce que il avait comme
dans votre théâtre de la par une petite fille de douze ans elle
de de pas tout à fait oui
de raisons et puis voilà pas tout à fait une première
des pièce que vous
dont elle était très très pour moi hmm
elle pour un
en pour vous euh c’est à la fois une première fois et et
pas tout à fait
en scène que
entre euh qui avaient été
est très ancien pour moi qui est pire
était qu’un jour je
et encore sort maintenant comme ça arrive souvent alors ef-fectivement euh
et euh ce spectacle toujours euh paru important je dirais que c’est pour moi un texte du du de la littérature du ving-tième siècle qui est très important et euh le projet a été
et euh et à partir de là euh toujours tenu à cœur et qui
et le président tout à l’heure
et mis en scène euh un peu plus
et puis un texte finalement assez peu connu de cet auteur
qui a marqué la fin du vingtième siècle oui oui
euh voilà
euh donc ce sera pour la deuxième partie de voilà bon euh voilà merci de me le euh il a eu beaucoup de succès et a été peu vous
je vue
justement y a je sais pas combien de temps une
le le le projet de monter y a le nom de
Fusion Concepts Corpus d’apprentissage sémantique Classes Corpus d’apprentissage du classifieur Site Web - FAQ
Données propres au domaine Corpus RITEL (Q/R) Corpus EPAC (Dialogues) Données hors-domaine Filtrage textuel Corpus d’apprentissage Pour la RAP Modèle Conceptuel Modèle de Classification Modèle de Langage Corpus WEB
FIG.5.2: Vue d’ensemble du système d’extraction des données d’apprentissage du système.
interagir avec l’utilisateur afin d’affiner ou de préciser la recherche (Extrait du corpus dans le tableau5.6).
Le corpus issu de ce projet est composé de questions et de réponses. Les questions, une fois extraites du corpus, vont composer le nouveau corpus issu du corpus ori-ginel RITEL. Ce nouveau corpus contient les informations de formulation des ques-tions. C’est cette notion de formulation de questions qui a retenu notre attention. En effet, notre système de routage d’appel est voué à utiliser les questions des utilisateurs pour caractériser les appels. Nous avons donc besoin d’informations linguistiques spé-cifiques aux questions, chose que ce corpus nous apporte.
5.2.4 Création du corpus d’apprentissage à partir des corpus à disposition
La création du corpus d’apprentissage est le résultat d’un mélange des trois corpus décrits précédemment. Ce mélange ne se fait pas au hasard, nous utilisons la mesure de la perplexité du modèle de langage issu du mélange de corpus. Afin d’aller au plus simple et au plus rapide, nous avons concaténé les trois corpus et avons extrait le mo-dèle de langage pour le système de RAP. Nous pouvons voir, dans le tableau5.8, les résultats de cette perplexité sur la transcription manuelle de notre corpus de test. Il est couramment admis qu’une perplexité en dessous de 100 points est considérée comme bonne.