Dans le cas qui nous occupe, l’étude d’un corpus permet d’aborder les particularités liées au dialogue, celles liées au dialogue oral et celles liées au dialogue

dans ce cadre (simulation de la situation future). Nous avons ainsi élaboré trois

collectes. La première concerne le corpus-pilote pour du dialogue homme-homme

dans le cadre de la traduction de parole (Nespole!). La deuxième collecte concerne le

corpus-pilote pour du dialogue homme-machine dans le cadre du remplacement de

boite vocale par assistant virtuel (PVE). Enfin, la troisième collecte concerne du

corpus-simulé recueilli par technique de magicien d’Oz décrit plus loin.

1. Corpus-pilote homme-homme pour Homme-Homme :

Nespole!

Durant l'été 2000, nous avons collecté 31 dialogues homme-homme en

français. Nous les avons transcrits ensuite pendant l'automne 2000 avant d'en faire

une annotation en actes, buts illocutoires, stratégie et structure, puis une analyse

stochastique. Nous décrirons dans ce chapitre le protocole suivi et le corpus obtenu.

1.1. Protocole Nespole!

Dans le cadre de cette collecte, nous avons adopté la démarche suivante. La

première étape a consisté en la mise en place d’une plate-forme de test. Cette

plate-forme intègre la connexion à l’agence italienne à travers Internet. Pour cela, nous

avons utilisé NetMeeting

^TM.

Cet outil nous a permis en outre la mise en place d’un

tableau partagé pour l’affichage des pages Internet. L’agent peut ainsi montrer des

pages Internet au client. Enfin, pour l’acquisition du corpus, la plate-forme utilise

TotalRecorder pour enregistrer en stéréo ce que chacun dit. Nous avons enregistré

sur une voie ce que dit le client et sur l’autre ce que dit l’agent. La deuxième étape a

consisté en la traduction du site web italien APT (de l’anglais vers le français). La

troisième étape fut l’élaboration de 6 scénarii qui ont servi à cadrer les dialogues à

recueillir. Dans ceux-ci, un client appelle une agence de tourisme afin d’organiser ses

vacances dans le Trentin (région du Nord-Est italien). Lui sont alors notifiées les

différentes activités qui l’intéressent et divers renseignements à remplir comme ses

dates (ou sa période de vacances), son mode de transport, le nombre de membres de

la famille, etc. S’ensuivent la diffusion de la demande à participation, le recueil des

participations possibles, et la convocation jusqu’au jour de l’enregistrement. Il est à

noter que l’agent est italien mais parle français pour l’occasion. Pour cette phase, on

commence par un accueil du sujet, suivie d’une explication du projet et de la tâche

qui lui sera demandée. Puis on fait quelques tests techniques de calibrage du micro et

de fonctionnement de la plate-forme de test (des tests donc sur l’enregistrement avec

TotalRecorder et sur la transmission avec Netmeeting). On enregistre alors le

dialogue qui durera en 12 et 30 minutes. Lorsque les 31 dialogues sont enregistrés,

on commence une longue phase de transcription consistant en la retranscription par

écrit des dialogues oraux. Nous avons effectué cette transcription, sous traitement de

texte, avec Selma El-Moundi, Solange et Coralie Hollard. Nous l’avons ensuite

vérifiée et validée. Suite à cela, nous avons effectué l’élaboration d’une grille

d’analyse avec Anne-Claire Descalle et Solange Hollard. Cette grille met en relief le

rôle des participants à travers un identificateur de locuteur (A pour Agent, C pour

Client). Elle contient les tours de parole avec un numéro d’intervention puis l’énoncé

prononcé par le locuteur et l’acte de dialogue correspondant, suivi du contenu

propositionnel, du but illocutoire et de la stratégie employée.

Enfin, la structure des dialogues a été représentée à travers les échanges. Une

règle assez simple est que lorsqu’un but est posé, un échange débute, lorsqu’il est

satisfait, l’échange se termine. Différents choix ont dû être faits quant à l’annotation

avec Anne-Claire Descalle. En particulier, suite aux nombreux phatiques (« mm »)

qui coupent l’énoncé en deux et au temps de transfert du signal (environ 1 seconde

en moyenne), nous avons opté pour une reconstruction des énoncés.

Ensuite, pour les actes, l’ouverture (« bonjour ») a été annotée F

car elle

offre la possibilité de continuer ou non, le remerciement (« merci ») a également été

annoté F

car s’il clôt un échange, il offre la possibilité d’en ouvrir un autre. En

revanche la clôture (« au revoir ») a été annotée F car elle incite à clore le dialogue et

raccrocher. Notons que dans le cadre de PVE, le rôle de la machine étant mieux

défini, la clôture de celle-ci (« au revoir » côté machine) a été annoté F

car si elle fait

clore le dialogue, elle laisse toujours la dernière initiative au client.

D’autres actions ont nécessité des choix. C’est le cas des demandes d’envoi

ou d’attente par exemple. Une demande d’envoi (F

(Pouvez-vous m’envoyer une

brochure)) correspond à un F

^fs

mais avec une idée de réalisation d’action. Le but se

réalise par le F

suivant qui sera annoté comme F (F(je vous l’envoie)) même si le

marqueur d’action n’est pas présent (F(oui d’accord)).

Pour la mise en attente (F

(attendez un instant s’il vous plait)), le même choix

a été fait. Mais l’interlocuteur attend parfois sans rien dire (ni « d’accord », F non

marqué linguistiquement, ni « j’attends », F marqué linguistiquement).

A l’opposé, certaines énumérations peuvent prendre plusieurs tours de parole.

Le but est pour nous atteint à la première réponse. Il est ensuite satisfait après le

dernier tour de parole en réponse à ce but.

Enfin, dans le cas d’une répétition ou reformulation de l’expression d’un but,

le premier but a été considéré comme abandonné. Munis de cette grille d’analyse et

des ces choix, Anne-Claire Descalle et moi avons effectué une annotation de ces 31

dialogues. Ces annotations ont permis une analyse fine qui a servi à valider notre

notion d'attentes à travers une approche stochastique que nous aborderons plus loin.

1.2. Description du corpus NESPOLE!

La collecte dans le cadre du projet Nespole! a permis d’enregistrer 191

dialogues monolingues dans différentes langues dont 31 en français. Ces 31

dialogues ont été transcrits puis annotés. Nous avons relevé 4633 actes répartis

comme indiqué dans la description du corpus ci-après (Tableau 14) :

Rôle F F

F

^fd

F

^fs

F

Total

Agent 80 7 69 2 269 165 1672 2264

Client 66 2 23 4 442 115 1717 2369

Dans le document Modélisation des attentes en dialogue oral (Page 107-110)