• Aucun résultat trouvé

le corpus Daft

3.1 L’approche corpus pour le dialogue

3.1.2 Panorama de corpus existants

L’un des principaux problèmes rencontrés dans la linguistique de corpus est la difficulté d’accès aux corpus eux-mêmes. Comme on l’a vu dans la section 3.1.1, ils constituent une ressource précieuse pour le développement d’outils de TALN. Ainsi, l’association European

Language Ressources Association (ELRA)1qui vise à recenser, rassembler et diffuser différents

corpus commercialisés via Evaluations and Language resources Distribution Agency (ELDA)

recense, à la mi-2009, 610 corpus écrits (toutes tailles, types et langues confondus). On peut en distinguer quelques-uns en particulier, réunis dans la table3.1.

3.1.2.1 Quelques corpus historiques

Historiquement, le premier corpus assemblé en vue d’être étudié de manière statistique en TALN est le corpus Brown [Francis, 1964; Kučera & Francis, 1967], recueilli à l’univer-sité éponyme entre 1963 et 1964, réunissant 500 textes pour un total d’un million de mots issus de genre différents (journaux, romans, textes scientifiques. . . ) et dont le seul point com-mun est leur date de publication (1961), afin d’offrir un panel des usages de l’anglo-américain à un instant donné. Son pendant dans le cadre de la langue parlée est le corpus Sankoff-Cedergren [Sankoff & Sankoff, 1973], recueilli à Montréal en 1971 dans le cadre d’entrevues

semi-dirigées avec 120 locuteurs de langue française. Bien que ce corpus ou son successeur recueilli dans des conditions similaires en 1984 [Thibault & Vincent, 1990] pourraient être considérés comme des corpus de dialogue (dans la mesure où ils contiennent les interventions de l’interviewer et de l’interviewé), c’était l’aspect lexicographique qui intéressait alors les chercheurs l’ayant recueilli. Le développement de l’exploitation des corpus pour les outils de TALN à partir des années 90 a stimulé le recueil de corpus généralistes de très grande taille, toujours essentiellement de langue anglaise, qu’ils soient de taille fixe comme le British

Na-tional Corpus (BNC)ou l’Oxford English Corpus (OEC)– le plus important à ce jour avec 2

milliards de mots – ou enrichis de manière régulière à la manière duCorpus of Contemporary

American English (COCA)composé de façon à pouvoir suivre l’évolution de la langue au cours

des années. En français, l’un des plus conséquents corpus généraliste est MULTITAG [ Parou-bek, 2000], qui présente en outre la particularité d’être historiquement lui-même issu d’une campagne d’évaluation d’étiqueteurs morphosyntaxiques[Adda et al. ,1999].

3.1.2.2 Corpus de dialogues orientés tâches

Si l’on s’intéresse plus particulièrement aux corpus contenant des interactions ou dialogues plus proches du cadre de cette thèse et donc davantage susceptibles de nous intéresser ici, il faut attendre les travaux de Allen et al. [1995] sur le système TRAINS pour trouver un exemple pionnier de corpus recueilli en vue de la conception d’unSDHM. Il s’agit d’un corpus de dialogues oraux entre deux humains (un utilisateur ayant une tâche à accomplir et un assistant) qui ont permis de construire un système d’analyse linguistique, de planification et de raisonnement dans le cadre de dialogues visant à planifier le transport de marchandises d’un point à un autre par voie ferrée. Dans la mesure où les dialogues n’étaient ni des entrevues comme dans Sankoff & Sankoff [1973], ni des conversations de la vie quotidienne mais des dialogues entre deux humains visant à l’accomplissement d’une tâche déterminée, on qualifiera plus simplement par la suite ce type de corpus comme étant “orienté tâche”. Ce sont aussi ceux qui se rapprochent le plus du cadre de la fonction d’assistance, où le dialogue engagé entre l’utilisateur novice et l’agent assistant a pour objectif l’accomplissement d’une tâche par l’usager au sein de l’application. Le tableau 3.2 résume quelques caractéristiques des principaux corpus librement accessibles2 de ce type que nous avons pu recenser.

Air France, SNCF et CIO, recueillis à la fin des années 80 par Morel [1989] visent également à réaliser un système de dialogue automatique devant se substituer à l’opérateur humain dans des tâches relativement bien circonscrites (réservation de billets et exposé d’options d’orientations disponibles). Ils contiennent d’ailleurs à la fois des interactions entre humains, recueillies a priori pour la réalisation du système, et des interactions homme-machine a posteriori, une fois le système réalisé. Le corpus GOCAD de Chapelier et al. [1995] contient lui uniquement le recueil d’interactions orales entre des utilisateurs et un système d’agent assistant guidant des utilisateurs d’un logiciel de modélisation de surface dans la réalisation

Nom Taille

Mo

dalité

Langue Genre

Origine

Brown 500 textes,1 million de mots

E AA Gén

Textes divers publiés aux États-Unis en 1961 [Francis,1964;Kučera & Francis,1967]

Sankoff-Cedergren 120 entrevues O F Q/R

Entrevues réalisées à Montréal en 1971

[Sankoff & Sankoff,1973] BNCa (British National Corpus) 100 millions de mots E & O (90/10) AB Gén

Textes (romans, journaux, rapports, lettres. . . ) et interventions orales (non scriptées, dans des situations formelles ou informelles), recueillis de 1991 à 1994 COCAb (Corpus of Contemporary American English) 150 000 textes, 385 millions de mots (en 2009) E & O (80/20) AA Gén

Enrichi de 20 millions de mots par an depuis 1990.

Divisé en 5 catégories : oral, fiction, magazines, journaux, revues scientifiques ICEc (International Corpus of English) 1 million de mots (500 textes de 2 000 mots) E & 0 (40/60) A Gén

Majoritairement issu de données orales,

recueilli depuis 1989 dans les pays dont l’anglais est une des langues officielles

Oxford English Corpusd

2 milliards de

mots E A Gén

Sources extrêmement variées (journaux, romans, sites Web, chat. . . ) avec enregistrement de méta-informations pour chaque document de la base (XML) MULTITAG 1 million demots E F Gén

Extraits du journal “Le Monde” et textes littéraires du XVeau XXesiècle, annotés en termes de POS [Paroubek,2000] Switchboard Dialog Act 1.4 millions de mots (1 155 dialogues) O AA Dial Conversations téléphoniques spontanées entièrement retranscrites [Jurafsky et al.,

1998]. Sous-ensemble de Switchboard (2 430 dialogues) [Godfrey & Holliman,1997]

Tableau 3.1 Corpus francophones et anglophones significatifs

Modalité : E = Écrit, O = Oral, E & O (X/Y) = X% écrit et Y% oral

Langue : F = Français, A = Anglais, AA/AB = Anglais américain/britannique Genre : Gén = Généraliste, Q/R = Questions/Réponses, Dial = dialogue

a http://www.natcorp.ox.ac.uk b http://www.americancorpus.org c http://ice-corpora.net/ice d http://www.askoxford.com/oec

de certaines tâches.

Parmi les corpus orientés tâche existants, on peut également citer Map Task, constitué de 128 dialogues recueillis par Anderson et al. [1991] dans un contexte où une personne doit suivre et reproduire un itinéraire sur une carte géographique à partir d’instructions données par une seconde personne (l’assistant) dotée d’une carte similaire. Plusieurs corpus ont de-puis été constitués selon un protocole similaire, comme par exemple parPost[2000] en français.