• Aucun résultat trouvé

1.1. Ressources linguistiques : état des lieux

1.1.3. Corpus de textes bruts et étiquetés

« Un corpus, ou collection de textes, peut être vu comme un échantillon d’une langue et c’est à ce

titre que les corpus sont utilisés pour le traitement automatique des langues naturelles. Plus le corpus

est étendu et varié, plus l’échantillon est représentatif. » – Laporte [LAP 00]. Les corpus de textes

représentent un usage réel de la langue, et fournissent donc une référence objective pour vérifier ou

même acquérir des descriptions formelles de la langue. Les corpus de référence doivent satisfaire deux

caractéristiques : une taille suffisamment grande et la diversité des usages présentés. Leur utilisation

comme source d’information apporte une aide irremplaçable à la construction de dictionnaires et de

grammaires.

Les corpus de textes étiquetés associent à chaque mot des textes qu’ils rassemblent des

informations grammaticales ou morphologiques. Ces ressources sont cruciales pour les études

ultérieures comme le découpage du texte en groupes syntagmatiques, son analyse syntaxique,

l’élaboration de concordances, etc. ; elles peuvent également être employées par des applications

« finales » comme le résumé automatique de textes ou l’extraction de terminologie.

On peut distinguer deux grandes catégories de corpus suivant le type de langue représenté : les

corpus de spécialités tentent de refléter l’usage de la langue dans un domaine particulier (corpus

techniques, médicaux), tandis que les corpus généralistes s’intéressent à l’ensemble d’une langue et

rassemblent souvent des textes plus variés, représentatifs de sa diversité. Nous ne nous intéressons ici

qu’à cette seconde catégorie, et présentons une fois encore des exemples pour les langues

indo-européennes, d’une part, et asiatiques isolantes de l’autre.

1.1.3.1. Langues indo-européennes

Les premiers corpus étiquetés ont été construits pour l’anglais américain, le plus ancien et plus

connu étant le corpus de Brown (Kucera et Francis [KUC 67]), qui rassemble un million de mots

étiquetés manuellement. Par sa mise dans le domaine public, ce corpus a joué un rôle moteur pour les

recherches basées sur les corpus. Son équivalent pour l’anglais britannique est le corpus de

Lancaster-Oslo-Bergen (LOB).

Le BNC (British National Corpus) contenant 100 millions de mots (dont 90% relèvent de la langue

écrite et 10% de la langue orale) fournit une ressource de grande échelle pour l’anglais britannique. Le

corpus contient des textes de fiction et des textes informatifs venant de livres, périodiques, discours,

etc. Le corpus BNC a également été étiqueté (Leech et al. [LEE 94], Burnard [BUR 95]).

L’ANC (American National Corpus, cf. Ide et MacLeod [IDE 01a]) en est l’équivalent pour

l’anglais américain. Le but est d’obtenir un corpus d’au moins 100 millions de mots, comme le BNC,

équilibré du point de vue des types de textes rassemblés. La première édition de l’ANC est un corpus

de 10 millions de mots (dont plus de 8 millions de mots relèvent de la langue écrite et le reste de la

langue orale), annotés pour le lemme et la partie du discours. Les textes sont automatiquement

étiquetés sans validation humaine (en employant un étiqueteur automatique standard, dont la précision

est d’au moins 95%). Cette première édition a pour but de recevoir les critiques sur la structure et

l’annotation du corpus.

Pour le français, le corpus le plus volumineux est la base F

RANTEXT

« Trésor de la langue

française », constituée depuis les années soixante, qui contient 3 737 textes, soit environ 210 millions

d’occurrences de mots. Ce corpus est à portée principalement littéraire et historique : 80% de ses

textes correspondent à des œuvres littéraires, et 20% à des publications scientifiques ou techniques, du

XVIe au XXe siècle.

En ce qui concerne les corpus étiquetés, la campagne d’évaluation d’étiqueteurs automatiques

G

RACE

-Multitag a été l’occasion du développement du plus volumineux corpus de référence pour le

français (un million de mots). Les étiquettes sont principalement celles définies par le projet M

ULTEXT

(qui a pour sa part occasionné le développement d’un corpus étiqueté de 200 000 mots). D’autres

projets ont permis la construction de corpus partiellement étiquetés, comme par exemple P

AROLE

(250 000 mots sur environ 2 millions) ou CLIF (300 000 mots sur 20 millions).

1.1.3.2. Langues asiatiques isolantes

Pour le chinois, le corpus équilibré Sinica

9

(Academia Sinica Balanced Corpus of Modern

Chinese), contruit depuis 1995, constitue la première base (10 millions mots de texte brut, dont un

million de mots étiquetés). Sa version 3.0, distribué sur le web en 1997, rassemble 5 millions de mots

(corpus étiqueté avec 46 étiquettes réduites de 178 catégories syntaxiques du lexique syntaxique

CKIP, cf. 1.1.1.1). La Figure 1-15 présente deux exemples de phrases étiquetées extraites du corpus

Sinica, accompagnées de leur traduction anglaise

10

.

En 2002, l’Institut d’Informatique Linguistique de l’université de Pékin a achevé l’étiquetage d’un

corpus spécialisé de 26 millions caractères chinois (1998’s People’s Daily). Un sous-corpus étiqueté

de plus de 2 millions de caractères a été distribué gratuitement sur leur site web en 2001.

Le corpus étiqueté proposé par le ChineseLDC (Zhao et al. [ZHA 04]) est un corpus de 5 millions

de caractères chinois, contenant des articles de journaux, des oeuvres littéraires, des livres

scientifiques, etc. Ce corpus est segmenté en mots et étiqueté morpho-syntaxiquement de manière

semi-automatique, de manière suivante :

- Collecte et classification d’un corpus de 5 millions de mots ;

- Spécification de la segmentation et de l’étiquetage lexical des textes chinois (20 grandes

classes et 51 sous-classes) ;

- Collecte de la liste de mots pour la segmentation et l’étiquetage ;

- Développement d’outils pour la segmentation et l’étiquetage ;

- Développement d’un système d’aide à la vérification manuelle du corpus automatiquement

traité.

Pour le thaï, le corpus NAiST (Kasetsart University) contient environ 60 millions de mots.

Le corpus étiqueté thaï, nommé ORCHID, est construit en Thaïlande depuis 1996 par le

NECTEC

11

, en collaboration avec le CRL

12

japonais. Le corpus est annoté en trois niveaux :

paragraphes, phrases et mots. La segmentation en paragraphes et phrases est manuelle, tandis que la

segmentation en mots et l’étiquetage lexical sont automatiques mais suivis d’un contrôle manuel. Le

corpus contient 2 560 000 mots, et le jeu d’étiquettes consiste en 14 catégories et 47 sous-catégories.

Les balises utilisées dans ce corpus sont exposées à la Figure 1-16, et la Figure 1-17 présente un texte

extrait de ce corpus (cf. Charoenporn et al. [CHA 04]).

Pour le vietnamien, le Centre de Lexicographie du Vietnam (Vietlex) a construit une base de textes

anciens et modernes contenant environ 50 millions de syllabes (2 millions de phrases). Cette base

rassemble des textes appartenant à tous les genres : littérature (40,5%), articles de journaux (53,7%),

droit, sciences sociales, sciences naturelles (5,8%). Ce corpus a notamment été employé afin de

constater les contextes effectifs d’emploi des mots pour le travail de construction d’un dictionnaire du

vietnamien. Des négociations sont à l’heure actuelle en cours afin de rendre ces ressources disponibles

à la communauté de recherche publique en TAL au Vietnam.

9 http://godel.iis.sinica.edu.tw/CKIP/engversion/20corpus.htm

10 Merci à Chu-Ren Huang (Académie Sinica) de nous avoir fourni ces exemples.

11 National Electronics and Computer Technology Center.

Figure 1-15 Deux exemples du corpus étiqueté SINICA