1.1. Ressources linguistiques : état des lieux
1.1.3. Corpus de textes bruts et étiquetés
« Un corpus, ou collection de textes, peut être vu comme un échantillon d’une langue et c’est à ce
titre que les corpus sont utilisés pour le traitement automatique des langues naturelles. Plus le corpus
est étendu et varié, plus l’échantillon est représentatif. » – Laporte [LAP 00]. Les corpus de textes
représentent un usage réel de la langue, et fournissent donc une référence objective pour vérifier ou
même acquérir des descriptions formelles de la langue. Les corpus de référence doivent satisfaire deux
caractéristiques : une taille suffisamment grande et la diversité des usages présentés. Leur utilisation
comme source d’information apporte une aide irremplaçable à la construction de dictionnaires et de
grammaires.
Les corpus de textes étiquetés associent à chaque mot des textes qu’ils rassemblent des
informations grammaticales ou morphologiques. Ces ressources sont cruciales pour les études
ultérieures comme le découpage du texte en groupes syntagmatiques, son analyse syntaxique,
l’élaboration de concordances, etc. ; elles peuvent également être employées par des applications
« finales » comme le résumé automatique de textes ou l’extraction de terminologie.
On peut distinguer deux grandes catégories de corpus suivant le type de langue représenté : les
corpus de spécialités tentent de refléter l’usage de la langue dans un domaine particulier (corpus
techniques, médicaux), tandis que les corpus généralistes s’intéressent à l’ensemble d’une langue et
rassemblent souvent des textes plus variés, représentatifs de sa diversité. Nous ne nous intéressons ici
qu’à cette seconde catégorie, et présentons une fois encore des exemples pour les langues
indo-européennes, d’une part, et asiatiques isolantes de l’autre.
1.1.3.1. Langues indo-européennes
Les premiers corpus étiquetés ont été construits pour l’anglais américain, le plus ancien et plus
connu étant le corpus de Brown (Kucera et Francis [KUC 67]), qui rassemble un million de mots
étiquetés manuellement. Par sa mise dans le domaine public, ce corpus a joué un rôle moteur pour les
recherches basées sur les corpus. Son équivalent pour l’anglais britannique est le corpus de
Lancaster-Oslo-Bergen (LOB).
Le BNC (British National Corpus) contenant 100 millions de mots (dont 90% relèvent de la langue
écrite et 10% de la langue orale) fournit une ressource de grande échelle pour l’anglais britannique. Le
corpus contient des textes de fiction et des textes informatifs venant de livres, périodiques, discours,
etc. Le corpus BNC a également été étiqueté (Leech et al. [LEE 94], Burnard [BUR 95]).
L’ANC (American National Corpus, cf. Ide et MacLeod [IDE 01a]) en est l’équivalent pour
l’anglais américain. Le but est d’obtenir un corpus d’au moins 100 millions de mots, comme le BNC,
équilibré du point de vue des types de textes rassemblés. La première édition de l’ANC est un corpus
de 10 millions de mots (dont plus de 8 millions de mots relèvent de la langue écrite et le reste de la
langue orale), annotés pour le lemme et la partie du discours. Les textes sont automatiquement
étiquetés sans validation humaine (en employant un étiqueteur automatique standard, dont la précision
est d’au moins 95%). Cette première édition a pour but de recevoir les critiques sur la structure et
l’annotation du corpus.
Pour le français, le corpus le plus volumineux est la base F
RANTEXT« Trésor de la langue
française », constituée depuis les années soixante, qui contient 3 737 textes, soit environ 210 millions
d’occurrences de mots. Ce corpus est à portée principalement littéraire et historique : 80% de ses
textes correspondent à des œuvres littéraires, et 20% à des publications scientifiques ou techniques, du
XVIe au XXe siècle.
En ce qui concerne les corpus étiquetés, la campagne d’évaluation d’étiqueteurs automatiques
G
RACE-Multitag a été l’occasion du développement du plus volumineux corpus de référence pour le
français (un million de mots). Les étiquettes sont principalement celles définies par le projet M
ULTEXT(qui a pour sa part occasionné le développement d’un corpus étiqueté de 200 000 mots). D’autres
projets ont permis la construction de corpus partiellement étiquetés, comme par exemple P
AROLE(250 000 mots sur environ 2 millions) ou CLIF (300 000 mots sur 20 millions).
1.1.3.2. Langues asiatiques isolantes
Pour le chinois, le corpus équilibré Sinica
9(Academia Sinica Balanced Corpus of Modern
Chinese), contruit depuis 1995, constitue la première base (10 millions mots de texte brut, dont un
million de mots étiquetés). Sa version 3.0, distribué sur le web en 1997, rassemble 5 millions de mots
(corpus étiqueté avec 46 étiquettes réduites de 178 catégories syntaxiques du lexique syntaxique
CKIP, cf. 1.1.1.1). La Figure 1-15 présente deux exemples de phrases étiquetées extraites du corpus
Sinica, accompagnées de leur traduction anglaise
10.
En 2002, l’Institut d’Informatique Linguistique de l’université de Pékin a achevé l’étiquetage d’un
corpus spécialisé de 26 millions caractères chinois (1998’s People’s Daily). Un sous-corpus étiqueté
de plus de 2 millions de caractères a été distribué gratuitement sur leur site web en 2001.
Le corpus étiqueté proposé par le ChineseLDC (Zhao et al. [ZHA 04]) est un corpus de 5 millions
de caractères chinois, contenant des articles de journaux, des oeuvres littéraires, des livres
scientifiques, etc. Ce corpus est segmenté en mots et étiqueté morpho-syntaxiquement de manière
semi-automatique, de manière suivante :
- Collecte et classification d’un corpus de 5 millions de mots ;
- Spécification de la segmentation et de l’étiquetage lexical des textes chinois (20 grandes
classes et 51 sous-classes) ;
- Collecte de la liste de mots pour la segmentation et l’étiquetage ;
- Développement d’outils pour la segmentation et l’étiquetage ;
- Développement d’un système d’aide à la vérification manuelle du corpus automatiquement
traité.
Pour le thaï, le corpus NAiST (Kasetsart University) contient environ 60 millions de mots.
Le corpus étiqueté thaï, nommé ORCHID, est construit en Thaïlande depuis 1996 par le
NECTEC
11, en collaboration avec le CRL
12japonais. Le corpus est annoté en trois niveaux :
paragraphes, phrases et mots. La segmentation en paragraphes et phrases est manuelle, tandis que la
segmentation en mots et l’étiquetage lexical sont automatiques mais suivis d’un contrôle manuel. Le
corpus contient 2 560 000 mots, et le jeu d’étiquettes consiste en 14 catégories et 47 sous-catégories.
Les balises utilisées dans ce corpus sont exposées à la Figure 1-16, et la Figure 1-17 présente un texte
extrait de ce corpus (cf. Charoenporn et al. [CHA 04]).
Pour le vietnamien, le Centre de Lexicographie du Vietnam (Vietlex) a construit une base de textes
anciens et modernes contenant environ 50 millions de syllabes (2 millions de phrases). Cette base
rassemble des textes appartenant à tous les genres : littérature (40,5%), articles de journaux (53,7%),
droit, sciences sociales, sciences naturelles (5,8%). Ce corpus a notamment été employé afin de
constater les contextes effectifs d’emploi des mots pour le travail de construction d’un dictionnaire du
vietnamien. Des négociations sont à l’heure actuelle en cours afin de rendre ces ressources disponibles
à la communauté de recherche publique en TAL au Vietnam.
9 http://godel.iis.sinica.edu.tw/CKIP/engversion/20corpus.htm
10 Merci à Chu-Ren Huang (Académie Sinica) de nous avoir fourni ces exemples.
11 National Electronics and Computer Technology Center.
Figure 1-15 Deux exemples du corpus étiqueté SINICA
Dans le document
Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens
(Page 36-40)