Les corpus spécialisés - Cinquante premiers mots les plus fréquents dans le corpus [DIAB

B.1 Cinquante premiers mots les plus fréquents dans le corpus [DIAB_CP], utilisés dans le

1.3 Les corpus spécialisés

Un corpus spécialisé porte sur un domaine de connaissance ou une situation de communication par-ticuliers. Il doit être représentatif de la langue de spécialité en usage dans le domaine. Les textes d’un corpus spécialisé sont sélectionnés selon une configuration domaine-genre (Péry-Woodley, 2000), par exemple des articles de recherche en TALN pour Dubreil (2006, p. 66). Les corpus spécialisés se doivent d’être représentatifs d’un domaine ou d’une situation de communication, ils doivent contenir des docu-ments d’une certaine qualité (traitant réellement et rigoureusement du domaine) et représenter l’ensemble des variétés du domaine auquel il a trait.

Dubreil (2006, p. 67) en donne la définition suivante : « tout regroupement de données langagières créé à des fins spécifiques et représentatif d’une situation de communication ou d’un domaine dans la pratique. » Elle précise que la constitution d’un corpus spécialisé implique donc que « le domaine des textes inclus dans le corpus soit défini et délimité » et que « les textes soient représentatifs de ce domaine pour garantir l’authenticité des conclusions qu’on en tire ».

Il est donc primordial, lors de la construction, de savoir définir et délimiter un domaine. Plusieurs modèles théoriques permettent de mener à bien cette tâche : les langues de spécialité, les sous-langages, les communautés de discours.

1.3.1 Délimiter un domaine

Bowker et Pearson (2002, p. 25) opposent la langue générale ou LGP (Language for General Purpose) à la langue de spécialité ou LSP (Language for Specialized Purpose). La LGP correspond au langage que nous utilisons tous les jours, pour parler de sujets ordinaires dans des situations communes. La LSP correspond aux langages utilisés pour parler de domaines de connaissance spécialisés, par exemple le domaine de la chimie. On parle en réalité de LSP au pluriel, car il existe autant de langues de spécialité que de domaines. À chaque langue correspond une langue générale et des langues de spécialité. Un locuteur natif d’une langue est généralement un expert de la langue générale, il en connaît le vocabulaire et la syntaxe. La connaissance d’une langue de spécialité est par contre réservée aux spécialistes d’un domaine scientifique ou technique.

Lerat (1995) présente trois notions constitutives des langues de spécialité⁶: Une origine : une langue de spécialité appartient à un domaine particulier ;

Une nature : une langue de spécialité est une variété de la langue générale, elle possède les mêmes caractéristiques, mais celles-ci sont restreintes ;

Une fonction : une langue de spécialité sert à communiquer, à transmettre des informations.

De là peuvent apparaître différentes caractéristiques propres aux langues de spécialité (Bowker et Pearson, 2002, p. 26) :

• un vocabulaire spécialisé ;

• des combinaisons particulières de mots et des méthodes de présentation des informations⁷;

• des caractéristiques stylistiques particulières.

À titre d’exemple, la rédaction des résultats d’une expérimentation scientifique se fait en utilisant le vocabulaire spécialisé propre au domaine, en utilisant un style et une syntaxe particuliers. Nous illus-trons ceci avec un extrait tiré d’un article scientifique écrit par Fung et Yee (1998), correspondant à la figure 1.1. Nous trouvons dans cet exemple un vocabulaire spécialisé au TAL ou plus généralement à l’informatique : « algorithm », « corpus », « ranking candidates », etc. , des méthodes de présentation particulière : les deux items « Evaluation I: unknown words » et « Evaluation II: known words » par exemple. Quant au style, nous pouvons observer des marqueurs de glose dans les phrases, ainsi que des quantités numériques et des références à différents tableaux et figures.

La notion de langue de spécialité est largement débattue chez les linguistes. Selon Dubreil (2006, p. 68), tant du point de vue lexical que grammatical, les langues de spécialité ne se distinguent pas clairement de la langue générale et peuvent y être inclues ou se chevaucher.

Les langues de spécialité sont souvent comparées à la théorie des sous-langages, bien que le terme sous-langage soit souvent utilisé comme « fourre-tout » pour tous les langages scientifiques et spécialisés (Williams, 1999, p. 40). Un sous-langage (SL) correspond à : « the language used by a particular com-munity of speakers, say, those concerned by a particular subject matter or those engaged in a specialized occupation » (Sager (1986) cité par Péry-Woodley (1995)). Les SL semblent donc s’ancrer au niveau de la communauté concernée par le domaine de spécialité plus que sur le domaine lui-même. Notons que le

6Cité dans (Dubreil, 2006).

7« Special ways of combining words and arranging information. »

Figure 1.1 – Exemple : évaluation d’expérimentations extrait de (Fung et Yee, 1998)

terme sous-langage est un faux ami, les sous-langages n’étant pas forcément des sous-ensembles de la langue générale (Habert et al., 1997, p. 149). Cette théorie se base sur l’hypothèse que les SL utilisent un lexique fini, il est donc en théorie possible de délimiter un SL. Dubreil (2006, p. 70) examine les différents critères permettant la délimitation. Les deux premiers critères, linguistiques, sont le lexique et la grammaire. Pour le lexique, nous avons vu qu’il est en théorie fini. En pratique, il faut prendre en compte le « principe dynamique des langues vivantes » : de nouveaux mots sont perpétuellement in-tégrés aux langages ou sous-langages. Quant à la grammaire, elle est en théorie un sous-ensemble fini de la grammaire de la langue générale (Harris, 1988). Cependant, cette hypothèse théorique ne tient pas compte du fait que « la réalité est plus expressive que la grammaire simplifiée de Harris » (Williams, 1999, p.50). Les critères extra-linguistiques sont le thème et la communauté des locuteurs. Circonscrire un SL par son thème revient à se baser sur une classification pré-établie. Cependant, il faut en théorie disposer d’une telle classification ou de suffisamment de connaissances pour pouvoir statuer sur l’appar-tenance d’un texte à une catégorie. Le dernier critère, la communauté des locuteurs de la SL, se base sur le fait que les locuteurs appartenant à un même domaine partagent certaines habitudes. La théorie des sous-langages ne définit cependant pas l’appartenance d’un locuteur à un domaine. Ce modèle théorique est très utilisé en TAL afin de construire des corpus, mais il est plus difficile théoriquement d’en définir

ses contours. Williams (1999) met en exergue le fait que les sous-langages, selon certains chercheurs, seraient des langues artificielles, construites à des fins scientifiques uniquement. Circonscrire un sous-langage consisterait en effet à délimiter le domaine sur lequel il porte. La délimitation d’un domaine pose une fois de plus problème. Williams (1999) et Dubreil (2006) font donc appel à la théorie des communau-tés de discours, qui semble être un compromis entre la définition théorique et la pratique : la constitution de corpus.

Cette fois-ci, la définition de la théorie fait en partie abstraction de la notion de langage, pour s’attar-der sur une communauté particulière et le discours qui lui est propre.

Knowles et Roe (1994, p. 138)⁸, une communauté correspond à :

« any group of individuals who are defined by a shared global purpose to which all publicly subscribe, and who have evolved or adopted mechanisms and procedures for achieving their shared objectives ».

À une communauté correspondent des moyens du discours et un lexique. L’appartenance à une com-munauté nécessite d’adopter ces règles. Une comcom-munauté de discours se distingue d’un domaine ou d’un sous-domaine par six caractéristiques Williams (1999, p. 52) :

1. Un but commun accepté par tous les membres de la communauté ; 2. Des mécanismes d’interaction entre les membres ;

3. Des mécanismes de participation garantissant l’information et le retour d’information ; 4. L’utilisation et la possession d’un ou plusieurs genres ;

5. L’acquisition d’un lexique spécifique ; 6. Un seuil de membres.

Ce modèle semble rendre possible la définition et la délimitation de la communauté et sa mise en pratique lors de la constitution d’un corpus.

1.3.2 La théorie face à la pratique

Nous venons de lister et comparer trois modèles théoriques permettant de délimiter un domaine en vue de constituer un corpus spécialisé. Les linguistes Williams (1999); Dubreil (2006) ont analysé ces modèles et montrent les failles que peuvent avoir ces modèles théoriques. Néanmoins, chacun d’entre eux est utilisé par les chercheurs lors de la création de leurs corpus. Compte tenu du principe dynamique de la langues et de ses constantes évolutions et ambiguïtés, certaines théories comme les LSP ou les SL omettent des éléments bancals afin de se concentrer sur les aspects pratiques.

Les communautés de discours semblent alors fournir un compromis entre la théorie et la pratique.

En se concentrant sur la caractérisation de la communauté de discours, les problèmes de limites floues sont écartées. Cependant, baser la définition d’un corpus spécialisé uniquement sur la communauté de discours dont sont issus les documents pose aussi quelques problèmes pratiques. Cette définition des cor-pus spécialisé implique que l’auteur de chaque document inséré dans un corcor-pus soit identifié. Nombreux sont les corpus construits à partir du Web, qui constitue une ressource intarissable de données textuelles.

Cependant, la provenance des documents du Web et les informations sur l’auteur n’étant pas toujours fournies, il est parfois difficile d’associer un document à une communauté de discours.

Dans cette thèse, nous travaillons sur des corpus spécialisés dont les documents sont extraits du Web.

Bien que certains portails permettent d’accéder à de nombreuses informations sur les documents, il est

8Cités dans Williams (1999, p. 51).

assez difficile pour la majorité des ressources de disposer d’informations sur la publication. Il est ainsi difficile de cibler une communauté de discours. De plus, la théorie des communautés de discours est utilisée dans le cadre d’études très ciblées avec un groupe d’auteurs très restreint et souvent un genre particulier (par exemple le corpus de Dubreil (2006) composé d’articles de la conférence TALN et de la revue TAL). Les contraintes sont moins fortes pour nos corpus et le manque potentiel d’informations sur les documents du Web nous poussent à utiliser la théorie de Bowker et Pearson (2002) des langues de spécialité. Le terme corpus spécialisé désignera donc ici un corpus composé de documents issus de langues de spécialité.

Dans le document The DART-Europe E-theses Portal (Page 18-22)