• Aucun résultat trouvé

Chapitre 4. Le Web comme méga base lexicale

4.2 Le Web est-il un corpus ?

Avant de s’interroger sur le statut du Web dans la recherche linguistique, il convient de s’interroger sur la définition et le rôle des corpus.

4.2.1 Qu’appelle-t-on « corpus » ?

Il existe des divergences sur la définition d’un « corpus », reflet de variations théoriques sur son statut en linguistique. Malgré des contours flous, la littérature s’accorde sur des caractéristiques générales. McEnery et Wilson (1996) font émerger plusieurs critères :

In principle, any collection of more than one text can be called a corpus… But the term « corpus » when used in the context of modern linguistics tends most frequently to have more specific connotations than this simple definition provides for. These may be considered under four main headings: sampling and representativeness, finite size, machine-readable form, a standard reference.

La première notion est celle de la représentativité. En fonction des textes sélectionnés, un corpus peut-être représentatif d’un état de langue ou de situations linguistiques particulières en vue de leur étude (Duclaye, 2003). Le critère de représentativité est toutefois une notion problématique : de quoi le corpus doit-il être représentatif (Kilgarriff et Grefenstette, 2003) ? Hormis des domaines de spécialité précis, la représentativité de la langue n’est pas concluante, car cette dernière présente des variables qu’il n’est pas possible de prendre en compte dans un corpus (Kilgarriff et Grefenstette, 2003) :

- La représentativité doit-elle se placer du côté de la production ou de la réception de la langue ?

- Doit-elle concerner des textes écrits ou des retranscriptions orales ?

- La réception « passive » du langage fait-elle également partie des événements à considérer ?

- Les citations doivent-elles être considérées comme de nouvelles productions langagières ?

Une notion proche de la représentativité est celle de « corpus de référence ». Selon Sinclair (1996), un corpus de référence a pour objectif de « représenter toutes les variétés pertinentes » d’une langue afin de constituer une base d’analyse linguistique. » Citons le Brown Corpus, en anglais, qui regroupe 15 genres différents, ou le British Gational Corpus, qui contient 90% de textes écrits divisés en catégories et 10% de texte parlé. L’idée d’un corpus de référence présente des limites proches de celles de la représentativité.

Un corpus peut-être une sélection de textes organisés selon des critères précis (Sinclair, 1995) :

a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of language.

La sélection des textes repose sur des critères explicites en fonction des objectifs de la recherche. Selon Habert (2000), des critères extra-linguistiques doivent être ajoutés aux critères linguistiques, permettant d’obtenir les « emplois déterminés » d’une langue (Duclaye, 2003).

L’avènement de textes au format électronique fait émerger une définition, plus vague, celle de « corpus électronique ». Le corpus serait une collection quelconque de textes, au format électronique (Manning et Schütze, 1999) :

In Statistical NLP, one commonly receives as a corpus a certain amount of data from a certain domain of interest, without having any say in how it is constructed. In such cases, having more training data is normally more useful that any concerns of balance, and onde should simply use all the text that is available.

Un regroupement de textes sans critère précis n’est pas un corpus au sens strict, mais peut être satisfaisant lorsque la nécessité première est la quantité de données. Après avoir fait un tour d’horizon sur la place du corpus en linguistique (4.2.2), nous nous demandons si le Web est un corpus (4.2.3).

4.2.2 Le rôle du corpus dans la recherche linguistique

Une approche du corpus peut être une démarche inductive, qui consiste à expliquer les énoncés du corpus pour en tirer des conclusions générales. Cette démarche est adoptée par des structuralistes américains tels que Harris (1951). Le corpus est un ensemble clos et les procédures de découverte sont strictement internes. Des auteurs tels que Chomsky (1957, 1962) critiquent la vision inductive. Selon lui, la grammaire n’est pas à expliquer à partir d’un corpus, mais à partir de la compétence des locuteurs. La compétence n’est pas un phénomène observable, Chomsky préconise le recours à l’intuition (rationalisme). Pour lui, un corpus ne recense pas tous les faits utiles à une description linguistique. Au jour d’aujourd’hui, il y a une différence d’échelle que la théorie de Chomsky ne pouvait pas prévoir. Les limites d’une telle approche sont que la démarche s’avère normative et non pas descriptive. Elle décrit les faits tels qu’ils devraient être dits, plutôt que tels qu’ils sont dits. Cette méthode fait part de subjectivité : les intuitions ne sont pas les mêmes d’un locuteur à l’autre.

Selon Popper, une collection d'observations ne permet pas d'induire de façon logique une proposition générale. Pour reprendre son célèbre exemple, le fait de ne voir passer que des cygnes blancs ne permet pas d’avoir la certitude qu’il n’existe pas de cygnes noirs. Popper critique une démarche inductive dans le domaine des sciences et préconise un procédé déductif de mise à l’épreuve des théories. Ce processus passe par un mécanisme de prédiction et de réfutation. Dans ce contexte, un corpus en linguistique est un réservoir d’exemples permettant de construire des hypothèses puisqu’on admet que l’intuition n’est pas

satisfaisante. Il constitue un banc de test, qui ne forme pas un ensemble clos et dont de nouveaux exemples peuvent réfuter les théories.

Depuis une vingtaine d’années, la recherche linguistique a pris un tournant empirique avec l’utilisation de plus en plus systématique de corpus (Leech, 1991, McEnery et Wilson, 1996). La linguistique descriptive étudie les faits linguistiques qu’on retrouve fréquemment dans les données réelles, quelque soit le type de données (même si les textes ne correspondent pas à une norme standard). Elle a permis à la linguistique générale d’étendre son champ d’investigation et de concevoir de nouvelles approches de la langue et de la notion de norme. Pour la linguistique empirique, étudier une langue, c’est réunir un ensemble d’énoncés, aussi variés que possible, effectivement émis par des locuteurs de cette langue, à une époque donnée. Il s’agit d’analyser ces énoncés, et d’éventuellement faire apparaître des régularités dans les faits. L’apparition de données massives a permis au Traitement Automatique des Langues de mettre en place des techniques d’apprentissage.

Figure 11. Evolution de la place du corpus en linguistique

4.2.3 Quel statut attribuer au Web ?

Il y a vingt ou trente ans, la constitution d’un corpus électronique était une tâche ardue : saisie et correction des textes, etc. (Habert et al., 1997). Avec l’avènement de la micro-informatique, la situation a radicalement changé (ibid.). De plus en plus d’écrits existent directement sous- format électronique et sont exploitables pour la constitution de corpus. Paradoxalement, la définition du corpus s’est obscurcie : la sélection de textes est bouleversée devant la facilité d’accès à des textes électroniques (ibid.). L’avènement du Web a constitué un autre bouleversement : les bases de données disponibles ont constitué un nouveau changement

Années 1950 Linguistique introspective (Chomsky) Années 1990 Linguistique de corpus Données rares Années 2000 Changement d’échelle Données massives

d’échelle qui nécessitent de s’interroger sur ces capacités. Une limite du Web concerne sa « non-représentativité ». Selon Rundell (2000), les types de textes sont hétérogènes : les documents journalistiques et scientifiques sont majoritaires (Duclaye, 2003). Kilgarriff et Grefenstette (2003) montrent que le Web n’est certes pas représentatif, mais les corpus traditionnels ne le sont pas plus :

We define a corpus simply as a « collection of texts ». If that seems too broad, the one qualification we allow relates to the domains and contexts in which the word is used rather its denotation : a corpus is a collection of texts when considered as an object of language or literary study. The answer to the question “Is the web a corpus?” is yes.

La quantité des données offre une variété de genre plus vaste qu’un corpus traditionnel. Même si le Web ne répond pas aux définitions standard et que les données sont moins contrôlées, elles permettent un changement dont les répercussions peuvent être fondamentales pour la compréhension des langues, à condition de disposer d'instruments d’observation adéquats. Le Web peut être considéré comme un outil d’observation des usages pour le linguiste, en termes à la fois qualitatif (il dispose du contexte réel d’un grand nombre de formes) et quantitatif. Nous parlons à la suite de Habert (2000) de « base de textes » ou de base lexicale, plutôt que de corpus. Divers phénomènes linguistiques sont observables à partir du Web : la quantité des données permet d’observer des phénomènes que des corpus réduits ne permettraient pas d’analyser. Sa dimension considérable vient palier le problème du bruit (Grefenstette, 1999). Pareille à la position du célèbre astronome et physicien Galilée, qui basait ses recherches sur la pratique et l’expérience, le linguiste doit observer le « ciel » linguistique par le biais d’instruments adaptés, c’est-à-dire qui permettent de rapprocher l’observation le plus possible de la réalité. L’utilisation du Web dans un cadre linguistique conduit à ré-appréhender la question du rôle du corpus. Pour nous, le Web est un réservoir d’exemples afin de construire des hypothèses sur la traduction. Les phénomènes de traduction sont des phénomènes complexes et les unités lexicales complexes à observer prolifèrent. Les caractéristiques du Web sont adaptées à nos besoins. Un fait langagier isolé sur le Web ne permet pas de tirer des conclusions. En revanche, nous attribuons à un fait récurrent une valeur linguistique.