• Aucun résultat trouvé

Linguistique de corpus, rappels historiques

Partie 1 Linguistique de corpus, TAL et corpus scolaires

2. Linguistique de corpus, rappels historiques

Le projet que nous développons s’inscrit dans le champ de ce que nous appelons communément linguistique de corpus. Au regard du nombre de journées d’études, revues, colloques et autres publications qui ont trait à ce champ d’études, la linguistique de corpus est considérée comme une discipline des sciences du langage. Mais cette considération est récente et parfois encore controversée.

2.1. Premières approches sur corpus

Les années 1980, puis les années 1990, en France, virent un véritable engouement des linguistes pour les corpus (Habert et al., 1997 ; El Kaladi, 2007), mais cet intérêt n’est pas nouveau. En effet, T. McEnery et A. Wilson (2001) mentionnent de nombreux projets basés sur des approches sur corpus dès la fin du XIXe siècle. Ces projets ont émergé de domaines aussi

variés que l’apprentissage des langues (Fries & Traver, 1940 ; Bongers, 1947, cités par McEnery & Wilson, 2001), l’étude de l’acquisition du langage (Preyer, 1889 ; Stern, 1924 ; Ingram, 1978, cités par McEnery & Wilson, 2001) ou encore l’élaboration de conventions orthographiques (Käding, 1897, cité par McEnery & Wilson, 2001). G. Williams (2006) mentionne également les travaux lexicographiques français et britanniques (Lorge, 1949 ; Fries, 1952 ; Gougenheim, Michea, Rivenc, & Sauvageot, 1956, cités par Williams, 2006). Dans les années 1950, le courant structuraliste dominait aux Etats-Unis (Anthony M McEnery & Wilson, 2001). Ce courant, qui s’appuyait sur la théorie mathématique de la communication de Shannon, avait également adopté une approche sur corpus afin de rechercher les exemples nécessaires à ses travaux (Cori et al., 2008).

2.2. Linguistique introspective et apparition des premiers grands

corpus

Peu de temps après, un nouveau courant linguistique est apparu aux Etats-Unis, à rebours de cette méthodologie basée sur les corpus. En effet, N. Chomsky a développé dans les années 1950 et 1970 la théorie de la grammaire générative, basée sur la méthode introspective. L’objectif des tenants de la théorie chomskyenne était alors de chercher les universaux des langues en travaillant sur la notion de « compétence » du locuteur, par opposition à la « performance » que l’on trouve dans les données attestées. Cette notion de compétence renvoie directement à la notion de grammaticalité et de possible de langue. Les exemples utilisés pour élaborer ces grammaires sont souvent construits par les linguistes, en se basant sur leur propre jugement de la grammaticalité ou sur le jugement des locuteurs de la langue :

c’est ce qu’on appelle l’introspection. L’essor de cette théorie linguistique marque alors le déclin des approches sur corpus aux Etats-Unis pendant deux décennies, durant les années 1960 et 1970.

Au même moment, un autre courant se développe en Grande-Bretagne, plus critique envers les théories générativistes, celui des linguistes descriptivistes qui cherchent à décrire la langue

telle qu’elle est utilisée dans des situations réelles de communication. Ce sont les linguistes issus

de ce courant qui sont à l’origine des premiers travaux visant l’élaboration de corpus de grande taille. Mentionnons ainsi plusieurs projets précurseurs. Rappelons le projet Survey of English

Usage (SEU), mené par le linguiste britannique R. Quirk et qui rassemble un million de mots

(Quirk, 1968). À peu près au même moment, en France, émerge l’idée de Frantext, une base textuelle de français moderne comportant quatre-vingt millions d’occurrences. Quelques années plus tard, le Brown Corpus est élaboré à l’université américaine Brown par H. Kučera et N. Francis en 1963 (Kucera & Francis, 1967). Ce dernier se base sur une répartition équilibrée des textes qu’il contient initialement prévue pour le SEU, R. Quirk ayant en partie contribué à son élaboration.

Comme nous l’avons vu, le Brown Corpus contenant plusieurs millions de mots il est souvent considéré comme le premier corpus informatisé de grande taille (Léon, 2008), mais il marque aussi le début des corpus annotés. En effet, il est enrichi manuellement d’informations morphosyntaxiques. De même, apparaissent les premiers travaux pour l’ajout automatique d’informations morphosyntaxiques (Garside, Leech, and Sampson 1987, cités par McEnery, 2003).

2.3. Expansion des corpus et enrichissement des corpus

Dans les années 1990, grâce à l’utilisation massive de l’informatique et l’amélioration des techniques et outils associés, les corpus grossissent encore et atteignent alors quelques centaines de millions de mots. C’est le cas du British National Corpus et du Bank of English, corpus d’anglais britannique (Church & Mercer, 1993). Alors que les corpus élaborés dans les années 1970 et 1980 étaient conçus comme des corpus échantillonnés, certains des corpus élaborés dans la décennie suivante sont désormais conçus pour être des corpus de référence (Cori et al., 2008). Deux positions s’opposent alors lors de la constitution des corpus.

Les tenants de la constitution de corpus de référence ou de corpus plus massifs suivent le mantra alors en vigueur more data is better data9 qui visent une couverture la plus large

possible (Church & Mercer, 1993, cités par Péry-Woodley, 1995). Ils partent du double postulat que, d’une part, il n’est pas possible de cerner précisément les caractéristiques des différentes productions langagières ; d’autre part, qu’une augmentation continue de la masse de données amène sans cesse à une plus grande représentativité. Les corpus de référence visent donc à être suffisamment grands et à représenter le plus grand nombre de variétés possibles de la langue, de manière à pouvoir servir de base à l’élaboration de grammaires, de dictionnaires ou d’autres matériels linguistiques de référence (Sinclair, 1996).

À l’opposé, les tenants des corpus échantillonnés ou de corpus spécifiques promeuvent l’élaboration de corpus plus restreints en fonction de caractéristiques langagières ciblées et équilibrées au sein du corpus, privilégiant une construction raisonnée des corpus. Cependant, ces corpus sont donc plus sensibles aux variations des données linguistiques (Habert et al., 1997).

Mais B. Habert et ses collègues (1997) considèrent qu’outre leur taille, ce qui est véritablement nouveau alors, c’est l’enrichissement de ces corpus. À partir des années 1980, les annotations se développent et les premiers corpus étiquetés10, des corpus auxquels des informations

morphosyntaxiques ont été ajoutées, apparaissent. Les années 1990, marquent le début des premiers corpus arborés9, des corpus auxquels des informations syntaxiques ont été ajoutés.

De plus, dans cette même décennie, le nombre de langues disposant de corpus augmente également, ainsi que le nombre de corpus multilingues. Toutes ces nouveautés permettent le développement d’innovations technologiques et d’outils spécifiques marquant ainsi la jonction d’une partie du traitement automatique de langues avec la linguistique de corpus.

2.4. Des approches sur corpus à la linguistique de corpus

C’est au cours des années 1990 et 2000 que la linguistique de corpus se constitue véritablement en tant que domaine de la linguistique. En effet, les termes « corpus linguistics » sont employés pour la première fois en 1984 par J. Aarts et W. Meijs (cités par Léon, 2015), puis repris par de nombreux auteurs (par exemple McEnery & Wilson, 2001 ; Biber, Conrad, & Reppen, 1998 ; Tognini-Bonelli, 2001). En France, les termes corpus linguistics ont été traduits en français par

linguistique sur corpus (Bilger, 2000), linguistiques de corpus au pluriel (Habert et al., 1997 ;

Condamines, 2005), et linguistique de corpus au singulier (Williams, 2005 ; Rastier, 2005 ; Condamines, 2005). La première de ces appellations met en avant l’usage des corpus par divers domaines de la linguistique (Williams, 2006). Les suivantes visent à faire de la linguistique qui

emploie des corpus une discipline. Puis, cette dernière appellation, linguistique de corpus, s’est consolidée par de multiples parutions et colloques.

Au cours de cette décennie, les corpus se sont également diversifiés. En effet, face au problème de représentativité des corpus de référence, les corpus se sont peu à peu spécialisés et diversifiés (Habert, 2000), cherchant à recueillir des données issues de situations de communication de plus en plus diverses. En France, on observe par exemple l’élaboration de corpus journalistiques (Flintham, 1995 ; Abeille et al., 2001 ; Lecolle, 2001 ; par exemple) et de corpus d’écrits scientifiques (Bachschmidt, 1997 ; Gledhill, 1997 ; par exemple).