• Aucun résultat trouvé

linguistique générale, qu'est-ce qu'un corpus ?

I. 1.2.2.2- Le courant logico-grammatical

En réaction au descriptivisme de la théorie distributionnelle, un nouveau courant est né, toujours aux États-Unis, notamment sous la direction de Noam Chomsky dans les années 1960. Chomsky a été l'élève de Zellig Harris. La représentation en analyse par constituants immédiats utilisant la transformation de Harris a fortement inspiré son élève dans les années 1950.

Chomsky, à partir de la fin des années 1950, a défini le paradigme compétence/performance qui différencie d'une part, la capacité de construire et de reconnaître l'ensemble des énoncés grammaticalement corrects d'une langue pour un locuteur (la compétence) et d'autre part, l'ensemble effectif des énoncés produits (la performance). Il souhaitait décrire la performance avant toute chose, s'inscrivant ce faisant dans une linguistique davantage axée sur la « langue » telle qu'on l'avait interprétée dans la pensée saussurienne. Il a ainsi radicalisé cette pensée. Nous avons vu précédemment que Saussure

avait distingué langue et parole, mais que les deux entités communiquaient ensemble, que l'une informait l'autre dans la recherche du linguiste. Ce n'est plus le cas chez Chomsky, l'étude du linguiste doit concerner uniquement la compétence au détriment de la performance :

« it is absurd to attempt to construct a grammar that describes observed linguistic behaviour directly » (Chomsky 1964a)

Pour ce faire, il a développé une grammaire générative transformationnelle, le mot « transformationnelle » semble ici hérité de Harris, néanmoins, le sens qu'il recouvre est bien différent de celui d'une transformation linéaire. Selon Chomsky, la performance se décrivait essentiellement par une composante syntaxique : une base de connaissances partagées universellement par tout être humain est une première fois organisée en une structure profonde, des transformations se font sur celle-ci et on aboutit ainsi à une structure de surface qui est la chaîne phonétique que l'on entend lors d'un acte langagier. La composante sémantique devait être prise en compte au sein de la structure profonde, mais Chomsky ne s'est jamais réellement attaché à son étude, cette composante s'adaptant assez mal à son modèle génératif transformationnel (Crystal 1985:101-110).

Pour développer son modèle, Chomsky a postulé que l'introspection du linguiste était la première source fiable d'information. Il a en conséquence affirmé l'inutilité d'une étude se basant sur des faits de langue authentique (Hoey 1983:31) si ce n'était dans l'étude de langages inconnus (de type amérindiens, par exemple), et en a fait une stratégie au mieux sans intérêt, au pire dangereuse, préférant alors à l'approche empirique une approche selon lui plus rationnelle, et en réalité basée sur l'introspection avec des procédures de découverte déductives.

Chomsky souhaitait réaliser un modèle qui puisse rendre compte de tous les systèmes de langage humains. Il s'est ainsi opposé à l'analyse de corpus de langue particuliers aboutissant à des généralisations, un corpus ne pouvant jamais être représentatif d'un ensemble plus grand selon lui. Le langage étant infini, la production de langage croissant chaque jour, il est tout simplement impossible de créer un corpus qui puisse représenter la langue dans son ensemble, aucun corpus ne peut contenir toutes les occurrences possibles d'une langue. Il s'agit en conséquence d'un outil qui va dévier le

chercheur en lui donnant une vision fausse de ce qu'est la langue : certaines occurrences rares n'apparaîtront pas dans le corpus, et donc le linguiste en déduira que ces occurrences n'existent pas dans la langue.

« There are, in other words, very few reliable experimental or data-processing procedures for obtaining significant information concerning the linguistic intuition of the native speaker. » (Chomsky 1965 :18)11

En conséquence de cela, plutôt que d'utiliser des probabilités qui auraient été obtenues à l'aide d'une observation d'actes de langages authentiques, ou de la performance, Chomsky préférait se baser sur des certitudes syntaxiques obtenues selon une méthode hypothético-déductive. En effet, selon lui, la performance est par essence quelque chose d'imparfait, une sorte de représentation famélique et très appauvrie de la compétence, qu'il convient d'étudier. A partir de là, utiliser un corpus pour décrire la compétence risquait fortement de biaiser la conscience que le linguiste aurait eu du langage étudié :

« It is almost impossible to generate a corpus without going beyond it. Any natural corpus will be skewed. Some sentences won’t occur because they are obvious, others because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description would be no more than a mere list. (...) it would be a miracle if you could give any description shorter than the corpus itself. » (Chomsky 1962 : 159)12

De plus, les notions de fréquence de telles ou telles unités d'un langage, que l'on peut identifier précisément à l'aide des corpus, n'étaient selon lui pas utiles lorsque l'on souhaitait décrire la langue. En effet, la grammaticalité d'un énoncé est quelque chose d'essentiel dans la théorie chosmkyenne, or il pose une indépendance totale entre cette grammaticalité et le fait qu'un énoncé apparaît fréquemment dans tel ou tel environnement :

11 « Il y a, en d'autres termes, très peu de procédés de traitement de données ou d'expériences qui soient fiables pour obtenir des informations signifiantes , en ce qui concerne l'intuition linguistique du locuteur natif. » (ma traduction)

12 « Il est presque impossible de créer un corpus sans en aller au-delà. N'importe quel corpus naturel sera biaisé. Certaines phrases n'apparaîtront pas car ce sont des évidences, d'autres, parce qu'elles sont fausses, et encore beaucoup d'autres, parce qu'elles sont impolies. Le corpus, s'il est naturel, sera biaisé à un tel point que la description ne pourra être rien plus qu'une simple liste. Ce serait un miracle si vous pouviez donner une description, quelle qu'elle soit, qui fut plus courte que le corpus lui-même. » (ma traduction)

« There is no significant correlation between order of approximation and grammaticalness. If we order the strings of a given length in terms of order of approximation to English, we shall find both grammatical and ungrammatical strings scattered throughout the list . » (Chomsky, 1957 : 116)13

Ces arguments ont conduit certains universitaires et laboratoires à un basculement de la méthode empirique en linguistique générale vers un raisonnement plus rationnel (rationnel prend alors le sens de quelque chose se fondant avant tout sur le raisonnement) se basant sur l'introspection du chercheur. Si certains linguistes ont continué dans des domaines particuliers de la linguistique à utiliser des corpus (dans des domaines concernant l'acquisition de la langue par des enfants, par exemple, et dans la plupart des recherches en linguistique appliquée), de nombreuses recherches en linguistique générale ont alors adopté le modèle syntaxique de Chomsky, renonçant à des études qui se seraient basées essentiellement sur des faits de langue authentique. Hoey (1983:37) a notamment montré à travers une étude stylistique de certains des écrits de Chomsky comment la mise en place particulière de l'évaluation au sein de ses écrits scientifiques a pu conduire à cette dépréciation de toute étude qui se serait basée sur des faits de langue authentiques, sur la performance.

D'autre part, la théorie chomskyenne a continué à intéresser grandement les chercheurs qui souhaitaient modéliser la langue : cette théorie permettait en effet d'élaborer des modèles compréhensibles pour un ordinateur à partir du moment où une majeure partie des problèmes de variation ou d'instabilité de la langue orale n'était plus présente. Néanmoins, ce développement d'une linguistique descriptive se basant d'une façon exclusive sur l'étude de la « langue », interprétée comme étant la puissance ou la « performance » chomskyenne, n'a pas empêché la poursuite et le développement d'une autre tradition en parallèle, cette fois basée sur des actes de langages authentiques par des linguistes issus majoritairement des sciences appliquées, mais ayant également de nombreuses préoccupations descriptives.

13 « Il n'y a pas de corrélation signifiante entre la fréquence et la grammaticalité. Si nous classions des chaînes d'une longueur donnée en fonction de leur fréquence en anglais, nous trouverions à la fois des chaines grammaticales et agrammaticales répandues à travers notre liste. » (ma traduction)