• Aucun résultat trouvé

Synthèse de chapitre

Chapitre 2 : Langues et corpus

2.4 Études sur corpus

L’étude sur corpus ne peut désormais être raisonnablement envisagée sans recours à l’ordinateur. Cela s’explique par le fait que les masses d’informations que l’on est censé traiter doivent être assez vastes pour que les résultats de recherches dégagent des tendances généralisables. Nous mentionnerons quelques corpus de référence, à la suite de quoi, nous évoquons quelques problèmes liés à l’étude sur corpus.

2.4.1 Corpus de références

Les travaux sur corpus se sont développés sous l’impulsion de l’empirisme et dans l’aire anglophone. C’est ainsi que dans les années soixante Kuˇcera et Francis initient la compilation du Brown Corpus dont le but est de regrouper des productions

langagières qui seraient représentatives de l’anglais américain contemporain. Le

Brown Corpus se compose de plus de cinq cent échantillons de textes anglais

publiés depuis 1961. Aujourd’hui il représente le corpus de référence à partir duquel

se sont battis d’autres corpus tels que le LOB Corpus19 ou encore le British National Corpus (BNC).

Le BNC a été créé vers la fin des années quatre-vingt par les Presses

universitaires d’Oxford. Il est l’un des plus gros corpus qui existe actuellement avec

un peu plus de cent millions d’occurrences. Il regroupe plusieurs genres, oral, fiction

magazine, etc., et recense des textes de l’anglais britannique. Le corpus comprend

90% d’écrits et 10% réservés à l’oral. C’est l’anglais contemporain qui intéresse les auteurs du corpus.

Ce sont fondamentalement trois critères qui sont retenus pour la compilation de la partie écrite du corpus. Il s’agit du domaine, du support et de l’époque. La

répartition selon le domaine permet d’avoir un certain équilibre afin qu’un domaine

donné ne soit sur ou sous représenté.

La partie orale comprend des transcriptions de conversations faites dans des contextes libres ou contraints.

En France la constitution de corpus accuse un certain retard. La base FranText peut être retenue comme corpus de référence. Elle est une base textuelle

70

qui regroupe des textes littéraires pour la plupart. En effet, à sa création dans les années soixante dix, Frantext fait office de corpus littéraire du Trésor de la

Langue Française. L’accès au corpus généraux se fait sur abonnement alors qu’il est

possible d’avoir des extraits de corpus gratuitement. FranText compte plus de cinq mille références et près de trois cents millions de mots.

2.4.2 Problèmes d’étude sur corpus

Le corpus représente un élément fondamental des activités de recherches en milieu scientifique. Toutefois, les études menées sur la base de corpus ont fait l’objet de beaucoup de critiques. L’un des plus grands opposants à l’étude sur corpus

dans le cadre de la linguistique est sans conteste Noam Chomsky. C’est au profit

d’une démarche rationaliste-déductive que Chomsky jette un discrédit sur le travail

sur corpus. Pour les chomskyens, le corpus ne peut constituer qu’un ensemble

de production langagière à rattacher à la performance alors que, pour eux, les recherches en linguistiques doivent se focaliser sur la compétence du locuteur. De ce fait, le corpus en tant que moyen de recherche a été quelque peu écarté

de la linguistique computationnelle. Cependant, l’intérêt que suscite le

corpus ne s’estompe pas pour autant et connait même un regain auprès des lexicographes et terminologues.

En dehors des considérations chomskyennes pour ce qui est des limites du

corpus, il est possible de relever un certain nombre de problèmes que pose l’étude de

corpus.

En linguistique, la constitution de corpus est censée montrer des faits de langue. C’est la raison pour laquelle cette constitution doit être assez représentative du domaine exploré. La représentativité est une notion importante dans le processus de collecte. Elle peut concerner le domaine, le registre, le type de données, l’époque, etc., bref tous les éléments saillants de ce qu’observe le linguiste doivent être présents dans le corpus. Ce qu’il convient toutefois de souligner c’est que la représentativité même si elle est un critère important, n’est pas toujours respectée. En effet, elle est laissée à la libre appréciation de la personne qui constitue le corpus, de plus elle ne peut prétendre à l’exhaustivité.

La constitution de corpus requiert également une rigueur qui si elle n’est pas respectée produit des résultats biaisés. Il est essentiel de ne pas perdre de vue son objectif de recherche de sorte qu’à la fin de la collecte, les éléments constitutifs s’y conforment.

Synthèse de chapitre

Quels éléments de la langue et quels corpus rattacher à notre travail ? C’est à

cette question que nous avons essayé d’apporter des réponses dans ce chapitre. L’étude du lexique d’une langue montre que celle-ci pour être exhaustive a besoin de s’articuler sur les autres parties de la linguistique. En effet, l’approche lexicographique qui peut être adoptée vis-à-vis du lexique des langues peut être

réductrice et ne montrer qu’un pan du fonctionnement de celui-ci. Le lexique d’une

langue dispose de sa propre identité « conçue comme un signifié construit », mais cet état de fait n’est pas statique puisque malgré son identité, le lexique est « susceptible d'évoluer en discours, mais dont le sens est, et demeure, conditionné pour partie par le système » (Cusin-Berch, 1999 : 24).

Notre travail s’articule autour de la sémantique lexicale. C’est la raison pour laquelle une attention toute particulière a été accordée à la science des significations. Le sens est un élément qui nous semble familier de prime abord et qui fait appel à un ensemble de paramètres linguistiques et contextuels. En terminologie, l’univocité systématique longtemps considérée comme un prérequis dans la recherche de désignations et de dénominations s’est révélée être une vue de l’esprit que la réalité de la pratique terminologique a nuancée. Il apparaît dans les travaux de différents auteurs que le sens d’une unité terminologique tend à s’actualiser selon ses différents contextes d’usage.

Le corpus constitue aujourd’hui pour la recherche un élément fondamental ne

serait-ce que pour avoir une vue globale du champ d’investigation et se situer par

rapport à celui-ci. En linguistique, il a une portée empirique et tient lieu d’outil pour

attester des données langagières. Les méthodes d’analyse utilisées en linguistique de

corpus de même que sa proximité avec le TAL est un atout majeur dont profitent les autres branches de la linguistique appliquée. En effet, sans s’être départi de sa visée didactico-lexicographique, la linguistique de corpus est d’un réel apport pour la traduction, la terminologie et les études en langue de spécialité.

72