Aperçu historique et principes - Linguistique de corpus

Synthèse de chapitre

Chapitre 2 : Langues et corpus

2.3 Linguistique de corpus

2.3.1 Aperçu historique et principes

C’est dans les années soixante que la linguistique de corpus commence à se développer dans une perspective originelle didactique. Avec les travaux

lexicographiques, il est possible de noter qu’à l’époque, il y avait une propension

des lexicographes à étudier les mots de manière totalement isolée. Alors que l’un des

précurseurs de la linguistique de corpus, Sinclair, montre dans un travail¹⁷ mené au

milieu des années soixante, que le contexte joue un rôle primordial dans l’appréhension du sens. C’est ainsi que se développent des notions importantes de

collocat, de contexte, d’intertexte, de discours. Le sens d’un mot est déduit de ses

collocats ou de son entourage compris comme l’ensemble des items lexicaux ou grammaticaux qui gravitent à gauche ou à droite de ce mot, le tout forme un enchaînement dans un corpus, un contexte bien déterminé, comme le souligne d’ailleurs Teubert :

La constitution du sens est le résultat d’une collocation, d’un enchaînement de mots dans un contexte donné, répétant les enchaînements qui se sont formés encore et encore dans le discours, et donc, dans le corpus. La linguistique de corpus est venue originellement répondre au besoin d’enseigner l’anglais comme langue étrangère. (Teubert, 2009 : 185)

Cruse abonde également dans le même sens :

Natural vocabularies are not random assemblages of points in semantic space: there are quite strong regularizing and structuring tendencies, and one type of these manifests itself through sense relations. (Cruse, 2004 : 143).

L’avènement de la linguistique de corpus ne peut être dissocié des avancées technologiques qui ont permis de faire un travail de collecte de textes à grande

échelle et d’analyses à l’aide de logiciels. C’est d’ailleurs dans les années soixante

que Kučera et Francis (1967) proposent dans leur ouvrage des bases statistiques de

la linguistique computationnelle, ce qui donnera par la suite naissance à ce qui

représente aujourd’hui le corpus de référence, BNC, pour ce qui est de la technique de compilation, de la forme de la qualité et de la quantité des données.

L’étude de corpus de textes ne peut être raisonnablement envisagée sans une

dimension informatique. D’aucuns ont rattaché la linguistique de corpus au TAL. Il

est vrai que les liens sont manifestes. Toutefois la transdisciplinarité de la linguistique de corpus fait qu’elle constitue aujourd’hui pour les autres branches de la linguistique appliquée un moyen d’appréhension des pratiques langagières sous un angle englobant dynamique et partiellement automatisé.

Abordé en relation avec la terminologie et les études sur les langues de spécialité, le corpus a d’abord suscité une certaine méfiance. Cela s’explique tout d’abord par le fait que les textes bien qu’étant attestés relèvent de l’usage et demeurent un paramètre mouvant, qui pourrait remettre en question les fondements même de la terminologie.

[...] jusqu'à une date récente, la linguistique n'a fait valoir que l'évolution libre, non dirigée, de la langue. C'est l'usage effectif de cette dernière qui, dans la langue commune, sert de norme. On peut appeler cette norme la norme descriptive. En revanche, en terminologie, fertile en notions et en termes, cette évolution libre de la langue mène à une confusion inacceptable. (Wüster, 1981 : 65)

Cependant comme le remarque Condamines, l’un des principes fondateurs de

la théorie générale de la terminologie a fait face à des réalités pratiques qui n’ont pu être passées sous silence.

La réalité de la pratique terminologique se révèle tout autre. En effet, les textes, entendus comme des productions langagières effectives, sont nécessairement pris en compte parce que les terminologues ne peuvent s'appuyer sur leurs seules intuitions linguistiques dans des domaines où ils n'ont pas de compétence. Pour contourner cette « non-compétence », les terminologues font appel à des experts qu'ils interrogent, mais aussi à des productions de toute nature : manuels, documents d'entreprises, listes de termes existantes (…) (Condamines, 2005 : 42).

Les corpus se présentent donc comme des outils utiles à la pratique terminologique pour attester, confronter des termes ou même les extraire. La

linguistique de corpus a non seulement permis d’avoir une nouvelle approche de la

langue, mais aussi de faire la jonction entre celle-ci et informatique, analyse prédictive et intelligence artificielle dans le cadre du TAL. Par ailleurs, la lexicologie (Halliday, 2004c), se sert également des corpus.

Un certain nombre de principes méthodologiques gouvernent la linguistique de corpus. Walis et Nelson (2001) relèvent trois étapes (3A perspective on corpus

linguistics) essentielles à l’exploitation des données d’un corpus. Il s’agit de l’annotation, de l’abstraction et de l’analyse.

L’annotation consiste à ajouter des informations linguistiques aux données brutes recueillies. Cela a l’avantage de rendre davantage explicite le contenu informationnel du corpus compilé. Les étiquettes syntaxiques sont des exemples d’annotation.

L’abstraction permet de distinguer les éléments pertinents du corpus qui sont par la suite transférés vers un modèle abstrait. Ce modèle a, selon les auteurs, une

caractéristique expérimentale et doit être élaboré par des experts. D’où la nécessité

d’une interface qui évalue et améliore le modèle. L’abstraction qui se fonde sur un ensemble de requêtes grammaticales est donc à la fois un dispositif et la transcription explicite des données contenues dans le corpus.

Enfin l’analyse constitue une phase d’examen des données en vue de dégager des conclusions généralisables. L’analyse peut porter sur des données statistiques.

Teubert (2009) note cependant des limites liées aux données statistiques qui peuvent être extraites des corpus. Le T-score et le MI- score sont aujourd’hui des moyens d’évaluation statistique. Le Mutual Information révèle la différence entre cooccurrence observée et cooccurrence attendue. D’un point de vue statistique, le

MI mesure le degré d’association entre un mot x et un mot y18. Par contre, le t-score

mesure le degré de fiabilité d’une association. À la différence du MI, le t-score est

efficace avec les basses fréquences.

TABLEAU.2.1 :MI ET T-SCORE DE CANDIDATS TERMES (IN : A GUIDE TO STATISTICS: T-SCORE AND MUTUAL INFORMATION)

18 Source : A Guide to Statistics: t-score and mutual information, https://wordbanks.harpercollins.co.uk/other_doc/statistics.html

Le tableau ci-dessus montre que sour compte trois cooccurrences et a un MI

élevé, ce qui veut dire qu’il y a une forte association de deux mots. Alors qu’avec un

t-score relativement bas, cette possibilité est révélée, sans être affirmée, en l’absence de cooccurrences attestées.

Bien que d’intérêt statistiquement, Stubbs (2009) souligne l’absence

d’informations linguistiques. Les données que procurent les concordanciers et autres outils d’analyse de corpus requièrent des interprétations. Les données factuelles dégagent des possibilités et probabilités sur la base d’éléments empiriques.

D’autres chercheurs travaillant avec les mêmes corpus prendraient des options différentes sur les collocats à définir comme pertinents (à l’opposé de significatifs), sur les citations à choisir, également sur ce que constitue un contenu paraphrastique. (Stubbs, 2009)

Stubbs fait un constat que les linguistes de corpus et les lexicographes partagent. Il s’agit de l’absence de véracité de l’interprétation d’un item lexical au d’un segment de texte. Une interprétation vraie ou correcte n’est en fin de compte que négociée au sein d’une communauté scientifique donnée. La linguistique de corpus est toutefois appelée à jouer un rôle majeur dans le domaine de l’industrie des langues et autres disciplines linguistiques.

Le développement de la linguistique de corpus a été tel que ses méthodes et dispositifs d’analyse se sont retrouvés dans les champs du TAL, des études en

langue de spécialité et en terminologie. L’usage en TAL se fera dans le but de

regrouper une grande quantité de données textuelles à analyser et à réutiliser pour des programmes d’intelligence artificielle.

En ce qui concerne les études sur langue de spécialité, Gledhill (2000) ou encore Williams (2002) ont mené des recherches sur corpus scientifiques dans une perspective phraséologique et lexicographique. Dans le champ terminologique, Pearson (1998) a mis à profit les vingt années de développement de la linguistique de corpus afin de déterminer le contexte d’apparition du terme ainsi que les paramètres métalinguistiques qui le consacrent véritablement comme une unité

terminologique susceptible de faire partie d’une base de données terminologiques.

Condamines et Dahaut (2011) ont trouvé intéressant d’utiliser les méthodes de la linguistique de corpus pour trois domaines: le corpus, la variation et le lexique. Pour ces auteurs, les corpus sont des bases de travail dont les terminologues ne peuvent plus raisonablement se passer.

Par ailleurs, la vision prescriptive de la terminologie, incite à prendre en compte le domaine. La variation, à la lumière des travaux de Swales (1990), est à mettre sur le compte des différents genres textuels qui existent. C’est une notion

dont l’intérêt terminologique, en rapport avec les corpus, réside dans le fait que les textes compilés ne sauraient être considérés comme un ensemble homogène. Ils ne sont pas dépouillés de toute considération extralinguistique qui expliquerait, en

partie, le fonctionnement du langage. Enfin, l’intérêt lexical relevé par Condamines

et Dahaut est à lié à la nature du corpus qui est un ensemble de mots.

Dans le document La terminologie wolof dans une perspective de traduction et de combinatoire lexicale restreinte (Page 81-85)