• Aucun résultat trouvé

linguistique générale, qu'est-ce qu'un corpus ?

I. 1.3.2.2- Le British National Corpus

Ce corpus a été fortement inspiré dans sa conception du COBUILD, il a notamment eu le même superviseur, Jeremy Clear dans le domaine informatique (Sinclair et al. 1987, Burnard 2007:3). Le projet, visant à élaborer le BNC est né d'un regroupement d'intérêts communs entre des éditeurs de dictionnaires (Longman et Chambers), des universitaires et chercheurs (la lexicographe Sue Atkins, l'Université d'Oxford, l'Université de Lancaster et la British Library) et le gouvernement britannique. Ces diverses entités éprouvaient différents intérêts dans la mise au point d'un tel projet au cours des années 1990. Les éditeurs Longman et Chambers, encouragés par le succès de l'entreprise Collins COBUILD menée à Birmingham par l'équipe de John Sinclair, ont pu souhaiter financer l'expérience afin d'avoir au mieux des retombées en termes de nouveaux dictionnaires, au pire, en termes de meilleure image. Le gouvernement britannique pouvait quant à lui stimuler l'ingénierie en langue anglaise. Les chercheurs se trouvaient également intéressés par le projet du fait de la possibilité entrevue d'établir un nouveau modèle de développement de grands corpus, à la façon du corpus Bank of English de Birmingham (Burnard 2007).

Le BNC est donc un corpus d'anglais britannique moderne d'environ 100 millions de mots (sa dernière version, datant de 2007 comprend 98 363 784 éléments lemmatisés), et a été réalisé après The Bank of English, entre 1990 et 1994. Bien que moins important en taille que The Bank of English, son principal intérêt repose sur le fait qu'il peut être distribué de façon légale dans le monde entier, quand le corpus de Birmingham a un accès limité. C'est le plus grand corpus actuellement distribué de cette façon. Il comprend environ 10 % de textes oraux, cette faible proportion s'explique par le coût important de toute transcription de langue orale en comparaison avec la collecte de textes écrits. La collecte et la saisie des textes le composant ont été effectuées à l'université d'Oxford. C'est un corpus qui a une taille finie, il donne donc un aperçu de la langue anglaise dans les années 1990. Comme la plupart des corpus visant à représenter la langue dans sa variété et étant de taille finie, il se compose d'échantillons de divers textes dans divers domaines.

L'annotation du BNC s'est faite selon les standards de la TEI (Text Encoding Initiative)26. La TEI est un ensemble de règles visant à standardiser les annotations généralement ajoutées aux textes formant un corpus pour décrire les informations relatives à ces textes. C'est également un ensemble de normes qui a été mis au point en parallèle du BNC. La TEI a été développée au même endroit, au même moment, et par les mêmes personnes que le BNC. Le BNC est donc parfaitement conforme à ces standards, il contient ainsi les informations relatives aux textes qui le composent en lui même, et non pas dans une documentation extérieure au corpus, comme cela pouvait se faire dans les années 1990.

Il a également été étiqueté linguistiquement par le système CLAWS27 (the Constituent Likelihood Automatik Word-Tagging System) au sein de l'université de Lancaster sous la coordination de Geoffrey Leech.

Actuellement, ce corpus est distribué avec un logiciel d'extraction, XAIRA (XML Aware Indexing ans Retrieval Architecture)28, à l'origine, le logiciel s'appelait SARA (Sgml Retrieval application) il est toujours disponible en open source sur le site http://sara.natcorp.ox.ac.uk (Burnard 2007:14). Il a été créé à l'aide de fonds du British National Corpus consortium et de la fondation Adrew Mellon. Ce programme a été développé par le Oxford University Computing Services (OUCS) précisément pour

26 Http://www.tei-c.org/index.xml (dernière consultation le 23/09/2009) 27 Http://ucrel.lancs.ac.uk/claws (dernière consultation le 23/09/2009) 28 Http://www.xaira.org (dernière consultation le 23/09/2009

fonctionner avec le BNC et a été distribué sous le nom de SARA à partir de 199429. Ce logiciel a été totalement remanié entre 2004 et 2005 pour prendre le nom de Xaira. Ce remaniement a notamment permis de le distribuer indépendamment du BNC, de le rendre accessible gratuitement pour l'usage de toute personne souhaitant interroger un corpus de grande taille. Ainsi, il peut actuellement fonctionner pour tout type de document dans un format .xml, néanmoins, il fonctionne mieux s'il s'agit d'un document conforme aux normes de la TEI. Ce logiciel permet entre autres possibilités d'extraire des concordanciers de corpus xml conformes aux normes de la TEI, de calculer des collocations, de créer des partitions, etc. dans des corpus de grande taille.

Le BNC n'est pas un monitor corpus, ou corpus suivi tel que celui élaboré par John Sinclair. Il a une taille finie, et par exemple, si l'on recherche l'expression « World Wide Web » dans le corpus, elle n'apparaît qu'à deux reprises et devrait donc être considérée comme quelque chose de marginal au sein de l'anglais britannique moderne. Néanmoins, deux autres versions ont été éditées depuis la première version de 1994. En 1999, The British National World Edition a été diffusé. Les principales modifications ont concerné pour cette version une amputation d'une cinquantaine de textes afin de pouvoir le diffuser légalement dans le monde entier, une amélioration a également été apportée à l'étiquetage par CLAWS du corpus. La troisième version est le British National Corpus XML édition de 2007. Outre l'adaptation du corpus au format XML alors largement répandu, cette édition a également modifié l'annotation afin de la rendre plus conforme aux normes de la TEI, le corpus a été amélioré au niveau de son utilisation avec d'autres outils XML qui se sont développés, et son balisage a été simplifié.

On constate ainsi à travers l'exemple de ces deux corpus de référence que si une grande taille semble toujours être de mise lorsque l'on parle de corpus en linguistique moderne, ainsi qu'une grande variété de textes, des divergences peuvent apparaître. La tradition firthienne opte pour un corpus suivi quand une tradition plus orthodoxe a préféré un corpus fini, la première a préféré un corpus annoté au minimum quand la seconde a étiqueté le BNC.

Le paradigme de la linguistique de corpus, actuellement en plein essor (Williams 2006) réunit en quelques sortes deux linguistiques dont le développement a pris place tout au

long du vingtième siècle. Selon la « dualité » saussurienne (Rastier 2005) de la langue et de la parole, on pourrait dire qu'une linguistique de la langue s'est développée parallèlement à une linguistique de la parole.

La linguistique générale s'est beaucoup préoccupée de la langue, interprétée comme un modèle devant être abstrait, notamment à travers le courant structural, tandis qu'une linguistique de la parole n'a cessé de se développer, tout d'abord au sein de la linguistique appliquée britannique, puis de façon beaucoup plus généralisée avec l'utilisation d'outils informatiques à partir des années 1970.

La théorie actuelle de la linguistique de corpus prend sa source dans différents projets de linguistique appliquée, qu'il s'agisse de lexicographie (projet COBUILD, BNC) ou d'enseignement de langue vivante (Williams 2006). Elle fonctionne au sein du paradigme contextualiste, si l'université de Lancaster, dans une filiation Quirk-Leech semble davantage s'intéresser au Traitement Automatique de la Langue, et sur la création d'outils informatisés notamment, la plupart des groupes de chercheurs ou de laboratoires en linguistique de corpus quel que soit le lieu où ils prennent place se situent dans une démarche contextualiste. (Williams 2006). La tour d'ivoire grammaticale dans laquelle on a parfois reproché au linguiste de s'enfermer n'est plus, et la dimension sémantique du langage est pleinement étudiée (Rastier 2005).

Un des aphorismes les plus connus de Saussure pose que c'est le point de vue qui crée l'objet. Sinclair (1991:100) note que la façon de voir le langage peut changer considérablement lorsque l'on peut en voir une grande quantité en une seule fois, Tognini-Bonelli poursuit cette idée en disant que parfois, c'est le point de vue qui crée la discipline. Dans le domaine de la linguistique de corpus, cela signifie que l'impact des nouvelles technologies a totalement modifié le point de vue que l'on avait de ce sujet qu'est le langage. Grâce aux nouvelles technologies, aux corpus informatisés, aux logiciels d'extractions et aux concordanciers, il est devenu possible d'observer la langue à travers la « masse parlante » saussurienne, ce n'est plus un seul fait de parole qui est donné à voir, mais une véritable masse de parole à travers laquelle se réalise la langue.

« langue has become now observable for us on the vertical axis of the concordance. It is the awareness of the social habit underlying the

presence of repeated patterning. The concordance can thus reunite for us the instance of parole on the horizontal axis and the awareness of langue of the vertical one » (Tognini-Bonelli 2001:169)30

Langue et parole, ainsi que les différents points de vue ou différentes linguistiques que ces deux pendants d'une même « dualité » (Rastier 2005) se rejoignent ainsi au sein de la linguistique de corpus.

C'est dans ce paradigme que s'inscrit cette thèse, travaillant sur un corpus qui a été formé notamment selon les principes généraux élaborés par Sinclair à travers les nombreux corpus qu'il a construit, et adoptant vis à vis des données du corpus une approche largement lexicographique. La seconde partie de ce chapitre va maintenant développer davantage les différents types de corpus qui peuvent être créés selon les buts de recherche que l'on se donne, et la façon dont le corpus IntUne, sur lequel les analyses de cette thèse sont faites, a été élaboré.

I.2- Le corpus, une entité à géométrie variable.

Cette thèse se base sur un ensemble d'études et d'analyses qui ont été menées sur corpus. Il nous semble dès lors essentiel de définir plus précisément comment cette entité est le plus souvent utilisée en linguistique de corpus, ainsi que ses applications dans des domaines aussi nombreux que variés (la lexicographie, la traduction automatique, l'apprentissage des langues, etc.). Une explication des choix qui ont été faits plus précisément concernant la constitution du corpus dans le projet IntUne sur lequel se base notre étude doit également être posée avant de procéder à toute analyse, tant il est essentiel pour tout analyste d'être conscient des atouts, mais aussi des limites de ce sur quoi se fonde son analyse.

Nous verrons donc dans un premier temps que les corpus électroniques, loin de présenter une réalité homogène peuvent prendre de multiples formes, que ces corpus peuvent

30 « La langue est devenue maintenant observable pour les chercheurs sur l'axe vertical des concordances. C'est la conscience de l'usage social qui sous-tend la présence de structures répétitives. Les concordances peuvent en conséquence réunir pour nous des instances de la parole sur l'axe horizontal, et la conscience de la langue sur l'axe vertical » (ma traduction).

être étudiés selon différentes approches. Nous nous poserons dans un second temps la question des limites que peuvent présenter les corpus. Enfin, nous verrons quelles applications les corpus peuvent avoir.

I.2.1- Les corpus électroniques : multiplicité de formes et