• Aucun résultat trouvé

Corpus, méthodologie et analyse :

2. Le corpus : « un éventail d’arc-en-ciel »

2.2 Classification des corpus

En linguistique, la mise en place d’un corpus peut être effectuée selon divers critères. Baker en énumère les plus importants :

(i) general language vs. restricted domain (ii) written vs. spoken language

(iii) synchronic vs. diachronic

(iv) typicality in terms of range of sources (writers/speakers) and genres (e.g. newspaper editorials, radio interviews, fiction, journal articles, court hearings)

(v) geographical limits, e.g. British vs. American English

(vi) monolingual vs. bilingual or multilingual (Baker, 1995 : 229)

D’après la classification ci-dessus, le corpus peut être établi en fonction de la nature de la langue (générale ou spécialisée) et de sa forme (écrite ou orale). Le chercheur peut adopter

une approche diachronique ou synchronique. Il peut également cibler un genre de textes spécifiques ou de discours particuliers. Il est possible aussi de créer un corpus selon les distinctions langagières dues à l’éloignement géographique : le français parlé en France métropolitaine et celui du Québec, par exemple. Le corpus peut être monolingue, bilingue ou multilingue. L’article de Baker « Corpus Linguistics and Translation Studies: Implications and Applications », publié en 1993, est rapidement devenu un article incontournable. En effet, ce dernier a ouvert la voie aux traductologues pour mener plusieurs recherches s’inspirant de la linguistique de corpus. En faisant référence aux travaux de Baker, Rudy Loock (2016) propose une classification détaillée des corpus tout en en signalant que les classifications des différents types de corpus « évoluent vite, parfois très vite même » ; une telle évolution témoigne à la fois d’une certaine « instabilité » et d’une « effervescence autour des corpus » (Loock, 2016 : 68).

Un corpus parallèle met le texte source et sa traduction (corpus bilingue) ou ses traductions (corpus multilingue) en alignement parallèle afin d’observer certains phénomènes langagiers ou stylistiques qui pourraient renseigner le chercheur sur divers aspects traductifs, tels la prise de décisions, les choix et les normes qui s’inscrivent dans des contextes socioculturels et historiques bien spécifiques. Dans un corpus parallèle, « les échantillons ne sont pas indépendants, l’un des deux étant le fruit de la traduction de l’autre » (Loock, 2016 : 86). Baker (1995 : 231) avance que ce type de corpus est un moyen qui aide à déterminer de manière objective la façon dont les traducteurs surmontent certaines difficultés. Un corpus parallèle fournit également des modèles concrets aux traducteurs qui débutent. L’exploitation de ce type de corpus prend forme grâce à l’alignement qui consiste à placer un extrait du texte original et sa traduction l’un à côté de l’autre dans un tableau. Parmi les corpus parallèles les plus célèbres, nous citerons le Hansard Corpus, qui regroupe les textes du Parlement canadien en anglais et en français,

ainsi que le corpus Europarl, qui inclut les procédures judiciaires du Parlement européen. Il convient de rappeler que les corpus parallèles ne sont pas uniquement utilisés dans le cadre d’une « traductologie d’observation », pour emprunter le terme de Michel Ballard (2007 : 12). En réalité, le traducteur, dans l’exercice de son métier, peut aligner et baliser des segments textuels pour les associer afin de constituer une mémoire de traduction. Plusieurs logiciels, tels que Trados, MemoQ et XML, permettent de créer des corpus parallèles. Dans ce cas précis, le corpus parallèle représente une base de données plutôt qu’un support d’observation théorique. Les corpus parallèles sont aussi appelés « corpus de traduction », pour traduire l’expression « translation corpus » utilisée par Tognini-Bonelli (2001).

Or, les différentes appellations des corpus créent parfois une légère confusion. En effet, dans la littérature, le corpus parallèle est également utilisé pour désigner un ensemble de textes bilingues que l’on peut comparer sans qu’ils soient des originaux et leurs traductions. Il s’agit donc d’une collection de textes dans des langues différentes portant sur un critère commun, c’est-à-dire le genre, le thème, le registre ou l’époque de publication. Cependant, ce type de corpus désigne aussi les corpus comparables. Pour éviter cette confusion dans le présent travail, un corpus comparable fera référence à un ensemble composé de textes de langues différentes (bilingue ou multilingue) sans qu’ils ne soient des œuvres sources et leurs traductions (Bowker et Pearson, 2000 : 95). L’un des exemples qui correspondent au corpus comparable serait la comparaison d’extraits de textes du British National Corpus et de Frantext : le British National Corpus (BNC) est un corpus composé de 100 millions de mots anglais, écrits et parlés, qui proviennent d’un large éventail de sources. Il couvre l’anglais britannique de la fin du XXe siècle. En ce qui

concerne Frantext, il s’agit d’une base de données mise en ligne en 1998. Frantext est composé de 251 millions de mots français couvrant la période allant du IXe au XXIe siècle.

Pour comparer ces deux corpus, il convient de choisir des extraits qui ont été rédigés à la même époque et qui portent sur le même thème. Les chercheurs peuvent également avoir recours au corpus comparable, s’ils souhaitent comparer des textes d’un domaine spécifique rédigés en langue originale et d’autres textes du même domaine rédigés par des non natifs, par exemple, les contrats juridiques issus en Angleterre et le même type de contrats rédigés en anglais par des avocats français. Un autre exemple qui illustre ce type de corpus comparable est le fait de comparer des extraits du British National Corpus et du Translational English (Loock, 2016 : 86). Dans ce cas, le chercheur peut détecter les variations entre l’anglais des natifs et celui des non natifs. Les analyses des divers échantillons révélent ainsi des tendances telles que la présence de locutions récurrentes introduites par ceux dont l’anglais n’est pas la langue maternelle.

Il n’y a pas lieu de détailler ici tous les types de corpus, car Loock (2016 : 67-94) consacre un chapitre entier à ce sujet où il explique les particularités « des corpus bruts et des corpus annotés », « des corpus monolingues », « des corpus officiels et des corpus maisons » et « des corpus d’apprenant ». Néanmoins, nous souhaitons souligner que les corpus bilingues ou multilingues, parallèles et comparables, sont un moyen pour étudier le « comportement » d’une langue ainsi que ses caractéristiques dans l’environnement habituel de son utilisation vis-à-vis des textes traduits et des textes d’une même langue ayant des aspects distinctifs. Utiliser un corpus permet de dégager les différences entres les langues sur le plan syntaxique, typologique et culturel, ce qui aide le chercheur à établir diverses tendances. Cela peut être particulièrement utile dans le cadre des études à fin comparatiste. En outre, un corpus est également utilisé en lexicographie et dans l’enseignement de la langue et de la traduction.