• Aucun résultat trouvé

linguistique générale, qu'est-ce qu'un corpus ?

I. 2.1.1.1- Les corpus parallèles

que l'on aligne à un niveau syntagmatique. Il s'agit de corpus qui ont essentiellement une utilité au niveau de la traduction en linguistique de corpus. Les premiers ensembles de ce genre étaient réellement parallèles, Tognini-Bonelli donne l'exemple d'un corpus d'anglais et de français parlementaire enregistré de façon très rigoureuse au Canada dans lequel les deux corpus étaient alignés phrase à phrase (2001:6). Tognini-Bonelli précise ensuite (2001:7) qu'avant de mettre au point ce type de corpus, on a créé des corpus qui étaient de traduction libre. Tout comme pour le corpus parallèle, on traduisait un même texte dans plusieurs langues, mais cette fois sans qu'un souci particulier ait été porté sur sa correspondance rigoureuse d'une langue à l'autre, notamment du point de vue syntagmatique. Ces ensembles étaient en conséquence beaucoup moins faciles à traiter et à étudier de façon informatisée, puisqu'ils n'avaient pas une rigueur suffisante dans leur conception.

Pearson (2003:167) cite aussi les corpus parallèles comme étant très utilisés dans le domaine de la traduction, mais elle affine ce point de vue en notant que s'ils sont très présents au niveau de la recherche fondamentale en traduction, on ne les utilise que relativement peu dans le domaine de l'apprentissage ou de l'entraînement à la traduction.

Néanmoins, malgré leur utilité, ces corpus semblent poser quelques difficultés. Déjean et Gaussier montrent ainsi que si ces corpus peuvent présenter une utilité manifeste dans différents domaines (apprentissage, traduction), ils posent un réel problème d'accès.

« Il est plus facile d'accéder à un corpus comparable dans un domaine donné qu'à un corpus parallèle de bonne qualité. » (Déjean et Gaussier 2002:315)

Un autre type de corpus apparaît dans cette citation, le corpus comparable, auquel il semble plus aisé d'accéder, nous allons maintenant voir ce que sont les corpus comparables. I.2.1.1.2- Les corpus comparables.

Les corpus comparables ont été imaginés, selon Tognini-Bonelli (2001:7), notamment du fait de l'absence de représentativité de corpus strictement parallèles et du peu de ressources traduites avec suffisamment de rigueur qui étaient disponibles, rejoignant alors l'argument de Déjean et Gaussier (2002). Outre leur plus grande accessibilité, les corpus comparables regroupent par ailleurs des textes dans leur langue originale, et présentent donc des faits de langue authentiques, non traduits. Les corpus comparables sont constitués de

différents éléments qui sont choisis pour représenter des catégories semblables dans les différentes langues qui constituent le corpus Tognini-Bonelli (2001:7) donne comme exemple de catégories communes le fait de choisir du langage oral ou écrit dans telles proportions pour chaque langue, celui de choisir tel registre. Déjean et Gaussier (2002:314) confirment ce point de vue en expliquant que le corpus comparable peut se baser sur ce type de critères qualitatifs (genre, auteur, période, média) qui seraient les mêmes dans les corpus des différentes langues collectées, ils ajoutent que les corpus comparables peuvent aussi utiliser des mesures quantitatives pour en évaluer la proximité. Pearson définit brièvement le corpus comparable comme suit :

« Comparable corpora, i.e. collections of texts in two or more languages containing texts of the same type and dealing with the same domain, » (Pearson 2003:168)31

Un exemple de corpus comparable qui est établi au niveau international est l'ICE (International Corpus of English), sa conception a débuté en 1990, notamment à l'initiative de Sidney Greenbaum, et il est actuellement coordonné par Gerald Nelson. Ce corpus a pour but de mener des études comparatives sur les différentes façon dont on peut parler anglais dans les pays anglophones à travers le monde. Afin de permettre une étude comparative, les différents corpus élaborés dans les pays étudiés doivent adopter des critères communs de conception, ainsi, tous se composent d'environ un million de mots d'anglais écrit et oral (avec une majorité de langue orale), selon des proportions et des registres ou types de textes clairement énoncés32. Ce type de corpus fonctionne donc sur des échantillons d'une taille exactement identique d'une langue à une autre, cela n'est pas le cas du corpus IntUne sur lequel cette thèse se base, en effet, d'un pays à un autre, les journaux utilisés pouvaient être plus ou moins prolixes, de plus, ce sont des textes entiers qui figurent dans ce corpus, néanmoins, nous postulons qu'à partir du moment où des critères rigoureux ont été mis en place pour construire le corpus IntUne et où ces critères ont été suivis dans les quatre pays du groupe média, le corpus IntUne est un corpus qui permet de mener des études comparatives.

Le corpus IntUne a été conçu pour pouvoir être étudié de façon comparative à la

31 « Les corpus comparables, c'est_à-dire des ensembles de texte dans deux langues ou plus contenant des textes du même type et dont le sujet concerne le même domaine » (ma traduction).

fois au niveau diachronique et au niveau national. Il comprend des textes qui proviennent des médias écrits et télévisés, collectés à des périodes et sur des types de journaux semblables pour les quatre pays du groupe média, il est par conséquent un corpus comparable. Mais nous reviendrons plus tard dans le détail de sa conception ainsi que les difficultés que celle-ci a pu poser. Avant, il semble important de définir les différentes approches qu'un chercheur peut avoir vis à vis du corpus qu'il étudie.