• Aucun résultat trouvé

Pour une approche diachronique en langue de spécialité : éléments théoriques et

Chapitre 3 Méthodologie pour une analyse de l’évolution en corpus

3.1 Principes méthodologiques généraux pour l’analyse de l’évolution

3.1.1.3 Trois types de corpus : Corpus synchroniques, corpus de suivi et corpus comparables comparables

Pour observer le changement, on peut d’abord se baser sur des corpus synchroniques. En effet, une fois la période d’observation de l’évolution sélectionnée, on peut adopter une démarche synchronique dynamique et chercher à observer différents usages et états de connaissances coexistants dans une synchronie. Nous en donnerons un exemple au Chapitre 5 notamment. Néanmoins pour observer l’évolution, l’approche généralement privilégiée repose sur la comparaison de différents états de langue et de connaissances à partir de corpus diachroniques. Bien qu’une approche diachronique ne se réduise pas à décrire des synchronies successives (Prévost, 2008) d’un point de vue méthodologique, observer l’évolution s’inscrit essentiellement dans une démarche comparative. Ceci signifie que l’on fonde l’observation de l’évolution sur la comparaison d’une succession de synchronies, ce que certains regrettent, tels que Fiala (1985 : 76 cité dans De Surmont, 2005 : 130-131) :

« Dans la représentation de l’histoire qu’ont les linguistes, celle-ci est souvent assimilée à l’idée qu’ils se font de la diachronie, c'est-à-dire une succession, une somme de synchronies, alors qu’elle est tout autre chose, quelque chose de beaucoup plus riche qui implique la dynamique du changement, c'est-à-dire une représentation plus continue du temps. »

La comparaison de différents états de langue est cependant inévitable. Néanmoins, il est possible de réduire l’intervalle de temps considéré entre les différentes coupes synchroniques pour tenter de saisir au plus près le dynamisme de la langue. En fonction de cet intervalle, deux types de corpus peuvent être envisagés : les corpus de suivi et les corpus comparables.

Les corpus de suivi43 regroupent des « flux continus de textes permettant l’analyse chronologique, année par année par exemple, de données langagières » (Habert, et al., 1997 :

125). En d’autres termes, il s’agit de corpus ouverts alimentés périodiquement en textes fraîchement publiés. D’un point de vue diachronique, l’intérêt de ce type de corpus est qu’il permet d’adopter une représentation plus continue du changement44. Les corpus de suivi sont à l’heure actuelle généralement constitués d’articles de journaux dont on suppose souvent qu’ils reflètent « […] l’histoire au jour le jour » et que « l’étude de la langue à travers les journaux, c’est l’histoire de la langue au jour le jour » (Antoine, 1981 : 155). Bien que la question de la représentativité des corpus journalistiques mérite d’être posée (Bourigault & Galy, 2005), ces derniers sont aujourd’hui parmi les seuls textes permettant d’obtenir des flux continus et réguliers pour assurer un corpus de suivi cohérent.

À titre d’exemple, dès le début des années 90, Renouf (1993) travaille sur un corpus constitué des différentes éditions du Times de novembre 1990 à septembre 1991 pour observer mois

après mois la néologie, la productivité de certains mécanismes morphologiques, les nouvelles collocations, etc. Ce type de corpus a été envisagé dans le cadre du projet AVIATOR (Blackwell, 1993 ; Collier, 1993 ; Renouf, 1993), dont le but était de créer un système capable de saisir l’évolution de la langue au cours du temps pour l’anglais. Un autre exemple de projet mettant à contribution un corpus de suivi est celui du système Glossanet, mis en place au LADL45 en 1999 (Fairon, 2000) et qui « permet de réaliser des opérations de veille, mais aussi faire de l'extraction d'information et de rechercher des structures lexicales ou syntaxiques » (Fairon & Courtois, 2000). Ces corpus sont donc très utiles aux études néologiques pour mettre en place de véritables contextes de « veille néologique » (Cartier & Sablayrolles, 2008) et ainsi améliorer et assister la mise à jour de dictionnaires. De plus, avec l’émergence de l’utilisation du Web comme corpus, l’exploitation de corpus de suivi est de plus en plus souvent envisagée46.

43 Appelés aussi « monitor corpus » (Sinclair, 1991 : 4), « corpus baromètres » (Habert, et al., 1997 : 145), « corpus

dynamiques » (Renouf, 1994) ou « corpus ouverts » (Bowker & Pearson, 2002 : 12-13).

44 Bien que rien n’empêche de considérer des intervalles de temps plus longs. Les termes « monitor corpus » et « corpus ouverts » sont en effet parfois utilisés pour renvoyer à des corpus que l’on complète régulièrement, mais qui ne prennent pas en compte des intervalles courts ou réguliers.

Enfin, comme le notent Habert et al. (1997 : 145), dans la mesure où les corpus de suivi sont

récents, ils ne renseignent encore que sur la courte durée (deux décennies au plus), mais au fur et à mesure que le temps passe, leurs données s’accroissent et laissent envisager de mener de nouvelles descriptions de l’évolution des langues.

Cependant aujourd’hui, les corpus de suivi sont essentiellement exploités dans le cadre de l’évolution en langue générale et posent encore de nombreuses difficultés méthodologiques et théoriques pour observer le changement (Habert, et al., 1997). De plus, leur constitution

reste assez difficile et limitée dans la mesure où ils nécessitent la prise en compte de flux de textes encore peu répandus, en particulier pour les langues de spécialité.

Le deuxième type de corpus diachroniques qui permet d’observer l’évolution, beaucoup plus répandu, est celui des corpus comparables47. Les corpus comparables sont des sélections de textes similaires dans différentes langues ou dans plusieurs variétés d’une même langue (Sinclair, 1991 : 12). Ce type de corpus est généralement mis en place dans le cadre de la traduction, de la comparaison de langues (L’Homme, 2004 : 126 ; Bowker & Pearson, 2002 : 93) ou d’extraction de lexiques bilingues (Dejean & Gaussier, 2002 par exemple). Dans le cas d’une description diachronique, il s’agit de textes de genre, domaine, langue similaires, mais produits à différentes périodes :

« The ideal situation for comparing corpora as a basis for studying language change would appear to be to use two corpora constructed on parallel principles at two different points in time. Assuming that any variation identified can be reasonably attributed to language change over time, rather than to say, topic differences or stylistic differences between the corpora, then comparing two similarly constructed corpora seems to offer a relatively straightforward method of identifying at least lexical changes which have occurred during the period between the two collection dates. » (Holmes, 1994 : 28)

Il s’agit généralement de corpus fermés pour la comparaison de plusieurs états de langue à des périodes différentes. Les intervalles considérés sont plus longs que dans le cas des corpus de suivi puisque l’on ne cherche pas à accéder à un flux rapide et quasi-continu de l’évolution de la langue mais à une comparaison de différents états « clos » pour décrire le changement.

On supprime donc la dimension de veille propre aux corpus de suivi. Des exemples de constitution de corpus diachroniques comparables sont donnés notamment par Kytö (2000), Meurman-Solin (1995) ou Holmes (1994) pour la langue générale et Dury (2004) pour les langues de spécialité. Ces différents auteurs insistent sur les difficultés propres à la constitution de ce genre de corpus dont le choix des périodes et intervalles, celui des genres des textes, celui de la langue, de la taille du corpus et la disponibilité des sources, questions que nous détaillons pour notre étude (§3.2.1.3, p.82).

Dans tous les cas, et pour suivre le principe « not chance but choice » d’Engwall (1994), le choix du corpus doit faire l’objet d’un soin particulier pour s’assurer de sa représentativité et de la possibilité de corréler les résultats obtenus à l’évolution de la langue/des connaissances. La construction d’un corpus doit en effet faire l’objet d’une démarche raisonnée et non pas d’un « regroupement opportuniste » (Habert, et al., 1998 : 35).

3.1.2 Démarche outillée : Linguistique « à l’instrument » pour observer le

changement

La démarche proposée dans notre approche se fonde sur l’utilisation d’outils pour l’analyse et le traitement des corpus. Pour mieux comprendre ce choix, nous définissons ce que l’outillage implique, notamment dans une perspective diachronique telle que la nôtre.