• Aucun résultat trouvé

Exploration outillée de quatre indices linguistiques

Chapitre 4 Empreintes de fréquence SOMMAIRE DU CHAPITRE

4.1 Empreintes de fréquence et corpus diachroniques

4.1.1 « Empreintes de fréquence » : définition

Le terme « empreintes de fréquence », introduit par Ahmad et al. (2002)67, renvoie à la possibilité de dessiner la courbe de fréquence d’un terme à travers les différents sous-corpus composant un corpus diachronique. L’hypothèse est de considérer que la courbe de fréquence d’un terme donné dans le corpus reflète l’évolution du terme/concept dans le domaine. C’est ce qu’explique Losee (1995 : 269) dans l’extrait suivant :

« We assume that the change in interest in concepts may be tracked back by examining the presence or absence of terms in documents. […] [C]oncepts and the associated terms develop and become popular over a period of years. […] As concepts grow in disciplinary importance, we expect terms associated with concepts to increase in frequency. Intra-disciplinary growth begins with a growth period that then levels off after several years. When a concept becomes discredited or is replaced, or has been exhaustively studied, a decrease in use will occur. »

Comme l’illustre cette citation, plusieurs types d’empreintes peuvent être définis en fonction de la courbe de fréquence et parmi eux, quatre principaux68 :

- l’apparition d’un terme dans les sous-corpus les plus récents, - la disparition d’un terme dans les sous-corpus les plus récents, - la fréquence croissante du terme dans l’ensemble des corpus, - et la décroissance du terme dans l’ensemble des corpus.

Ces quatre empreintes peuvent être classées en deux groupes sur la base de la distinction possible entre rupture et continuité.

Les deux premières empreintes peuvent être associées à la notion de « rupture » dans la mesure où elles passent par une fréquence nulle dans au moins l’un des sous-corpus qui constituent le corpus comparable (§4.1.2). La première d’entre elles (l’apparition d’un terme)

67 « Empreinte de fréquence » est notre traduction de « Frequency Signature » proposée à l’origine par Ahmad et al.

a fait l’objet d’attentions particulières de la part des néologues dans la mesure où ce phénomène est susceptible de refléter l’apparition d’un néologisme dans le domaine. À l’inverse, la disparition d’un terme du corpus peut révéler la disparition d’un terme/concept obsolète dans le domaine.

Les deux dernières empreintes reposent quant à elles sur des schémas continus : les termes considérés n’apparaissent ni ne disparaissent spécifiquement, ce sont leurs variations de fréquence dans l’ensemble des sous-corpus qui sont observées et qui peuvent être associées à la croissance/décroissance des termes/concepts dans le domaine. Ce type de courbe est particulièrement intéressant pour tenter de repérer des termes appelés « chrono-homogènes » (Habert, et al., 1997)(§ 4.1.3).

4.1.2 Néologie et obsolescence

Comme le souligne Humbley (2006 : 92-93), définir ce qu’est un néologisme n’est pas chose facile, et lorsqu’il s’agit d’en donner une définition « plus pratique que théorique, lexicographique plutôt que lexicologique », on fait appel « au dispositif ad hoc du corpus

d’exclusion » dans lequel « le néologisme est un mot relevé dans un texte mais qui ne se trouve pas dans un corpus de dictionnaires supposé représenter l’état […] de la langue et du registre concernés ».

Cette définition au caractère méthodologique se traduit en corpus par la prise en compte d’une empreinte de fréquence : un terme absent d’un corpus ancien, dit de référence, mais présent dans un corpus récent peut être considéré comme un néologisme ou, plus précisément, comme un néologisme potentiel.

Cette définition offre des perspectives intéressantes pour le repérage automatisé des néologismes, automatisation qui « permet d’alléger considérablement la tâche du linguiste » (Mathieu, et al., 1998 : 207). Rappelons que bon nombre de travaux ont vu le jour sur cette

question (Cabré, et al., 2003 ; Janssen, 2008 ; Mathieu, 1998 ; Mathieu, et al., 1998 ; Ollinger &

Valette, 2008 ; Roche & Bowker, 1999 ; Sader Feghali, 2005, etc.), mais que ce n’est que récemment que des propositions ont été faites sur des corpus comparables seuls (Drouin, et al., 2006 ; Paquin, 2007) (§1.2.3.2, p.28).

À l’inverse, l’empreinte de fréquence d’un terme peut indiquer que celui-ci est devenu obsolète. Cet aspect de la disparition des termes est très peu abordé en terminologie, mais l’on trouve parfois le terme de mort lexicale pour le nommer, par exemple chez Grzega (2002),

ou plus récemment le terme de nécrologie chez Drouin et Dury (à paraître). Ces derniers

mettent en place une des rares études sur cet aspect, étude basée sur un repérage semi-automatique des « nécrologismes » à partir de la comparaison de corpus, sur le modèle du repérage des néologismes.

Dans cette recherche, nous choisissons le terme obsolescence plutôt que nécrologie, qui

sous-tend l’idée de la disparition totale d’un terme/concept (de sa « mort » donc) alors qu’il nous semble plutôt qu’une des particularités de la disparition de termes/concepts par rapport à leur apparition est qu’ils peuvent toujours rester dans la mémoire d’experts, qu’ils sont susceptibles de réapparaître dans la terminologie et surtout qu’il en reste toujours des traces dans des textes anciens et archives consultables. Pour cette raison, et ceci est particulièrement notable en diachronie courte, la disparition des termes relève plus de leur obsolescence que de leur « mort ».

Soulignons que la majorité de ces études s’accordent sur le fait que le critère de fréquence seul n’est pas un indice suffisant pour décider de la néologicité – ou de l’obsolescence – d’un terme repéré. Beaucoup de ces systèmes font de fait souvent appel à une série de filtres supplémentaires tels que des filtres morphologiques (en fonction du mode de formation d’un candidat) ou statistiques, pour affiner le repérage. Mais malgré tout le soin apporté à la sélection des candidats néologismes, « il reste […] [au linguiste] un travail important à faire : établir si un néologisme potentiel est ou non un vrai néologisme » (Mathieu, et al., 1998 : 207).

La validation et l’interprétation de ces candidats est en effet une étape généralement incontournable pour construire une liste de néologismes ou termes/concepts obsolètes acceptables. Et c’est sur cet aspect que nous souhaitons insister dans ce chapitre : si les termes qui apparaissent uniquement dans les corpus les plus récents ne sont pas forcément des néologismes, quelles autres interprétations peut-on leur associer ? De la même manière, si des termes disparaissent des corpus les plus récents, sont-ils nécessairement obsolètes ?

4.1.3 Formes chrono-homogènes

Le second type d’observations possibles à partir de la fréquence repose sur une dynamique

de « continuité » : on ne cherche pas spécifiquement des termes qui

apparaissent/disparaissent dans le corpus, mais on observe la courbe de fréquence des termes dans l’ensemble des corpus. Ce type d’hypothèses est fréquent en diachronie et permet d’associer des courbes de fréquences dans un corpus à l’évolution d’un terme/concept dans le domaine. Ainsi par exemple, Dury (2007) argumente une analyse de la « terminologisation » du terme carbon neutral dans le domaine de l’écologie à l’aide de l’augmentation de fréquence

de ce terme dans chacun des sous-corpus spécialisés observés. Ou encore, Ahmad et Musacchio (2004 : 1568) montrent l’évolution des usages du terme neutroni qui diminuent

dans le temps, alors que ceux du terme quark augmentent révélant ainsi le changement

d’intérêt sur la question des particules élémentaires en physique. Enfin, Schierz (2007 : 133-134) illustre le potentiel de ces courbes de fréquence pour comparer l’évolution de termes dans différents types de documents et montre que des pics de croissance de termes sont repérables dans des corpus de textes universitaires et académiques bien avant que ces termes n’apparaissent dans des corpus de brevets.

L’intérêt de ces empreintes de fréquence ne réside pas seulement dans leur utilisation pour l’observation de termes isolés, mais également pour contraster, comparer et regrouper certains termes qui présentent des empreintes de fréquence similaires dans le temps. On retrouve cette idée chez Habert et al. (1997 : 209-210), qui parlent de formes «

chrono-homogènes » :

« Les schémas d’évolution établis pour chacune des unités font apparaître des ensembles d’unités qui ont tendance à évoluer de conserve au fil des périodes : les formes chrono-homogènes.

En fait, l’idée qui sous-tend cette approche est la suivante : pour des formes fréquentes dans le corpus, le fait que plusieurs formes évoluent de manière proportionnelle tout au long des périodes ne peut être mis au compte du hasard. Il faut donc, dans chaque cas, déterminer la cause profonde qui est à l’origine de ces regroupements. Selon les cas, on trouvera des groupements liés à une thématique, à une actualité, etc. »

L’avantage de ces regroupements est qu’en plus de l’observation de termes isolés, ils permettent de faire émerger des thématiques pour observer l’évolution des connaissances. Comme nous le verrons (§4.3.2), ceci a au moins deux intérêts :

- l’émergence de thématiques d’évolution permet de compléter les observations classiques de l’évolution des terminologies en leur faisant dépasser le niveau du terme/concept isolé souvent privilégié dans les descriptions terminologiques ;

- le fait que certains termes/concepts évoluent « en masse » permet d’aider l’analyste dans son interprétation de l’évolution, de l’affiner et de donner plus de poids à son argumentation.

Mais avant de développer ces deux points, nous expliquons dans la section suivante la méthode choisie dans cette étude afin de mettre au jour des empreintes de fréquence significatives pour observer l’évolution.