Méthodologie pour la mise au jour d’empreintes

Exploration outillée de quatre indices linguistiques

Chapitre 4 Empreintes de fréquence SOMMAIRE DU CHAPITRE

4.2 Méthodologie pour la mise au jour d’empreintes

4.2.1 Sélection du seuil de fréquence

Puisque l’un des objectifs de ce chapitre est de voir dans quelle mesure on peut interpréter des phénomènes d’évolution des connaissances à partir de variations de fréquence en corpus, il est nécessaire de s’assurer que les variations observées sont les plus significatives possibles. Ceci est d’autant plus important lorsque l’analyse porte sur des corpus de petite taille (comme c’est souvent le cas en langue de spécialité et en diachronie), qui rendent l’indice de fréquence difficile à manipuler. En effet, il peut être difficile de définir un seuil de croissance ou de décroissance significatif d’une évolution : à partir de quel degré de croissance/décroissance peut-on associer une variation de fréquence significative à une évolution dans le domaine ? La fréquence doit-elle doubler, tripler ? Doit-on considérer le même seuil pour les basses fréquences que pour les hautes fréquences ?

Pour répondre à ces questions, il est généralement possible de se concentrer sur l’observation des termes les plus fréquents dans les corpus en appliquant un seuil minimal de fréquence arbitraire (par exemple les termes de plus de 100 occurrences). Mais dans le cas de petits

mesure où peu de termes sont très fréquents (notamment dans le corpus DORIS qui compte au total à peine plus de 36 000 occurrences). De plus, dans le cas du corpus TTVS, les sous-corpus choisis sont très déséquilibrés (§3.2.2.1) et il est nécessaire de mettre en place un seuil fiable pour s’assurer que les termes en croissance ou les termes apparus ne sont pas liés à la seule augmentation de taille des sous-corpus, mais bien à une évolution du domaine.

Soulignons également que le choix d’un filtre qui garantisse au maximum la significativité des termes traités, permet de réduire et filtrer la liste des résultats avant de les présenter aux experts. En effet, il est important de sélectionner des résultats peu nombreux mais significatifs pour les experts plutôt que de longues listes très bruitées qui, en plus de demander beaucoup de temps de traitement, risquent de les faire douter de l’intérêt de la démarche linguistique (cf. §10.2.2.3, p.307).

Ajoutons enfin que, si l’on souhaite reproduire ce type d’analyse sur d’autres corpus, il est nécessaire de savoir sélectionner au mieux le seuil de fréquence à appliquer.

Pour répondre à ces différentes contraintes et mettre au jour des empreintes de fréquence significatives et reproductibles, une solution est le recours à un calcul statistique tel que le test du χ2 (Chi-Deux ou Khi-Deux) :

« [le test du χ2] sert à apprécier en probabilité l’écart constaté entre une observation et un modèle théorique, quel que soit le nombre des variables. » (Muller, 1968 : 116)

Ce calcul a été choisi pour appliquer l’indice de fréquence dans notre recherche69.

4.2.2 Définition d’empreintes de fréquence : mise en œuvre du χ2

Le calcul du χ2, et plus précisément pour cette étude le χ2 d’ajustement (Howell, 2008 : 142-144), implique une comparaison entre des fréquences observées et des fréquences attendues ou théoriques :

69 Nous avons été aidée pour cela par Nathan Ménard et Patrick Drouin, respectivement Professeur de statistiques linguistiques et Professeur en terminologie et traduction à l’Université de Montréal.

« Les fréquences observées […] sont les fréquences effectivement observées dans les données […]. Les fréquences attendues sont les fréquences que nous nous attendons à voir si l’hypothèse nulle est vraie. » (Howell, 2008 : 143)

L’hypothèse nulle testée ici est que les variations de fréquences sont dues aux variations de taille des sous-corpus (et non pas à une évolution du domaine). Le χ2 permet donc de comparer les fréquences observées dans chacun des sous-corpus et les fréquences attendues que l’on devrait normalement observer dans ces sous-corpus si la variation était simplement due à leur variation de taille. Pour ce faire, on applique la formule suivante (Figure 4.1) :

où :

O = fréquence observée dans le corpus A = fréquence attendue ou théorique

Figure 4.1 – Calcul du χ2 (Howell, 2008 : 143)

Pour mener ce calcul sur nos corpus, nous nous basons sur un script Perl disponible en ligne et proposé par Karlgren70. En sortie, le calcul du χ2 est présenté sous la forme de tables de contingence (Tableau 4.1) pour chacun des termes traités.

Fréquences de

polissage

Fréquences des autres termes dans

les sous-corpus TTVS1994 2 8445 TTVS1998 28 14853 Fréquences observées TTVS2002 53 20452 TTVS1994 15, 994 8431,005 TTVS1998 28,178 14852,822 Fréquences attendues TTVS2002 38,83 20466,172 χ2 17,452

Une fois la valeur du χ2 connue, la seconde étape concerne son interprétation. En effet, la valeur de χ2 obtenue doit être comparée à la distribution χ2 en table, consultable dans les ouvrages de statistiques tels que ceux de Howell (2008 : 144) ou Muller (1968 : 179) utilisés ici et dont on présente un extrait dans le Tableau 4.2.

Cette table indique une probabilité P en fonction des degrés de liberté pris en compte dans le calcul de χ2 (noté aussi ddl, Howell, 2008 : 146). Dans notre cas, 2 degrés de liberté sont pris en

compte pour le corpus TTVS et 1 degré de liberté dans le corpus DORIS71. Plus la valeur de P est petite, plus le score de χ2 est significatif. Si l’on reprend l’exemple de polissage dans le

TTVS pour lequel χ2= 17,452 et P<0,001, ceci signifie qu’il y a moins d’1 chance sur 1000 que l’hypothèse nulle soit validée, c'est-à-dire que la variation observée soit simplement due à la variation de taille des sous-corpus. Dans le cas de polissage, la variation observée peut donc

être associée à une autre cause, dont nous faisons l’hypothèse dans cette recherche qu’il s’agit d’une évolution du domaine.

salutP ddl

0,90 0,70 0,50 0,30 0,10 0,05 0,02 0,01 0,001

1 0,016 0,148 0,455 1,074 2,706 3,841 3,412 6,635 10,827

2 0,211 0,713 1,386 2,408 4,605 5,991 7,824 9,210 13,815

Tableau 4.2 – Extrait du tableau de distribution du χ2 (Muller, 1968 : 179)

Dans cette recherche, nous ne retiendrons que les cas de χ2 où P=0,01 au maximum, c'est-à-dire les cas où la probabilité que la variation obtenue soit liée à la taille du corpus est d’une chance sur 100 au maximum (soit χ2 ≥ 9,210 pour le TTVS et χ2 ≥ 6,635 pour DORIS).

Une fois ce calcul appliqué à l’ensemble des corpus, une liste de termes dont les variations de fréquence sont statistiquement significatives est obtenue pour servir de base à l’analyse. Sur la base de cette liste, il est possible de dégager des empreintes de fréquence, c'est-à-dire les courbes de variation de ces termes. Pour ce faire, nous proposons de nous baser sur la notion d’écart. L’écart est la différence entre la fréquence observée et la fréquence attendue

calculée par le χ2. Par exemple, dans le cas de polissage, les écarts obtenus sont les suivants :

71 Le nombre de degrés de liberté est calculé de la manière suivante : ddl = (L-1)(C-1) où L = le nombre de lignes de

la table de contingence (soit 3 dans le cas du TTVS) et C = le nombre de colonnes de la table de contingence (soit 2 dans le cas du TTVS).

polissage Fréquence observée Fréquence attendue Écart

TTVS1994 2 15, 994 -13,995

TTVS1998 28 28,178 -0,178

TTVS2002 53 38,83 14,173

Tableau 4.3 – Écarts obtenus – exemple de polissage (TTVS)

Dans ce cas, les écarts sont négatifs pour les deux premiers sous-corpus et l’écart devient positif dans le TTVS2002. Autrement dit, la fréquence observée du terme polissage est moins

importante qu’attendue dans les deux premiers sous-corpus et plus importante qu’attendue dans le dernier. Ce terme est donc en croissance à partir de 2002. Sur ce modèle, plusieurs empreintes peuvent être définies et observées :

1. Pas d’évolution : les variations de fréquences ne sont pas significatives entre les sous-corpus, c'est-à-dire que le χ2 obtenu correspond à une probabilité trop forte d’hypothèse nulle ;

2. Croissance : la fréquence observée est plus faible qu’attendue dans les sous-corpus les plus anciens et plus forte qu’attendue dans les sous-corpus les plus récents. Dans cette catégorie peuvent être classés les cas de néologismes potentiels ;

3. Décroissance : à l’inverse, la fréquence observée est plus forte qu’attendue dans les sous-corpus les plus anciens et est plus faible qu’attendue dans les sous-corpus les plus récents. De la même manière, les cas de termes/concepts obsolètes potentiels peuvent être classés dans cette catégorie ;

4. Pic de croissance : cette empreinte n’est possible que dans le cas où au moins trois sous-corpus sont observés, comme dans le cas du TTVS. Dans ce corpus, certains termes peuvent ainsi connaître une fréquence observée plus forte qu’attendue uniquement dans le sous-corpus intermédiaire (ici le TTVS1998) ;

5. Pic de décroissance : à l’inverse, certains termes peuvent ainsi avoir une fréquence observée plus faible qu’attendue uniquement dans le sous-corpus intermédiaire.

Termes χ2 Écart TTVS1994 Écart TTVS1998 Écart TTVS2002 1. Pas d’évolution orbite géostationnaire 0,081 0,641 0,203 0,437

2. Croissance polissage 17,452 -13,995 -0,178 14,173

3. Décroissance refroidir 30,687 20,693 -14,252 -6,441

4. Pic de croissance microns 16,752 -13,115 15,088 -1,973

5. Pic de décroissance système optique 10,134 3,219 -8,185 4,966

Tableau 4.4 – Exemples pour chaque empreinte de fréquence

Dans la suite de ce chapitre, nous analysons dans un premier temps les termes apparus/disparus (qui correspondent aux empreintes de rupture) pour chacun des deux corpus. Dans la mesure où ils correspondent à des termes/concepts potentiellement néologiques/obsolètes, l’interprétation de l’évolution auprès d’experts permettra d’observer dans quelles mesures le filtre de fréquence permet de repérer ce genre de cas en diachronie courte. Dans un second temps, ce sont les empreintes continues qui feront l’objet d’une analyse. Ces empreintes seront appliquées pour le repérage de formes chrono-homogènes, qui permet cette fois-ci non plus de traiter des termes isolés, mais plutôt de les regrouper en séries de termes évolutifs.

Dans le document Diachronie en langue de spécialité. Définition d'une méthode linguistique outillée pour repérer l'évolution des connaissances en corpus. Un exemple appliqué au domaine spatial. (Page 129-134)