• Aucun résultat trouvé

L’extraction, dans le sous-corpus anglais, des termes simples (nom, verbe, adjectif, adverbe) est confiée au logiciel d’acquisition automatique de termes TermoStat (Drouin 2003, Drouin et Doll 2008). L’utilisation d’un extracteur de termes permet à l’auteur de ne pas directement prendre part au choix des termes, afin de ne pas influencer les résultats finaux. Cette méthode possède également l’avantage, du moins dans une première étape, d’extraire rapidement des données et de les quantifier.

Dans la section 5.2.1, nous esquissons le fonctionnement de TermoStat. Dans la section 5.2.2, nous donnons les résultats de l’extraction des candidats termes (CT) anglais.

5.2.1 Fonctionnement de TermoStat

TermoStat est un logiciel accessible gratuitement en ligne83. Il extrait des CT simples et complexes84. TermoStat s’appuie sur une approche contrastive, ce qui le distingue de la plupart des outils. En effet, TermoStat met en opposition un corpus non spécialisé (corpus de référence) à un corpus spécialisé85. La méthode part du principe que la comparaison d’un corpus de référence de grande taille (textes hétérogènes de langue générale) à un corpus spécialisé (textes homogènes en langue de spécialité) permet de faire ressortir les spécificités lexicales de ce dernier. La notion de « spécificité » renvoie à l’idée que dans un corpus spécialisé certains termes lui sont particuliers et apparaissent relativement plus souvent que dans un corpus de référence.

De par son fonctionnement, TermoStat peut être classé parmi les outils d’extraction hybrides, car il combine de façon équilibrée des méthodes linguistiques et statistiques. TermoStat effectue l’extraction des CT en quatre étapes.

Dans la première étape, TermoStat confie la segmentation, l’étiquetage et la lemmatisation des corpus à TreeTagger (Schmid 1994).

Dans la deuxième étape, TermoStat prend le relais. Il sélectionne des candidats termes en se basant sur les patrons morphosyntaxiques typiques des termes (NOM + NOM, ADJ + NOM, NOM + PRÉP + NOM, etc.).

La troisième étape, qui met en œuvre l’approche contrastive, évalue le caractère terminogène86 des CT sélectionnés à l’étape précédente. Pour ce faire, grâce à des calculs statistiques, TermoStat compare la fréquence des CT sélectionnés aux mêmes unités du corpus de référence et attribue à chacun d’eux un indice de spécificité (score). Dans la version 3.0 de TermoStat, plusieurs tests statistiques sont offerts : Spécificité, Weirdness, Log Likelihood, Log Odds Ratio, Chi 2.

83 Adresse Internet du logiciel TermoStat : http://olst.ling.umontreal.ca/~drouinp/termostat_web/

84 TermoStat offre également la possibilité d’extraire seulement des termes simples ou seulement des syntagmes nominaux.

85 Notamment, le corpus anglais construit pour cette étude.

86 Terminologie utilisée par Kocourek (1971 : 105) pour désigner les unités lexicales que l’on peut considérer comme des termes.

La quatrième étape consiste à éliminer (filtrer) les CT ne possédant pas un score suffisamment élevé par rapport à celui observé dans le corpus de référence. Enfin, TermoStat propose une liste de CT triée par ordre décroissant du score attribué. Les CT recevant un score supérieur à un seuil donné sont les plus susceptibles d’être étroitement liés à la terminologie du corpus analysé.

5.2.2 Résultats de l’extraction des CT anglais

Pour l’extraction des termes simples anglais, nous avons utilisé la version 3.0 de TermoStat. Les textes soumis à l’extracteur doivent être convertis au format texte brut. Avant de lancer l’extraction, nous avons coché la case “terme simple” et sélectionné les quatre parties du discours : nom, adjectif, verbe, adverbe. Le résultat de l’extraction est présenté sur une page html en cinq colonnes : candidat de regroupement (forme lemmatisée du CT), fréquence, score, variantes orthographiques (formes fléchies) et partie du discours (Figure 5.6). Plusieurs onglets permettent d’accéder à des informations complémentaires, par exemple, les résultats statistiques de l’extraction (Figure 5.7).

Figure 5.7. Image agrandie des onglets de la page des résultats html de TermoStat

Le corpus de référence anglais de la version 3.0 de TermoStat compte environ 8 millions d’occurrences. Il est composé pour moitié de textes provenant d’articles de journaux de The Gazette et pour moitié de textes du corpus BNC. Les articles de journaux tirés du quotidien montréalais The Gazette ont été publiés en 1989 et traitent de divers sujets d’actualité. Le corpus BNC (British National Corpus) compte environ 100 millions d’occurrences. Il est constitué de textes de l’anglais écrit ou parlé qui proviennent de diverses sources.

À l’issue de l’extraction des termes, nous avons retenu le test de spécificité (cf. 5.2.1), car il a fait l’objet d’une analyse par le concepteur de TermoStat dans lequel il s’est révélé utile du point de vue de l’extraction de la terminologie :

One more conclusion can be drawn from our work: although Labbé and Labbé (2001) proved that the specificity test is unstable when looking at lower frequency items, we can still use its results for term extraction and obtain good quality CTs. The test might lead to results that are not interesting from a statistical point of view, but are highly useful from a terminological standpoint. (Drouin 2003 : 12– 13)

Les CT pris en considération affichent un score égal ou supérieur à + 3,09, seuil adopté par le concepteur du logiciel pour le test de spécificité. Selon Drouin (2003 : 3), les CT qui reçoivent un score supérieur à ce seuil sont susceptibles d’être les formes les plus intéressantes et significatives du corpus. L’extraction a généré 4 677 CT simples, dont

1 928 noms, 1 305 adjectifs, 1 263 verbes et 181 adverbes. Le Tableau 5.4 offre le pourcentage de CT par partie du discours.

Tableau 5.4. Nombre et pourcentage de CT par parties du discours

Partie du discours Nombre Pourcentage

nom 1 928 41,2

adjectif 1 305 27,9

verbe 1 263 27,0

adverbe 181 3,9

Total 4 677 100

5.3 Nettoyage de la liste d’extraction et validation des CT