Extraction et préparation des données - Choix méthodologiques pour notre étude

Pour une approche diachronique en langue de spécialité : éléments théoriques et

Chapitre 3 Méthodologie pour une analyse de l’évolution en corpus

3.2 Choix méthodologiques pour notre étude

3.2.3.2 Extraction et préparation des données

La première étape d’analyse dans notre démarche consiste en l’extraction des termes avec l’outil Syntex.

À partir de corpus étiquetés et lemmatisés, Syntex procède à une analyse syntaxique en dépendances et fournit en sortie une liste de syntagmes (nominaux, verbaux, adjectivaux et adverbiaux) et de mots catégorisés (noms, verbes, adjectifs, adverbes et noms propres) présentés comme « candidats-termes ». L’analyse Syntex seule produit cependant beaucoup de bruit qu’il faut filtrer avant de parvenir à une liste de termes acceptable. Ainsi, dans le corpus TTVS, l’analyse Syntex propose en sortie une liste de plus de 45 000 candidats-termes (pour un corpus de 230 000 occurrences) et de plus de 8 200 pour le corpus DORIS (qui compte 36 000 occurrences). Une sélection s’avère donc nécessaire. L’observation de la liste obtenue révèle en effet de nombreuses erreurs telles que des candidats trop longs, des erreurs d’analyses syntaxiques, des mots trop généraux, etc. Le bruit provoqué par l’extraction automatique des termes est très souvent mis en avant par les terminologues dont L’Homme (2001) ou Carreño et al. (à paraître). Ces derniers comparent d’ailleurs les résultats de plusieurs extracteurs et soulignent que Syntex est l’un des outils qui propose les listes les plus longues et bruitées.

Pour pallier ce phénomène et obtenir une liste satisfaisante, nous avons établi une série de trois filtres à partir de critères de sélection des termes proposés notamment par Delavigne (2001b) et L’Homme (2004). Ces critères reposent essentiellement sur : la fréquence du candidat, sa catégorie grammaticale, sa forme syntaxique et son appartenance au domaine.

Dans un premier temps, la sélection des candidats-termes (désormais CT) est filtrée automatiquement à partir d’un programme Perl que nous avons développé. Ce filtre fait intervenir le critère de forme syntaxique et permet d’éliminer :

- les CT qui contiennent les auxiliaires « être » et « avoir » (exigence être, température être suffisante, avoir du vignettage) ;

- les CT qui contiennent des chiffres arabes ou romains, des unités de mesures, des symboles mathématiques, des signes de ponctuation – à l’exception du point que l’on peut trouver dans certains sigles (par exemple : résolution de 10 m, paragraphe VII.2.5.3.3, CAN de 8) ;

- les CT trop longs, dont la taille a été fixée à plus de quatre unités lexicales après observation des listes64 (par exemple : le satellite SPOT assure une résolution au sol de 10 m avec une fauchée de 60 km, Description simplifiée de l'instrument adapté à une prise de vue globale) ;

- les CT qui contiennent les marques de formule (FRML), tableau (TABL), et figure (FIGR) notées lors de l’étape de nettoyage des corpus (par exemple : fréquence spatiale FRML, conductivité thermique TABL).

C’est également à ce stade que sont choisies les catégories grammaticales conservées pour l’analyse. Et au vu de ce qui a été souligné supra (§3.2.3.1, p.91), l’ensemble des catégories

étiquetées par Syntex sont prises en compte : dans la mesure où l’intérêt des catégories verbales et adjectivales a été montré pour la terminologie, il est important de les observer pour étudier le changement.

Dans un second temps, un filtre de fréquence est appliqué : seuls les CT qui apparaissent au moins quatre fois dans l’ensemble du corpus TTVS et trois fois dans le corpus DORIS sont conservés, ce qui permet d’éliminer les CT de trop basse fréquence (par exemple inertie en flexion, outillage tournant, contraintes photométriques, etc.). Nous choisissons un seuil de

fréquence volontairement bas pour deux raisons principales :

- les corpus analysés comptent peu d’occurrences et beaucoup de termes n’affichent de fait qu’une faible fréquence,

- la liste souhaitée n’est pas constituée à des fins terminographiques, mais pour servir de base à la mise en œuvre des indices. Et dans la mesure où les termes évolutifs ne sont pas connus a priori, l’objectif de cette sélection est avant tout

d’éliminer les termes trop peu fréquents pour que l’on puisse y appliquer les indices.

Enfin, à partir de cette sélection, le troisième filtre appliqué est un filtre manuel pour éliminer les erreurs non repérées précédemment dont :

- les erreurs issues d’un mauvais découpage lors de l’analyse (détecteur par canal qui

est une analyse syntaxique erronée de 3 détecteurs positionnés en parallèle par canal),

- et les candidats trop généraux (quantité, grand).

Ce dernier aspect soulève toutefois plusieurs questions : par exemple, l’un des critères de sélection des termes le plus souvent cité est celui de l’appartenance du terme au domaine étudié. Cependant, dans la mesure où cette recherche vise à repérer l’évolution d’un domaine, il est difficile de circonscrire une liste de termes sur ce critère. Statuer en effet sur l’appartenance d’un terme à un domaine se fait toujours en synchronie65 : typiquement, lorsque l’on construit une ressource terminographique, on établit une liste de termes dont on juge qu’ils font partie du domaine au moment de la recherche. En diachronie par contre, la question que l’on devrait se poser – mais à laquelle on ne peut que difficilement répondre a priori – serait plutôt : est-ce qu’un candidat a fait partie, fait partie, voire fera partie du

domaine dans l’intervalle de temps observé ? En effet, le fait que l’évolution englobe potentiellement des phénomènes de migration, d’apparition de termes ou de disparition implique que le même candidat peut être jugé comme terme du domaine ou non en fonction de la période observée. De fait, le choix posé pour cette recherche est encore une fois d’effectuer une sélection assez large et de ne filtrer que les candidats trop généraux tels que

qualité, grand, partout, etc. dont on a l’intuition qu’ils n’ont jamais fait, ni ne pourront faire,

partie d’un lexique spécialisé. Cette sélection, bien qu’elle soit contrôlée au maximum par l’observation de contextes et de ressources terminographiques complémentaires, reste subjective. Pour la mener à bien, on pourrait envisager de mobiliser des experts du domaine,

comme cela se fait généralement dans les tâches classiques d’extraction de termes. Or, nous n’avons pas mis en place de « tâches expert » dédiées à cette sélection pour deux raisons :

- la première est que ce type de sélection demande beaucoup de temps aux experts qui ne sont que très peu disponibles ; et dans la mesure où ces derniers ont accepté de participer à l’ensemble des autres tâches de cette recherche, il était difficilement envisageable de les solliciter davantage ;

- la seconde raison est liée au type de question qu’auraient dû se poser les experts:

o devrait-on demander aux experts de projeter leur jugement dans le temps dès cette étape en leur demandant si les candidats devant eux ont été ou sont encore des termes/concepts de leur domaine ?

o ou devrait-on plutôt leur proposer de valider une seule liste sans indication temporelle, au risque que certains candidats soient éliminés du fait de leur caractère obsolète ou trop récent ?

Dans les deux cas, proposer de valider ainsi une liste de candidats nous semblait impliquer de trop grandes difficultés à la fois pratiques (disponibilité des experts) et théoriques (comme nous le verrons au Chapitre 10, la prise en compte du sentiment d’évolution des experts est une question délicate). Pour ces raisons, nous avons choisi de filtrer manuellement la liste sur la base de l’observation des contextes d’apparition des candidats et de critères tels que la productivité du candidat (Bourigault, et al., 2004), ses cooccurrents, la nature de ses actants

dans le cas de candidats prédicatifs, etc. Néanmoins, lors de chaque tâche proposée aux experts, ces derniers sont invités à supprimer des unités qu’ils jugent ne pas appartenir à leur domaine d’expertise.

Ces différentes étapes de filtrage permettent de réduire considérablement le bruit généré par l’analyse Syntex. Les Tableau 3.4 et Tableau 3.5 illustrent la réduction du nombre de candidats entraînée par ce filtrage pour chacun de nos corpus et pour chacune des catégories lexicales considérées.

Liste brute avant filtrage Après programme Perl Après filtre de fréquence

Après tri manuel final SNom 20 000 12 332 2394 1117 Nom 3381 2662 1382 708 SV 15 343 4899 591 146 V 1034 1017 585 184 SAdj 1523 816 79 9 Adj 1007 945 571 221 SAdv 92 42 8 0 Adv 473 437 248 10 SNomPr 772 353 49 26 NomPr66 1386 823 251 136 Total 45 011 24 326 6 159 2557

Tableau 3.4 – Réduction du nombre de CT après filtrage – corpus TTVS

Liste brute avant filtrage Après programme perl Après filtre de fréquence

Après tri manuel final SNom 3329 1986 459 317 Nom 1087 863 488 381 SV 2229 807 199 70 V 421 420 207 73 SAdj 104 54 4 0 Adj 299 270 135 44 SAdv 6 6 1 0 Adv 144 136 43 1 SNomPr 178 60 15 0 NomPr 431 192 70 51 Total 8245 4796 1622 937

Tableau 3.5 – Réduction du nombre de CT après filtrage – corpus DORIS

Ces filtres permettent de réduire la liste brute initiale proposée par Syntex de 94,3% pour le corpus TTVS et de 88,6% pour le corpus DORIS et d’obtenir une liste de bonne qualité. La liste de termes ainsi obtenue sert de base au reste de nos explorations.

Ce chapitre nous a permis d’ancrer notre approche en tant qu’approche sur corpus, comparative et outillée pour la diachronie. À partir des données décrites (nos deux corpus,

66 NomPr et Les catégories SNomPr (Nom propres), si elles sont supposées rassembler les entités nommées présentes dans le corpus recensent dans les faits les sigles et acronymes présents dans nos deux corpus. Pour cette raison, nous conservons ces classes.

les listes de termes extraits et les outils sélectionnés) nous menons l’identification et la mise en œuvre des quatre indices choisis pour notre approche (cf. §3.1.2.2, p.73).

Nous avons posé dans cette première partie les bases théoriques et méthodologiques au sein desquelles nous ancrons notre recherche linguistique, outillée et diachronique. Nous avons présenté les fondements de l’hypothèse d’un parallèle entre langue et connaissances pour repérer l’évolution mise en œuvre, ainsi que les choix méthodologiques qui président au repérage de l’évolution en corpus que nous proposons.

Nous abordons maintenant la description de quatre indices linguistiques pour le repérage. Nous l’avons dit, les indices présentés ont été choisis sur la base d’allers-retours entre notre hypothèse et les données à l’aide d’une analyse outillée minutieuse dans nos deux corpus. Dans la partie suivante, nous décrivons chacun des indices et justifions leur pertinence pour une analyse diachronique. Nous détaillons la manière dont ils sont mis en œuvre au sein de l’approche comparative et outillée que nous défendons. La pertinence de chacun des indices est mesurée et permet de caractériser les différentes facettes de l’évolution des connaissances en diachronie courte.

Cette deuxième partie est divisée en cinq chapitres. Les quatre premiers sont dédiés à chacun des indices sélectionnés (respectivement les empreintes de fréquence, les contextes riches en connaissances évolutives, les variantes de termes et les dépendances syntaxiques). Le cinquième propose un bilan des observations mises au jour grâce à ces indices, ainsi qu’une typologie de l’évolution des connaissances du domaine spatial en diachronie courte.

Dans le document Diachronie en langue de spécialité. Définition d'une méthode linguistique outillée pour repérer l'évolution des connaissances en corpus. Un exemple appliqué au domaine spatial. (Page 116-122)