Extraction de termes en corpus monolingue

L’extraction de ressources terminologiques à partir de corpus unilingues est maintenant un classique qui a fait ses preuves, même s’il reste de la place à l’amélioration (Vintar 2010 : 142). Sur des corpus de grande taille, l’usage des extracteurs de termes permet de gagner du temps et de systématiser le dépouillement (Estopà 2001 : 219).

Le principal défi que doivent relever ces outils repose sur l’identification des termes contenus dans un corpus. Contrairement à un dépouilleur lexical, qui dresse la liste complète des suites ininterrompues de caractères d’un texte – c’est-à-dire les mots

simples38 – l’extracteur terminologique a pour tâche de ne sélectionner que les termes. En théorie cela peut sembler relativement facile, cependant dans la pratique il n’en est rien, car départager les termes des autres unités lexicales n’est pas aussi simple qu’il n’y parait. Au reste, n’oublions pas que même entre experts la notion de « terme » ne fait pas consensus.

Malgré ces difficultés, il est possible, dans une certaine mesure, d’identifier les termes en se basant, entre autres, sur leurs caractéristiques formelles et sur leur fréquence relative. La plupart des systèmes d’extraction de termes ne s’intéressent qu’aux syntagmes nominaux (Wong et al. 2008) principalement pour deux raisons. D’une part, les unités terminologiques complexes sont celles qui possèdent les caractéristiques formelles les plus facilement reconnaissables39; de l’autre, elles seraient plus fréquentes que les unités simples (Nakagawa and Mori 2002). Bien entendu, les listes de candidats termes (CT) proposées par les extracteurs de termes contiennent du bruit et doivent être nettoyées par un expert ou un terminologue. En outre, il faut tenir compte du fait que ces outils extraient la terminologie propre à des corpus spécialisés dans lesquels il n’est pas rare de voir plusieurs domaines coexister.

De façon classique, l’extraction de termes fait appel à deux approches : linguistique et statistique. Les outils faisant intervenir les deux approches de façon équilibrée donnent en principe les meilleurs résultats. Dans la littérature, ces outils sont souvent nommés hybrides. L’ordre dans lequel les stratégies linguistiques et statistiques sont appliquées varie d’un outil à l’autre. Les sections 4.1.1 et 4.1.2 qui suivent donnent un aperçu des principales stratégies employées par ces deux approches.

4.1.1 Approches linguistiques

Les approches linguistiques reposent sur l’observation que, dans une langue donnée, les termes complexes se construisent selon des patrons morphosyntaxiques typiques. En français, de nombreux termes sont formés sur les patrons suivants : NOM + prép/dét +

38_{L’extraction lexicale en corpus monolingue ne fait pas l’objet d’une description dans ce chapitre} _puisque cette technique repose sur des stratégies relativement simples à gérer, comme la reconnaissance des frontières entre chaînes de caractères, du moins pour les langues non agglutinantes.

39_{Premièrement, il a été observé que les termes complexes empruntent des patrons morphosyntaxiques} typiques (cf. 4.1.1). Deuxièmement, les termes complexes apparaissent généralement plusieurs fois dans un texte (cf. 4.1.2).

NOM (dioxyde de carbone, absorption de la chaleur), NOM + ADJ (énergie fossile, calotte glaciaire). Les termes français adoptent également des patrons moins fréquents : NOM + dét + éponyme (force de Coriolis, cycle de Calvin), etc. En anglais, les patrons se présentent généralement sous la forme de NOM2 + NOM1 (carbon dioxide, heat

absorption, fossil energy, ice cap), ADJ + NOM (algal bloom, interglacial period). Les termes anglais peuvent également adopter des patrons moins courants : éponyme + NOM (Coriolis force, Calvin cycle), etc. Les patrons sont plus ou moins complexes selon les langues. Par exemple, en français, les termes sont plus souvent construits à l’aide de prépositions et de déterminants qu’en anglais. Par ailleurs, pour aller chercher des termes plus longs, les patrons de base peuvent être combinés, par exemple, NOM + prép/dét + NOM + prép/dét + NOM (gaz à effet de serre, réduction des émissions de carbone) ou encore NOM + ADV + ADJ (organisme génétiquement modifié). En règle générale, les extracteurs de termes ayant recours à des patrons complexes produiront des listes ayant un taux de rappel élevé40, par contre leur taux de précision sera bas41. Inversement, les outils n’utilisant que quelques patrons présenteront des listes dont le taux de précision est élevé, mais ayant un taux de rappel bas.

Plutôt que de rechercher des patrons morphosyntaxiques, une stratégie inverse peut être adoptée. Elle consiste à repérer les marqueurs de frontière entre les groupes nominaux, comme les verbes conjugués, les conjonctions, les prépositions + adjectifs possessifs, les pronoms, etc. L’hypothèse sous-jacente est que ces unités sont peu susceptibles de figurer dans les termes (Bourigault 1993).

Les approches linguistiques nécessitent le prétraitement du corpus. Celui-ci doit être étiqueté et lemmatisé, cette dernière étape permettant de regrouper les formes fléchies. Divers filtres sont ensuite appliqués pour affiner les résultats. Les principaux désavantages des approches linguistiques sont la complexité et la lourdeur du traitement et la faible portabilité des systèmes d’une langue à l’autre. De plus, elles ne permettent pas l’extraction des termes simples. Par contre, elles présentent l’avantage de pouvoir s’appliquer sur de petits corpus.

40_{Le rappel est égal au nombre de propositions correctes identifiées par un extracteur par rapport à l’ensemble} des termes contenus dans le corpus.

41_{La précision est égale au nombre de propositions correctes identifiées par un extracteur par rapport à} l’ensemble proposé par ce même extracteur.

4.1.2 Approches statistiques

Pour extraire les unités terminologiques, les approches statistiques peuvent mettre en œuvre plusieurs stratégies. Une des plus simples consiste à extraire les segments répétés (Choueka et al. 1983). Si des segments composés de deux chaînes de caractères ou plus apparaissent plus de deux fois à l’intérieur d’un corpus, ils sont identifiés comme des termes potentiels. Cette approche repose sur l’hypothèse que les termes apparaissent plus d’une fois dans les textes spécialisés et qu’ils sont plus fréquemment complexes. Une deuxième stratégie consiste à mesurer la force d’association entre deux occurrences. Si un mot apparaît plus souvent avec un autre mot (ou plusieurs) qu’isolément, alors l’ensemble est susceptible d’être un terme. Par exemple, dans notre corpus du changement climatique, le mot puits apparaît plus souvent avec carbone que seul, par conséquent puits de carbone sera considéré comme un terme. Les approches statistiques peuvent également calculer la fréquence relative d’une chaîne de caractères par rapport à un corpus de référence, généralement de très grande taille et en langue générale. Cette dernière technique offre l’avantage d’extraire des termes simples.

Utilisées seules, les stratégies statistiques n’exigent généralement pas le traitement linguistique du corpus. Par contre ils donnent de meilleurs résultats sur des corpus de très grande taille. Leur portabilité est leur principal atout.

Dans le document Analyse comparative de l'équivalence terminologique en corpus parallèle et en corpus comparable : application au domaine du changement climatique (Page 84-87)