Méthodes d’extraction automatique - Traitement automatique des unités lexicales complexes

Chapitre 3. Traitement automatique des unités lexicales complexes

3.2 Méthodes d’extraction automatique

Les recherches en extraction terminologique à partir de corpus sont récentes. L’objectif est de collecter dans des textes des unités simples ou complexes susceptibles d’être des termes pertinents dans un domaine. La phase d’acquisition terminologique peut être considérée comme interactive (Drouin, 2002) :

Elle est entièrement automatique, mais la chaîne de travail est qualifiée d’interactive dans la mesure où le terminologue valide les résultats obtenus automatiquement par le logiciel

Parmi les groupes nominaux, des filtres linguistiques et/ou statistiques permettent de dégager un ensemble de candidats-termes. Ces premiers résultats contiennent du bruit, seul un certain nombre est pertinent :

Figure 7. Termes pertinents parmi les groupes nominaux1

Les logiciels d’extraction terminologique s’appuient sur diverses méthodes : on distingue ceux qui s’appuient sur des critères statistiques (3.3.1), de ceux basés sur des critères morpho- syntaxiques (3.3.2). Nous parlons enfin des méthodes dites mixtes, qui ont recours à la fois à ces deux critères (3.3.3)2.

Schéma de Sta (1995).

Nous présentons les principaux logiciels d’extraction automatique de terminologie en français, mais nous ne prétendons pas à l’exhaustivité.

3.2.1 Méthodes statistiques

Diverses méthodes statistiques ont été proposées pour la sélection d’unités lexicales complexes au sein d’une langue. Les outils statistiques repèrent les associations préférentielles, sans connaissance linguistique. Parmi les plus connus, citons le logiciel d’Apprentissage Naturel Automatique (AA) (Enguehard, 1993, Enguehard et Panterra, 1995) qui est un logiciel d’acquisition automatique de terminologie pour la construction du thésaurus d’un domaine, à partir d’un vaste corpus de textes bruts. L’architecture du logiciel passe par deux modules, l’un dit de « familiarisation » qui extrait automatiquement des éléments de connaissance sous la forme de listes, l’autre dit de « découverte » qui sélectionne la terminologie du domaine à partir des listes et du corpus de textes.

Le logiciel MATEX (Oueslati, 1999, Rousselot et al., 1996) est un outil d’extraction terminologique qui s’appuie sur le repérage de segments répétés, à partir de textes non étiquetés.

Les méthodes purement statistiques présentent toutefois certaines limites (Daille, 1994, Véronis, 2000a). La rareté d’unités lexicales complexes rend les choix de statistiques délicats. De plus, les unités lexicales complexes « semi-figées » autorisent des transformations linguistiques qui posent les limites de modèles statistiques simples.

3.2.2 Méthodes linguistiques

Afin de palier les limites des modèles statistiques, certaines méthodes proposent une approche linguistique. Les critères morpho-syntaxiques s’appuient sur des connaissances a priori des structures syntaxiques. L’hypothèse est que les termes obéissent à des règles de combinaison stables, et il est possible de définir un nombre limité de schémas morpho-syntaxiques pré- établis (essentiellement des groupes nominaux) repérés d’une façon automatique. Une telle méthode s’appuie sur un certain nombre de présupposés (L’Homme, 2001) :

- les textes en langue de spécialité sont riches de termes représentatifs de la connaissance du domaine.

- Un terme représentatif est utilisé à plusieurs reprises dans le corpus.

- Une majorité de ces termes est composée de noms.

- Nombre de ces termes sont complexes.

- Ces termes complexes font appel à un nombre réduit de structures syntaxiques : il s’agit généralement d’un nom modifié par un autre terme. Les structures syntaxiques principales sont les suivantes (ibid.) :

Structures syntaxiques Exemples

Nom + Adjectif Intelligence artificielle Syntagme Prépositionnel (avec nom) Robinet de commande Syntagme Prépositionnel (avec verbe) Machine à coudre

Nom + Nom Page Web

Combinaison des séquences ci-dessus Temps de conduction auriculaire

Figure 8. Structures syntaxiques des syntagmes nominaux1

L’outil TERMIO est une application pionnière de l’acquisition automatique de termes (David et Plante, 1990) (en français ou en anglais). Ce logiciel est basé sur le repérage de syntagmes nominaux qui constituent des candidats termes. La définition des termes se fonde sur les synapsies de Benveniste (1966). Les candidats-termes sont générés à partir des dépendances entre tête et complément au sein de la structure des syntagmes nominaux extraits par l’analyseur.

FASTR (Filtrage et Acquisition Syntaxique de TeRmes) (Jacquemin, 1997) est un analyseur

syntaxique permettant l’identification de variantes de termes à partir de corpus, à l’aide d’une liste de termes valides fournie en entrée. Les variations sont classées selon trois catégories :

- Variantes syntaxiques :

Mesure de volume et de flux / Mesure de flux

- Variantes morpho-syntaxiques :

Flux de sève mesurés / Mesure quotidiennement le flux

- Variantes sémantico-syntaxiques :

Evaluation du flux / Mesure de flux

SYMOTOS (Velardi et al., 2001) est un environnement proposant des outils afin de repérer

des termes simples et complexes à partir de corpus, et proposer des concepts associés (Bourigault et al., 2004).

Le logiciel SYTEX1 (initialement Lexter) (Bourigault, 1994, Bourigault et Fabre, 2000) est un outil d’extraction terminologique qui extrait des candidats termes, à partir d’un corpus étiqueté et désambigüisé. Il effectue une analyse syntaxique de surface dédiée au repérage et à l’analyse de syntagmes nominaux. Les candidats termes extraits se présentent sous la forme d’un réseau.

L’introduction de connaissances linguistiques est toutefois relativement coûteuse, et n’est pas indépendante des langues. Divers auteurs ont présenté des approches mixtes, mêlant les stratégies statistiques et linguistiques.

3.2.3 Méthodes mixtes

Afin de pallier les contraintes des méthodes linguistiques ou statistiques, certains travaux mêlent les deux stratégies. On parle de stratégies hybrides ou mixtes (L’Homme, 2001).

Le logiciel ACABIT (Automatic Corpus-based Aquisition of BInary Terms) extrait des candidats termes à partir d’un corpus préalablement étiqueté et désambigüisé (Daille, 1994, 1999). La méthode est basée sur des traitements linguistiques associés à des filtres statistiques :

- Analyse linguistique : des séquences nominales sont extraites du corpus étiqueté et sont regroupées sous la forme de candidats termes binaires. Par exemple, réseau de transit à satellite constitue deux candidats termes binaires, réseau de transit et réseau à satellite. Les termes extraits doivent être conformes à un nombre limité de patrons syntaxiques, du type :

Gom-Adjectif > Emballage biodégradable

Gom1-Gom2> Diode tunnel

Gom1 à (Det)Gom2> Assignation à la demande

Gom1 de (Det) Gom2> Protéine de poissons

Gom1-Prep(Det)-Gom2 > Multiplexage en fréquence

Gom1 à Vinf > Viandes à griller

- Filtre statistique : les candidats termes sont filtrés au moyen d’un calcul statistique, le log-likehood ratio (Dunning, 1993).

XTRACT (Smadja, 1993) est un logiciel d’extraction automatique de collocations basé sur

des calculs statistiques, ainsi que sur un filtrage linguistique. L’outil est composé de trois modules :

- Collocations binaires : une première phase extrait des couples de mots dont la fréquence est élevée et dont la distance est fixe.

- Expansion des collocations : l’étape précédente est répétée de façon itérative afin d’acquérir des collocations de plus grande longueur.

- Etiquetage : les collocations sont étiquetées.

Smadja (1993) distingue trois types de collocations : les collocations prédicatives (predicative relations en anglais) du type de make/decision, les syntagmes figés (rigid noun phrases en anglais) comme foreign exchange et les « phrases à trous » (phrasal templates), comme dans l’exemple :

Temperatures indicate day’s high and overnight low to 8 a. m.

FipsCo (Goldman et al., 2001), (Nerima et al., 2003), (Seretan et al., 2004) est un extracteur

de collocations basé sur un système d’analyse syntaxique, le système Fips, développé au LATL (Laenzlinger et Wehrli, 1991), (Wehrli, 1997). La méthode s’appuie à la fois sur des critères statistiques (le likelihood ratio) et sur une analyse syntaxique, qui permet le repérage de collocations dont les éléments ne sont pas contigus.

Dans le document Acquisition automatique de traductions d'unités lexicales complexes à partir du Web (Page 70-75)