Extraction de termes - Gestion dynamique d'ontologies à partir de textes par systèmes multi-age

1.5 Conclusion

2.1.1 Extraction de termes

L’extraction automatique de termes d’un domaine à partir de textes s’effectue en deux phases : l’extraction de candidats termes à l’aide d’un outil d’extraction, puis, la sélection des candidats termes potentiellement intéressants pour le domaine.

Extraction de candidats termes

Nous distinguons trois types d’outils, selon l’approche employée pour repérer des syntagmes (candidats termes) susceptibles d’être des termes [Harrathi, 2009].

1. Les outils se basant sur une approche linguistique : Ce type d’outils s’appuie sur le repérage dans le texte de schémas syntaxiques de candidats termes. Tout d’abord, un étiquetage grammatical du texte est réalisé. A chaque mot du texte est associée une étiquette représentant sa catégorie grammaticale (nom, adjectif, préposition, etc.). En- suite, des séquences lexicales sont appariées avec des schémas syntaxiques préétablis, par exemple : NOM NOM (système antipollution), NOM PRÉPOSITION NOM (tableau de bord), NOM ADJECTIF (champ magnétique), etc. Une autre technique consiste à repérer les bornes d’un syntagme nominal par la détection de la frontière du syntagme (pre-

mier mot à gauche et à droite qui ne peut pas faire partie du syntagme). Par exemple, un syntagme peut être borné à gauche par un point "." et à droite par un verbe.

2. Les outils se basant sur une approche statistique : Il s’agit d’extraire des candidats termes sans analyse linguistique du corpus. L’idée est que plus un ensemble d’unités lexicales co-occurrent ensemble, plus cet ensemble à des chances de former un terme. Ce principe se traduit par la notion d’information mutuelle et la notion de segments répétés [Harrathi, 2009].

3. Les outils se basant sur une approche mixte : Ce type d’approche combine les deux ap- proches précédentes. Dans certains outils les résultats obtenus par une analyse linguistique sont validés et filtrés par une analyse statistique, tandis que dans d’autres outils les résultats de l’analyse statistique sont validés par une analyse linguistique [Harrathi, 2009].

Tous les outils actuels d’extraction de termes proposent des listes de mots (simples ou composés) qui sont des candidats termes. Certains outils, proposent en complément d’autres informations, comme la fréquence du candidat terme, sa composition grammaticale, une version lemmatisée du candidat terme. Dans le cadre de cette thèse, nous nous intéressons à des ontologies exprimées en langue française et en langue anglaise, nous avons donc besoin au préalable d’extraire des candidats termes en anglais et en français. Nous avons étudié quatre extracteurs de termes permettant de répondre à ces contraintes :

1. YaTeA1 _{(Yet another Term ExtrActor)[Aubin et Hamon, 2006] identifie et extrait des}

groupes nominaux pouvant être des termes. Chaque candidat terme est analysé syntaxiquement pour faire apparaître sa structure sous la forme de têtes et modifieurs. Lors de l’analyse syntaxique, une désambigüisation endogène (à partir des candidats termes) et exogène (à partir de ressources externes) est mise en œuvre. L’extraction de candidats termes est basée sur une stratégie hybride par laquelle l’extraction à partir de patrons syntaxiques construits manuellement peut être guidée et corrigée à l’aide de ressources terminologiques existantes (désambigüisation exogène). Ces termes attestés aident au repérage des groupes, à leur analyse syntaxique et participent également à l’extraction des termes candidats. Les ressources linguistiques nécessaires à l’identifi- cation et l’analyse des candidats termes sont fournies pour le français et l’anglais. Ces ressources peuvent être modifiées par l’utilisateur. De nouvelles ressources peuvent également être créées.

2. Extraction de termes par Syntex : Syntex [Bourigault, 2007] est un analyseur syntaxique de textes. Il permet d’identifier des relations de dépendance syntaxique entre mots et d’extraire d’un texte des syntagmes (verbaux, nominaux, adjectivaux). Syntex prend en entrée un corpus étiqueté qui est découpé en mots et à chaque mot est associé une ca- tégorie grammaticale (nom, verbe, adjectif, etc.). En sortie, Syntex produit un corpus analysé syntaxiquement et un réseau de syntagmes structuré par des relations de dé- pendances tête et expansion. Ce réseau de syntagmes peut être utilisé par la suite pour construire une ressource terminologique.

3. ACABIT (Automatic Corpus-based Acquisition of Binary Terms) [Daille, 2003] est un programme d’acquisition de terminologie pour le français et l’anglais. ACABIT prend

en entrée un texte annoté grammaticalement et retourne une liste ordonnée de candidats termes. Il se base sur une approche linguistique et statistique pour extraire des termes. Dans un premier temps, ACABIT se concentre sur l’extraction des termes de longueur 2, appelés "termes de base", à l’aide de structures morphosyntaxiques telles que nom adjectif, nom1 préposition nom2, nom1 nom2, etc. Dans un deuxième temps, ACABIT évalue différentes mesures statistiques et lexicales pour chacun des termes de base. Un score est alors attribué à chaque candidat terme. Les candidats termes sont ensuite triés selon ce score et une liste ordonnée de candidats termes est proposée.

4. TermoStat2 [Drouin, 2003] est un extracteur de termes multi-langue (français, anglais,

espagnol et italien) en ligne. Il repose sur des connaissances linguistiques et effectue une comparaison entre l’utilisation d’un terme dans un corpus spécialisé et son utilisation dans un corpus de langue générale pour déterminer sa pertinence. En entrée, TermoStat prend un texte. Le texte est étiqueté grammaticalement et des filtres morphosyntaxiques sont appliqués pour en extraire des candidats termes. Ensuite, la fréquence de chaque candidat terme est comparée avec sa fréquence dans un corpus de langue générale. L’idée est que plus l’écart entre la fréquence observée dans le corpus d’analyse et celle que l’on pourrait prédire à partir du corpus de référence est important, plus le terme est potentiellement intéressant. En sortie, il retourne une liste de candidats termes donnant le terme identifié, sa forme lemmatisée, sa fréquence et le poids indiquant sa pertinence probable pour le domaine du corpus.

Parmi ces 4 extracteurs de termes, notre choix s’est porté sur YaTeA. En effet, dans cette thèse, nous avons voulu que les traitements des textes (en anglais ou en français) soient com- plètement transparents à l’utilisateur. Nous avons aussi voulu que le temps d’extraction des termes soit le plus court possible et n’augmente pas en fonction du volume du texte. L’intervention de l’utilisateur se fait uniquement après l’évolution de l’ontologie. Nous avons donc privilégié les critères de transparence de l’outil et sa disponibilité au critère de performance. TermoStat est uniquement disponible en ligne et il était impossible de l’utiliser sans avoir de connexion internet. L’utilisation d’ACABIT nécessite l’installation d’autres composants tels que l’étiqueteur Brill et le lemmatiseur FLEMM pour le français et CELEX pour l’anglais. De plus, pour extraire des candidats termes à l’aide d’ACABIT, l’intervention d’un utilisateur est nécessaire pour étiqueter le texte avec l’étiqueteur Brill. Il était impossible d’automati- ser cette tâche. Enfin, plus le volume du texte augmente, plus la phase d’étiquetage prend du temps. Syntex, quant à lui, n’est pas totalement disponible et ne peut pas non plus être intégré dans une chaîne de traitement transparente.

Sélection des candidats termes

Les candidats termes ainsi extraits doivent être par la suite validés. En effet, tous les syntagmes produits par les extracteurs de termes ne sont pas des termes du domaine. Pour les valider, des critères statistiques et des critères morphosyntaxiques peuvent être utilisés.

1. Les critères statistiques produisent des indicateurs numériques sur les candidats termes. La fréquence du candidat terme est le premier critère. On peut supposer que

plus un candidat terme est fréquent, plus il est un terme du domaine. Valider les candidats termes avec ce critère consiste donc à choisir les plus fréquents. Cependant, l’utilisation de la fréquence peut éliminer beaucoup de termes du domaine [Séguéla, 2000]. En effet, pourquoi un candidat terme non fréquent ne serait-il pas un terme du domaine ? Un deuxième critère consiste à comparer la fréquence du candidat terme avec sa fréquence dans un corpus en "langue générale". Ce critère s’appuie sur l’idée que plus la différence entre les fréquences du candidat terme en corpus langue générale et en corpus du domaine est grande, plus le candidat terme est intéressant pour le domaine [Drouin et Langlais, 2006]. Toutefois, l’utilisation de ce critère ne permet pas d’éliminer des mauvais candidats termes du domaine. Par exemple, le candidat terme voyant diagnostic au combiné a été retrouvé par l’extracteur de terme YaTeA. Nous ne pensons pas qu’un tel terme existe dans la langue générale. Il est donc à tort considéré avec cette technique comme terme du domaine du diagnostic de panne automobile. Nous n’avons donc pas appliqué de critères statistiques pour sélectionner nos termes. 2. Les critères morphosyntaxiques permettent soit de paramétrer l’extracteur de termes

lors de la phase d’extraction soit de filtrer certains résultats indésirables. Dans le premier cas, il s’agit de définir des schémas syntaxiques utilisés par l’extracteur de termes pour extraire des termes d’un corpus. L’extracteur de termes YaTeA permet ce type de paramétrage. Cependant, nous avons préféré garder les paramètres initiaux de YaTeA. En effet, nous nous plaçons dans un cadre d’évolution d’ontologies, c’est-à-dire que nous n’avons pas tous les documents possibles du domaine. Il se peut que les schémas syntaxiques que nous définissons n’extraient pas de terme dans les nouveaux documents. Dans ce cas, l’ontographe est obligé de paramétrer de nouveau YaTeA. Dans le deuxième cas, il s’agit de définir des schémas syntaxiques pour éliminer des résultats indésirables dus à des erreurs d’extraction. Par exemple, les candidats termes contenant des caractères de ponctuation comme ( !, ?, ., :, etc.) ou des caractères improbables pour un terme comme (#, &, %, {, etc.) ou enfin contenant des nombres comme (1, 2, 3, 4, etc.) sont considérés comme des erreurs d’extractions. Nous avons appliqué ce deuxième cas dans ce travail car il permet effectivement d’éliminer des candidats termes non perti- nents tout en évitant que de bons termes soient enlevés.

3. Le contexte peut constituer un troisième critère dans la mesure où il permet de sélec- tionner les candidats termes dont les contextes sont riches en connaissances. L’idée est que plus le contexte d’un candidat terme est riche en connaissances, plus il est probable

qu’il soit un terme du domaine. Ce constat est à la base de TerminoWeb3 [Barrière et

Akakpo, 2006], une plateforme pour la construction de corpus et d’études terminologiques. Au départ, ces contextes ont été exploités pour rechercher des éléments défi- nitionnels pour les termes [Meyer, 2001] [Barrière, 2004]. Ces contextes sont exprimés dans les textes par des patrons informatifs. Par exemple, la phrase : "Un arbre syntaxique est une représentation abstraite de la structure grammaticale d’une phrase.", est un énoncé définissant le terme "arbre syntaxique". Ce contexte est signalé par la présence du pa- tron linguistique informatif "X est un Y" appelé aussi "patron de connaissance". Dans TerminoWeb, plusieurs patrons de connaissances ont été définis. Ces contextes ont été par la suite utilisés comme critère pour la détermination du statut (terme ou non) d’un

candidat terme. Nous utilisons cette idée dans ce travail pour la sélection des candidats termes. Le contexte d’un candidat terme est alors la ou les relations lexicales dans lesquelles il apparaît. Nous faisons l’hypothèse qu’un candidat terme est d’autant plus pertinent pour un domaine donné qu’il doit être impliqué dans une ou plusieurs relations lexicales extraites des corpus de ce même domaine.

Dans le document Gestion dynamique d'ontologies à partir de textes par systèmes multi-agents adaptatifs (Page 58-62)