Sélection des éléments lexicaux saillants

4.4 Analyseur de corpus : DYNAMO Corpus Analyser

4.4.3 Sélection des éléments lexicaux saillants

Pour sélectionner les candidats termes et les relations lexicales du domaine, nous avons utilisé un ensemble de techniques. Nous avons utilisé des critères morphosyntaxiques pour éliminer les erreurs d’extraction de l’outil YaTeA. Nous avons défini une liste de caractères clés contenant des caractères de ponctuations ( !, ?, ., :, etc.), des caractères improbables pour un terme (#, &, %, {, etc.) et des nombres (1, 2, 3, 4, etc.). Lorsqu’un candidat terme contient un de ces caractères, il est éliminé.

De plus, à la demande d’un des partenaires du projet DYNAMO, nous avons défini une autre technique pour identifier et supprimer des candidats termes erronés. Cette technique s’appuie sur les termes de la RTO et les concepts qu’ils dénotent. Tout d’abord, nous cher- chons dans la composition d’un candidat terme un ou plusieurs termes de la RTO. Ensuite,

pour chaque terme retrouvé, nous vérifions à quel concept du noyau5de la RTO appartient

le concept. Enfin, lorsque ces concepts du noyau sont différents, nous éliminons ce candidat terme car il est considéré sémantiquement erroné. Par exemple, le candidat terme "dysfonctionnement moteur" est composé du terme "moteur" et du terme "dysfonctionnement". Le terme "moteur" est un composant de voiture selon la RTO du partenaire ACTIA alors que "dysfonctionnement" est un problème que peut avoir une voiture selon cette même RTO. Les termes qui composent le candidat terme sont associés à des concepts de catégories qui ne peuvent pas être associées. Le candidat terme doit alors être éliminé.

Enfin, nous avons utilisé le critère de contexte afin de sélectionner les candidats termes à agentifier et les relations lexicales à traiter. Pour cela, nous avons défini deux confiances : une confiance sur les relations et une confiance sur les termes. Chaque confiance est formée d’un couple(Q; I).

La confiance de la relation R_i entre les termes Txet Tyest le couple (QRi; IRi) tel que :

– QRi est la qualité maximale de la relation. Elle est égale à la qualité maximale d’un

patron lexico-syntaxique instancié pour la relation Ri.

– IRi est la somme des instances des patrons lexico-syntaxiques ayant une qualité Qia

proche d’un δQde QRi.

Afin de normaliser la valeur de confiance des relations à partir des couples (Q; I)des patrons lexico-syntaxiques, nous avons défini la formule suivante :

Con f Ri(Tx; Ty) = (QRi; IRi) = Max(Qij); n

∑

a=1 Iia|Qia ≥ Max(Qij) −δQ

– Txet Tysont deux termes ;

– Riest une relation lexicale i entre les termes Txet Ty;

– Qijest la qualité du patron lexico-syntaxique j pour la relation i ;

– Iiaest le nombre d’instances du patron lexico-syntaxique a pour la relation i ;

– Qiaest la qualité du patron lexico-syntaxique a de la relation i ;

– δQest un δ fixé arbitrairement à 0.5 pour sélectionner les qualités des patrons.

Les relations extraites par les techniques de dépendances fonctionnelles, de calcul de

5. Dans le cadre du projet DYNAMO, chaque RTO dont nous disposons est construite autour d’un noyau de concepts stables (2, 3 ou 4 concepts) reliés au concept DomainThing par des relations is_a et reliés entres eux par des propriétés.

similarités ou à l’aide des dictionnaires lexicaux sont considérées comme des relations iden-

tifiées par un patron abstrait (PX). Nous intégrons alors leurs résultats dans le calcul des

confiances des relations.

Les confiances des relations nous permettent ensuite de calculer une confiance pour chaque candidat terme. Cette dernière est utilisée ensuite pour filtrer les candidats termes à agentifier.

La confiance du terme Txest le couple (QTx; ITx) tel que :

– QTx est la qualité maximale des relations dont Txest source ou cible ;

– ITx est la somme des instances des relations dont Tx est source ou cible ayant une

qualité Q proche d’un delta de la qualité maximale QTx.

Plus précisément, la confiance du terme Txest la suivante :

Con f(Tx) = (QTx; ITx) = Max(QRi); n

∑

a=1 IRa|QRa ≥ Max(QRi) −δQ

– Txest un candidat terme ;

– QRi est la qualité de la relation Ridont le terme Txest cible ou source ; – IRa est le nombre d’instances de la relation Radont Txest cible ou source ; – QRa est la qualité de la relation Ra dont Txest cible ou source ;

– δQ est un δ fixé arbitrairement à 0.5 pour sélectionner les qualités des relations dont

Txest cible ou source.

Puisque la qualité d’un candidat terme varie entre 1 et 10, nous avons choisi de trans- former en agents ceux dont la confiance dépasse la moyenne. Tous les candidats termes qui ont un seuil inférieur à la moyenne sont alors considérés comme étant du bruit. Dans le cas où tous les candidats termes ont une qualité inférieure à la moyenne, aucune proposition n’est faite à l’ontographe. Pour éviter ce cas, nous avons rajouté la moyenne de toutes les qualités des candidats termes (MQ) comme critère de sélection. Ce choix de seuil est motivé par le fait que plus la qualité des relations impliquant un candidat terme est élevée, plus ces relations sont potentiellement correctes et donc potentiellement le candidat terme aussi. Une fois les candidats termes à agentifier sélectionnés, les relations ayant un candidat terme agentifié source et un candidat terme agentifié cible sont traitées.

Pour mieux comprendre le mécanisme de sélection des candidats termes et des relations

lexicales, nous prenons un exemple. Soit T1et T2deux candidats termes ou termes reliés par

une relation de synonymie S1, une relation d’hyperonymie H1 et une relation de mérony-

mie M1. Chaque type de relation est extrait par un ensemble de patrons lexico-syntaxiques

chacun de qualité Q et de nombre d’instance I. Nous représentons dans les tableaux 4.1, 4.2 et 4.3 les résultats d’extraction.

Patrons d’extraction Qualité Q nombre d’instances I

P1 8 12

P2 7.8 8

PX 6.5 1

Patrons d’extraction Qualité Q nombre d’instances I

P1 5.5 4

P2 6 1

P3 9 14

PX 5 1

Tableau 4.2 — Exemple d’extraction de la relation d’hyperonymie H1entre T1et T2

Patrons d’extraction Qualité Q nombre d’instances I

P1 4.5 20

P2 8.9 15

P3 3 25

Tableau 4.3 — Exemple d’extraction de la relation de méronymie M1entre T1et T2

La normalisation des valeurs de confiances des relations S1, H1et M1est la suivante :

– Con f(S1) = (8; 12+8) = (8; 20)

– Con f(H1) = (9; 14)

– Con f(M1) = (8.9; 15)

La normalisation des confiances des relations nous permet ensuite de calculer la confiance des termes T1et T2.

– Con f(T1) = (9; 15+14) = (9; 29)

– Con f(T2) = (9; 15+14) = (9; 29)

La confiance du terme T1 et T2 dépasse la confiance moyenne 5 donc ces deux termes

seront agentifiés. Ces deux agents termes seront reliés par les relations lexicales S1, H1 et M1.

Nous détaillons dans la section suivante le fonctionnement du SMA dont l’objectif est de faire évoluer une RTO à partir des données lexicales.

Dans le document Gestion dynamique d'ontologies à partir de textes par systèmes multi-agents adaptatifs (Page 123-125)