Mise en œuvre et résultats - SEMPEDIA : Sémantisation à partir des documents semi-structurés -

Terme1 ou citron vert, le Terme2 des limettiers :

où les mots correspondant aux termes ont été remplacés par Terme1 et Terme2. L’annotation par Tree-Tagger permet de remplacer les formes exactes des tokens par leur lemme précédé de leur catégorie syntaxique. La phrase devient :

Terme1 KON/ou NOM/citron ADJ/vert PUN/, DET:ART/le Terme2 PRP:det/du NOM/limettier PUN/:

Enfin, des fonctions de traits sont calculées pour définir les valeurs de ces traits. Elles associent à chaque token de la phrase les distances relatives (en nombre de tokens) de ce token à Terme1 et à Terme2 sous forme de couple de valeurs, le nombre de tokens entre Terme1 et Terme2 (en l’occurrence 5) et le nombre de tokens dans la phrase (ici 16). Le dernier trait indique l’absence de verbe dans la phrase.

(0,6) (-1,5) (-2,4) (-3,3) (-4,2) (-5,1) (-6,0) (-7,-1) (-8,-2) (-9,-3) 5 16 false

Voici l’exemple dans son intégralité :

Terme1 KON/ou NOM/citron ADJ/vert PUN/, DET:ART/le Terme2 PRP:det/du NOM/limettier PUN/:

(0,6) (-1,5) (-2,4) (-3,3) (-4,2) (-5,1) (-6,0) (-7,-1) (-8,-2) (-9,-3) 5 16 false

Cet exemple est positif car les termes "lime" et "fruit" renvoient à des ressources en relation d’hyperonymie dans BabelNet.

4.4 Mise en œuvre et résultats

Nous avons produit automatiquement ~8000 exemples parmi lesquels avons conservé 6000 exemples (3000 positifs et 3000 négatifs). L’ensemble d’entraînement est composé de 4000 exemples pris aléatoirement parmi les 6000, en maintenant une quasi-parité positifs / négatifs (~2000/~2000), et l’ensemble de test comporte les 2000 exemples restants. Nous avons entraîné un algorithme de régression logistique binaire, MaxEnt [Berger et al., 1996] sur l’ensemble d’entraînement.

4.4.1 Application aux pages de désambiguïsation

Cette expérience s’est appuyée sur le corpus de référence annoté décrit dans le chapitre précédent. Du fait de la projection automatique des labels de BabelNet sur le corpus, nous n’avons plus recours à un extracteur de termes, ce qui simplifie la chaîne de traitement décrite en section 4.2.

L’évaluation est réalisée à deux niveaux : — Evaluation de la performance du classifieur

— Evaluation de l’apport de l’extraction pour l’enrichissement de la base de connaissances Nous avons en tout réalisé 4 expérimentations en modifiant à chaque fois les vecteurs de traits des exemples pour choisir la meilleure composition. A chaque fois, le modèle d’apprentissage a été évalué en sur un corpus de 20 pages, en confrontant les relations d’hyperonymie trouvées par le modèles aux relations annotées à la main par 2 annotateurs. Le nombre total des relations annotées est de 688. Les résultats en terme de rappel et précision des 4 expérimentations réalisées sont présentés dans le tableau 4.2.

Expé.

Traits utilisés

Rappel

Précision

1 3 mots + POS + LEMME + distT1T2

0.46

0.81

2 5 mots + POS + LEMME + distT1T2

0.48

0.67

3 1 mot + POS + LEMME + distT1T2

0.47

0.65

4 3 mots + POS + LEMME + distT1T2 +distT1 +

distT2 + nbMotsPhrase + presVerbe

0.58

0.72 4 Approche statistique pour l’extraction de relations

Nous remarquons que les paramètres de l’expérimentation 4 ont permis d’obtenir les meilleurs résultats en terme de rappel et précision. C’est donc cette configuration que nous avons validée pour étudier la complémentarité de cette approche avec l’approche par patrons, dans le chapitre suivant.

4.4.2 Application à l’ensemble du corpus Wikipedia

Annotation manuelle

L’évaluation de la méthode sur l’ensemble du corpus Wijipédia a nécessité de mettre en œuvre une nouvelle tâche d’annotation manuelle, puisque nous ne disposions que de l’annotation de pages Wikipedia issues de l’ensemble spécifique des pages de désambiguïsation. Cette nouvelle annotation a été réalisée par 2 annotateurs. Elle a été menée sur les premiers paragraphes de 56 pages Wikipedia extraites aléatoirement du corpus, soit 300 paires de segments en relation hyperonymique. L’annotation a été menée sur le corpus brut en amont de l’étape d’extraction des termes. Elle a donc consisté à délimiter les segments et à poser la relation.

A titre d’exemple :

Parmi les autres attributs figurent la queue de taureau fixée à l’arrière du pagne, la barbe cérémonielle, les sandales et l’étui-mekes.

→ hyperonyme(autres attributs,barbe cérémonielle)

L’annotation proprement dite a été précédée d’une phase d’annotation test et de mise en commun, pour repérer les décalages et établir les règles précises d’annotation, en particulier concernant la délimitation des segments. A l’issue de l’annotation séparée des 300 paires, une phase d’adjudication a permis la production d’un fichier unique. Les principes d’annotation mis en œuvre sont les suivants :

— Taille du contexte : on ne considère une relation qu’à l’intérieur d’une phrase (et non à cheval sur plusieurs phrases) et on peut valider plusieurs relations dans la même phrase ; — Délimitation des segments :

— On ne reconstitue aucun segment implicite ;

— On ne réalise pas de lemmatisation, la forme de surface est donc conservée ;

— On supprime le déterminant, mais on conserve les modifieurs qui précèdent le terme ; — On ne prend pas toujours le terme maximal, on supprime les modifieurs qui suivent dans

les cas suivants : les relatives, les participes ; — Relation d’hyperonymie :

— On ne traite pas les cas d’inclusion lexicale qui amènent à décomposer le terme ; — On ne considère pas qu’il y a une relation hyperonymique dans les cas d’équivalence, de

synonymie ;

— En cas de doute, on vérifie par le test « est un type de » la validité du terme hyperonmyique (est-il un bon catégorisateur).

Dans cette expérience, ce n’est pas LBabel mais un sous-ensemble de celle-ci, à savoir la liste des termes BabelNet présents dans le fichier construit par les annotateurs, qui servira ensuite pour l’évaluation de l’expérimentation. C’est donc cette liste qui sera projetée sur le corpus et on ne cherchera des relations qu’entre ces termes. Il s’agira donc de prendre une décision pour l’appariement : soit rechercher toutes les décompositions, soit ne considérer que la tête nominale du terme. C’est la deuxième option, plus simple, qui a été choisie.

Prise en compte de traits supplémentaires

Les expérimentations menées sur le corpus Wikipedia intégral ont intégré des traits supplémen- taires par rapport aux expériences menées sur le corpus d’homonymie.

Information distributionnelle Comme nous l’avons vu dans le chapitre consacré à l’état de l’art, l’information distributionnelle peut être utilisée comme un indice complémentaire pour renforcer l’hypothèse d’une relation d’hyperonymie : en effet, les termes hyponymes et hyperonymes ont tendance à partager les mêmes contextes, même si une dissymétrie existe : l’hyperonyme, parce qu’il présente des caractéristiques conceptuelles plus génériques, peut apparaître dans un ensemble plus large de contextes que l’hyponyme [Lenci and Benotto, 2012b, Kotlerman et al., 2010]. Si l’on sait que ces indices ne permettent pas, à eux seuls, de discriminer la relation d’hyperonymie, leur intégration dans le processus d’apprentissage parmi d’autres traits est une piste intéressante, que nous avons voulu tester. Pour cela, nous avons intégré dans les traits d’apprentissage une information relative à la

Dans le document SEMPEDIA : Sémantisation à partir des documents semi-structurés - Enrichissement de DBPédia (Rapport sur les travaux de thèse d'Adel Ghamnia) Rapport de fin de contrat de la région Midi-Pyrénées Convention 620402C5266 (Page 48-50)