• Aucun résultat trouvé

Description des ressources

Dans le document La Désambiguisation des toponymes (Page 110-113)

CHAPITRE 4 UNE NOUVELLE HEURISTIQUE DE DESAMBIGUÏSATION DES TOPONYMES

4.3 É VALUATION

4.3.1 Description des ressources

Fréquence ( 𝑟𝑖𝑑.𝑘 , 𝑅) = P 𝑟𝑖𝑑 .𝑘, 𝑅𝑖 𝑛 𝑖=1 (2)

P 𝑟𝑖𝑑 .𝑘, 𝑅𝑖 = 0, si le nombre de 𝑟1, si le nombre de 𝑟𝑖𝑑.𝑘 dans Comp(𝐻𝑖) = 0

𝑖𝑑.𝑘 dans Comp(𝐻𝑖) ≠ 0 3

4.3 Évaluation

4.3.1 Description des ressources

L’évaluation des méthodes de la désambiguïsation des toponymes nécessite l’utilisation de deux ressources principales qui sont les corpus textuels et les inventaires de sens comme les gazetteers et les ontologies. L’évaluation est encore problématique dans ce domaine dû au manque de ressources standards qui permettent la comparaison entre les performances des différentes méthodes. Leidner (2004, 2006) a adressé ce problème mais malheureusement ses données ne sont pas disponible gratuitement8.

Buscaldi et Rosso (Buscaldi et Rosso 2008a) ont évalué leur méthode basée sur la densité conceptuelle en utilisant l’ontologie WordNet comme un inventaire de sens, et le corpus GeoSemCor.

WordNet (Miller 1995) est une large base de données lexicale disponible aussi

bien en anglais qu’en d’autres langues. Les mots dans WordNet sont relier les uns aux autres par une variété de relations sémantiques, parmi elles l’holonymie et sa relation inverse la méronymie qui sont les relations les plus significatives pour les toponymes.

8

Les mots en WordNet sont groupés en 4 catégories : les noms, les verbes, les adjectifs et les adverbes. Les noms à leur tour sont classifiés en 26 catégories. Les toponymes se retrouvent parmi les noms de 2 classes: Location et Object. La classe Location contient des noms désignant une position spatiale, mais la classe, objet, contient des noms désignant des objets naturels.

Le corpus GeoSemCor –présenté pour la première fois dans (Buscaldi et Rosso

2008a)– est une version de SemCor (Miller, Leacock, et al. 1993) où chaque toponyme est annoté par son référent correct dans WordNet (voir Figure 4-3). Ce corpus est disponible gratuitement sur la page personnelle de Buscaldi9. Le Tableau 4-3 donne quelques informations à propos de GeoSemCor.

geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=savannah wnsn=1 lexsn=1:15:00::>Savannah</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=texas wnsn=1 lexsn=1:15:00::>Texas</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf>

Figure 4-3. Les toponymes du fichier br-a01 du corpus GeoSemCor annotés avec leurs sens dans WordNet. La combinaison de lemma et lexsn permet de relier le toponyme avec son sens

9

Tableau 4-3. Informations à propos le corpus GeoSemCor

Étant donné que WordNet n’est pas une source de connaissances purement géographiques, elle n’est pas aussi riche de toponymes et de référents pour chaque toponyme que les gazetteers. Le Tableau 4-4 fournit des toponymes pris du corpus GeoSemCor et des toponymes de quelques wilayas d’Algérie et compare leur nombre de référents récupérés du WordNet (version 2.1) et du Gazetteer Getty.

De son coté, GeoSemCor n’est pas compilé pour évaluer la tâche de DT, il est plutôt construit pour la tâche de désambiguïsation des sens des mots. Par conséquent, ces deux ressources ne sont pas vraiment adaptées à la tâche de désambiguïsation des toponymes.

Toutefois, Nous avons choisi d’évaluer notre heuristique en utilisant ces ressources. Cela est pour deux raisons. D’un coté, ce sont les seules ressources de DT gratuitement disponible10, et de l’autre coté cela nous permet de comparer

10

GeoSemCor est disponible dans l’adresse http://users.dsic.upv.es/grupos/nle/downloads.html et WordNet dans l’adresse http://wordnet.princeton.edu

Nombre total des toponymes 1210

Nombre des toponymes ambigus 498

Nombre de documents 123

Nombre moyen de toponymes

par document 9,84

Nombre de toponymes sans duplications dans le même document

693

Nombre moyen de toponymes

par document sans duplication 5,20

Nombre de toponymes dupliqué avec des référents différents dans le même document

notre méthode à celle de Buscaldi et Rosso (2008a) qui ressemble à la notre dans le fait qu’elle puisse détecter des relations non hiérarchiques entre les toponymes.

Tableau 4-4. Comparaison du nombre de référents pour certains toponymes dans WordNet et le Gazetteer Getty

Dans le document La Désambiguisation des toponymes (Page 110-113)

Documents relatifs