CHAPITRE 4 UNE NOUVELLE HEURISTIQUE DE DESAMBIGUÏSATION DES TOPONYMES
4.3 É VALUATION
4.3.1 Description des ressources
Fréquence ( 𝑟𝑖𝑑.𝑘 , 𝑅) = P 𝑟𝑖𝑑 .𝑘, 𝑅𝑖 𝑛 𝑖=1 (2)
P 𝑟𝑖𝑑 .𝑘, 𝑅𝑖 = 0, si le nombre de 𝑟1, si le nombre de 𝑟𝑖𝑑.𝑘 dans Comp(𝐻𝑖) = 0
𝑖𝑑.𝑘 dans Comp(𝐻𝑖) ≠ 0 3
4.3 Évaluation
4.3.1 Description des ressources
L’évaluation des méthodes de la désambiguïsation des toponymes nécessite l’utilisation de deux ressources principales qui sont les corpus textuels et les inventaires de sens comme les gazetteers et les ontologies. L’évaluation est encore problématique dans ce domaine dû au manque de ressources standards qui permettent la comparaison entre les performances des différentes méthodes. Leidner (2004, 2006) a adressé ce problème mais malheureusement ses données ne sont pas disponible gratuitement8.
Buscaldi et Rosso (Buscaldi et Rosso 2008a) ont évalué leur méthode basée sur la densité conceptuelle en utilisant l’ontologie WordNet comme un inventaire de sens, et le corpus GeoSemCor.
WordNet (Miller 1995) est une large base de données lexicale disponible aussi
bien en anglais qu’en d’autres langues. Les mots dans WordNet sont relier les uns aux autres par une variété de relations sémantiques, parmi elles l’holonymie et sa relation inverse la méronymie qui sont les relations les plus significatives pour les toponymes.
8
Les mots en WordNet sont groupés en 4 catégories : les noms, les verbes, les adjectifs et les adverbes. Les noms à leur tour sont classifiés en 26 catégories. Les toponymes se retrouvent parmi les noms de 2 classes: Location et Object. La classe Location contient des noms désignant une position spatiale, mais la classe, objet, contient des noms désignant des objets naturels.
Le corpus GeoSemCor –présenté pour la première fois dans (Buscaldi et Rosso
2008a)– est une version de SemCor (Miller, Leacock, et al. 1993) où chaque toponyme est annoté par son référent correct dans WordNet (voir Figure 4-3). Ce corpus est disponible gratuitement sur la page personnelle de Buscaldi9. Le Tableau 4-3 donne quelques informations à propos de GeoSemCor.
geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=savannah wnsn=1 lexsn=1:15:00::>Savannah</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=texas wnsn=1 lexsn=1:15:00::>Texas</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf> geosemcor2.0/brown1/tagfiles/br-a01:<wf geo=true cmd=done pos=NN lemma=georgia wnsn=1 lexsn=1:15:00::>Georgia</wf>
Figure 4-3. Les toponymes du fichier br-a01 du corpus GeoSemCor annotés avec leurs sens dans WordNet. La combinaison de lemma et lexsn permet de relier le toponyme avec son sens
9
Tableau 4-3. Informations à propos le corpus GeoSemCor
Étant donné que WordNet n’est pas une source de connaissances purement géographiques, elle n’est pas aussi riche de toponymes et de référents pour chaque toponyme que les gazetteers. Le Tableau 4-4 fournit des toponymes pris du corpus GeoSemCor et des toponymes de quelques wilayas d’Algérie et compare leur nombre de référents récupérés du WordNet (version 2.1) et du Gazetteer Getty.
De son coté, GeoSemCor n’est pas compilé pour évaluer la tâche de DT, il est plutôt construit pour la tâche de désambiguïsation des sens des mots. Par conséquent, ces deux ressources ne sont pas vraiment adaptées à la tâche de désambiguïsation des toponymes.
Toutefois, Nous avons choisi d’évaluer notre heuristique en utilisant ces ressources. Cela est pour deux raisons. D’un coté, ce sont les seules ressources de DT gratuitement disponible10, et de l’autre coté cela nous permet de comparer
10
GeoSemCor est disponible dans l’adresse http://users.dsic.upv.es/grupos/nle/downloads.html et WordNet dans l’adresse http://wordnet.princeton.edu
Nombre total des toponymes 1210
Nombre des toponymes ambigus 498
Nombre de documents 123
Nombre moyen de toponymes
par document 9,84
Nombre de toponymes sans duplications dans le même document
693
Nombre moyen de toponymes
par document sans duplication 5,20
Nombre de toponymes dupliqué avec des référents différents dans le même document
notre méthode à celle de Buscaldi et Rosso (2008a) qui ressemble à la notre dans le fait qu’elle puisse détecter des relations non hiérarchiques entre les toponymes.
Tableau 4-4. Comparaison du nombre de référents pour certains toponymes dans WordNet et le Gazetteer Getty