Chapitre 6. Exploitation des hiérarchies sémantiques du TLFi pour l’indexation
6.1. Intégration des relations is-a dans un algorithme simple d’indexation
6.1.2. Discussion sur les termes d’indexation déterminés
L’évaluation de la qualité de termes d’indexation déterminés par notre prototype
d’indexation montre que 91,51 % des termes d’indexation sont déterminés
correctement. Le tableau 6.2. présente des exemples d’images avec les termes
d’indexation par lesquels elles ont été indexées et leur niveau de représentation évalué
par l’évaluateur. Nous voyons que les termes d’indexation obtenus représentent bien les
concepts principaux des images. De plus, les hiérarchies sémantiques construites à partir
du TLFi nous permettent en même temps de déterminer les domaines d’utilisation des
termes d’indexation et par conséquent de les désambiguïser. Par exemple, l’image
numéro 1 (cf. tableau 6.2.) a été indexée au domaine botanique et l’image numéro 2 au
domaine générique
77. Toutefois, à ce niveau nous ne sommes pas intéressée d’évaluer le
domaine déterminé. Nous le ferons dans les sections suivantes (cf. §6.3.1.) à travers le
processus de recherche.
Nr. Image Mots-clés de l’image Termes
d’indexation et le
niveau de
représentation
1. Simplicité, Alimentation et
boisson, Vertical, Prise de vue
en studio, Aliment en portion,
Fruit, Graine, Inachevé, Avocat,
Image en couleur, Coupe
transversale, Sans personnage,
Photographie, Hygiène
alimentaire, Fond blanc, Un seul
objet
Fruit TG
Avocat TS
183
2. Autorité, Confiance en soi,
Concentration, Contemplation,
Bureau, Vertical, Cadrage à la
taille, Prise de vue en intérieur,
Document, Personne de race
blanche, Noir américain,
Groupe multi-ethnique, Micro,
Être debout, Gestes, Parler,
Expliquer, Écouter, Avocat,
Palais de justice, Droit, Adulte
d’âge mûr, Trentenaire,
Persuasion, Verre, Image en
couleur, Série, Deux personnes,
Hommes d’âge moyen, Femmes
d’âge mûr, Photographie, Mains
dans les poches, Costume
complet, Seulement des adultes
Adulte TG
Avocat TS
Homme TS
Trentenaire TG
3. Vêtements décontractés, Ville,
Vertical, Cadrage en pied, Prise
de vue en extérieur, 2-3 ans,
Cheveux blonds, Affolé,
Personne de race blanche,
Banlieue pavillonnaire, Assis,
Rue, Jour, Enfance, Accident
bénin, Divertissement, Image en
couleur, Trottinette, Deux
personnes, Petits garçons,
Petites filles, Bâtiment vu de
l’extérieur, Temps libre,
Photographie, Visage expressif,
Seulement des enfants, Monter
un animal ou sur un moyen de
transport
Enfant TG
Petit TG
Garçon TS
Fille TS
Enfance TAP
4. Vêtements décontractés,
Brillant, Jeans, Transport,
Carré, Prise de vue en studio,
4-5 ans, Partie inférieure, Jambe
humaine, Pied humain, Activité
de loisirs, Bleu, En métal, Jour,
Enfance, Une seule personne,
Enfant TG
Garçon TS
Trottinette TS
Enfance TAP
184
Image en couleur, Argenté,
Trottinette, Un seul petit garçon,
Temps libre, Photographie,
Chaussure en toile, Seulement
des enfants, Fond coloré.
5. Vertical, Insecte, Abeille,
Papillon, Fleur, Chardon bleu
des dunes, Image en couleur,
Photographie, Œillet,
Symbiose, Saponaire officinale,
Juillet, Apiécée
Papillon TG
Abeille TG
Œillet TS
6. Architecture, Horizontal, Prise
de vue en extérieur, Dôme,
Mosquée, Nuage, Crépuscule,
Brunei, Bandar Seri Begawan,
Islam, Image en couleur,
Minaret, Mosquée Omar Ali
Saifuddin, Sans personnage,
Bâtiment vu de l’extérieur,
Photographie, Capitales
internationales
Minaret TG
7. Ensemble, Horizontal, Prise de
vue en extérieur, Natation,
Partie du corps d’un animal,
Tête d’un animal, Manger,
Attraper, Honduras, Poisson,
Grand dauphin, Jour, Mer des
Caraïbes, Image en couleur,
Roatan, Avoir faim, Deux
animaux, Sans personnage,
Photographie, Monde marin,
Remonter à la surface, Bouche
ouverte
Poisson TS
Tableau 6.2. Exemples d’images avec les termes d’indexation par lesquels elles ont été
indexées
La figure 6.2. montre toutefois que la plupart des termes d’indexation déterminés
(65,04 %) représentent le niveau générique en décrivant les objets généraux et les
185
actions. Ceci est tout à fait normal, car généralement une image représente plutôt des
objets génériques (ex. portrait d’une femme, musée, ville, cathédrale, etc.) qui,
ensemble, forment l’idée générale de l’image (ex. la bataille de Stalingrad, le portrait
de la Joconde, la cathédrale Notre-Dame de Paris, etc.), ou font référence à certains
symboles, abstractions ou émotions.
Figure 6.2. Évaluation des niveaux de représentation des termes d’indexation
Ces résultats peuvent aussi s’expliquer par :
1. Le niveau culturel de l’annotateur. La plupart des images ne contiennent pas
dans leur description textuelle de mots-clés spécifiques. C’est par exemple le cas
des images du domaine flore, où le nom précis de la fleur ou de l’arbre n’est
souvent pas spécifié par méconnaissance de la part de l’annotateur. C’est par
exemple le cas de l’image 5 du tableau 6.2., pour laquelle seul le terme
générique fleur a été déterminé.
2. Des problèmes de vocabulaire. Par exemple, les images de lion, jaguar
contiennent dans leur description textuelle le mot-clé animal, tandis que dans le
TLFi les lexèmes LION et JAGUAR sont définis comme des mammifères. Cela
ne permet pas de trouver directement la relation d’hyperonymie entre les termes
descriptifs de l’image, lion et animal, et donc par application de notre
algorithme ces images ne seront indexées que par les trois premiers termes de la
description.
3. Noms propres. Les termes d’indexation spécifiques sont souvent des noms
propres. L’absence d’une nomenclature avec les noms propres ne nous permet
pas de les déterminer. Par exemple, l’image 6 (cf. tableau 6.2.) contient dans sa
description le nom de la mosquée (Omar Ali Saifuddin), qui n’a pas pu être
déterminé.
65,04% 28,04% 6,99% 0,00% 20,00% 40,00% 60,00% 80,00% 100,00% Terme générique Terme spécifique Terme "à propos"186
Cependant, nous avons observé que 8,48 % des termes ont été mal déterminés. Les
causes principales qui conduisent à une indexation par des termes incorrects sont :
1. Les annotations qui contiennent des termes relevant plutôt du métalangage de
description de l’image (temps, lieu) que de son contenu. Par exemple, pour
l’image 1 du tableau 6.3., le terme d’indexation déterminé est sport, car dans sa
description textuelle l’image ne contient aucun terme relevant de son contenu
propre.
2. L’ambiguïté des mots-clés descriptifs de l’image. Un nom peut avoir des sens
différents comme rose, qui peut référer à la couleur ou à la fleur. Par exemple,
l’annotation de l’image 2 (cf. tableau 6.3.) contient le nom rose qui fait dans ce
cas référence à la couleur. Toutefois, du fait que le nom couleur a été éliminé
parce qu’il fait partie de la description d’une prise de vue et non de l’image, le
système a déterminé la relation de type is-a entre les noms rose-fleur et non
magnolia-fleur
78. Par conséquent, le nom rose a été déterminé comme terme
d’indexation, ce qui n’est pas correct.
3. Le manque de relations sémantiques entre les mots-clés de l’image. Ainsi, vu le
manque de relations sémantiques entre les noms désert et cactus, l’image 3 (cf.
tableau 6.3.) a été indexée par terme golf.
4. La non prise en compte des locutions. Notre prototype d’indexation n’étant pas
capable de reconnaître les locutions nominales, il détermine plusieurs termes
d’indexation au lieu d’un seul. Par exemple, pour l’image numéro 4 (cf. tableau
6.3.) le terme d’indexation déterminé est lion et non lion de mer. Ce problème
découle du fait que les locutions du TLFi ne sont pas normalisées, ce qui ne
permet pas actuellement leur reconnaissance dans les descriptions des images.
Nr. Image Mots-clés de l’image Terme d’indexation
et son évaluation
1. Plein, Sport, Horizontal,
Football américain, États-Unis,
Stade, Californie, San Diego,
NFL, Denver Broncos
Sport NON
78
Dans le TLFi, le lexème MAGNOLIA est défini comme un « Arbre ou arbrisseau de la famille des Magnoliacées » et non comme la fleur de cet arbre ou arbrisseau.