• Aucun résultat trouvé

Un avantage important de notre approche est l’exploitation de DBpedia afin de compléter les informations des documents. Rappelons que cette complétion correspond :

• dans le cas des destinations, à des données géographiques et météorologiques, • dans le cas des films, essentiellement à traiter les contre-sens possibles entre les

données sur la langue et le pays d’origine du film.

Hormis la complétion, la principale différence entre l’exploitation des données par les classifieurs et par Saupodoc réside dans la manière de représenter les textes :

• Pour les classifieurs, l’utilisation d’un sac-de-mots TF-IDF permet d’avoir une notion de fréquence qu’il n’y a pas dans l’ontologie. En effet, dans l’ontologie, la présence ou l’absence d’une assertion de propriété est une notion binaire, bien moins fine que le TF-IDF.

• Pour Saupodoc, l’avantage de l’utilisation d’une ontologie par rapport à un sac-de-mots est la structuration dans celle-ci. Dans un sac-de-mots, il n’y a aucune notion de proximité entre les mots, au contraire de l’ontologie où les individus similaires sont des instances de classes communes, et où les classes similaires sont des sous-classes de super-classes communes.

Les Figures 5.8 et 5.9 montrent les résultats obtenus sur les quatre mesures pour les trois approches ainsi que pour l’approche Saupodoc sans la tâche de complétion des assertions par des données de DBpedia (tâche 1.b).

Pour les destinations, sans la complétion des données géographiques et météorologiques, Figure 5.8, Saupodoc est moins performant, comme on peut s’y attendre. Cependant, elle continue de surpasser les deux classifieurs sur les quatre

5.5 Expérimentations évaluant l’intérêt de la complétion des données 73

mesures. Par exemple, pour apprendre la définition d’un concept cible relatif à un beau temps en hiver, Saupodoc sans la complétion ne peut pas utiliser de données météo, puisque ces données sont obtenues grâce à DBpedia. Néanmoins, cette version simplifiée de Saupodoc est capable d’obtenir une définition s’inspirant de l’environnement des destinations de ce type, par exemple contenant l’assertion hasEnvironment some (Jungle or Vegetation). En effet, les descriptions des destinations où il fait beau en hiver men-tionnent souvent une jungle dans les alentours ou bien au moins de la végétation qui n’est pas mentionnée dans les autres destinations. Grâce à la structure de l’ontologie, les individus instances de la classe Jungle (ou de la classe Vegetation) sont automatique-ment vus comme des individus proches, contraireautomatique-ment à leur prise en compte dans les classifieurs où ils sont interprétés comme des attributs sans liens particuliers. De ce fait, en permettant de rapprocher les individus similaires en les rendant instances d’un même concept, la structuration de l’ontologie a permis à Saupodoc sans la tâche 1.b d’obtenir des annotations plus correctes que les classifieurs dans le cas des destinations de vacances.

Fig. 5.8 Les mesures sur le corpus des destinations (réalisées sur l’ensemble de test) Dans le cas des films, sans la complétion des langues et des pays, comme le montre la Figure 5.9, les quatre mesures baissent considérablement. L’exactitude de Saupodoc sans la complétion est un peu moins bonne que celle des classifieurs. La précision est clairement plus faible que celle des classifieurs tandis que le rappel est meilleur, créant ainsi à peu près la même F-mesure. En somme, la performance de Saupodoc sans complétion est très proche de celle des classifieurs mais un peu moins bonne. Cela est dû au fait que, dans cette expérimentation, l’ontologie des films utilisée n’a que peu de structure. Elle relie les films à 5 concepts, mais la structuration interne des concepts

74 Expérimentations

est très faible. De ce fait, la puissance de l’ontologie, qui réside dans sa capacité à rapprocher les individus similaires en les associant à des mêmes classes, n’est que peu présente ici. Ainsi, Saupodoc ne peut profiter ni de l’avantage de la structuration de l’ontologie, ni de la notion de fréquence dont profitent les classifieurs basés sur les sacs-de-mots TF-IDF.

Fig. 5.9 Les mesures sur le corpus des films (réalisées sur l’ensemble de validation) De ces expériences, nous pouvons déduire deux conclusions :

• la complétion a un intérêt pour l’approche puisqu’elle augmente sensiblement les pourcentages des mesures. Pour les destinations, les valeurs météorologiques ajoutées permettent un gain entre 2 et 4% dans nos mesures, cf. Tableau 5.2. Pour les films, les contre-sens étant très présents dans les documents textuels, la prise en compte des données externes permet un gain important : autour de 3% pour l’exactitude et d’une vingtaine de pour cent pour les autres mesures. • l’avantage de l’utilisation d’une ontologie par rapport à un sacs-de-mots classique

réside dans l’exploitation de la structuration de l’ontologie. En effet, ici le sac-de-mots contient des notions de similarité (plusieurs labels pour un même individu). Celui-ci est en quelque sorte un "sac de relations extraites". Cependant, il ne tient pas compte des concepts liant les relations extraites entre elles, ce qu’une ontologie fait. Par exemple, une entité ayant pour activité _diving et une entité ayant pour activité _waterskiing ont une similitude : elles ont toutes deux une activité de sport aquatique (ces deux individus sont des instances de sous-classes de Watersport). Cependant, il s’agit de deux mots indépendants pour un classifieur. De ce fait, la structure de l’ontologie permet un apport conséquent dans l’apprentissage. Le Tableau 5.3 montre que, avec les mêmes informations (uniquement celles des documents) représentées dans un sac-de-mots

5.6 Obtenir des définitions explicites : un avantage pour raffiner les annotations 75

ou dans une ontologie bien structurée, l’utilisation d’une ontologie permet un gain dans l’approche d’annotation. Au contraire, sans structure dans l’ontologie, cf. Tableau 5.4, l’ontologie en soit n’a pas d’intérêt dans l’approche d’annotation.

Corpus Delta Exactitude Delta F-mesure Delta Précision Delta Rappel

Destination 2,82% 2,97% 3,80% 2,26%

Film 2,98% 22,15% 22,08% 16,00%

Tableau 5.2 Apport de la complétion dans Saupodoc

Le delta correspond à l’écart entre la mesure considérée pour Saupodoc avec et sans complétion.

Corpus des destinations Delta Delta Delta Delta Exactitude F-mesure Précision Rappel Delta Saupodoc sans complétion

par rapport à SVM 8,56% 15,11% 12,04% 14,00% Delta Saupodoc sans complétion

par rapport à Arbre de décision 6,85% 6,04% 5,91% 3,42%

Delta moyen 7,70% 10,58% 8,98% 8,71%

Tableau 5.3 Apport de la structuration de l’ontologie : cas des destinations

Le delta correspond à l’écart entre la mesure considérée pour Saupodoc sans complé-tion et les classifieurs.

5.6 Obtenir des définitions explicites : un avantage