• Aucun résultat trouvé

Chapitre 7. Expérimentation et Évaluation

3. Résultats

3.1. L'évaluation du repérage

3.1.1. Évaluation expression par expression

Adetoa analyse chaque page Web individuellement. Cependant, pour le repérage, chaque expression est identifiée, indépendamment des autres et plusieurs expressions (y compris de même type) peuvent être repérées dans une même page.

Ainsi, l'évaluation s'est concentrée sur le jugement de la qualité du repérage pour chaque expression. Les résultats selon le nombre d'expressions sont présentés ci-dessous. Le diagramme suivant montre, sur les 331 expressions à repérer dans le corpus, la répartition entre expressions bien repérées, expressions repérées partiellement (avec ou sans perte) et expressions manquées.

Ce diagramme ne représente que les expressions à repérer (au nombre de 331) et non l'ensemble des expressions repérées par Adetoa (au nombre de 338). Or, sur ce jeu d'évaluation, 57 expressions ont également été repérées à tort. Pour permettre une meilleure interprétation des résultats, les taux de rappel et précision ainsi que le fallout ont été calculés et sont présentés ci-dessous. Par ailleurs, une analyse des résultats imparfaits est proposée ensuite.

a. Rappel et précision

Je l'ai mentionné au début de ce chapitre, les mesures de rappel et précision sont parfois controversées et elles ne sont pas toujours représentatives des résultats obtenus par un système. Dans le cas d'Adetoa, ces mesures semblent tout de même permettre de rendre compte du module de repérage. Elles peuvent être calculées car les données qu'elles mettent en rapport sont effectivement disponibles : il s'agit du nombre d'expressions à repérer (comptées par l'évaluateur), du nombre d'expressions repérées et du nombre d'expressions bien repérées. L'évaluation permet justement de compter les expressions selon ces catégories. Toutefois, afin de ne pas devoir considérer le repérage d'une expression comme « bon » ou « mauvais », j'ai introduit une certaine flexibilité sous la forme d'une graduation. Lors de l'évaluation, les expressions sont classées en quatre catégories (présentées plus en détail ci- dessus) :

• Expressions parfaitement repérées

• Expressions repérées partiellement sans perte d'information • Expressions repérées partiellement avec perte d'information • Expressions repérées à tort

Chapitre 7 - Expérimentation et Évaluation

En ce qui concerne les expressions repérées, je propose de calculer les taux de rappel et précision selon la graduation suivante (du plus strict au moins strict) :

Les taux de rappel et précision peuvent donc être calculés pour trois ensembles de résultats : le premier, le plus strict, ne comprenant que les résultats parfaits, le deuxième comprenant, en plus de ces résultats parfaits, les résultats partiels sans perte et enfin le troisième comprenant en plus les résultats partiels avec perte. Si cette troisième catégorie fait donc entrer dans les calculs de rappel et précision des résultats qui peuvent être considérés comme « moins bons », puisqu'une partie de l'information est perdue, ils ne prennent néanmoins pas en compte des résultats « mauvais » au sens où aucune information n'est « fausse ». Les résultats obtenus selon cette graduation à trois niveaux sont présentés dans le tableau 6, tandis que le tableau 7 donne la f-mesure pour chacun des trois niveaux.

Rappel Précision Parfait + Sans perte + Avec perte 281/331 – 84,9% Parfait + Sans perte + Avec perte 281/338 – 83,1% Parfait + Sans perte 205/331 – 61,9% Parfait + Sans perte 205/338 – 60,7% Parfait 197/331 – 59,5% Parfait 197/338 – 58,3%

Tableau 6 : Taux de rappel et précision obtenus par Adetoa pour la tâche de repérage

F-mesure

Parfait + Sans perte + Avec perte 84%

Parfait + Sans perte 61,3%

Parfait 58,9%

Tableau 7 : F-mesures obtenues par Adetoa pour la tâche de repérage avec α = 1

Il est difficile de relativiser ces résultats dans la mesure où il n'existe pas de « résultats de référence » permettant d'effectuer une comparaison. En effet, la tâche effectuée par Adetoa est très spécifique aussi bien au niveau du type d'information à extraire que parce que celles- ci se trouvent dans des pages Web. Aucun outil équivalent n'existe, les résultats ne peuvent donc pas être directement comparés. Toutefois, les résultats obtenus par d'autres tâches

178

d'extraction d'information, dans des pages Web, peuvent donner une indication de la qualité des résultats.

Rappel Précision (calculée avec α=1)F-mesure

[Gatterbauer et al. 2007] Repérage et interprétation de tableaux Repérage 81% 68% 73,9% Interprétation 57% 48% 52,1% [Hong et al. 2009] Repérage et annotation de références bibliographiques

Couples de résultats selon la configuration du système 96% 96,6% 96,3% 98,4% 99,2% 57,5% 53,6% 51,6% 40,9% 16,1% 71,9% 68,9% 67,2% 57,8% 27,8% [Tengli et al. 2004] Extraction de tableaux 87,84% 95,31% 91,42% [Nagy et al. 2009] Repérage des affiliations de

chercheurs 62,88% 78,73% 69,92%

Tableau 8 : Résultats obtenus par d'autres systèmes d'extraction d'information

Le tableau 8 présente les résultats obtenus par différents systèmes pour des tâches d'extraction d'information plus ou moins proches de celle effectuée par Adetoa. Les travaux présentant ces systèmes ont déjà été cités au début de ce chapitre. Les méthodes utilisées par ces outils étant toutes différentes, les résultats ne sont pas directement comparables, ni entre eux, ni avec ceux obtenus par Adetoa. Je les donne donc à titre indicatif. Il est toutefois possible de remarquer que, chez [Hong et al. 2009], le rappel est très haut mais la précision beaucoup plus basse, tandis que dans les autres cas les deux taux sont assez proches mais également moins hauts. Les résultats obtenus par Adetoa pour le repérage se situent dans cette seconde catégorie. Le fait que les taux de rappel et précision soient proches montre un certain équilibre entre le nombre d'informations manquées et le nombre d'informations repérées à tort. Si l'on augmente la sensibilité du système pour réduire le nombre d'expressions manquées, cela risquerait de faire augmenter le nombre d'expressions repérées à tort, et inversement.

b. Fallout

Cela a été précisé précédemment, je ne me suis intéressée au fallout que pour les expressions temporelles. Le fallout permet de représenter la résistance du système aux faux positifs en mesurant le rapport entre les faux positifs repérés et les faux positifs potentiels.

Chapitre 7 - Expérimentation et Évaluation

Adetoa repère peu d'expressions temporelles à tort, malgré le nombre relativement élevé d'expressions temporelles à ne pas repérer dans les pages. Le taux de fallout obtenu est le suivant :

6 expressions repérées à

tort 40 expressions ignorées à raison 6/46 – 13%

Tableau 9 : Taux de fallout

Parmi les informations qui auraient pu être repérées à tort se trouvent principalement des dates historiques (exemple 175), des dates de dernière modification du site (exemple 176) et quelques expressions diverses (exemple 177).

(175) En 1990

(176) MISE A JOUR LE 04/04/2007 (177) À 1h30 de Paris

Documents relatifs