Principales méthodes d'évaluation - Expérimentation et Évaluation

Chapitre 7. Expérimentation et Évaluation

1. Principales méthodes d'évaluation

Les mesures d'évaluation les plus fréquemment utilisées pour les systèmes de TAL sont le rappel et la précision. Toutefois, comme je vais le montrer ci-dessous, ces mesures ne suffisent pas toujours à refléter la qualité du système et ne sont pas toujours simples à mettre en œuvre.

1.1. Rappel et précision

Les mesures de rappel et précision sont issues du domaine de la recherche d'information et se sont largement répandues dans l'évaluation des systèmes d'extraction d'information. [Maynard et al. 2002] montrent en quoi l'évaluation des systèmes d'extraction est différente de celle des systèmes de recherche d'information.

De manière générale, le rappel mesure le silence du système, c'est-à-dire les informations pertinentes qui n'ont pas été trouvées, tandis que la précision en mesure le bruit, c'est-à-dire les informations non pertinentes trouvées. Les formules66_{présentées dans les figures}

suivantes indiquent comment calculer ces mesures :

Plus le taux de rappel est haut, moins il y a de silence, plus la précision est élevée, moins il y a de bruit.

Une troisième mesure, la F-mesure, permet de combiner le rappel et la précision pour n'attribuer qu'une seule note d'évaluation au système. Elle se calcule selon la formule donnée en figure 64.

66 Ces formules sont présentées ici pour une activité de repérage d'information. Les mêmes s'appliquent pour d'autres tâches comme l'annotation, le typage, etc. Il suffit alors de changer, dans la formule « repérées » et « à repérer » par les termes correspondants.

Rappel = Nombre d ' informations bien repérées Nombre d' informations à repérer

Figure 62 : Calcul du rappel

Précision = Nombre d ' informations bien repérées Nombre d ' informations repérées

Chapitre 7 - Expérimentation et Évaluation

Le α (figure 64) permet de pondérer cette mesure en donnant plus ou moins de poids à la précision, et au rappel. Dans la plupart des cas, il est fixé à 1 pour que les deux aient la même importance (figure 65).

Parmi les travaux cités dans les chapitres précédents, et plus généralement dans les travaux d'extraction d'information, ces mesures sont celles utilisées pour l'évaluation [Wang & Hu 2002], [Tengli et al. 2004], [Amardeilh 2007]. Ce sont également les mesures utilisées dans le cadre des conférences MUC.

Ces taux de rappel et précision sont habituellement utilisés pour juger une application dans son ensemble. Toutefois, certains systèmes comportent plusieurs modules effectuant chacun une tâche précise et il n'est alors pas toujours pertinent d'évaluer le système dans son ensemble. De nombreux auteurs ont ainsi choisi d'évaluer indépendamment les différentes étapes de leurs systèmes : [Gatterbauer et al. 2007] évaluent d'une part le repérage des tableaux et d'autre part l'interprétation de ces tableaux, ces deux évaluations étant mesurées par le rappel et la précision. [Nagy et al. 2009] font de même en évaluant d'un côté le repérage, de l'autre le typage. [Hong et al. 2009] évaluent le repérage et le parsing de références bibliographiques, mais l'évaluation du parsing ne se fait que sur un extrait du corpus d'évaluation du repérage. Adetoa étant composé de plusieurs « briques » en charge des différentes étapes du processus (repérage, annotation, transformations, liage), je me suis plutôt rapprochée de ces derniers travaux.

Toutefois, les mesures de rappel et précision ne sont pas parfaites. Tout d'abord, elles ne sont pas toujours significatives, selon le corpus sur lequel le système est évalué : certains corpus ne comportent pas (ou presque pas) d'informations non pertinentes qui auraient pu être repérées à tort. La mesure de précision n'a alors pas réellement de valeur. Certains auteurs ne se basent que sur l'une des deux mesures pour évaluer leur système ; [Jacques & Aussenac- Gilles 2006] par exemple, n'évaluent que la précision, mais sur différents corpus.

De plus, et c'est surtout en cela que ces mesures ne me semblent pas tout à fait appropriées, elles ne permettent pas de rendre compte de résultats imparfaits. Ainsi, une donnée repérée est considérée comme bonne ou mauvaise ; elle ne peut pas être partiellement bonne.

1.2. Autres mesures

L'un des reproches que l'on peut donc faire aux mesures de rappel et de précision, est qu'elles ne permettent pas de rendre compte de résultats imparfaits. [Lavelli et al. 2004] se sont intéressés à cette question :

« One issue specific to IE evaluation is how leniently to assess inexact identification of filler boundaries. (Freitag 1998) proposes three different criteria for matching reference instances and extracted instances: exact, overlap, contains. »

160 F

_

=

1  

 ∗précision ∗ rappel



∗précision  rappel

Figure 64 : Calcul de la F-mesure – cas général

F

=

2 ∗ précision ∗ rappel

précision  rappel

L'une des difficultés propres à l'évaluation des systèmes d'extraction d'information est liée à la souplesse à avoir face aux expressions dont les frontières sont mal identifiées. (Freitag 1998) propose trois critères pour comparer les résultats voulus aux résultats obtenus : exact, contenu, imbriqué. [Ma traduction]

L'approche de [Freitag 1998] permet ainsi de juger des résultats partiels, tout en les catégorisant : les résultats peuvent être exacts, ou bien le résultat attendu peut être contenu dans le résultat obtenu, ou encore les deux peuvent se chevaucher. Ce type d'approche est utile pour l'évaluation des tâches de repérage d'information où le problème se pose très fréquemment : si seule une partie de l'expression est repérée, il est dommage de considérer ce repérage comme totalement mauvais, surtout que la partie manquante peut parfois être minime. [De Sitter & Daelemans 2003] évaluent leur système en calculant plusieurs taux de rappel, selon que les résultats partiels sont pris en compte ou non. C'est de ce type d'approche que je me suis inspirée pour mettre au point mon protocole d'évaluation, présenté ci-dessous.

Par ailleurs, lors de résultats partiels, il est dommage de ne pas prendre en compte la nature de l'erreur : peut-on considérer comme équivalents les cas où, pour une expression repérée partiellement, la partie qui manque est primordiale pour la compréhension globale, des cas où elle ne l'est pas ? De plus, comment évaluer les résultats qui sont manqués ou mal considérés par le système lorsque le problème vient de la page de base : par exemple des fautes d'orthographe ou de syntaxe empêchent le repérage. La mise au point d'un système d'évaluation permettant de rendre compte de tous ces critères semble difficile. Néanmoins, ce sont des problèmes très fréquents en TAL et il serait dommage de les ignorer totalement. Dans [Maynard 2005], l'auteur s'est intéressée aux problèmes que pose l'évaluation des systèmes basés sur des ontologies. Elle signale que les mesures de rappel et de précision ne sont pas adaptées et propose la mesure « augmented precision and recall » (précision et rappel augmentés). Cette mesure prend directement en compte la structure de l'ontologie liée au système qu'elle évalue et ne peut donc pas être étendue à des tâches autres que l'annotation.

[Maynard et al. 2002] montrent pourquoi le rappel et la précision, utilisés en recherche d'information, ne sont pas appropriés pour l'extraction d'information.

« Typically, in IR, people want to know how many relevant documents are to be found in the top N percent of the ranking. This is reflected well by the precision metric. In IE, however, people typically want to know for each entity type how many entities have been correctly recognised and classified. In IE therefore, the proportion of entities belonging to each type has an impact on the outcome of the evaluation, in a way that the proportion of relevant documents in the collections does not in IR. Evaluation mechanisms in IE can also be affected by the notion of relative document richness, i.e. the relative number of entities of each type to be found in a set of documents. For this reason, error rate is sometimes preferred in the IE field, because, unlike precision, it is not dependant on relative richness. »

Traditionnellement, en recherche d'information, le but est de connaître le nombre de documents pertinents dans les N premiers pour-cent du classement, ce que reflète bien la mesure de la précision. En revanche, en extraction d'information, le but est de connaître, pour chaque type d'élément, combien ont été bien reconnus et classés. Par conséquence, en extraction d'information, la proportion d'éléments de chaque type a un impact sur le résultat de l'évaluation, d'une manière différente de la proportion de documents pertinents en recherche d'information. Les mécanismes d'évaluation en extraction d'information peuvent aussi être influencés par la notion de richesse relative du

Chapitre 7 - Expérimentation et Évaluation

document, c'est-à-dire le nombre relatif d'éléments de chaque type dans un ensemble de

documents. Ainsi, le taux d'erreur est parfois préféré dans le domaine de l'extraction d'information, car, contrairement à la précision, il ne dépend pas de la richesse relative. [Ma traduction]

Ces auteurs présentent alors une autre méthode : « cost-based evaluation », évaluation basée sur le coût. Ce type d'évaluation, utilisé dans le cadre d'ACE67_{, caractérise le coût des erreurs :}

par exemple, si le repérage d'un nom de personne est plus important que de trouver un événement alors, le coût associé à cette donnée est plus grand. L'attribution des coûts aux erreurs se fait sur base statistique.

Les questions que pose l'évaluation des systèmes de TAL sont donc variées et difficiles. S'il n'existe pas réellement de mesure standard pour l'évaluation des systèmes d'extraction et d'annotation, les mesures de rappel et de précision sont tout de même les plus communément utilisées. Elles ne permettent pas de refléter toutes les facettes d'un système mais donnent toutefois une indication de sa qualité. J'ai basé mon évaluation sur ces mesures mais en introduisant des variantes, qui seront présentées dans la suite de ce chapitre, afin de rendre compte de résultats imparfaits.

Dans le document Repérage et typage d'expressions temporelles pour l'annotation sémantique automatique de pages Web - Application au e-tourisme (Page 160-163)