Les mesures d’évaluation des systèmes de REN : points forts et

points forts et points faibles

La précision (P) et le rappel (R) sont les mesures les plus utilisées en évaluation des systèmes d’extraction d’informations. Définis à l’origine pour l’évaluation de la recherche documentaire [Salton et Buckley, 1988], ils sont applicables à toute tâche visant à identifier des éléments pertinents parmi un ensemble d’éléments candidats : P = ^C C + S + I (4.1) R = ^C C + S + D (4.2) Avec :

• C : le nombre de réponses correctes ; • S : le nombre de substitutions ; • D : le nombre d’omissions ;

• I : le nombre d’insertions (fausses alarmes). 70

4.4.3 Les mesures d’évaluation des systèmes de REN : points forts et points faibles

La précision est donnée par le ratio entre les réponses correctes et toutes les ré-ponses données par un système. Il permet d’estimer la fiabilité des hypothèses fournies par un système donné. Alors que le rappel est donné par le ratio entre les réponses correctes et toutes les réponses attendues. Il permet d’estimer la capacité d’un système à couvrir l’ensemble des réponses se trouvant dans le test. Aucune des deux métriques ne peut être considérée comme une métrique complète pour mesurer la distance entre l’hypothèse et la référence, puisque la formule de la pré-cision ne prend pas en compte les erreurs de suppression, et que la formule du rappel ne prend pas en compte les erreurs d’insertion. C’est leur moyenne har-monique, la F-mesure, qui est utilisée comme mesure unique afin de comparer les performances des systèmes entre eux. La formule générale de F-mesure est F_β définie comme suit :

F-mesure = (1 + β2) ^{P × R}

(β2P ) + R (4.3)

Classiquement c’est la F₁ (F_β avec β = 1) qui est utilisée. La F₁ permet d’ac-corder un poids égal à la précision et au rappel.

La F-mesure a été utilisée pour classer les participants durant de nombreuses campagnes d’évaluation. Toutefois, cette mesure présente des limites. D’abord, il a été démontré dans [Makhoul et al., 1999] que la fusion de P et de R avec une moyenne harmonique diminue l’importance des erreurs d’omission et d’insertion par rapport aux substitutions. D’autre part, l’évolution de la complexité de la tâche de REN rend l’utilisation de la F-mesure inadaptée. En effet, les entités nommées utilisées aujourd’hui dans la plupart des campagnes d’évaluation ont une struc-ture hiérarchique avec des types et des sous-types. Ceci a conduit à l’apparition de nombreux types d’erreurs de substitution : substitution de type, substitution de sous-type et substitution de frontières auxquels on voudra attribuer des poids différents. Voilà des exemples d’erreurs de substitution :

• REF : La<loc.fac> gare de Rungis</loc.fac>

• HYP1 : La<org.adm> gare de Rungis</org.adm>: substitution de type • HYP2 : La<loc.fac> gare</loc.fac>de Rungis : substitution de frontière • HYP3 : La<loc.adm.town>gare de Rungis</loc.adm.town>: substitution

de sous-type

• HYP4 : La gare de <pers.ind> Rungis </pers.ind> : substitution de fron-tière + substitution de type

La précision, le rappel et, par conséquence, la F-mesure possèdent un fonctionne-ment binaire où chaque réponse ne peut être considérée que comme correcte ou fausse. Ainsi, il n’est pas possible d’affecter des poids différents aux erreurs selon leur gravité.

Inspiré par le taux d’erreur de mots utilisé classiquement pour évaluer les sys-tèmes de reconnaissance automatique de la parole (RAP), des métriques fondées

CHAPITRE 4. NOUVELLE MÉTRIQUE POUR L’ÉVALUATION DES ENTITÉS STRUCTURÉES ET COMPOSITIONNELLES

sur le taux d’erreur ont été introduites comme alternatives à la F-mesure pour évaluer la reconnaissance d’entités nommées. Les métriques fondées sur le taux d’erreur visent à estimer le coût que représentent les erreurs du système de REN pour des utilisateurs ou des applications. L’amélioration des performances est alors proportionnelle à la réduction du taux d’erreur.

La première métrique fondée sur le taux d’erreur, ERR, a été introduite durant MUC-6 [Makhoul et al., 1999]. Elle est définie comme suit :

ERR = ^{S + D + I}

C + S + D + I

Le fait de compter les insertions (I) dans le dénominateur permet d’avoir des taux d’erreur compris entre 0 et 100 %. Mais, comme le nombre d’insertions varie d’un système de REN à un autre, le dénominateur de ERR n’est pas constant. Par consé-quent ERR ne peut pas être utilisée pour comparer les performances obtenues par des systèmes différents.

Le Slot Error Rate (SER) a été proposé par [Makhoul et al., 1999] afin de re-médier à cet inconvénient. Le SER est défini comme suit :

SER = ^{S + D + I} C + D + S ⁼

S + D + I R

avec R le nombre d’entités se trouvant dans la référence qui est une constante du corpus test. Cette définition a permis de résoudre les inconvénients de ERR. Le SER permet d’affecter des poids différents aux erreurs selon leur gravité comme le montre l’équation4.4. Elle a été utilisée pour l’évaluation de la tâche de REN dans les premières campagnes d’évaluation de ACE et dans ESTER, ETAPE et QUAERO.

SER = ^α¹^S^t^{+ α}²^S^f ^{+ βD + γI}

R (4.4)

avec :

• S_t et S_f le nombre d’erreur de substitution de type et de frontières ; • D et I le nombre d’erreur d’omission et d’insertion d’entité ;

• α1, α2, β et γ les poids affectés à chaque type d’erreur.

Le SER est fondé sur la mesure de distance entre les slots de l’hypothèse et les slots de la référence. Un slot est défini comme étant un segment de texte annoté, caractérisé par des frontières de début et de fin et par une étiquette. Ce principe suppose que tous les slots possèdent le même poids, c’est-à-dire ont la même im-portance pour la tâche à évaluer. Par conséquent, le SER ne peut être utilisé que pour l’évaluation de tâches simples dans lesquelles tous les slots jouent le même rôle.

L’apparition de sous-tâches, telles que la reconnaissance des occurrences et des relations dans les campagnes, a augmenté la complexité de la tâche de REN. 72

4.4.4 Les métriques actuelles et l’évaluation des entités nommées structurées et compositionnelles

Ceci a rendu l’utilisation du SER inadaptée pour l’évaluation de la tâche. C’est ainsi qu’une nouvelle métrique EDT_value (Entity Detection and Tracking value)

[Doddington et al., 2004] a vu le jour durant ACE 2004 [NIST, 2004] dans le but

de prendre en compte la reconnaissance d’occurrences lors de l’évaluation. Cette métrique consiste à calculer un score pour chaque entité et à fournir la somme de tous les scores comme résultat final.

EDT_value_sys =^X

value_of_sys_entity_i (4.5)

La EDT_value a évolué pour donner le LEDR_value (Local Entity Detection and Recognition value) durant ACE 2008 [NIST, 2008], qui consiste tout simplement à normaliser le score EDT_value par la somme des scores calculés à partir de la référence. LEDR_valuesys = P ivalue_of_sys_token_i P ivalue_of_ref_token_i ^(4.6)

EDT et LEDR ont permis de contourner le problème de la complexité de la tâche. Les scores offerts par ces métriques permettent de comparer et de classer les systèmes dans une campagne d’évaluation. Toutefois, l’interprétation des scores reste très difficile et à prendre avec beaucoup de précautions, puisque il ne s’agit ni d’un taux d’erreur ni d’une mesure de performance proprement dite.

Dans le document Évaluation adaptative des systèmes de transcription en contexte applicatif (Page 88-91)