Critère de performance pour l’évaluation des sys-

4.3 Évaluation en cascade d’annotations conceptuelles

4.3.1 Protocole d’évaluation en cascade

4.3.1.2 Critère de performance pour l’évaluation des sys-

Pour évaluer et comparer quantitativement les sorties produites par les diffé- rents systèmes, les critères de performance utilisés sont le rappel, la précision et la F-mesure [van Rijsbergen, 1975]. Dans notre cadre, les exemples d’apprentissage et de test peuvent être classés dans plusieurs classes Labels = {PER, LOC, ORG, MISC}. Pour l’évaluation, nous considérons chaque étiquette l ∈ Labels de ma- nière indépendante. L’évaluation de notre système de classification multi-classes se rapporte alors à l’évaluation de plusieurs classifieurs binaires. Chaque classe

l _{∈ Labels est attribuée à un classiﬁeur binaire considérant qu’un exemple éti-}

queté par l est positif et qu’un exemple non étiqueté par l est négatif. Les mesures

3. Cette étiquette indique à la fois la catégorie du chunk (nominal, verbal. . .) et la position du mot dans le chunk (« B » pour indiquer le premier mot du chunk et « I » pour les mots suivants du chunk).

de rappel et précision peuvent être expliquées avec une matrice de confusion [Ko- havi et Provost, 1998] qui contient l’information sur les classifications réelles et prédites par un système de classification. Chaque classifieur binaire attribué à une étiquette l ∈ Labels est associé à une matrice de confusion représentée dans la table 4.1 :

Vérité Prédiction Négatif Positif Total

Négatif V Nl F Pl V Nl+ F Pl

Positif F Nl V Pl F Nl+ V Pl

Total V Nl+ F Nl F Pl+ V Pl V Nl+ F Pl+ F Nl+ V Pl

Table4.1 – Entrées d’une matrice de confusion pour un classiﬁeur binaire attri- bué à une étiquette l ∈ Labels

Les mesures de précision et rappel pour une étiquette l peuvent être expri- mées par des rapports entre les valeurs V Pl, F Pl et F Nl, où V Pl (vrais positifs)

est le nombre d’exemples positifs classés positivement ; F Pl (faux positifs) est

le nombre d’exemples négatifs classés positivement ; F Nl (faux négatifs) est le

nombre d’exemples positifs classés négativement ; de plus, on note V Nl (vrais

négatifs) le nombre d’exemples négatifs classés négativement.

La précision attribuée à une étiquette l ∈ Labels exprime le nombre d’EN cor- rectement étiquetée par l rapporté au nombre d’EN classées par l dans l’ensemble du corpus. Le principe est le suivant : l’objectif d’un algorithme de classiﬁcation est de classer correctement les EN qu’il parvient à classer. Toutes les EN mal classées constituent du « bruit ». La précision s’oppose au bruit. Si elle est éle- vée, cela signiﬁe que peu d’EN sont mal classées par le système et que ce dernier peut être considéré comme « précis ». On calcule la précision pour une étiquette

l _{∈ Labels avec la formule suivante :}

Pl=

V Pl V Pl+ F Pl

= Nombre de prédictions correctes attribuées à la classe l Nombre de prédictions de classe l

(4.12) Le calcul de la précision globale exprime le nombre total d’EN correctement classées rapporté au nombre total d’EN classées du corpus.

Pglobal= X l∈Labels V Pl X l∈Labels V Pl+ F Pl (4.13) Cette précision globale correspond en fait à une micro-moyenne qui reprend les entrées des matrices de confusion attribuées à chaque étiquette de Labels.

Contrairement à une moyenne (appelée macro-moyenne) des précisions Pl, cette

micro-moyenne est capable de prendre en compte le nombre d’exemples associés à chaque classe.

Le rappel attribué à une étiquette l ∈ Labels est déﬁni par le ratio entre le nombre d’EN correctement étiquetées par l et le nombre d’EN classées par l que possède le corpus de test. Si cette adéquation entre les EN classées correctement et le nombre d’EN du corpus est importante alors le taux de rappel est élevé. À l’inverse, si le corpus possède de nombreuses EN qui n’ont pas été identiﬁées et classées, on parle de silence. Le silence s’oppose au rappel. Le rappel pour l’étiquette l peut être mesuré de la manière suivante :

Rl =

V Pl

V Pl+ F Nl

= Nombre de prédictions correctes attribuées à la classe l Nombre d’exemples de classe l

(4.14) Le rappel global est déﬁni par la proportion d’EN correctement étiquetées par rapport au nombre d’EN classées que possède le corpus de test.

Rglobal = X l∈Labels V Pl X l∈Labels V Pl+ F Nl (4.15) Le rappel global est une micro-moyenne qui utilise les entrées des matrices de confusion attribuées à chaque étiquette, permettant ainsi de prendre en compte le nombre d’exemples associés à chaque étiquette.

La précision et le rappel sont des mesures intimement liées. Si plus d’exemples sont classés, le rappel augmente mais la précision peut diminuer parce que tous les exemples ne sont pas forcément correctement classés. La F-mesure considère à la fois la précision et le rappel. Elle peut être interprétée comme une moyenne pondérée entre la précision et le rappel. La F-mesure est calculée de la manière suivante :

Fβ =

(β2_{+ 1)P R}

β2_R_{+ P} (4.16)

Cette F-mesure peut être calculée avec des mesures de P et R globales ou spéci- ﬁques à une étiquettes l ∈ Labels.

De nombreux systèmes sont optimisés pour maximiser le score Fβ=1. Cepen-

dant, pour certaines applications cette pratique n’est pas sytématiquement recom- mandée5_{. Par ailleurs, la diﬀérence entre deux F-mesures globales (sur l’ensemble}

des étiquettes) correspondant à l’évaluation de deux systèmes n’est pas un indica- teur suﬃsant pour prouver que les améliorations (ou dégradations) apportées par

5. Dans un billet sur blog de Hal Daumé en août 2006, Christopher D. Manning explique

pourquoi ne pas optimiser les systèmes de reconnaissance des entités nommées pour la mesure Fβ

un des deux systèmes ne sont pas dues au hasard. À cet égard, nous présentons à présent deux tests statistiques indiquant si les diﬀérences de performances entre deux systèmes sont signiﬁcatives.

Dans le document Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguïsation d'entités nommées (Page 132-135)