Mesures de la qualité de la classification

Méthodologie et étude préliminaire

5.2.5 Mesures de la qualité de la classification

Nous allons ici donner la déﬁnition de certaines mesures qui nous permettront de juger de la qualité de la classiﬁcation. La plus classique de ces mesures est la précision. Mesure de la précision

Déﬁnition 5.2 – Précision d’un algorithme –

Nous appellerons précision d’un algorithme le rapport entre le nombre de classifications correctes et le nombre de classifications effectuées par cet algorithme :

P récision(Algorithme) = Nombre de classifications correctes Nombre de classifications effectuées ^.

Tout algorithme doit être comparé, en terme de performance, à l’algorithme majo-ritaire qui associe à toute description la classe la plus fréquente.

Déﬁnition 5.3 – Algorithme majoritaire –

L’algorithme majoritaire associe à toute description la classe la plus fréquente. Une procédure de classiﬁcation induite doit toujours au moins dépasser le pouvoir prédictif de l’algorithme majoritaire.

Déﬁnition 5.4 – Précision de l’algorithme majoritaire –

Nous appellerons précision de l’algorithme majoritaire («base line» en anglais) la précision obtenue en utilisant l’algorithme majoritaire.

Mesure de l’amélioration par rapport à la précision de l’algorithme majori-taire

La mesure de précision ne donne pas une indication satisfaisante. En eﬀet, mieux vaut un algorithme donnant une précision de 60% alors que la précision de l’algorithme

majoritaire est de 30%, ce qui constitue une bonne amélioration, qu’un algorithme donnant une précision de 80% alors que la précision de l’algorithme majoritaire est de 90%, ce qui correspond à une nette dégradation. Aussi parlerons-nous souvent de gain par rapport à l’algorithme majoritaire (ou, autrement dit, de réduction de l’erreur par rapport à l’algorithme majoritaire).

Déﬁnition 5.5 – Gain d’un algorithme –

Nous appellerons gain d’un algorithme de classiﬁcation l’amélioration de la précision obtenue par cet algorithme par rapport à la précision de l’algorithme majoritaire : Gain(Algorithme) = ^{P r´}ecision(Algorithme) − P r´ecision(Algorithme majoritaire)

1 − P r´ecision(Algorithme majoritaire) ^. Mesure du rappel

Cependant, le gain n’est pas tout. En eﬀet, quel est l’intérêt d’un algorithme dont le gain est de 99% mais qui ne classe que 1% des exemples ? C’est pourquoi nous introduisons une nouvelle mesure, le rappel, qui permet de mesurer la couverture d’un algorithme.

Déﬁnition 5.6 – Rappel d’un algorithme –

Le rappel d’un algorithme de classification mesure le rapport entre le nombre de clas-sifications correctes effectuées par l’algorithme et le nombre d’exemples à classer :

Rappel(Algorithme) = Nombre de classiﬁcations correctes Nombre d’exemples à classer ^.

Il faut noter ici une petite particularité par rapport à des disciplines comme la recherche de document où le rappel est déﬁni de la manière suivante :

Rappel(Algorithme) = Nombre de documents pertinents trouvés Nombre total de documents pertinents ^.

Il est alors aisé d’obtenir un rappel de 100% en retournant tous les documents, au détriment de la précision qui est alors très faible. Il en est tout autrement dans le cadre de notre étude. En effet, nous ne travaillons que sur des algorithmes de classification qui prennent une décision unique (correcte ou non) ou n’en prennent pas. Dans tous les cas, le nombre de classifications effectuées est forcement inférieur ou égal au nombre d’instances à classer, or :

Rappel = Nb. classiﬁcations correctes

Nb. exemples à classer ^{et P r´ecision =}

Nb. classifications correctes Nb. classifications effectuées donc la précision d’un algorithme est toujours supérieure ou égale à son rappel dans notre étude (P récision(Algorithme) ≥ Rappel(Algorithme)). Il y a égalité quand l’al-gorithme prend une décision sur toutes les occurrences.

Mesure combinée du rappel et du gain

Il est diﬃcile de comparer les performances de deux algorithmes qui ne prennent pas de décision sur toutes les occurrences et qui ont donc un gain et une précision diﬀérente. Pour comparer de tels algorithmes, nous ajoutons une mesure qui combine le gain et le rappel. Quand l’un des deux s’approche de zéro cette mesure doit aussi s’approcher de zéro. Nous désirons également que cette mesure soit identique pour un algorithme

ayant un gain de 80% et un rappel de 40% et un algorithme ayant un gain de 40% et un rappel de 80%. La F-mesure (Rijsbergen, 1979) combine le rappel et la précision en une unique mesure d’eﬃcacité.

Déﬁnition 5.7 – F-mesure –

La F-mesure permet de combiner en une seule valeur les mesures de précision (P ) et de rappel (R) :

F-mesure = ^(β

2+ 1).P.R β2.P + R ^.

Le paramètre β permet de régler les inﬂuences respectives de la précision P et du rappel R. Il est très souvent ﬁxé à 1.

En remplaçant la précision par le gain, et en prenant β = 1, cette mesure répond tout à fait à notre cahier des charges.

Déﬁnition 5.8 – Performance d’un algorithme –

Nous appellerons performance d’un algorithme la moyenne harmonique de son rappel et de son gain :

P erformance(Algorithme) = ^{2.Rappel(Algorithme).Gain(Algorithme)} Rappel(Algorithme) + Gain(Algorithme) ^. Cette formule est utilisable si Gain(Algorithme) ≥ 0. Quand Gain(Algorithme) < 0 nous posons P erformance(Algorithme) = 0.

Classiﬁcation de toutes les instances

Quant un algorithme eﬀectue une classiﬁcation de toutes les instances à classer, nous avons forcément :

P r´ecision(Algorithme) = Rappel(Algorithme) .

Il est facile de se ramener à un algorithme qui effectue une classification sur toutes les instances à classer en affectant à toutes les instances non classées la classe majoritaire. Mesure moyenne

Nous aurons régulièrement à effectuer une moyenne, sur plusieurs vocables, de la précision ou du rappel. En effet, nous parlerons régulièrement, par exemple, de la pré-cision moyenne sur les 20 noms, les 20 adjectifs, les 20 verbes ou même sur l’ensemble des 60 vocables. Pour effectuer de telles moyennes, nous n’effectuons pas des moyennes arithmétiques simples mais des moyennes arithmétiques pondérées pour tenir compte du fait que les précisions et rappels sont calculés sur des effectifs différents.

Soit, par exemple, respectivement, CAet CB les nombres de classifications correctes et EAet EBles nombres de classifications effectuées par l’algorithme sur deux ensembles d’exemples A et B de cardinal respectifs Card(A) et Card(B). Les précisions et rappels de cet algorithme sur ces deux ensembles d’exemples sont :

PA= ^C^A EA ; PB= ^C^B EB ; RA= ^C^A Card(A) ; RB = ^C^B Card(B) . La précision et le rappel moyen de cet algorithme sur ces deux ensembles d’exemples est :

P m =ÊÂ^.PÂ^{+ E}^B^.P^B EA+ EB

et Rm = ^Card(A).R^A^{+ Card(B).R}^B

et non pas :

P m = ^P^A^{+ P}^B

2 et Rm = ^R^A^{+ R}^B

2 .

Une autre façon de calculer la précision et le rappel moyen est : P m = ^C^A^{+ C}^B

EA+ EB

et Rm = ^C^A^{+ C}^B

Card(A) + Card(B)

ce qui revient, d’une certaine façon, à calculer la précision et le rappel sur la réunion des deux ensembles d’exemples.

L’inconvénient majeur de calculer une moyenne arithmétique pondérée est que nous privilégions ainsi les vocables les plus fréquents au détriment des vocables peu fréquents. Alors pourquoi effectuer une moyenne arithmétique pondérée plutôt qu’une moyenne arithmétique simple? Pour que le calcul de la moyenne sur des éléments dont les effectifs ne sont pas égaux soit cohérent, il faut effectuer une moyenne arithmétique pondérée. Effectuer une moyenne arithmétique simple dans un tel cas conduit à de nombreuses incohérences. Par exemple, l’amélioration de la précision obtenue par une moyenne arithmétique pondérée est le gage d’une augmentation du nombre d’occurrences bien étiquetées, ce qui n’est absolument pas le cas pour la moyenne arithmétique simple. L’utilisation d’une moyenne arithmétique simple pose également des problèmes comme : faut-il calculer la performance moyenne en faisant la moyenne des performances ou en utilisant le gain moyen et le rappel moyen?

Dans le document Outils d'exploration de corpus et désambiguïsation lexicale automatique (Page 106-109)