• Aucun résultat trouvé

Une nouvelle méthode d’évaluation des règles sélectives

On obtient ainsi une fonction H d’assignation unifiée, ou n’importe quelle mesure d’am-biguïté peut être employée. L’affectation de x en elle-même est décrite dans l’Algorithme

3.

Algorithme 3 : Étape d’assignation généralisée H : Lpc→ Lc hc.

Données : Un vecteur u de degrés d’appartenance dans Lpc, un seuil de rejet t.

Résultat : Un vecteur h(x) dans Lc

hcd’affectation sélective.

début

On fixe h(x) ← 0

Avec une mesure d’ambiguïté Φk(u(x)) donnée, on calcule n?(x,t) avec (4.45).

pour chaque j ← 1 à n?(x,t) faire

hj(x) ← 1 dans le sens décroissant des u(j)(x).

fin

retourner h(x) fin

Remarque 4.1. Dans le cas d’utilisation de mesures d’ambiguïté engendrées par des

im-plications floues, le rejet de distance est simplifié. Par le principe de bord (satisfait par les quatre types d’implication), on peut procéder au rejet en distance, puisque I(u(0)(x), u(1)(x)) = I(1, u(1)(x)) = u(1)(x), c’est à dire un test de rejet en appartenance usuel. Lorsque k = 0 dans (4.45), la mesure d’ambiguïté Φ devient une mesure d’acceptation Ψ(u) = u(1)(x).

Dans ce cadre, nous proposons une nouvelle définition d’opérateur de similarité par blocs compatible avec la règle de rejet sélectif (4.45).

Proposition 4.7. Soit ΦKλ

j,k(u(x)) un opérateur de similarité du bloc de u indicé par j et k. Un nombre de classes à sélectionner pour x avec un t donné est trouvé par

n?(x,t) = min k∈[0,c]  k : ΦKλ 1k,k+1(u(x)) ≤ t (4.46) 1k est la fonction indicatrice valant 1 si k > 0, 0 sinon.

4.4 Une nouvelle méthode d’évaluation des règles sélectives

L’évaluation des options de rejet est un problème récurrent lorsque l’on souhaite mettre en place une stratégie de rejet. On distingue plusieurs approches pour cette évaluation. Si l’on classe n observations x , alors on peut séparer celles-ci en trois : ncorr sont classées de manière correcte, nerr sont classées par erreur, et nrej sont rejetées. On a évidemment

ncorr+ nerr+ nrej = n (4.47)

Selon l’ensemble des paramètres Θ de la stratégie (généralement des seuils), on obtient donc des taux de performance P (Θ), d’erreur E(Θ) et de rejet R(Θ) respectivement définis par ncorr/n, nerr/n et nrej/n. Si l’on considère qu’à partir du moment où une forme est rejetée, elle ne rentre pas dans le calcul de la qualité de l’option de rejet, on peut aussi considérer un taux de fiabilité donné par ncorr/(ncorr+ nerr). Cet indice de fiabilité est à utiliser avec précaution, puisque si l’on rejette beaucoup de formes, la fiabilité est élevée, mais beaucoup de décisions concernant les observations restent en suspend. Dans le cas limite, il suffit de rejeter assez de formes de sorte que le taux d’erreur soit nul, et la fiabilité sera de 100%. La manière la plus simple, et la moins complète, est donc de comparer pour un taux de rejet ou un taux d’erreur donné, le taux de performance P (Θ). Cette méthode peut servir

0 0.2 0.4 0.6 0.8 1 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 Taux de rejet T au x d’ er re ur

t

Fig. 4.9: Exemple d’une courbe Erreur Rejet.

dans les cas où l’application visée exige par exemple un taux d’erreur nul, quitte à rejeter des formes, ou encore que l’on accepte de rejeter jusqu’à 10% des données analysées. Cette situation correspond à un point de fonctionnement caractérisé par le couple (E(Θ),R(Θ)) pour un ensemble Θ spécifié.

L’objectif général de l’option de rejet étant de minimiser l’erreur et le rejet, l’évaluation précédente n’est pas assez complète. Une évaluation plus complète consiste à analyser le couple (E(Θ),R(Θ)) pour différentes valeurs de Θ. C’est le principe de compromis introduit par Chow [Chow,1970], la courbe Erreur-Rejet (ER) étant dans son cas fonction de Θ = t, voir Fig. 4.9. Dans le cas d’un classifieur Bayésien optimal, sa proposition de minimum de risque est également optimale par rapport à ce compromis. À partir de cette courbe, il convient ensuite de trouver un point de fonctionnement optimum. Dans notre cas, comme Θ se réduit le plus souvent à t, nous faisons varier le seuil sur le domaine de définition spécifié par la règle. Le point idéal se trouve à l’origine, mais comme ce point n’est en pratique pas atteignable, on cherche le point qui s’en rapproche le plus. Ceci peut se faire de deux manières. Soit en calculant une distance des points de fonctionnement disponibles à l’origine, puis en prenant le point le plus proche, soit en définissant des coûts de classement. En fonction de ces coûts, on peut tracer une droite d’iso-coût localisant le meilleur point de fonctionnement, voir [Golfarelli et al., 1997; Santo-Pereira and Pires, 2004]. Dans le cas optimal de Chow, cette droite a une pente de −t. Notons que des auteurs proposent une autre méthode de visualisation de ce compromis en observant E(Θ)/E0 en fonction de R(Θ)/E0, où E0 est le taux d’erreur sans rejet [Hansen et al.,1997]. Comme on cherche à minimiser conjointement le taux d’erreur et de rejet, une manière plus générale d’évaluer une courbe ER que de considérer un seul point de fonctionnement consiste à calculer l’aire sous la courbe (Aire sous la Courbe Erreur Rejet - AER) :

AER =

Z 1 0

4.4. Une nouvelle méthode d’évaluation des règles sélectives 115 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

Nombre moyen de classes

T au x d’ er re ur

t

Fig. 4.10: Exemple d’une courbe Erreur Nombre moyen de classes.

Plus cette aire sera faible, meilleure sera la règle de rejet. Nous utiliserons cette mesure de performance pour évaluer nos règles de rejet (non-sélectif) et les comparer avec celles existantes sur des données synthétiques et réelles en section4.5.

Une manière spécifique d’évaluer le rejet de distance est d’utiliser les courbes ROC (Re-ceiver Operating Characteristic), [Fawcett, 2006]. En effet pour l’évaluation du rejet de distance, nous nous intéressons aux vrais positifs (V P ) et aux faux positifs (F P ). Pour différentes valeurs de t, la courbe V P (t) en fonction de F P (t) est une courbe ROC. Notons que des règles de rejet fondées sur des profits et leur maximisation (pour Chow, ce sont des coûts à minimiser) grâce aux courbes ROC ont été proposées pour des problèmes à deux classes, [Tortorella, 2005; Landgrebe et al., 2006]. La visualisation de courbes ROC pour des problèmes à plus de deux classes aboutit à une explosion combinatoire. Pour cette raison, Landgrebe & Duin introduisent des simplifications permettant de calculer la courbe ROC de dimension quelconque, [Landgrebe and Duin, 2008]. Appliquer cette proposition pour une nouvelle règle de rejet de la même manière que [Tortorella,2005] peut faire l’objet de nouvelles recherches.

Dans le cas des règles de sélection de classes, on parle d’erreur lorsque la vraie classe de

x n’est pas dans la liste des classes candidates. Clairement, plus le nombre de classes

sélectionnées est élevé, plus le taux d’erreur sera faible. Le cas limite revient même à proposer l’ensemble des classes du problème pour chaque x, le taux d’erreur est donc nul. Ce genre de décision ne sert à rien puisqu’aucune décision n’est prise. Une méthode de comparaison consiste à construire la courbe du taux d’erreur en fonction du nombre moyen de classes n défini par (4.23) en faisant varier t sur son domaine de définition, [Ha, 1997], voir Fig.4.10pour un exemple à 4 classes. De manière analogue aux courbes ER, comparer deux courbes Erreur-Nombre Moyen de Classes (En) peut se faire en calculant l’aire sous

la courbe (Aire sous la Courbe Erreur Nombre Moyen de Classes - AEn).

Proposition 4.8. L’aire sous la Courbe Erreur Nombre Moyen de Classes est donnée par

AEn =

Z 1 0

E(n(t))dt (4.49)

Plus cette aire sera faible, meilleure sera la règle de rejet sélectif. Nous utiliserons cette mesure de performance pour évaluer nos règles de rejet sélectif et les comparer avec celles existantes sur des données synthétiques et réelles en section4.5.