• Aucun résultat trouvé

4.2 Les classifieurs

4.2.1 Mesure de la qualité dans la bibliographie

L’estimation de la qualité des résultats issus d’un classifieur s’appuie bien sou- vent sur l’analyse a posteriori de la propension des classifieurs à se tromper. Lors d’analyse comparatives de classifieurs entre eux, la qualité est estimée en fonc- tion du taux de bonne classification. Ces comparaisons peuvent se faire sur les mêmes critères que pour un seul classifieur (bonnes/mauvaises reconnaissances etc.), mais également utiliser des outils, inspirés des statistiques, de mesure de la qualité d’un modèle, d’une loi de probabilité etc.

Dans la recherche de ce qui pourrait constituer une estimation de la précision de décision ou des éléments entrant dans la combinaison dynamique des classi- fieurs, nous avons analysé différents critères associés à la qualité de la décision. Nous proposons ci-après quelques uns de ces critères :

1. Le calcul de l’erreur d’un classifieur, qui correspond au nombre d’indi- vidus mal rangés sur le nombre d’individus total. Exprimé sous forme de probabilité, il devient possible de sélectionner les classifieurs selon leur pro- babilité de faire une erreur dans un intervalle de confiance.

2. La comparaison entre 2 classifieurs : si 2 classifieurs donnent des taux d’er- reurs différents sur une même base de test, sont ils vraiment différents ?

– Soient 2 classifieurs, et leurs performances, N11 nombre d’individus cor- rectement classés par les 2, N01 nombre d’individus mal classés par le premier mais bien classés par le second, N10 l’inverse et N00 le nombre d’individus mal classés par les 2. Il existe une variable statistique suivant une loi de Chi-deux, mesurant la qualité d’un classifieur par rapport à un autre, s’écrivant :

x2=(|N01− N10| − 1)

2

N01− N10

(4.1) Sachant x2 à peu près distribué selon χ2 à 1 degré de liberté, on peut dire, avec un niveau de certitude de 0.05, que si x2>3.841, alors les clas- sifieurs présentent des performances fortement différentes. Notons qu’il existe aussi un test appelé "difference of two proportions" mais Diette- rich prouve dans [22] que cette mesure est trop sensible à la violation de la règle d’indépendance des données (problème du jeu de données pour l’apprentissage et la reconnaissance restreint) et recommande d’utiliser la mesure ci-dessus.

3. Plusieurs auteurs ont étendu cette analyse comparative au cas où plusieurs classifieurs sont combinés à partir de la même base d’apprentissage [86] : – Le Q Test de Cochran[28][48] vérifie l’hypothèse : ”tous les classifieurs

présentent les même performances”. Si l’hypothèse est vérifiée alors

Qc= (Nc− 1)

NcNi=1c G2i − T2

NcT− ∑Nj=1x (Nc j)2

(4.2)

La variable Qc suit un χ2 à Nc− 1 degrés de liberté, avec Gi le nombre

d’éléments de

L

(espace d’apprentissage) correctement classés par le classifieur Ci(i = 1,...,Nc), Nx étant le nombre total d’individus appris.

Nc j est le nombre total de classifieurs de

C

qui ont correctement classé

l’objet xj

L

et T est le nombre total de bonnes décisions prises par

l’ensemble des classifieurs.

Ainsi, pour un niveau de confiance donné, si Qc est supérieur à la valeur

attendue duχ2alors il existe des différences significatives entre les clas- sifieurs justifiant leur combinaison.

– Le même principe peut être adopté en adoptant une loi de Fisher-Snedecor ayant(Nc−1) et (Nc−1)∗(Nx−1) degrés de liberté. C’est le F-Test[54].

En partant des performances des classifieurs estimées au cours de l’ap- prentissage( ¯p1,..., ¯pNc) et la performance moyenne globale ¯p on obtient

la somme des carrés pour les classifieurs :

SSA= Nx Nc

i=1 ¯ pi2− NxNcp¯2 (4.3)

Puis la somme des carrés pour les objets :

SSB= 1 Nc Nx

j=1 (Nc j)2− NcNxp¯2 (4.4)

La somme totale des carrés :

SST = NxL ¯p(1 − ¯p) (4.5)

Enfin, la somme totale des carrés pour l’interaction classification/objet :

Dés lors, le critère F est estimé comme le rapport entre le MSA et le MSAB définis comme suit :

MSA= (NSSA c−1); MSAB= SSAB (Nc−1)(Nx−1); F= MSA MSAB (4.7)

– Il est également possible d’appliquer une validation croisée[22]. Il s’agit de répéter un certain nombre de fois (K) l’apprentissage/reconnaissance, en séparant à chaque fois le jeu de données à apprendre en 2 sous-jeux (habituellement 2/3 des données pour l’entraînement et 1/3 pour le test). Deux classifieurs C1 et C2 sont entraînés sur le jeu d’apprentissage et testés sur le jeu de test. A chaque tour, les précisions des deux classi- fieurs sont mesurées : PC1 et PC2. Nous obtenons ainsi un ensemble de

différences, de P(1) = PC(1) 1 − P (1) C2 à P (2) = P(2) C1 − P (2) C2 . En posant P= (1/K)∑K

i=1P(i), nous mesurons :

t= P¯ K  ∑K i=1(P(i)− ¯P)2/(K − 1) (4.8)

Si t suit bien une loi de Student à K− 1 degrés de liberté (et pour le ni- veau de confiance choisi) alors les deux classifieurs présentent le même comportement.

Rappelons que l’optique de ce travail est d’aboutir à un système de sélection dynamique d’opérateur de classification, basé sur une mesure de qualité. Les mé- thodes présentées ci-dessus présentent un certain nombre d’inconvénients pour répondre à notre besoin :

– En ce qui concerne la mesure de l’erreur d’un classifieur, cette information est non uniforme sur l’espace des attributs. De plus, nous pouvons supposer que cette information variera si nous augmentons la taille de l’espace d’ap- prentissage dans le temps.

– Les méthodes de comparaison de classifieurs demandent un grand nombre de sessions d’entraînement et de test. Au delà des comparaisons, une fois la mesure établie, comment décider sur le classifieur à utiliser ? Dans le cas de la validation croisée, si nous réalisons 10 essais, nous construisons 10 classi- fieurs différents, construits sur 10 sous-ensembles différents. Ces méthodes ont pour seul but de donner une estimation de la précision d’un certain mo- dèle construit uniquement sur le problème présent. Ainsi, Dietterich, dans [22], pose l’hypothèse selon laquelle la précision de la classification varie en fonction de la taille du jeu d’apprentissage.

Kuncheva propose pour cela une approche considérant un ensemble de clas- sifieurs élémentaires comme un seul classifieur, construit et testé sur les mêmes jeux d’apprentissage et de test.

4.2.2

La diversité : une solution ?