• Aucun résultat trouvé

Exemples sur données simulées

13.3.2 Résultat du test

i=1 |P (yi = 1|xi)− Q(yi= 1|xi)| – Mean Cross-Entropy (MCE),

M CE =−1 n n  i=1 (P (yi= 1|xi)∗ log(Q(yi= 1|xi)) +(1− P (yi = 1|xi)) log(1− Q(yi = 1|xi))) – Mean Squared Error (MSE),

M SE = n1

n



i=1

(P (yi = 1|xi)− Q(yi = 1|xi))2

Toutes ces métriques expriment une mesure de dissimilarité entre deux distributions de probabilités P et Q : plus leurs valeurs augmentent, plus les distributions sont éloignées. Elles ont été choisies de par leur utilisation dans diverses publications impliquant des comparaisons d’estimées de probabilités [16,104]. Dans notre évaluation, P est la pro-babilité "vraie" calculée et Q la propro-babilité estimée par la méthode de Platt (pour le SVM classique) ou par le P-SVM (directement).

13.3 Comportement en présence d’un outlier

13.3.1 Description du test

On simule deux nuages de points (2-D) étiquetés "+1" et "-1", tirés selon deux lois gaussiennes, N (μ−1, σ) et N (μ1, σ), de mêmes variances et de moyennes différentes, qui ne se chevauchent pas.

On introduit arbitrairement un point singulier (outlier) x situé à égale distance des centres des deux nuages de points, tel que P (Y = 1| X = x) = 0.51.

On étudie la perturbation provoquée par ce point sur la construction de la frontière de décision en fonction de la valeur de l’étiquette qui lui est affectée :

– étiquette "sûre" : y = 1, puisque P (Y = 1| X = x) > 0.5, versus

– étiquette "probabiliste" : p = 0.51.

On "apprend" ensuite notre classifieur P-SVM sur les deux jeux de données ainsi construits. Dans le cas où la séparatrice est apprise uniquement sur des étiquettes binaires, on est ramené à un SVM classique.

13.3.2 Résultat du test

La figure 13.1 illustre ce test avec napp = 100 points d’apprentissage (50 points par distribution) tirés aléatoirement selon les deux distributions N (μ−1, σ) etN (μ1, σ) telles que : μ−1=(-1,-1), μ+1=(1,1) et σ=0.3. On choisit η=0.1 (A=2.2 d’après l’équation (12.6)), C = 100 et ˆC= 100 ; on utilise un noyau gaussien de paramètre σ = 1.

Dans le cas où l’étiquette du point x vaut 1 (jeu de données étiquetées de manière binaire), la frontière est construite de façon à minimiser l’erreur de classification et maximiser la

13.4. ESTIMATION DES PROBABILITÉS

marge : l’outlier étant le point de la classe "1" le plus proche des points de la classe "-1", il devient un point support et conditionne la position de la séparatrice (figure 13.1a). Celle-ci est largement déviée vers le nuage de points de la classe "-1". On perd donc en généralisation.

Au contraire, dans le cas où l’étiquette du point x vaut p, l’approche P-SVM tire profit de l’information probabiliste apprise. La classe de ce point étant très incertaine (p 0.5), il se retrouve positionné sur la frontière de décision (figure 13.1b) tandis que le reste des points d’étiquettes binaires sont séparés de manière optimale (au sens de la maximisation de la marge).                        

(a) L’outlier est étiqueté y=+1

                      

(b) L’outlier est étiqueté p=0.51

Figure 13.1 – Exemple jouet : présence d’un outlier. On simule deux nuages de points

(napp= 100) étiquetés "+1" (rouges) et "-1" (bleus). On observe l’évolution de la position de la séparatrice (tracée en noir) en fonction de l’étiquette affectée à l’outlier : (a) l’outlier est affecté à la classe +1, (b) l’outlier est étiqueté de sa probabilité P (Y = 1| X = x) = 0.51.

13.4 Estimation des probabilités

13.4.1 Description du test

On simule deux ensembles de points (1-D) tirés selon deux lois gaussiennes,N (μ−1, σ) etN (μ1, σ), représentant deux classes de données "-1" et "+1", de moyennes différentes et de même variance. Soit (xappi)i=1...napp les données d’apprentissage ainsi créées.

On calcule les probabilités de chacun des points d’appartenir à la classe "+1". Pour i = 1 . . . napp, on a

P (yappi = 1|xappi) = P (xappi|yappi = 1)

P (xappi|yappi = 1) + P (xappi|yappi =−1) avec P (xappi|yappi = 1) = σ1

exp(−1 2(xappi−μ1 σ )2) et P (xappi|yappi =−1) = 1 σ√ exp(1 2(xappi−μ−1 σ )2). (13.1)

On construit un premier jeu de données (xappi, yappi)i=1...napp, pour lequel les données sont étiquetées comme suit :

si P (yappi = 1|xappi) > 0.5, alors yappi = +1;

si P (yappi = 1|xappi) ≤ 0.5, alors yappi =−1, (13.2) pour i = 1 . . . napp.

Les données (xappi, yappi)i=1...napp ainsi étiquetées de manière binaire sont utilisées comme données d’apprentissage par le classifieur SVM classique.

On définit un autre jeu de données (xappi, ˆyappi)i=1...napp tel que, pour i = 1 . . . napp : si P (yappi = 1|xappi) > 1− η, alors yˆappi = 1;

si P (yappi = 1|xappi) < η, alors yˆappi =−1; ˆ

yappi = P (yappi = 1|xappi) sinon.

(13.3)

où η, introduit page 172, représente la précision de l’étiquetage.

Les données (xappi, ˆyappi)i=1...napp, comprenant à la fois des données d’étiquettes binaires et probabilistes sont, quant à elles, utilisées comme base d’apprentissage par un classifieur P-SVM.

On tire de manière aléatoire un nouveau jeu de points test (xtesti)i=1...ntest afin de tester et comparer les prédictions de nos classifieurs.

Dans le cas du classifieur SVM classique, les probabilités d’appartenir à la classe d’éti-quette "1" sont estimées en utilisant l’algorithme de Platt (décrit section 11.6, page 166). Dans le cas du classifieur P-SVM, les probabilités prédites sur les points xtest sont direc-tement données par ϕ(h(xtest)), où ϕ est la fonction logistique définie page 172 et h la fonction de prédiction.

On estime l’erreur entre les probabilités vraies (P (ytesti = 1|xtesti))i=1...ntest (calculée comme en 13.1) et la probabilité estimée par les deux algorithmes sur le jeu de données test.

13.4.2 Résultat du test

La figure 13.2 illustre les résultats obtenus en utilisant napp = 100 points d’appren-tissage tirés aléatoirement selon les deux distributions N (μ−1, σ) et N (μ1, σ) telles que : μ−1=-0.5, μ+1=0.5 et σ=0.3. On choisit η=0.1 (A=2.2), C = 100 et ˆC= 100 et on utilise un noyau gaussien de paramètre σ = 1.

Elle permet une évaluation visuelle de l’amélioration des performances en termes de pré-diction de probabilités apportée par les P-SVM en comparaison des performances de la combinaison SVM classique + Platt. Le tableau 13.1 permet une évaluation quantitative sur ntest= 1000 points de test tirés aléatoirement, en utilisant les métriques définies section 13.2.

13.4. ESTIMATION DES PROBABILITÉS

AU C Acc DKL ErrAlign DL1 M CE M SE SVM + Platt 1 0.99 11 0.01 6.10−4 0.13 8.10−4 P-SVM 1 1 0.4 2.10−3 1.10−5 0.12 1.10−5

Table 13.1 – Mesures des performances de prédiction de probabilités réalisées par un

classifieur P-SVM et par un SVM classique couplé à l’algorithme de Platt testés sur ntest = 1000 points de test tirés aléatoirement. Le test est illustré sur la figure 13.2.

               

(a) Distribution des probabilités

                     

(b) Estimations des probabilités

                    (c) Erreur d’estimations

Figure 13.2 – Comparaison de l’estimation des probabilités obtenues par l’algorithme

de Platt appliqué à la sortie d’un SVM classique avec celles directement estimées par les P-SVM.

(a) Représentation des distributions de probabilités des données d’apprentissage (napp= 100), les points d’apprentissage sont représentés par des étoiles ;

(b) Représentation des probabilités prédites par le SVM classique couplé à l’algorithme de Platt d’une part (en bleu) et directement par P-SVM d’autre part (en rouge), superposées aux probabilités vraies (en noir) ;

(c) Représentation de l’erreur d’estimation : ErrL1 représente l’écart moyen, en valeur absolue, entre les probabilités prédites et les probabilités "vraies".

13.5 Robustesse au bruit d’étiquetage