Données jouet - Maximisation régularisée de l'alignement noyau/cible centré

4.2 Maximisation régularisée de l'alignement noyau/cible centré

4.3.1 Données jouet

Nous limitons l'étude des données jouet à un seul jeu : Image Segmentation de l'UCI

repo-sitory[47]. Ce jeu de données en dimension 19 est particulièrement intéressant puisque chacun

de ses descripteurs correspond à une quantité interprétable

. Chaque exemple est une vignette

de trois sur trois pixels dont la catégorie correspond à la nature de ce qui est représenté. Les

catégories sont : brique, ciel, feuillage, ciment, fenêtre, chemin et herbe.

Nous utilisons le découpage apprentissage-test proposé par défaut, c'est-à-dire 210 exemples

pour faire l'apprentissage et la sélection de modèle et 2100 exemples pour le test. Le seul

pré-traitement eectué est le centrage et la réduction des données dans l'espace de description.

L'intérêt de l'alignement de noyaux est évalué en deux étapes. La première consiste uniquement

à quantier l'apport en termes de taux de reconnaissance alors que la seconde s'intéresse à la

sélection de variables.

4.3.1.1 Apport de l'alignement noyau/cible gaussien elliptique à la classication

Dans un premier temps, nous nous intéressons à l'apport du noyau gaussien elliptique dans

la classication à l'aide de SVM. L'optimum de la borne Rayon-Marge multi-classe pour le

noyau RBF standard (aussi dénomme sphérique par opposition à elliptique) est obtenu pour

σ=

√¹

2µ0

= 1.48etC = 0.47. Le taux de reconnaissance avec ces hyperparamètres est de88.43%,

alors que Guermeur et Monfrini [63] obtiennent90.20%. Une telle diérence est probablement due

à l'utilisation de la borne Rayon-Marge pour la sélection de modèle et non à une validation croisée.

Ce taux de reconnaissance nous sert de référence. La minimisation de la borne Rayon-Marge

multi-classe pour ce noyau est eectuée pour les congurations suivantes : maximisation non

régularisée de l'alignement noyau/cible non centré, maximisation non régularisée de l'alignement

noyau/cible centré, et ensuite les deux versions régularisées de cette méthode (la première de

norme 1 (p = 1) et la seconde de norme 2 (p = 2)). Le coecient de régularisation ν est xé

à10

⁻³

. Le tableau 4.1 présente les taux de reconnaissance obtenus. L'augmentation du taux de

reconnaissance induite par l'utilisation du noyau elliptique apparaît statistiquement signicative

au sens du test de comparaison de deux pourcentages ("two sample proportion test" avec z=5.79)

1. On est confronté à un phénomène de vallée étroite.

Noyau Régularisation Taux de reconnaissance

RBF standard - 88.48%

Gaussien elliptique non centré sans 93.62 %

Gaussien elliptique centré sans 94.19%

Gaussien elliptique centré `

94.19%

Gaussien elliptique centré `

94.05%

Table 4.1 Taux de reconnaissance obtenus par minimisation de la borne Rayon-Marge

multi-classe après alignement noyau/cible pour Image Segmentation

tandis que l'inuence de la régularisation semble secondaire. Sur ce jeu de données, le centrage

des données dans l'espace de représentation n'apparaît pas comme nécessaire

.

Cette étude sur l'utilisation d'un noyau gaussien elliptique étant réalisée sur un seul jeu de

données, elle est bien évidemment non représentative des gains que l'on peut atteindre en général.

Cependant, la sélection de variables a largement prouvé son utilité par ailleurs (voir par exemple

le très bon article [65]). Notre méthode peut aussi se voir comme la recherche d'une métrique

adaptée au problème de classication considéré.

4.3.1.2 Etude comparative de la sélection de variables pour Image Segmentation

Puisque la mise en ÷uvre du principe de maximisation de l'alignement noyau/cible sur un

noyau gaussien elliptique correspond à une sélection de variables douce, il est naturel de la

comparer à des méthodes classiques eectuant cette tâche. En nous refusant à toute méthode

de sélection liée au taux de reconnaissance, nous nous orientons vers les méthodes de type ltre

("lter" en anglais, voir par exemple la section 4.4 de [65]). Nous avons décidé de comparer notre

méthode à une sous-famille de ces méthodes : celle basée sur l'information mutuelle (voir par

exemple [17]).

Dans cette famille nous avons choisi quatre méthodes :

Mutual Information Maximisation (MIM, [36]) : la première méthode développée qui

consiste à choisir les descripteurs dont l'information mutuelle avec la classe est la plus

importante. Le nombre de descripteurs est choisi a priori.

Mutual Information Feature Selection (MIFS, [11]) : cette méthode choisit, de manière

séquentielle, les descripteurs maximisant l'information mutuelle tout en limitant la

redon-dance avec ceux déjà choisis. Le paramètre lié à la redonredon-dance est réglé par le praticien.

Conditional Mutual Information Maximisation (CMIM, [46]) : cette méthode s'appuie sur

l'information mutuelle conditionnelle.

minimum-Redundancy Maximum-Relevance (mRMR, [84]) : cette méthode est très

simi-laire à MIFS, mais le paramètre est xé (et non choisi).

An de vérier que ces méthodes fournissent des résultats satisfaisants, nous avons aussi

utilisé une méthode de type "wrapper" de recherche séquentielle en avant (voir section 4.1 de

1. Pour la prédiction de la structure secondaire ne pas centrer peut conduire à l'obtention d'une pondération quasi-uniforme et donc de peut d'intérêt.

4.3. Résultats expérimentaux 117

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 2 4 6 8 10 12 14 16 18 ponderation indice ds descripteurs

non centre et non regularise non regularise regularisation l1 regularisation l2

Figure 4.2 Pondération obtenue pour Image Segmentation par maximisation de l'alignement

noyau/cible, par maximisation de l'alignement noyau/cible centré et par maximisation régularisée

de l'alignement noyau/cible centré (normes`

et`

)

[65]).

La méthode d'alignement dotée d'une régularisation de norme`

ore une pondération

par-cimonieuse (voir Figure 4.2) avec seulement4prédicteurs retenus. En nous basant sur ce résultat

nous xons le nombre de prédicteurs à5 pour toutes les autres méthodes.

Le tableau 4.2 présente une comparaison des variables sélectionnées par les méthodes MIM,

MIFS, CMIM, mRMR, notre méthode avec les normes`

₁

et`

₂

ainsi que la recherche séquentielle

en avant utilisant une validation croisée à 5 pas

. Il est intéressant de noter que cette méthode

s'arrête lorsqu'il trouve6 variables.

La dernière ligne du tableau 4.2 contient les taux de reconnaissance obtenus par minimisation

de la borne Rayon-Marge d'une M-SVM

(entraînée avec seulement5descripteurs). Les méthodes

de type ltre fonctionnent globalement moins bien que les autres. Seuls mRMR, la méthode

"wrapper" et les alignements de noyaux présentent des taux supérieurs à celui d'un apprentissage

sur l'ensemble des descripteurs.

Intéressons-nous à présent aux variables sélectionnées par ces quatre méthodes. Le

descrip-teur systématiquement sélectionné est le second : "ligne du pixel central". Ce choix, a priori

surprenant, est en fait légitime, il permet de séparer ce qui se trouve en bas (herbe et chemin),

en haut (ciel et feuillage) et au centre (ciment, fenêtre et brique) de l'image. Un autre descripteur

qui revient souvent est la teinte de l'image. Cet attribut est particulièrement intéressant puisqu'il

permet de couvrir toutes les couleurs par un seul scalaire. La méthode ne le sélectionnant pas

choisit toutefois deux intensités de couleurs (rouge et bleu). La sélection réalisée par ces méthodes

Descripteur : Méthode

# Dénition `₁ `₂ MIM MIFS CMIM mRMR "wrapper"

1 Colonne du pixel central 2 3

2 Ligne du pixel central 3 3 1 1 1 1 2

3 Nombre de pixels (=9) 2 2

4 Nombre de lignes de faible contraste

(lon-gueur 5) ³

5 Nombre de lignes de fort contraste (longueur

5) ⁴ ⁶

6 Moyenne de la mesure de contraste entre pixels horizontalement adjacents

7 Écart type de la mesure de contraste entre pixels horizontalement adjacents

8 Moyenne de la mesure de contraste entre pixels verticalement adjacents

9 Écart type de la mesure de contraste entre pixels verticalement adjacents

10 Intensité moyenne sur la région

(R+V+B)/3

Dans le document Sélection de modèle par chemin de régularisation pour les machines à vecteurs support à coût quadratique (Page 131-134)