• Aucun résultat trouvé

Classe Parametres

4.3.2 Classification de MNIST

Dans un premier temps, nous étudions l’influence de différents paramètres sur le réseau. Pour cela, nous utilisons la base de données MNIST1, composée d’images 20x20 pixels de chiffres manuscrits. L’utilisation de ces données permet une analyse simple de ce qui a été appris : 10 classes naturelles sont définies et la structure des images est assez simple pour pouvoir interpréter les caractéristiques apprises. Nous rapportons les résultats obtenus pour 10 répétitions de chaque expérience comme illustré figure 4.5. Nous utilisons des autoencodeurs avec 100 neurones en couche cachée.

Nous commençons par entraîner le réseau sur un ensemble de données comprenant 1000 instances de chaque chiffre, et nous le testons sur un autre jeu de données contenant 1000 nouvelles instances pour chaque chiffre. Nous étudions l’influence du bruit ajouté dans la couche softmax. Nous utilisons un bruit gaussien centré et nous faisons varier son écart-type (auquel nous nous référons en temps que “niveau de bruit”). La figure 4.6 illustre l’activité moyenne du neurone softmax le plus actif pour chaque instance de l’ensemble de test. Nous rapportons la performance de classification par rapport aux 10 classes naturelles mesurée à l’aide de l’“indice de Rand ajusté” (ARI) (Hubert et Arabie 1985) sur la figure 4.7. Il prend la valeur maximale de 1 pour une correspondance parfaite entre les deux classifications et un score de 0 correspond à une classification aléatoire.

Les figures 4.6 et 4.7 illustrent l’existence d’un compromis optimal entre la précision de la classification (en terme de performance ARI) et sa netteté (en terme d’activité de

Valeur aberrante Minimum Maximum 3eme quartile Mediane 1er quartile

Figure 4.5 – Pour chaque expérience, nous rapportons les résultats de 10 répétitions

indépen-dantes sous la forme de boîtes à moustaches. Une valeur est considérée comme aberrante si elle est éloignée de plus de 1.5 fois l’écart entre le premier quartile (Q1) et troisième quartile (Q3) du quartile le plus proche, c’est-à-dire si elle est supérieure à Q3+1.5×(Q3-Q1) ou inférieure à Q1-1.5×(Q3-Q1). 1e-06 0.1 0.5 1.0 2.0 3.0 5.0 10.0 Taux de bruit 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ac ti v ati on m oy enn e

Activitation moyenne du neurone softmax le plus actif

Figure 4.6 – Activité moyenne du neurone le plus actif de la couche softmax. Chaque boîte

correspond à 10 répétitions de l’expérience. Pour un niveau de bruit supérieur à 2, le réseau effectue une classification franche : en moyenne pour chaque donnée en entrée, un des neurones softmax est actif à plus de 95%.

1e-06 0.1 0.5 1.0 2.0 3.0 5.0 10.0 k-moyennes Taux de bruit 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 Sc ore Performance de classification

Figure 4.7 – Performance de la classification mesurée à l’aide de l’indice Rand ajusté. Pour

chaque donnée, nous considérons le neurone le plus actif comme étant le label prédit. L’algorithme est comparé aux k-moyennes initialisées avec 10 données tirées aléatoirement dans l’ensemble d’apprentissage.

la couche softmax) pour un niveau de bruit de 2. Nous utilisons donc cette valeur dans la suite des expériences.

Le nombre de neurones de la couche softmax peut être considéré comme une connais-sance a priori importante fournie au réseau. Nous étudions donc maintenant le compor-tement du réseau pour des nombres différents de neurones. La figure 4.8 montre qu’il ne s’agit pas d’un paramètre critique : la performance de la classification avec 10 neurones (qui est le nombre de classes dans la base MNIST) est similaire à la performance obtenue avec 100 neurones. Ceci différencie ce réseau de l’algorithme des k-moyennes, qui obtient une performance similaire pour 10 neurones mais dont la performance décroît de manière significative quand ce nombre augmente.

La figure 4.9 illustre la capacité du réseau à n’utiliser qu’un sous-ensemble de neurones parmi ceux disponibles : dans notre expérience sur la base MNIST, le nombre de classes apprises semble converger vers 25.

Nous étudions maintenant les représentations apprises par le réseau. La figure 4.10 montre les images qui provoquent l’activation la plus importante pour chacun des 10 neu-rones softmax, c’est-à-dire les caractéristiques discriminantes qui ont été apprises par le réseau pour classifier les données. Chacune de ces images est accompagnée de la variété correspondante apprise par le réseau. Ces variétés sont obtenues en fixant l’activité d’un neurone softmax à 1 et en faisant varier l’activité des neurones de la couche softplus. Étant donné que la multiplication par un même scalaire de toutes les activités des neu-rones softplus induit une reconstruction plus ou moins contrastée (cf. équation 4.4), une

5 5

Algorithme des k-moyennes

10 10 15 15 20 20 35 35 50 50 100 100

Nombre de neurones softmax

0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 Sc ore

Influence du nombre de neurones softmax sur la classification

Reseau propose

Figure 4.8– Influence du nombre de neurones softmax sur la performance de classification. Pour

un nombre de neurones différent du nombre de classes effectivement présentes dans l’ensemble d’apprentissage, la performance du réseau proposé est plus régulière que celle obtenue avec l’algorithme des k-moyennes.

5 10 15 20 35 50 100

Nombre de neurones disponibles

0 5 10 15 20 25 30 35 40 Nom b re de ne u ron es uti li se s

Nombre de clusters en fonction du nombre de neurones softmax

Figure 4.9 – Nombre de neurones softmax utilisés par le réseau en fonction du nombre de

neurones disponibles. Un neurone est considéré comme utilisé si son activité est supérieure à celle de tous les autres neurones pour au moins une donnée de l’ensemble d’apprentissage.

Figure 4.10– Représentations apprises par un réseau avec 10 neurones softmax et 2 neurones

softplus, avec les prototypes correspondants. Chaque sous-variété (en haut) est obtenue en fixant l’activation d’un neurone softmax à 1 et en faisant varier l’activation des neurones softplus. Les prototypes (en bas) correspondent aux images qui provoquent la plus forte activation pour chaque neurone softmax.

dimension des variétés correspond naturellement à la luminosité. La figure 4.12 illustre le cas d’un réseau avec 10 neurones softmax et 3 neurones softplus pour lequel les deux autres dimensions sont représentées.

La figure 4.11 correspond au cas d’un réseau sans couche softplus. Comparé à la fi-gure 4.10, cela illustre les synergies entre la classification et l’apprentissage des sous-variétés : la présence d’une couche softplus permet aux neurones softmax de se concentrer sur les caractéristiques discriminantes de chaque classe, tandis que les variations internes de chaque classe sont représentées par la couche softplus.