Evaluation de la qualité de l’apprentissage

Chapitre 3: Les cartes auto-organisatrices : description détaillée de

3.2. Cartes auto-organisatrices

3.2.4. Evaluation de la qualité de l’apprentissage

La qualité de la classification faite avec SOM passe par une bonne discrétisation du paramètre étudié. Avant de procéder à l’exploitation de la classification, il est important d’évaluer la qualité de la classification obtenue en fin d’apprentissage. Cette évaluation peut se faire selon deux principaux critères : la qualité de la quantification vectorielle et celle de la préservation de la topologie de l’espace des observations.

3.2.4.1. L’erreur de quantification vectorielle

La qualité de la quantification vectorielle donne une information sur l’adéquation entre chaque sous-ensemble de données et le vecteur référent auquel il a été affecté. Cette information peut être quantifiée grâce à la mesure de l’erreur de quantification vectorielle, notée Q.E (pour Quantization error). Cette dernière représente la distance euclidienne moyenne entre chaque observation et son plus proche vecteur référent. Soit

n

le nombre total d’échantillons à classer, zi une observation donnée et

w

_cson référent le plus proche, l’erreur de quantification vectorielle est définie par :

1 .

ⁿ _i _c i

Q E z w

n

_

  

(Eq. 3.7) La qualité de la quantification vectorielle est donc d’autant plus élevée que cette distance est faible. Si la valeur de ce paramètre est relativement élevée, ceci révèle une faible adéquation (ou ressemblance) entre l’observation et son vecteur référent. L’erreur de quantification vectorielle atteint un minimum après un certain nombre d’itérations. La valeur

finale de cette erreur ainsi que le nombre d’itérations nécessaires pour l’atteindre dépendent de plusieurs facteurs, tels que le nombre et la distribution des données, la structure et la taille de la carte (nombre de neurones) ainsi que l’adéquation entre le nombre de données à classer et la taille de la carte auto-organisatrice.

3.2.4.2. L’erreur topologique

L’erreur topologique quantifie la préservation de la topologie de l’espace des observations. Elle représente la proportion des observations pour lesquelles les deux neurones les plus proches (correspondant aux deux plus proches vecteurs référents au sens de la distance euclidienne) ne sont pas adjacents au niveau de la carte topologique :

1 .

ⁿ

( )

_i i

T E u z

n

_

 

(Eq. 3.8) où u z( )_i représente une fonction dont le résultat est égal à 1 si les deux neurones les plus proches (le premier BMU et le suivant) de l’observation zisont adjacents au niveau de la carte topologique et 0 sinon.

Ce paramètre évalue donc la fiabilité de la conservation topologique induite par l’algorithme SOM. La préservation de la topologie de l’espace des observations permet la conservation de la notion de similitude des différents sous-ensembles de données et une structuration claire de ces partitions. Cette structuration des vecteurs référents facilite potentiellement la tâche de classification. L’erreur topologique obtenue en fin d’apprentissage peut varier significativement en fonction de plusieurs facteurs, dont la structure du voisinage (hexagonale ou rectangulaire) ainsi que la forme du treillis (carré ou rectangulaire).

Afin de minimiser les erreurs topologiques, il convient de choisir une structure de carte bien adaptée aux données qu’on cherche à classer et au problème qu’on cherche à résoudre. Il faut définir les critères qui permettent de juger de l’adéquation d’une carte au problème donné. Si la dimension de la carte n’est pas en adéquation avec la dimension sous-jacente aux données (variété des classes engendrées par les observations), deux observations proches pourraient être classées par des neurones éloignés de la carte. Or, la propriété de conservation de la topologie est intéressante car elle permet de réaliser une réduction de la dimension des données en les projetant dans un espace plus petit, tout en conservant la notion de similitude.

3.2.4.3. La distorsion

La distorsion représente la somme des erreurs de quantification vectorielle, des erreurs topologiques ainsi que la contrainte qui existe entre ces deux paramètres (Vesanto et al., 1999). Cette contrainte, appelée aussi «biais de voisinage» établie le lien entre l’erreur topologique et celle de la quantification vectorielle (Vesanto, 1999). L’expression générale de la distorsion est la suivante :

2 ( , ( )) 1 1 ⁱ n m T j z i j i j

D K

_

z w

 







(Eq. 3.9)

où

K

^T_{( , ( ))}_j _ _z_i représente la fonction de voisinage entre un neurone j et le neurone le plus proche d’une observationzidéterminé par la fonction d’affectation( )z_i et w_jreprésente le vecteur référent du neurone j .

La mesure de la distorsion moyenne de tous les neurones doit être minimisée et permet de quantifier la qualité globale de la classification faite par SOM, en tenant compte à la fois de la qualité de la quantification vectorielle et de celle de la préservation de la topologie. La valeur de la distorsion à la fin de l’apprentissage va donc aussi dépendre des paramètres qui influent sur les erreurs topologiques et de quantification vectorielle. Un choix pertinent du nombre de neurones et de la forme de la carte est nécessaire pour minimiser la distorsion de la carte topologique. Par ailleurs, l’optimisation du nombre d’itérations contribue aussi à la diminution de la distorsion en fin de phase d’apprentissage. La figure 3.4 (exemple d’un apprentissage réalisé sur une base de données générée aléatoirement) montre qu’on peut faire diminuer l’erreur de quantification vectorielle jusqu’à une valeur de 0,208 avec 150 itérations. Cependant, un grand nombre d’itérations pourrait induire un «surapprentissage» de SOM et causer une augmentation des erreurs topologiques. Le surapprentissage ou sur-ajustement est, d’une manière générale un problème pouvant survenir dans les méthodes mathématiques et informatiques de classification, à l’instar des réseaux de neurones. Il est en général provoqué par un mauvais dimensionnement de la structure utilisée pour classifier. De par sa trop grande capacité à stocker des informations, une structure dans une situation de surapprentissage aura de la peine à généraliser les caractéristiques des données. Elle se comporte alors comme une table contenant tous les échantillons utilisés lors de l'apprentissage et perd ses pouvoirs de prédiction sur de nouveaux échantillons. Le nombre d’itération doit par conséquent être choisi de telle manière à optimiser la distorsion en trouvant un équilibre entre les erreurs

topologiques et de quantification vectorielle. La distorsion peut aussi être diminuée en augmentant le degré de flexibilité de la carte auto-organisatrice. Pour ce faire, on agit sur la taille du voisinage en faisant décroitre la température. Ce paramètre contrôle la fonction de voisinage de SOM et aura un impact déterminant sur la qualité de la classification neuronale. En règle générale, des valeurs élevées de température entrainent toutes les données dans leur centre de gravité et engendrent des contraintes excessives sur l’ordre topologique aux dépens de la qualité de quantification vectorielle.

Figure 3.4. Evolution de l’erreur de quantification vectorielle en fonction du nombre d’itérations (exemple d’un apprentissage réalisé sur une matrice de données à 5 dimensions générée aléatoirement)

Dans le document Télédétection des groupes phytoplanctoniques via l'utilisation conjointe de mesures satellites, in situ et d'une méthode de classification automatique (Page 57-60)