Cartes auto-organisatrices pour les donn´ees symboliques

symboliques

Dans ce chapitre, nous proposons deux approches pour créer une carte auto-or-ganisatrice pour des données symboliques mixtes. Dans la première approche, nous procédons à une homogénéisation des données en première étape où toutes les va-riables sont transformées en vava-riables de type histogramme. L’ensemble de données ainsi obtenu est utilisé en deuxième étape pour entraˆıner une carte auto-organisa-trice en mode différé en utilisant la distance euclidienne pour la recherche du neurone vainqueur. La deuxième approche consiste à entraˆıner une carte auto-organisatrice en se basant sur l’algorithme DissSOM décrit dans la sous-section 2.4.3. Cette mé-thode consiste à présenter une matrice de dissimilarités ou de distances à la carte en vue de l’entraˆıner en mode différé. La distance proposée par Ichino et Yaguchi (voir sous-section 2.3.2, p.55) est utilisée pour construire la matrice des distances.

2.5.1 1

`ere

approche : Carte auto-organisatrice pour des

don-nées homogénéisées

Nous détaillons par la suite la technique d’homogénéisation des données, comme nous présentons l’algorithme d’apprentissage de la carte en utilisant les données transformées.

Homogénéisation des données symboliques mixtes

Nous adoptons la technique proposée par De Carvalho (1995) permettant de convertir des variables multivaluées et des variables de type intervalle en des variables de type histogramme ou modales dans le but de produire un ensemble de données

homog`enes.

Transformation des variables multivaluées. Supposons que la variable Yj est une variable multivaluée ayant pour domaine Uj ={f1^j, . . . , f_Z^j_j} telle que Xi^j ⊂ Uj. Yj est transformée en une variable de type histogramme Hj telle que Hj(i) = Uj; πj(i) où πj(i) = π₁^j(i), π^j₂(i), . . . , π_Z^j_j(i)^T est le vecteur des fréquences re-latives calculées de la fa¸con suivante :

π_z^j(i) =    1 X^j_i si fj z ∈ Xi^j 0 if fj z ∈ X/ i^j (2.7) o`u z ∈ {1, . . . , Zj} et X_i^j est le cardinal de l’ensemble X_i^j.

Transformation des variables de type intervalle. Soit Y_j une variable de type intervalle telle que X_i^j = [a^j_i, b^j_i]. Yj est transformée en une variable de type histo-gramme cumulé H_j telle que : H_j(i) = (U_j; π_j(i)) où U_j = {I1^j, . . . , I_Z^j_j} est un en-semble d’intervalles élémentaires obtenu en formant une liste triée par ordre croissant de toutes les bornes inférieures et supérieures de tous les intervalles de cette variable pour toutes les observations. Chaque paire de nombres consécutifs de cette liste triée constituera les bornes d’un intervalle élémentaire. πj(i) = π₁^j(i), π₂^j(i), . . . , π_Z^j_j(i)^T est le vecteur des poids cumulatifs ayant comme support Uj et dont les composantes sont calculées comme suit :

π^j_z(i) =

v=1

uv(i)^j tel que uv(i)^j = ^L(I

v ∩ Xi^j) L(X_i^j) o`u z ∈ {1, . . . , Zj} et L(I) la longueur de l’intervalle I.

Exemple d’homogénéisation des données. En appliquant la technique d’ho-mogénéisation décrite ci-dessus sur le tableau 2.3, nous obtenons le tableau 2.4 de la page 70 où les données sont décrites par des variables de type histogramme. Pour transformer la variable de type intervalle Y2 en une variable de type histogramme H2, il faut tout d’abord déterminer l’ensemble des intervalles élémentaires qui consti-tuent le support des fréquences cumulatives. La liste triée des bornes inférieures et supérieures de tous les intervalles de cette variable vaut : {20, 22, 24, 26, 27, 30},

donc les intervalles ´el´ementaires sont : I2 1 = [20, 22[, I2 2 = [22, 24[, I2 3 = [24, 26[, I2 4 = [26, 27[, I2

5 = [27, 30] formant ainsi l’ensemble U2 = {I2 1, I2

2, I2 3, I2

4, I2

5}. Pour la variable modale Y1, le domaine correspondant est l’ensemble U1 = {Espagnol, Fran¸cais, Japonais, Italien} et le vecteur des fr´equences relatives pour la premi`ere observation est π1(1) = (0.4, 0, 0, 0.6)T.

Tableau 2.4 – Tableau de donn´ees symboliques homog`enes.

Cours Nationalit´e (Y1) Age (Y^ˆ 2)

Programmation Web (U1; π1(1) = (0.4, 0, 0, 0.6)T) (U2; π2(1) = (0, 0.5, 1, 1, 1)T) Cobol (U1; π2(1) = (0, 0.5, 0.167, 0.333)T) (U2; π2(2) = (0, 0, 0.3333, 0.5, 1)T) Java (U1; π3(1) = (0, 0.143, 0.571, 0.286)T) (U2; π2(3) = (0.286, 0.571, 0.857, 1, 1)T)

Algorithme d’apprentissage de la carte auto-organisatrice

Partant d’un ensemble de données décrites par des variables symboliques mixtes, chaque observation Xi est transformée en un vecteur ˜xi dont les composantes sont les fréquences attribuées aux différentes modalités lors de la transformation des va-riables symboliques Yj, j ∈ {1, . . . , p} multivaluées ou intervalles en des variables de type histogramme Hj, j ∈ {1, . . . , p}. Par la suite, nous utilisons les notations suivantes : – Hj(i) = ˜x^j_i – x^j_i = πj(i) – x^j_iz = πj z(i) – x^j_i = (x^j_i1, x^j_i2, . . . , x^j_iZ_j)T – ˜x^j_i = Uj; x^j_i

Le tableau 2.5 représente l’ensemble de données homogénéisées où fj z, z ∈ {1, . . . , Zj} est un élément de l’ensemble constitué par le domaine de la variable multivaluée Yj, ou un intervalle élémentaire si la variable Yj est de type intervalle.

Tableau 2.5 – Tableau de donn´ees de type histogramme. variables H1 ... Hp modalit´es f1 1 f1 2 ... f1 Z1 ... f₁^p f₂^p ... f_Z^p p ˜ x₁ x1 11 x1 12 ... x1 1Z1 ... x^p₁₁ x^p₁₂ ... x^p_1Z p ˜ x₂ x1 21 x1 22 ... x1 2Z1 ... x^p₂₁ x^p₂₂ ... x^p_2Z p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ xn x1 n1 x1 n2 ... x1 nZ1 ... x^p_n1 x^p_n2 ... x^p_nZ p

Supposons que nous voulions créer une carte auto-organisatrice composée de K neurones pour classifier l’ensemble de données ˜xi, i∈ {1, . . . , n}. Le prototype gk

de chaque neurone k est aussi représenté par un vecteur de données décrites par des variables histogrammes, le jème

histogramme du neurone k est not´e g^j_k = (Uj; w^j_k) (Uj ´etant le domaine de la variable Hj), et w^j_k= (w^j_k1, . . . , w_kZ^j _j)T.

Chaque itération de l’algorithme d’apprentissage en mode différé consiste à présenter tout l’ensemble de données au réseau, à déterminer le neurone vainqueur de chaque observation, pour ensuite mettre à jour les vecteur prototypes de l’ensemble des neurones.

Détermination du neurone vainqueur. Le neurone vainqueur d’un vecteur de données ˜x_i est le neurone dont le vecteur prototype g_c_i est le plus proche de ˜x_i au terme du carré de la distance euclidienne :

d²₂(˜x_i, g_c_i) = min |{z} k=1,...,K d²₂(˜x_i, g_k) d²₂(˜x_i, g_c_i) = min |{z} k=1,...,K p X j=1 Zj X z=1 (x^j_iz − wkz^j )²

Mise à jour des vecteurs prototypes. La distance euclidienne étant utilisée pour la recherche du neurone vainqueur, chaque vecteur prototype vaut la moyenne pondérée des observations qui appartiennent à sa région de Vorono¨ı ( les poids étant les valeurs de la fonction de voisinage). Donc, la mise à jour des vecteurs prototypes se fait de la manière suivante :

w_kz^j (t + 1) = Pn i=1hkci(t)x^j_iz Pn i=1hkci(t) o`u k ∈ {1, . . . , K}, j ∈ {1, . . . , p}, z ∈ {1, . . . , Zj} et hkci(t) est la fonction de voisinage gaussienne (voir ´equation (1.19), p.27).

A la fin de l’algorithme, les données seront classifiées en K classes. Chaque classe k contiendra toutes les observations ayant le neurone k comme neurone vain-queur. Outre cette tâche de classification, le fait d’utiliser les valeurs de la fonction de voisinage comme poids dans la formule de mise à jour des vecteurs prototypes, garantit la préservation de la topologie. L’algorithme 2.7 présente les étapes de cette méthode.

Algorithme 2.7 Apprentissage en mode différé des cartes auto-organisatrices pour des données symboliques homogénéisées.

Entr´ees : Fournir :

– Xi { Les observations d´ecrites par des variables symboliques mixtes} – lig, col { Nombre de lignes et de colonnes de la carte K = lig · col} – T { Nombre total d’it´erations}

– σinit, σf inal { Valeurs initiale et finale du rayon de voisinage} Sorties : R´ecup´erer :

– g_k(T ), k∈ {1, . . . , K} { les vecteurs prototypes auto-organis´es} – PT ← {C1, . . . , CK} { La partition finale.}

Homogénéisation des données : Pour i = 1→ n Faire

Transformer Xi en vecteur d’histogrammes ˜x_i (voir sous-section 2.5.1, p.68) Fin pour

Initialisation :

t← 0 { t : It´eration courante}

Initialiser les vecteurs prototypes g_k(0), k ∈ {1, . . . , K} Apprentissage :

R´ep´eter

σ(t)← σinit+_T^t(σf inal− σinit)

Calculer les neurones vainqueurs des observations - g´en´eration de la partition Pt :

d2 2(˜x_i, g_c_i)← min_|{z} k=1,...,K Pp j=1 PZj z=1(x^j_iz − wkz^j )2

C_c_i ← ˜x_i { Affecter l’individu ˜x_i `a la classe C_c_i} Fin pour

Calculer les valeurs de la fonction de voisinage : Pour i = 1→ n Faire Pour k = 1→ K Faire h_kc_i(t)← exp−^krci−rkk² 2σ2(t) Fin pour Fin pour

Mettre `a jour des vecteurs prototypes g_k(t) : Pour k = 1→ K Faire Pour j = 1→ p Faire Pour z = 1→ Zj Faire w^j_kz(t + 1)← Pn i=1h_kci(t)x^j_iz Pn i=1h_kci(t) Fin pour Fin pour Fin pour t← t + 1 Jusqu’`a t > T Retourner g_k(T ), k ∈ {1, . . . , K} et PT ={C1, . . . , CK} Visualisation de la carte

Pour les ensembles de données de grande dimension et dans le but de pouvoir visualiser la carte, nous proposons de projeter les vecteurs de données et les proto-types des neurones dans un espace bidimensionnel en utilisant la technique mise en place par Makosso K. (2010) qui consiste à transformer les histogrammes en inter-valles, pour ensuite pouvoir appliquer l’analyse en composantes principales pour les données de type intervalle (Cazes et al., 1997) (voir annexe B, p.189). Pour chaque histogramme ˜x^j_i = (Uj; x^j_i), un score lj

z est affecté à chaque modalité fj

z qui est le rang de cette derni`ere dans son ensemble. Par exemple, f₁^j a un score 1, f₂^j a un score 2 et f_Z^j_j a un score Zj. La moyenne m^j_i de chaque histogramme est calcul´ee selon :

m^j_i =

z=1

l^j_zx^j_iz

Chaque histogramme ˜x^j_i est transformé en un intervalle [a^j_i, b^j_i] en utilisant l’inégalité de Tchebychev :

Soit X l’ensemble de valeurs form´ees par les composantes du vecteur x^j_i et soit m^j_i la moyenne empirique de X et δ_i^jl’´ecart-type empirique de X. Selon Tchebychev :

P (X ∈ [a^ji = m^j_i − ηδ^ji, b^j_i = m^j_i + ηδ_i^j]) > 1− ¹ η2

Nous prenons pour η la valeur 2.

2.5.2 2

`eme

approche : Carte auto-organisatrice pour des

don-n´ees mixtes

Cette approche ne requiert aucune transformation de données. Elle est fon-dée sur l’algorithme DissSOM (voir sous-section 2.4.3, p.65), où l’entraˆınement de la carte se fait en utilisant les dissimilarités, ou les distances entre les données. La matrice des distances est construite en utilisant la distance de Minkowski généra-lisée (voir sous-section 2.3.2, p.55) qui permet de calculer la proximité entre deux individus décrits par des variables symboliques mixtes. L’algorithme d’apprentissage que nous proposons est le même que l’algorithme DissSOM, mais nous supposons qu’un vecteur prototype, ou un individu référent, est une observation de l’ensemble Ω (ℓ = 1). Les vecteurs prototypes initiaux sont choisis aléatoirement dans l’en-semble des observations. L’algorithme d’apprentissage de la carte se résume en deux phases : la phase Affectation où se fait la recherche du neurone vainqueur de chaque observation, et la phase Représentation dans laquelle se fait le calcul, ou la déter-mination des nouveaux vecteurs prototypes. L’algorithme 2.8 détaille les étapes de la méthode proposée. À la fin de l’algorithme, le vecteur prototype de chaque classe est l’observation dont la somme des distances aux autres observations est minimale. Algorithme 2.8 Apprentissage par batch des cartes auto-organisatrices pour des données symboliques mixtes.

Entr´ees : Fournir :

– lig, col { Dimensions de la carte. K = lig · col} – T { Nombre total d’it´erations}

– σinit, σf inal { Valeurs initiale et finale du rayon de voisinage} Sorties : R´ecup´erer :

– Wk(T ), k ∈ {1, . . . , K} { les vecteurs prototypes auto-organis´es} – PT ← {C1, . . . , CK} { Partition finale}

Initialisation :

Calculer la matrice des distances D Pour i = 1→ n Faire

Pour i′ = 1 → n Faire

Calculer D(i, i′) ← d Xi, Xi′

{ d : distance de Minkowski généralisée (équation (2.3)}

Fin pour Fin pour

t← 0 { t : It´eration courante}

Choisir les vecteurs prototypes initiaux Wk, k ∈ {1, . . . , K} parmi les observations R´ep´eter

Apprentissage :

σ(t)← σinit+_T^t(σf inal− σinit)

Calculer les neurones vainqueurs des observations, g´en´erer une partition Pt : Pour i = 1→ n Faire

ci = arg min_k^P^K_r=1hkr(t)d2 X_i, Wr

Cci ← Xi { Affecter l’individu Xi `a la classe Cci} Fin pour

Calculer les valeurs de la fonction de voisinage hkci(t) Pour i = 1→ n Faire Pour k = 1→ K Faire hkci(t)← exp−^krci−rkk² 2σ2(t) Fin pour Fin pour

D´eterminer les vecteurs prototypes Pour k = 1→ K Faire υ ← arg mini′ Pn i=1hkci(t)d2 X_i′, Xi W_k(t + 1)← Xυ Fin pour

t ← t + 1 { It´eration courante} Jusqu’`a t > T

Retourner Wk(T ), k ∈ {1, . . . , K} et PT ={C1, . . . , CK}

Dans le document Cartes auto-organisatrices pour la classification de données symboliques mixtes, de données de type intervalle et de données discrétisées. (Page 89-97)