• Aucun résultat trouvé

II. Proposition d’une approche de classification

II.6. Description symbolique des articles textiles

II.6.3. Caractérisation des centres de classe

La principale difficulté dans la classification consiste à définir les caractéristiques du centre de classe en fonction des paramètres des articles tout en minimisant la perte d'information.

(1) pour la classification ascendante hiérarchique

La caractérisation des centres de classe ap repose sur les variables endogènes quantitatives et qualitatives de l'ensemble des articles de la classe (Cp).

Pour les données de type quantitatif, l'allure du centre de classe est calculée à partir de la moyenne des valeurs des articles appartenant à la classe (Cp).

Pour les variables endogènes qualitatives, la définition d'une moyenne sur des paramètres qualitatifs n'existe pas, seul un pourcentage de représentation de ces variables peut être calculé.

Soit Ak = {A1k, ...Ajk, ...,Ahk}, l'ensemble des "h" valeurs possibles de la caractéristique endogène k.

Le centre de classe ap est représenté par les "h" valeurs de l'ensemble des caractéristiques qualitatives Aik auxquelles sont associés "h" coefficients de représentation respectifs (αap,k(1), ..., αap,k(j), ...,αap,k(h)).

Ainsi, pour tout article xi appartenant à la classe (Cp) :

si la valeur de la caractéristique Aik de l'article xi correspond à la jème valeur de la caractéristique Ak alors αap,k(j) = αap,k(j) + 1 (où αap,k(j) représente le coefficient associé à la jème valeur de la caractéristique qualitative Ak du centre de classe ap).

Les coefficients du centre de classe ainsi obtenus sont normalisés entre 0 et 1 en divisant chaque valeur par la somme des coefficients et mis sous forme d'un vecteur αap,k

tels que : ααααap,k = 1

j=1 h ααααap,k(j) (ααααap,k(1), ..., ααααap,k(j), ...,ααααap,k(h))t ( 38)

Par exemple, soit la classe C1 contenant les articles n°1, 2 et 3 de la classification commerciale du Tableau 17 avec type(1) = bonnet, type(2) = Enfant et type(3) = Enfant. La variable qualitative Y du centre de classe C1 est représentée par : Y={bonnet, Enfant,

Femme, Homme}. Les coefficients de représentation de la variable Y associés au centre de la classe C1 sont regroupés sous le vecteur αa1,Y tel que :

αa1,Y = (13 ,23 ,0,0) où la variable qualitative Y du centre de la classe C1 est représentée par : 13 {bonnet}et 23 {Enfant}.

(2) pour la classification par partition floue

Une description des caractéristiques qualitatives du centre de classe floue peut également être obtenue en considérant les valeurs des différents degrés d'appartenances associées aux paramètres endogènes des articles. La kième caractéristique qualitative Aap,k du centre de classe ap définie suivant "h" valeurs différentes est calculée à partir des degrés d'appartenance µip de tous les articles au centre de classe ap .

Le centre de classe ap est représenté par les "h" valeurs de l'ensemble des caractéristiques qualitatives Aik auxquelles sont associés les "h" coefficients de représentation respectifs

ap,k(1), ..., βap,k(j), ..., βap,k(h)) tels que :

Pour tout article xi appartenant à la classe (Ck) :

si la valeur de la caractéristique Aik de l'article xi correspond à la valeur de la jème

caractéristique Ak alors βap,k(j) = βap,k(j) + µip

Les coefficients du centre de classe ainsi obtenus sont normalisés entre 0 et 1 en divisant chaque valeur par la somme des coefficients et mis sous la forme d'un vecteur

βap,k tels que : ββββap,k = 1      

i=1 n µµµµip (ββββap,k(1), ..., ββββap,k(j), ...,ββββap,k(h)) t ( 39)

II.6.4. Mesure de ressemblance entre les articles

La traduction de l'objectif de la classification réside dans la formulation de la mesure de ressemblance entre deux articles.

(1) Pour les données de type quantitatif

dM2ik(xi, xk) = (Ri - Rk)tMik-1 (Ri - Rk) ( 40)

avec Mik la matrice des variances-covariances (symétrique et définie positive et M

ik-1 désigne l'inverse de la matrice Mik).

Si Mik est égale à la matrice identité alors la distance au carré de Mahalanobis est la même que la distance Euclidienne au carré, soit :

d2(xi, xk) = (Ri - Rk)t (Ri - Rk) ( 41)

(2) Pour les données de type qualitatif

La distance d(ap,aq) entre deux centres de classes ap et aq repose sur la définition de la similitude s_k(ap,aq) de la caractéristique endogène k des centres de classes et de son coefficient de pondération correspondant δk.

d(ap,aq) = 1r

k=1 r δδδδk*s_k(ap,aq) ( 42) avec

k=1 r δδδδk = 1

(a) pour la classification ascendante hiérarchique

La similitude de la caractéristique qualitative k entre les centres de classes ap et aq

est calculée à partir des paramètres endogènes Aik et Ajk des articles xi et xj appartenant respectivement aux classes (Cp) et (Cq). Soit :

s_k(ap,aq) = n 1 p*nqi=1 npj=1 nq s(Aik,Ajk) ( 43)

La similitude s(Aik,Ajk) des caractéristiques qualitatives Aik et Ajk des articles xi et xj

• Soit par une procédure de reconnaissance de chaîne de caractères. Par exemple, si la caractéristique Aik est similaire à la caractéristique Ajk alors s(Aik,Ajk)=0 sinon

s(Aik,Ajk)=1.

Soit par une matrice de similitude entre les valeurs de la caractéristique qualitative k. Cette matrice de similitude est équivalente à une matrice de codage des valeurs de la variable qualitative en valeurs quantitatives traduisant les connaissances intuitives du responsable de l'entreprise par rapport à la nomenclature des produits de l'entreprise. En règle générale, plus les caractéristiques qualitatives sont similaires, plus la valeur quantitative de la similitude est proche de 0 et, inversement, proche de 1. Par exemple, les chaînes de caractères des coloris "9040noir" et "noir9425" sont différentes mais représentent une même couleur noire suivant différentes tonalités. La similitude s("9040noir","noir9425") entre ces deux coloris possède une valeur proche de 0. De ce fait, la similitude entre les caractéristiques qualitatives Aik et Ajk des articles xi et xj peut être définie par s(Aik,Ajk).

Dans notre application [HAP 97 ], la formulation de s(ap,aq) s'écrit de la façon suivante :

s(ap,aq)=(δδδδ1*s_Y(ap,aq)+δδδδ2*s_G(ap,aq)+δδδδ3*s_M(ap,aq)+

δδδδ4*s_U(ap,aq)+δδδδ5*s_C(ap,aq)+δδδδ6*s_D(ap,aq)) ( 44)

Les fonctions de similitudes : s_Y, s_G, s_M et s_U, sont basées sur une procédure de reconnaissance de chaînes de caractères. Les fonctions de similitudes : s_C et s_D, reposent sur une matrice de codage des différentes valeurs des caractéristiques qualitatives.

(b) pour la classification par partition floue

La similitude de la caractéristique qualitative k entre les centres de classes ap et aq

est calculée par :

s_k(ap,aq) = d2(Aap,k,Aaq,k) ( 45)

où d2 représente la distance Euclidienne entre les vecteurs Aap,k et Aaq,k des coefficients quantitatifs associés aux valeurs des caractéristiques.