• Aucun résultat trouvé

2.6 Etude exp´erimentale

2.6.1 Jeu de donn´ees Huiles

Ce jeu de donn´ees regroupe des informations concernant des huiles et des graisses (Ichino et Yaguchi, 1994). Il contient n = 8 observations, chacune d´ecrite par 4 variables de type intervalle et une variable multivalu´ee (voir tableau 2.6, p.77). Il est connu que les paires d’observations (1,2) ;(3,4) ;(5,6) et (7,8) ont des propri´et´es similaires. La figure 2.2 repr´esente le dendrogramme r´esultant de la classification hi´erarchique ascendante de ce jeu de donn´ees en utilisant le crit`ere du saut minimal (Ichino et Yaguchi, 1994), sachant que la distance euclidienne g´en´eralis´ee est utilis´ee pour calculer la proximit´e entre deux observations (voir ´equation (2.3), p.59) avec une valeur pour γ valant 0.5 et une valeur commune pour les poids ζj, j ∈ {1, . . . , 5} qui vaut 1/5 (en supposant que toutes les variables sont de mˆeme importance).

Tableau 2.6 – Jeu de donn´ees Huiles.

Observation Densit´e Pt de cong´elation Ind. d’Iode Ind. de Saponification Acides gras 1-Huile de lin [0.930,0.935] [-27,-18] [170,204] [118,196] {L, Ln, O, P, M} 2-Huile de perilla [0.930,0.937] [-5,-4] [192,208] [188,197] {L, Ln, O, P, S} 3-Huile de coton [0.916,0.918] [-6,-1] [99,113] [189,198] {L, O, P, M, S} 4-Huile de s´esame [0.920,0.926] [-6,-4] [104,116] [187,193] {L, O, P, S, A} 5-Huile de camelia [0.916,0.917] [-21,-15] [80,82] [189,193] {L, O} 6-Huile d’olive [0.914,0.919] [0,6] [79,90] [187,196] {L, O, P, S} 7-Suif de boeuf [0.860,0.870] [30,38] [40,48] [190,199] {O, P, M, S, C} 8-Graisse de porc [0.858,0.864] [22-32] [53,77] [190,202] {L, O, P, M, S, Lu} L : acide linol´eique, Ln : acide linol´enique, O : acide ol´eique, P : acide palmitique, M : acide myristique, S : acide

st´earique, A : acide arachidique, C : acide caprique, Lu : acide laurique

0.1 0.2 1-Huile de lin 2-Huile de perilla 3-Huile de coton 4-Huile de sésame 5-Huile de camelia 6-Huile d’olive 7-Suif de boeuf 8-Graisse de porc

Figure 2.2 – Dendrogramme avec le crit`ere du saut minimal pour le jeu de donn´ees Huiles.

Carte auto-organisatrice pour des donn´ees symboliques homog´en´eis´ees (1`ere

approche). Apr`es avoir homog´en´eis´e les donn´ees suivant la technique d´e-crite `a la sous-section 2.5.1, les donn´ees r´esultantes sont utilis´ees pour entraˆıner une carte auto-organisatrice unidimensionnelle de K = 3 neurones (lig = 1, col = 3).

L’apprentissage de la carte est fait suivant l’algorithme 2.7. Le rayon de voisinage a une valeur initiale de σinit = 1.5 et une valeur finale de σf inal = 0.1. Le nombre total d’it´erations est T = 100 et les vecteurs prototypes initiaux sont choisis al´eatoirement parmi les observations.

Visualisation et qualit´e de la carte. Afin de pouvoir visualiser les don-n´ees et les vecteurs prototypes, nous utilisons la technique d´ecrite dans l’annexe B afin de projeter la carte et les donn´ees sur un espace bidimensionnel. La figure 2.3 montre le r´esultat de l’analyse en composantes principales des donn´ees et des vecteurs prototypes connect´es par leur centre. Nous remarquons un bon degr´e de d´eploiement de la carte sur les donn´ees et un bon degr´e de pr´eservation de la topo-logie (chaque prototype est connect´e `a ses voisins). L’erreur topographique d´efinie dans l’´equation (1.24) est de 0%.

−15 −10 −5 0 5 10 15 −15 −10 −5 0 5 10 Données Prototypes

Centres des prototypes Premier axe principal

D eu xi èm e axe p ri nc ip al

1 3

2

Figure2.3 – Projection des donn´ees et des prototypes pour le jeu de donn´ees Huiles. R´esultats de la classification. En affectant chaque observation `a son neu-rone vainqueur, nous obtenons une partition de 3 classes. La figure 2.4 montre la r´epartition des observations sur les trois neurones. En comparant ce r´esultat avec la m´ethode de la classification hi´erarchique ascendante (Ichino et Yaguchi, 1994), nous obtenons des r´esultats similaires. En effet, en examinant le dendrogramme de la figure 2.2, nous remarquons qu’en coupant le dendrogramme de fa¸con `a avoir 3

classes, les observations 3, 4, 5 et 6 appartiennent `a la mˆeme classe alors que dans notre approche, l’observation 4 appartient `a la mˆeme classe que les deux premi`eres observations. Ajoutons aussi qu’en traitant les donn´ees avec une carte auto-organi-satrice, nous obtenons une information suppl´ementaire sur la proximit´e des classes. Les individus appartenant `a la classe C3 sont plus proches de ceux de la classe C2

que ceux de la classe C1.

7-Suif de boeuf

8-Graisse de porc

C1 C2

3-Huile de coton

5-Huile de camelia

6-Huile d’olive

1-Huile de lin

2-Huile de perilla

4-Huile de sesame

C3

Figure 2.4 – Carte auto-organisatrice obtenue pour le jeu de donn´ees Huiles avec l’algorithme SOM pour donn´ees homog´en´eis´ees.

Cette mˆeme approche est utilis´ee dans Hajjar et Hamdan (2012c) et test´ee moyennant deux autres jeux de donn´ees symboliques r´eelles.

Carte auto-organisatrice pour des donn´ees symboliques mixtes (2`eme

ap-proche). L’apprentissage d’une carte auto-organisatrice unidimensionnelle de K = 3 neurones est fait suivant l’algorithme 2.8 avec les mˆemes param`etres pour la carte choisis dans la premi`ere m´ethode (σinit = 1.5, σf inal = 0.1, T = 100). L’entr´ee de l’al-gorithme est la matrice de distances obtenue en calculant les distances euclidiennes g´en´eralis´ees entre les observations suivant l’´equation (2.3), en affectant au param`etre γ la valeur 0.5 et aux poids ζj, j ∈ {1, . . . , 5} la mˆeme valeur 1/5 (en supposant que toutes les variables sont de mˆeme importance). Le tableau 2.7 repr´esente la matrice des distances du jeu de donn´ees Huiles.

Tableau 2.7 – Matrice des distances pour le jeu de donn´ees Huiles.

obs.1 obs.2 obs.3 obs.4 obs.5 obs.6 obs.7 obs.8 obs.1 0 0.1046 0.1493 0.1456 0.1632 0.1748 0.3136 0.2946 obs.2 0.1046 0 0.1217 0.1128 0.1575 0.1464 0.2839 0.2647 obs.3 0.1493 0.1217 0 0.0289 0.0634 0.0349 0.1913 0.1773 obs.4 0.1456 0.1128 0.0289 0 0.0646 0.0440 0.2103 0.1963 obs.5 0.1632 0.1575 0.0634 0.0646 0 0.0690 0.2184 0.2035 obs.6 0.1748 0.1464 0.0349 0.0440 0.0690 0 0.1720 0.1623 obs.7 0.3136 0.2839 0.1913 0.2103 0.2184 0.1720 0 0.0481 obs.8 0.2946 0.2647 0.1773 0.1963 0.2035 0.1623 0.0481 0

R´esultats de la classification. La figure 2.5 montre la r´epartition des ob-servations sur les neurones de la carte auto-organisatrice. Les vecteurs prototypes ou individus r´ef´erents sont encadr´es dans chaque classe. En calculant la somme des dis-tances entre une observation donn´ee et les autres observations de la deuxi`eme classe, nous constatons qu’avec l’observation 3, cette somme de distances est minimale. En effet :

– d(3, 4) + d(3, 5) + d(3, 6) = 0.1270 – d(4, 3) + d(4, 5) + d(4, 6) = 0.1376 – d(5, 3) + d(5, 4) + d(5, 6) = 0.1971 – d(6, 3) + d(6, 4) + d(6, 5) = 0.1478

Ce qui justifie que l’observation « 3-Huile de coton » est le vecteur prototype ou l’individu r´ef´erent de la classe C2. Le r´esultat de cette classification correspond parfaitement `a celui obtenu quand la m´ethode de classification hi´erarchique est utili-s´ee (Ichino et Yaguchi, 1994) en coupant le dendrogramme de la figure 2.2 de fa¸con `a avoir 3 classes. En outre, d’apr`es l’organisation des neurones sur la carte auto-orga-nisatrice, nous pouvons conclure que les individus de la classe C1 sont plus proches de ceux de la classe C2 que ceux de la classe C3, sachant que l’erreur topographique obtenue est te = 0% (voir ´equation (1.24), p.34). Il est `a noter que la premi`ere ap-proche (SOM pour donn´ees homog´en´eis´ees) donne des r´esultats comparables `a cette approche sauf pour l’observation 4.

7-Suif de boeuf

8-Graisse de porc

C1

3-Huile de coton

4-Huile de sesame

5-Huile de camelia

6-Huile d’olive

1-Huile de lin

2-Huile de perilla

C3

C2

Figure 2.5 – Carte auto-organisatrice pour le jeu de donn´ees Huiles obtenue avec l’algorithme SOM pour donn´ees mixtes.

Comparaison avec d’autres m´ethodes. En guise de comparaison, le jeu de donn´ees Huiles est utilis´e pour entraˆıner une carte auto-organisatrice de 3 neurones suivant l’algorithme S-SOM (Yang et al., 2012). Le tableau 2.8 montre la r´epartition des observations sur les 3 classes, ce qui permet de conclure que le r´esultat obtenu avec la carte auto-organisatrice pour des donn´ees mixtes correspond le plus `a celui obtenu dans (Ichino et Yaguchi, 1994).

Tableau 2.8 – R´esultats de la classification pour le jeu de donn´ees Huiles avec l’al-gorithme S-SOM.

Classe Observations C1 1-Huile de lin

C2 2-Huile de perilla 3-Huile de coton 4-Huile de s´esame 5-Huile de camelia 6-Huile d’olive C3 7-Suif de boeuf 8-Graisse de porc