Présentation de la procédure informatique HPCA2 écrite en langage R

en langage R. . . 64

3.3 Apport de l'ACP de variable de type histogramme basée

Ce chapitre présente la méthode II. Il s'agit d'une ACP d'histogrammes à partir du produit scalaire (cf. Makosso et Diday 2009). Dans la méthode I, les composantes principales généralisées s'obtiennent à partir de m systèmes d'axes principaux dié- rents. On souhaite donc, contrairement à la méthode I, construire des composantes principales généralisées notées Zα à partir d'un seul système d'axes principaux. Ce

système d'axes permettra d'analyser conjointement les tableaux H(k)_,

k=1,...,m. Pour

ce faire, on utilise dans la méthode II le produit scalaire dans Rm_{. Pour deux m-}

vecteurs x = (x(1)_{, . . . , x}(m)₎ _{et y = (y}(1)_{, . . . , y}(m)₎_{, le produit scalaire est tel que}

x × y = xy = Pm

k=1x(k)y(k). On étend ce produit scalaire aux matrices d'histo-

grammes. Le système d'axes principaux dans la méthode II est alors le système d'axes que l'on obtient en diagonalisant la matrice de covariance empirique 1

t_H

(où H représente la matrice n × p d'histogrammes) induite par le produit scalaire. Les composantes principales extraites dans cette méthode s'obtiennent à travers le produit matriciel entre la matrice d'histogrammes H et un p-uplet ordinaire. Les outils numériques (somme pondérée des coecients de corrélations de Pear- son, somme pondérées des coecients de corrélations de Pearson au carré, RV de Escouer (1973), contributions) et graphiques pour l'interprétation des sorties sont presque identiques de ceux développés dans l'ACP des variables de type histogramme associées au rang des modalités.

3.1. Principe de l'ACP de variables de type histogramme basée sur le

produit scalaire. 55

3.1 Principe de l'ACP de variables de type histogramme

basée sur le produit scalaire.

3.1.1 Etapes de l'ACP de variables de type histogramme basée sur le produit scalaire.

Les étapes relatives à la méthode II sont les suivantes : 1. Données en entrée :

On dispose (comme dans le chapitre 2) en entrée de p variables symboliques de type histogramme Y1, . . . , Yp. Ces variables sont chacune représentée par

un tableau n×m et induisent une matrice n×p de m-uplet (donc une matrice n × mp classique) H =      H11 H12 . . . H1p H21 H22 . . . H2p ... ... ... ... Hn1 Hn2 . . . Hnp      2. Etapes :

Centrage de chaque colonne (de la matrice Yj de taille n×m ) correspondant

aux modalités de chaque variable.

Calcul de la matrice covariance empirique W = 1

nHtH. W est une matrice

p × p ordinaire.

Détermination des vecteurs propres de W notés u1, . . . , up.

Détermination des composantes principales Zα, α = 1, . . . , p. Soit uα, le

αième vecteur propre de W. On a :

Zα= Huα=      H11 H12 . . . H1p H21 H22 . . . H2p ... ... ... ... Hn1 Hn2 . . . Hnp         u1α ... upα    Zα =      H11u1α+ H12u2α+ . . . + H1pupα H21u1α+ H22u2α+ . . . + H2pupα ... Hn1u1α+ Hn2u2α+ . . . + Hnpupα      (3.1) où pour Hij ∈ Rm et uα ∈ Rp Hijuα= H(1)_ij uα, . . . , H (m) ij uα , (3.2) i = 1, . . . , n; j = 1, . . . , p; α = 1, . . . , p.

3. Sorties de l'ACP de variables de type histogramme basée sur le produit scalaire :

Visualisation des coordonnées des projections des modalités des individus sur les axes factoriels

Les cartes des corrélations entre variables initiales et composantes principales par le RV de Escouer (1973), la somme pondérée des corrélations, la somme pondérée des carrés des corrélations,

Les tableaux contenant les composantes principales (généralisées) Zα, le RV

de Escouer, la somme pondérée des corrélations, la somme pondérée des carrées des corrélations, les contributions, le pourcentage de variabilité des valeurs propres.

3.1. Principe de l'ACP de variables de type histogramme basée sur le

produit scalaire. 57

Table 3.1 Entrée : Variable symbolique de type histogramme.

Cancer1 Cancer2 Niveau de risque [0,1/3[ [1/3,2/3[ [2/3,1[ [0,1/3[ [1/3,2/3[ [2/3,1[ Region 1 0.05 0.25 0.70 0.65 0.25 0.1 Region 2 0.20 0.30 0.50 0.50 0.40 0.1 Region 3 0.70 0.20 0.10 0.20 0.30 0.5 Region 4 0.50 0.40 0.10 0.10 0.30 0.6 Region 5 0.80 0.10 0.10 0.70 0.10 0.2 Region 6 0.30 0.55 0.15 0.05 0.45 0.5 Region 7 0.19 0.31 0.50 0.40 0.30 0.3

3.1.2 Produit scalaire et produit matriciel. 3.1.2.1 Produit scalaire de deux histogrammes.

Soit Hm l'espace contenant des histogrammes à m modalités. Dans la méthode

II le produit de deux histogrammes Hi1j1 et Hi2j2 appartenant à Hm est déni de

sorte que : Hi1j1 × Hi2j2 = H (1) i1j1H (1) i2j2+ . . . + H (m) i1j1H (m) i2j2 = m X k=1 H(k)_i 1j1H (k) i2j2 (3.3)

Ce produit représente le produit scalaire entre deux vecteurs de l'espace Rm_.

On peut également utiliser le produit Hi1j1 × Hi2j2 = q H(1)_i 1j1 q H(1)_i 2j2+ . . . + q H(m)_i 1j1 × q H(m)_i 2j2 = m X k=1 q H(k)_i 1j1 q H(k)_i 2j2 (3.4)

Le produit (3.4) induit la distance de Hellinger. L'avantage de cette distance est que tous les m-vecteurs histogrammes sont de norme 1. C'est d'ailleurs ce qui justie son usage dans l'extension du M.D.S (Multi Dimensional Scaling) des variables de type histogramme (cf. Groenen et al. (2006)). Le produit (3.3) a cependant l'avantage de la linéarité et permet ainsi d'eectuer des analyses linéaires. Si on considère la table3.1par exemple, le produit entre les histogrammes

H11=(0.05,0.25,0.70) et H12=(0.65,0.25,0.10) est :

H11× H12= (0.05, 0.25, 0.70) × (0.65, 0.25, 0.10) = 0.165

3.1.2.2 Calcul matriciel.

Soient MH et NH deux matrices d'histogrammes. Pour se xer les idées, supposons que M H = M H11 M H12 M H21 M H22 , NH = N H11 N H12 N H21 N H22

où MHij, i = 1, 2; j = 1, 2, NHij, i = 1, 2; j = 1, 2sont des histogrammes.

La somme de deux matrices d'histogrammes est telle que M H + N H =

M H11+ N H11 M H12+ N H12

M H21+ N H21 M H22+ N H22

où MHij+ N Hij s'eectue conformément à la somme de deux vecteur de Rm.

Le produit de deux matrices d'histogrammes : M N × N H = M H11 M H12 M H21 M H22 × N H11 N H12 N H21 N H22 = M H11× N H11+ M H12× N H21 M H11× N H12+ M H12× N H22 M H21× N H11+ M H22× N H21 M H21× N H12+ M H22× N H22

Il en résulte de cette dénition que le produit deux matrices d'histogrammes donne une matrice de scalaires. L'importance des matrices des produits scalaires en analyses des données a été évoquée par plusieurs auteurs tels que Cazes et al. (1976), Robert et Escouer (1976), L'Hermier des Plantes (1976), Glaçon (1981),. . .

Le produit d'une matrice d'histogrammes et d'un vecteur réel

La condition pour eectuer ce produit est que le nombre de colonnes de la matrice d'histogrammes soit égal au nombre de lignes du vecteur réel. Si on a une matrice d'histogrammes n × p, le vecteur de réels doit être de taille p × 1. Le produit entre la matrice d'histogrammes H de taille (n, p) de m-uplets (Hij) et un vecteur uα =

(u1α, . . . , upα)t de taille (p × 1) est spécié par la relation3.1. On a alors

Huα=    H11(1)u1α+ . . . + H1p(1)upα, . . . , H11(m)u1α+ . . . + H1p(m)upα ... Hn1(1)u1α+ . . . + Hnp(1)upα, . . . , Hn1(m)u1α+ . . . + Hnp(m)upα    (3.5) Huα = H(1)uα, . . . , H(m)uα

où Hijuα est donnée par l'équation 3.2. H(1), . . . , H(m) représentent respectivement

les tableaux n × p des premières, deuxième, . . . , mième modalités.

3.1.2.3 Produit scalaire de deux variables de type histogramme. Soit D la métrique de variable histogramme constituée à partir des poids des individus pi = 1/n, i.e., D est une matrice diagonale dont les éléments diagonaux

sont les pi. Le produit scalaire<, >D entre deux variables histogrammes Yj et Yj0

est : < Yj, Yj0 >_D= 1 n n X i=1 Hij × Hij0 = 1 n n X i=1 m X k=1 H(k)_ij H(k)_ij0 (3.6)

3.1. Principe de l'ACP de variables de type histogramme basée sur le

produit scalaire. 59

3.1.3 Formulation de la méthode II basée sur le produit scalaire. Lorsqu'on considère le vecteur Yj = (Hij), i = 1, . . . , n, (où Hij =

(H(1)_ij , . . . , H(m)_ij )) l'histogramme moyen est : H.j =

H1j+ . . . + Hnj

n .

H.j est de taille (m, 1). Le barycentre G d'histogrammes est

G = H.1, . . . , H.p

Si H est le tableau d'histogrammes initial cubique de taille n × p dont les éléments Hij sont des m-uplets, le tableau Hc obtenu après le centrage de H est alors :

Hc= H − 1nGt où 1n= (1, . . . , 1)t∈ Rn

Dn×n est la métrique de variable histogramme constituée à partir des poids des

individus pi = 1/n, i.e., Dn×nest une matrice diagonale dont les éléments diagonaux

sont les pi.

La matrice de variance covariance du tableau d'histogrammes H est alors : W = HtDn×nH − GGt= (Hc)tDn×nHc=

1 n(H

c₎t_Hc _(3.7)

W est une matrice p × p ordinaire.

3.1.3.1 Covariance de deux variables de type histogramme Yj et Yj0.

Soient Yj et Yj0 deux variables de type histogramme. On suppose que Y_j et Y_j0

sont centrées, i.e., Yij = Hij −→ (Yij − H.j) = (Hij − H.j)et Yij0 −→ (Y_ij0 − H_.j0) =

(Hij0 − H_.j0).

La covariance empirique entre Yj et Yj0 est alors :

Cov(Yj, Yj0) =< Y_j, Y_j0 >_D n×n= Y t jDn×nYj0 = 1 nY t jYj0. (3.8)

Il en résulte que si Z = Hu où H est une matrice centrée d'histogrammes n × p et u un p-vecteur de réel, alors la variance de Z est dans ce cas :

V ar(Z) = V ar(Hu) = ut HtDn×nH u = utW u (3.9)

Dénition 3.1.1 Soient Z1 = Hu1, . . . , Zp = Hup, p combinaisons linéaires des

variables de type histogramme du tableau H. Z1, . . . , Zp, sont appelées respectivement

première, deuxième, . . . , pième composantes principales généralisées si elle sont orthogonales et sont respectivement de variance maximale, i.e.,

3.1.3.2 Détermination des composantes principales généralisées Zα.

On suppose que H est centrée. Soit W = 1

t_H_{la matrice de variance covariance}

et soient u1, . . . , up les p premiers vecteurs propres respectifs de W.

Proposition 3.1.1 Le vecteur de m-uplet Zα = Huα obtenue à partir du produit

matriciel d'une matrice centrée H d'histogrammes n × p et d'un vecteur u de réels p × 1 est une composante principale généralisée de H.

Démonstration :

Pour qu'il en soit ainsi il faut et il sut que Zα soit une combinaison linéaire des

variables initiales, que Zα ait une variance optimale et que Zα soit orthogonale à

Zβ pour tout β 6= α.

Zα= Huα est une combinaison linéaire des variables initiales.

Supposons que uα et uβ soient les deux premiers vecteurs propres de W. Montrons

alors que la variance de Zα= Huα est supérieure à celle de Zβ = Huβ.

V ar(Zα) = V ar(Huα) = utα HtDn×nH uα = utα 1 nH t_Hu α V ar(Zα) = utαWuα= utαλαuα= λαutαuα = λα× 1 = λα V ar(Zα) = λα > λβ = V ar(Zβ)

Zα est donc de variance maximale.

Enn, le produit scalaire entre Zα et Zβ est

< Zα, Zβ >Dn×n= u t α 1 nH t_Hu β = utαWuβ = utαλαuβ = λαutαuβ = 0 d'où l'orthogonalité.

Zα et Zβ sont donc des composantes principales généralisées.

3.1.3.3 Pourcentage de variabilité des valeurs propres. Le pourcentage de variabilité d'une valeur propre λα est

Pλα =

λα

α=1λα

3.1. Principe de l'ACP de variables de type histogramme basée sur le

produit scalaire. 61

Table 3.2 Sortie : Composante Principale extraite à partir de l'ACP de variables de type histogramme basée sur le produit scalaire.

Composante1 Composante2 Niveau de risque [0,1/3[ [1/3,2/3[ [2/3,1[ [0,1/3[ [1/3,2/3[ [2/3,1[ Region 1 0.271 -0.097 -0.563 0.592 0.339 0.426 Region 2 0.067 -0.068 -0.388 0.534 0.495 0.329 Region 3 -0.515 -0.029 0.154 0.514 0.359 0.485 Region 4 -0.388 -0.204 0.203 0.329 0.456 0.573 Region 5 -0.360 -0.039 0.009 1.000 0.135 0.223 Region 6 -0.238 -0.263 0.111 0.189 0.660 0.510 Region 7 0.027 -0.125 -0.292 0.441 0.412 0.504

3.1.4 Exemple sur les données Cancer.

Nous appliquons l'ACP de variables de type histogramme basée sur le produit scalaire. On utilise les données de la table3.1qui contiennent les variables Cancer1

et Cancer2 précédemment présentées. Les deux premières composantes principales (cf. table 3.2) ont respectivement une variabilité de l'ordre de Pλ1 = 63.40168% et

Pλ2 = 36.59832% (cf. équation3.10).

3.1.5 Sorties de l'ACP de variables de type histogramme basée sur le produit scalaire.

Les outils que l'on propose sont presque identiques à ceux présentés dans la méthode I. Ce sont :

1. la visualisation des coordonnées des projections des modalités de chaque individu.

2. la carte des corrélations. Les formules des contributions et des corrélations entre composantes principales et variables de type histogramme sont les mêmes que celles proposées dans l'ACP d'histogrammes associée au rang des modali- tés.

● ● ● ● ● ● ● −1.0 −0.5 0.0 0.5 0.2 0.4 0.6 0.8 1.0

HPCA2: Visualisation de l'Evolution des Individus Symboliques sur les Axes

Axe n°1 Ax e n°2 Region1 1 Region1 2 Region1 3 Region1 4 Region1 5 Region1 6 Region1 7 Modalite 1 Modalite 2 Modalite 3 ● ● ● ● ● ● ●

Figure 3.1 Méthode II : Visualisation des coordonnées des projections des mo- dalités des individus sur les axes.

3.1.5.1 Visualisation des coordonnées des projections des modalités des individus.

Supposons que pour l'individu ωi, i = 1, . . . , n, les deux premières composantes

principales généralisées soient Z1 =

a(1)_i1 , . . . , a(m)_i1 et Z2 = a(1)_i2 , . . . , a(m)_i2 , i.e., a(k)_iα = Pp j=1Hij (k)_u

jα. On représente dans le plan, les m positions de l'individu

ωi représentées par l'évolution de

a(1)_i1 , a(1)_i2 −→ a_i1(2), a(2)_i2 , de a(2)_i1 , a(2)_i2 −→

a(3)_i1 , a(3)_i2 , . . . , de a(m−1)_i1 , a_i2(m−1)−→a(m)_i1 , a(m)_i2 .

La gure 3.1 est un exemple dans lequel on représente l'évolution des individus

symboliques sur les axes factoriels selon les modalités. On constate par exemple que la Région5 a la plus forte modalité 1 de la composante 2, la modalité 3 de la composante 1 de la région 1 est négative et est la plus grande en valeur absolue. Les cartes des corrélations devraient permettre d'expliquer à partir des variables ces constatations.

3.1.5.2 Carte des corrélations.

Au niveau des cartes de corrélation on utilise, comme dans l'ACP des variables de type histogramme associées au rang des modalités, les formules (2.2), (2.4) ou le RV de Escouer (1973) (cf. relation (2.5)). Les gures 3.2 et 3.3 représentent

(cf. annexe 1 tables 9.19,9.20) les cartes de corrélation lorsqu'on utilise la somme

pondérée des corrélations κ, le RV de Escouer (1973). Dans la gure3.2on pressent

que la liaison entre la variable Cancer1 et la composante généralisée 1 est forte mais négative tandis que la liaison entre la composante 1 et la variable Cancer 2 est forte et positive. Cela facilite l'interprétation de la gure 3.1 dans la mesure

3.1. Principe de l'ACP de variables de type histogramme basée sur le produit scalaire. 63 ● ● −2 −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

HPCA2: Moyenne des Correlations entre composantes et variables

Composante n°1

Composante n°2

Cancer1

Cancer2

Figure 3.2 Méthode II : Moyenne des corrélations entre composantes principales et variables intiales. ● ● −1.0 −0.5 0.0 0.5 1.0 1.5 −0.2 0.0 0.2 0.4 0.6 0.8 1.0

HPCA2: RV de Escouffier des variables

Composante n°1

Composante n°2

Cancer1 Cancer2

Figure 3.3 Méthode II : RV de Escouer entre composantes principales et variables intiales.

où la somme pondérée des coecients de corrélation met en évidence des liaisons négatives. On constate à partir des gures 3.2et 3.1que les région1 et région2 ont

des valeurs numériques élevées pour la modalité 3 de la variable Cancer1. La région4 a une forte valeur de la modalité 1 de la variable cancer1 et une forte valeur de la modalité 3 de la variable Cancer2. La somme pondérée des coecients de corrélation n'est pas toujours convenable. L'usage du RV de Escouer (1973) peut sembler plus approprié (cf. gure3.3). Cependant, avec le RV de Escouer, l'on ne pourra mettre

en évidence les liaisons négatives.

3.2 Présentation de la procédure informatique HPCA2

écrite en langage R.

La procédure HPCA2 écrite en langage R déroule l'ACP de variable de type histogramme basée sur le produit scalaire. Comme la procédure HPCA1, HPCA2 a en entrée une liste de variables stockées sous la forme de data frame. Ces arguments sont les suivants :

HPCA2( T1,...,Tp, p,axes,xlim=,ylim=,xlegend=,ylegend=NULL, nomInd=NULL,nomVar,xlimvar,ylimvar)

T1, . . . Tp, représente les variables de type histogramme stockées sous forme de

data frame. Les Tj, j = 1 . . . , p sont en fait des tableaux classiques de taille

n × m.

p représente le nombre de variables de type histogramme.

axes=c(axeα,axeβ) représente les αième et βième axe que l'on souhaite visua-

liser. Par défaut, le programme a été initialisé à axes = c(1, 2). Il représente donc les axes 1 et 2.

xlim = c(. . . , . . .) et ylim = c(. . . , . . .) sont les bornes des axes des abscisses et des ordonnées.

xlegend et ylegend sont des arguments pour positionner la légende. Ils sont paramétrés par défaut.

nomInd=c('individu1',. . . ,'individun') est un argument pour nommer les in-

dividus. Il est également déni par défaut.

nomVar=c('variable1',. . . ,'variablep') est un argument pour nommer les va-

riables.

xlimvar = c(xmin, xmax), ylimvar = c(ymin, ymax) sont les limites des bornes

3.3. Apport de l'ACP de variable de type histogramme basée sur le

produit scalaire et perspectives. 65

3.3 Apport de l'ACP de variable de type histogramme

basée sur le produit scalaire et perspectives.

La méthode II, i.e, l'ACP de variable de type histogramme basée sur le produit scalaire, comme l'approche de Nagabhushan et Kumar (2007), construit des composantes principales généralisées. La méthode II utilise le produit scalaire de deux histogrammes dans Rm_{. Elle construit également des composantes principales}

généralisées qui, comme dans le cas de l'approche de Nagabhushan et Kumar (2007), ne sont pas des variables de type histogramme mais des variables symboliques quantitatives à valeurs multiples. Par ailleurs, contrairement à l'approche de Nagabhusan et Kumar (2007), la méthode II fournit un système d'axes communs à l'ensemble des modalités des composantes principales. L'intérêt majeur de cette approche est le fait de pouvoir, contrairement à l'approche de Nagabhushan et Kumar (2007), réduire la dimension des données à partir d'un seul système d'axes. En construisant des composantes principales généralisées Z1, . . . , Zp à partir des

variables de type histogramme Y1, . . . , Yp, l'ACP de variable de type histogramme

basée sur le produit scalaire permet de retenir un nombre restreint de composantes Z1, . . . , Zq avec q < p. Cette réduction de la taille de la dimension des données est

d'un grand intérêt en classication non supervisée (clustering).

Toutefois, au niveau des inconvénients, excepté le fait que l'ACP de variable de type histogramme basée sur le produit scalaire permette d'avoir un système d'axe commun, elle a quasiment les mêmes défauts que l'ACP d'histogrammes associée au rang des modalités. On a entre autre le fait de ne pouvoir traiter les variables n'ayant pas le même nombre de modalités et le fait d'ignorer la contrainte unitaire (Pm

k=1H

(k)

ij = 1). Enn, quand le nombre de modalités est très grand, les

graphiques deviennent diciles à interpréter. Dans les chapitres qui suivent nous proposons des approches nouvelles qui essaient de venir à bout de ces inconvénients.

Chapitre 4

Méthode III : ACP

d'histogrammes à partir de

transformations normalisatrices.

Sommaire

4.1 Principe de l'ACP d'histogrammes à partir de transforma-

tions normalisatrices. . . 69

4.2 Formulation de l'ACP d'histogrammes à partir de trans-

formations normalisatrices.. . . 70

4.2.1 Opérateur ⊗2produit. . . 70

4.2.2 Problèmes posés par la contrainte unitaire. . . 73

4.2.2.1 Problèmes de courbures. . . 73

4.2.2.2 Problèmes posés par la contrainte unitaire . . . 74

4.2.2.3 Le problème du biais négatif . . . 75

4.2.3 Résolutions des problèmes inhérents aux données composition-

nelles par le choix d'une transformation. . . 77

4.2.3.1 Transformation angulaire ou Arcsinus . . . 77

4.2.3.2 Transformation racine carrée : . . . 80

4.2.3.3 Transformations logarithmiques.. . . 80

4.2.4 Détermination des axes principaux et composantes principales généralisées de l'ACP d'histogrammes à partir de transforma-

tions normalisatrices.. . . 82

4.2.4.1 Moyenne et covariance empirique. . . 82

4.2.5 Composantes principales, Outils numériques et graphiques. . 84

4.2.5.1 Composantes principales.. . . 84

4.2.5.2 Outils numériques. . . 84

Dans le document Analyse en composantes principales de variables symboliques de type histogramme (Page 67-81)