en langage R. . . 64
3.3 Apport de l'ACP de variable de type histogramme basée
Ce chapitre présente la méthode II. Il s'agit d'une ACP d'histogrammes à partir du produit scalaire (cf. Makosso et Diday 2009). Dans la méthode I, les composantes principales généralisées s'obtiennent à partir de m systèmes d'axes principaux dié- rents. On souhaite donc, contrairement à la méthode I, construire des composantes principales généralisées notées Zα à partir d'un seul système d'axes principaux. Ce
système d'axes permettra d'analyser conjointement les tableaux H(k),
k=1,...,m. Pour
ce faire, on utilise dans la méthode II le produit scalaire dans Rm. Pour deux m-
vecteurs x = (x(1), . . . , x(m)) et y = (y(1), . . . , y(m)), le produit scalaire est tel que
x × y = xy = Pm
k=1x(k)y(k). On étend ce produit scalaire aux matrices d'histo-
grammes. Le système d'axes principaux dans la méthode II est alors le système d'axes que l'on obtient en diagonalisant la matrice de covariance empirique 1
nH
tH
(où H représente la matrice n × p d'histogrammes) induite par le produit scalaire. Les composantes principales extraites dans cette méthode s'obtiennent à travers le produit matriciel entre la matrice d'histogrammes H et un p-uplet ordinaire. Les outils numériques (somme pondérée des coecients de corrélations de Pear- son, somme pondérées des coecients de corrélations de Pearson au carré, RV de Escouer (1973), contributions) et graphiques pour l'interprétation des sorties sont presque identiques de ceux développés dans l'ACP des variables de type histogramme associées au rang des modalités.
3.1. Principe de l'ACP de variables de type histogramme basée sur le
produit scalaire. 55
3.1 Principe de l'ACP de variables de type histogramme
basée sur le produit scalaire.
3.1.1 Etapes de l'ACP de variables de type histogramme basée sur le produit scalaire.
Les étapes relatives à la méthode II sont les suivantes : 1. Données en entrée :
On dispose (comme dans le chapitre 2) en entrée de p variables symboliques de type histogramme Y1, . . . , Yp. Ces variables sont chacune représentée par
un tableau n×m et induisent une matrice n×p de m-uplet (donc une matrice n × mp classique) H = H11 H12 . . . H1p H21 H22 . . . H2p ... ... ... ... Hn1 Hn2 . . . Hnp 2. Etapes :
Centrage de chaque colonne (de la matrice Yj de taille n×m ) correspondant
aux modalités de chaque variable.
Calcul de la matrice covariance empirique W = 1
nHtH. W est une matrice
p × p ordinaire.
Détermination des vecteurs propres de W notés u1, . . . , up.
Détermination des composantes principales Zα, α = 1, . . . , p. Soit uα, le
αième vecteur propre de W. On a :
Zα= Huα= H11 H12 . . . H1p H21 H22 . . . H2p ... ... ... ... Hn1 Hn2 . . . Hnp u1α ... upα Zα = H11u1α+ H12u2α+ . . . + H1pupα H21u1α+ H22u2α+ . . . + H2pupα ... Hn1u1α+ Hn2u2α+ . . . + Hnpupα (3.1) où pour Hij ∈ Rm et uα ∈ Rp Hijuα= H(1)ij uα, . . . , H (m) ij uα , (3.2) i = 1, . . . , n; j = 1, . . . , p; α = 1, . . . , p.
3. Sorties de l'ACP de variables de type histogramme basée sur le produit scalaire :
Visualisation des coordonnées des projections des modalités des individus sur les axes factoriels
Les cartes des corrélations entre variables initiales et composantes princi- pales par le RV de Escouer (1973), la somme pondérée des corrélations, la somme pondérée des carrés des corrélations,
Les tableaux contenant les composantes principales (généralisées) Zα, le RV
de Escouer, la somme pondérée des corrélations, la somme pondérée des carrées des corrélations, les contributions, le pourcentage de variabilité des valeurs propres.
3.1. Principe de l'ACP de variables de type histogramme basée sur le
produit scalaire. 57
Table 3.1 Entrée : Variable symbolique de type histogramme.
Cancer1 Cancer2 Niveau de risque [0,1/3[ [1/3,2/3[ [2/3,1[ [0,1/3[ [1/3,2/3[ [2/3,1[ Region 1 0.05 0.25 0.70 0.65 0.25 0.1 Region 2 0.20 0.30 0.50 0.50 0.40 0.1 Region 3 0.70 0.20 0.10 0.20 0.30 0.5 Region 4 0.50 0.40 0.10 0.10 0.30 0.6 Region 5 0.80 0.10 0.10 0.70 0.10 0.2 Region 6 0.30 0.55 0.15 0.05 0.45 0.5 Region 7 0.19 0.31 0.50 0.40 0.30 0.3
3.1.2 Produit scalaire et produit matriciel. 3.1.2.1 Produit scalaire de deux histogrammes.
Soit Hm l'espace contenant des histogrammes à m modalités. Dans la méthode
II le produit de deux histogrammes Hi1j1 et Hi2j2 appartenant à Hm est déni de
sorte que : Hi1j1 × Hi2j2 = H (1) i1j1H (1) i2j2+ . . . + H (m) i1j1H (m) i2j2 = m X k=1 H(k)i 1j1H (k) i2j2 (3.3)
Ce produit représente le produit scalaire entre deux vecteurs de l'espace Rm.
On peut également utiliser le produit Hi1j1 × Hi2j2 = q H(1)i 1j1 q H(1)i 2j2+ . . . + q H(m)i 1j1 × q H(m)i 2j2 = m X k=1 q H(k)i 1j1 q H(k)i 2j2 (3.4)
Le produit (3.4) induit la distance de Hellinger. L'avantage de cette distance est que tous les m-vecteurs histogrammes sont de norme 1. C'est d'ailleurs ce qui justie son usage dans l'extension du M.D.S (Multi Dimensional Scaling) des variables de type histogramme (cf. Groenen et al. (2006)). Le produit (3.3) a cependant l'avantage de la linéarité et permet ainsi d'eectuer des analyses linéaires. Si on considère la table3.1par exemple, le produit entre les histogrammes
H11=(0.05,0.25,0.70) et H12=(0.65,0.25,0.10) est :
H11× H12= (0.05, 0.25, 0.70) × (0.65, 0.25, 0.10) = 0.165
3.1.2.2 Calcul matriciel.
Soient MH et NH deux matrices d'histogrammes. Pour se xer les idées, sup- posons que M H = M H11 M H12 M H21 M H22 , NH = N H11 N H12 N H21 N H22
où MHij, i = 1, 2; j = 1, 2, NHij, i = 1, 2; j = 1, 2sont des histogrammes.
La somme de deux matrices d'histogrammes est telle que M H + N H =
M H11+ N H11 M H12+ N H12
M H21+ N H21 M H22+ N H22
où MHij+ N Hij s'eectue conformément à la somme de deux vecteur de Rm.
Le produit de deux matrices d'histogrammes : M N × N H = M H11 M H12 M H21 M H22 × N H11 N H12 N H21 N H22 = M H11× N H11+ M H12× N H21 M H11× N H12+ M H12× N H22 M H21× N H11+ M H22× N H21 M H21× N H12+ M H22× N H22
Il en résulte de cette dénition que le produit deux matrices d'histo- grammes donne une matrice de scalaires. L'importance des matrices des produits scalaires en analyses des données a été évoquée par plusieurs auteurs tels que Cazes et al. (1976), Robert et Escouer (1976), L'Hermier des Plantes (1976), Glaçon (1981),. . .
Le produit d'une matrice d'histogrammes et d'un vecteur réel
La condition pour eectuer ce produit est que le nombre de colonnes de la matrice d'histogrammes soit égal au nombre de lignes du vecteur réel. Si on a une matrice d'histogrammes n × p, le vecteur de réels doit être de taille p × 1. Le produit entre la matrice d'histogrammes H de taille (n, p) de m-uplets (Hij) et un vecteur uα =
(u1α, . . . , upα)t de taille (p × 1) est spécié par la relation3.1. On a alors
Huα= H11(1)u1α+ . . . + H1p(1)upα, . . . , H11(m)u1α+ . . . + H1p(m)upα ... Hn1(1)u1α+ . . . + Hnp(1)upα, . . . , Hn1(m)u1α+ . . . + Hnp(m)upα (3.5) Huα = H(1)uα, . . . , H(m)uα
où Hijuα est donnée par l'équation 3.2. H(1), . . . , H(m) représentent respectivement
les tableaux n × p des premières, deuxième, . . . , mième modalités.
3.1.2.3 Produit scalaire de deux variables de type histogramme. Soit D la métrique de variable histogramme constituée à partir des poids des individus pi = 1/n, i.e., D est une matrice diagonale dont les éléments diagonaux
sont les pi. Le produit scalaire<, >D entre deux variables histogrammes Yj et Yj0
est : < Yj, Yj0 >D= 1 n n X i=1 Hij × Hij0 = 1 n n X i=1 m X k=1 H(k)ij H(k)ij0 (3.6)
3.1. Principe de l'ACP de variables de type histogramme basée sur le
produit scalaire. 59
3.1.3 Formulation de la méthode II basée sur le produit scalaire. Lorsqu'on considère le vecteur Yj = (Hij), i = 1, . . . , n, (où Hij =
(H(1)ij , . . . , H(m)ij )) l'histogramme moyen est : H.j =
H1j+ . . . + Hnj
n .
H.j est de taille (m, 1). Le barycentre G d'histogrammes est
G = H.1, . . . , H.p
t
Si H est le tableau d'histogrammes initial cubique de taille n × p dont les éléments Hij sont des m-uplets, le tableau Hc obtenu après le centrage de H est alors :
Hc= H − 1nGt où 1n= (1, . . . , 1)t∈ Rn
Dn×n est la métrique de variable histogramme constituée à partir des poids des
individus pi = 1/n, i.e., Dn×nest une matrice diagonale dont les éléments diagonaux
sont les pi.
La matrice de variance covariance du tableau d'histogrammes H est alors : W = HtDn×nH − GGt= (Hc)tDn×nHc=
1 n(H
c)tHc (3.7)
W est une matrice p × p ordinaire.
3.1.3.1 Covariance de deux variables de type histogramme Yj et Yj0.
Soient Yj et Yj0 deux variables de type histogramme. On suppose que Yj et Yj0
sont centrées, i.e., Yij = Hij −→ (Yij − H.j) = (Hij − H.j)et Yij0 −→ (Yij0 − H.j0) =
(Hij0 − H.j0).
La covariance empirique entre Yj et Yj0 est alors :
Cov(Yj, Yj0) =< Yj, Yj0 >D n×n= Y t jDn×nYj0 = 1 nY t jYj0. (3.8)
Il en résulte que si Z = Hu où H est une matrice centrée d'histogrammes n × p et u un p-vecteur de réel, alors la variance de Z est dans ce cas :
V ar(Z) = V ar(Hu) = ut HtDn×nH u = utW u (3.9)
Dénition 3.1.1 Soient Z1 = Hu1, . . . , Zp = Hup, p combinaisons linéaires des
variables de type histogramme du tableau H. Z1, . . . , Zp, sont appelées respectivement
première, deuxième, . . . , pième composantes principales généralisées si elle sont orthogonales et sont respectivement de variance maximale, i.e.,
3.1.3.2 Détermination des composantes principales généralisées Zα.
On suppose que H est centrée. Soit W = 1
nH
tHla matrice de variance covariance
et soient u1, . . . , up les p premiers vecteurs propres respectifs de W.
Proposition 3.1.1 Le vecteur de m-uplet Zα = Huα obtenue à partir du produit
matriciel d'une matrice centrée H d'histogrammes n × p et d'un vecteur u de réels p × 1 est une composante principale généralisée de H.
Démonstration :
Pour qu'il en soit ainsi il faut et il sut que Zα soit une combinaison linéaire des
variables initiales, que Zα ait une variance optimale et que Zα soit orthogonale à
Zβ pour tout β 6= α.
Zα= Huα est une combinaison linéaire des variables initiales.
Supposons que uα et uβ soient les deux premiers vecteurs propres de W. Montrons
alors que la variance de Zα= Huα est supérieure à celle de Zβ = Huβ.
V ar(Zα) = V ar(Huα) = utα HtDn×nH uα = utα 1 nH tHu α V ar(Zα) = utαWuα= utαλαuα= λαutαuα = λα× 1 = λα V ar(Zα) = λα > λβ = V ar(Zβ)
Zα est donc de variance maximale.
Enn, le produit scalaire entre Zα et Zβ est
< Zα, Zβ >Dn×n= u t α 1 nH tHu β = utαWuβ = utαλαuβ = λαutαuβ = 0 d'où l'orthogonalité.
Zα et Zβ sont donc des composantes principales généralisées.
3.1.3.3 Pourcentage de variabilité des valeurs propres. Le pourcentage de variabilité d'une valeur propre λα est
Pλα =
λα
Pp
α=1λα
3.1. Principe de l'ACP de variables de type histogramme basée sur le
produit scalaire. 61
Table 3.2 Sortie : Composante Principale extraite à partir de l'ACP de variables de type histogramme basée sur le produit scalaire.
Composante1 Composante2 Niveau de risque [0,1/3[ [1/3,2/3[ [2/3,1[ [0,1/3[ [1/3,2/3[ [2/3,1[ Region 1 0.271 -0.097 -0.563 0.592 0.339 0.426 Region 2 0.067 -0.068 -0.388 0.534 0.495 0.329 Region 3 -0.515 -0.029 0.154 0.514 0.359 0.485 Region 4 -0.388 -0.204 0.203 0.329 0.456 0.573 Region 5 -0.360 -0.039 0.009 1.000 0.135 0.223 Region 6 -0.238 -0.263 0.111 0.189 0.660 0.510 Region 7 0.027 -0.125 -0.292 0.441 0.412 0.504
3.1.4 Exemple sur les données Cancer.
Nous appliquons l'ACP de variables de type histogramme basée sur le produit scalaire. On utilise les données de la table3.1qui contiennent les variables Cancer1
et Cancer2 précédemment présentées. Les deux premières composantes principales (cf. table 3.2) ont respectivement une variabilité de l'ordre de Pλ1 = 63.40168% et
Pλ2 = 36.59832% (cf. équation3.10).
3.1.5 Sorties de l'ACP de variables de type histogramme basée sur le produit scalaire.
Les outils que l'on propose sont presque identiques à ceux présentés dans la méthode I. Ce sont :
1. la visualisation des coordonnées des projections des modalités de chaque indi- vidu.
2. la carte des corrélations. Les formules des contributions et des corrélations entre composantes principales et variables de type histogramme sont les mêmes que celles proposées dans l'ACP d'histogrammes associée au rang des modali- tés.
● ● ● ● ● ● ● −1.0 −0.5 0.0 0.5 0.2 0.4 0.6 0.8 1.0
HPCA2: Visualisation de l'Evolution des Individus Symboliques sur les Axes
Axe n°1 Ax e n°2 Region1 1 Region1 2 Region1 3 Region1 4 Region1 5 Region1 6 Region1 7 Modalite 1 Modalite 2 Modalite 3 ● ● ● ● ● ● ●
Figure 3.1 Méthode II : Visualisation des coordonnées des projections des mo- dalités des individus sur les axes.
3.1.5.1 Visualisation des coordonnées des projections des modalités des individus.
Supposons que pour l'individu ωi, i = 1, . . . , n, les deux premières composantes
principales généralisées soient Z1 =
a(1)i1 , . . . , a(m)i1 et Z2 = a(1)i2 , . . . , a(m)i2 , i.e., a(k)iα = Pp j=1Hij (k)u
jα. On représente dans le plan, les m positions de l'individu
ωi représentées par l'évolution de
a(1)i1 , a(1)i2 −→ ai1(2), a(2)i2 , de a(2)i1 , a(2)i2 −→
a(3)i1 , a(3)i2 , . . . , de a(m−1)i1 , ai2(m−1)−→a(m)i1 , a(m)i2 .
La gure 3.1 est un exemple dans lequel on représente l'évolution des individus
symboliques sur les axes factoriels selon les modalités. On constate par exemple que la Région5 a la plus forte modalité 1 de la composante 2, la modalité 3 de la composante 1 de la région 1 est négative et est la plus grande en valeur absolue. Les cartes des corrélations devraient permettre d'expliquer à partir des variables ces constatations.
3.1.5.2 Carte des corrélations.
Au niveau des cartes de corrélation on utilise, comme dans l'ACP des variables de type histogramme associées au rang des modalités, les formules (2.2), (2.4) ou le RV de Escouer (1973) (cf. relation (2.5)). Les gures 3.2 et 3.3 représentent
(cf. annexe 1 tables 9.19,9.20) les cartes de corrélation lorsqu'on utilise la somme
pondérée des corrélations κ, le RV de Escouer (1973). Dans la gure3.2on pressent
que la liaison entre la variable Cancer1 et la composante généralisée 1 est forte mais négative tandis que la liaison entre la composante 1 et la variable Cancer 2 est forte et positive. Cela facilite l'interprétation de la gure 3.1 dans la mesure
3.1. Principe de l'ACP de variables de type histogramme basée sur le produit scalaire. 63 ● ● −2 −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0
HPCA2: Moyenne des Correlations entre composantes et variables
Composante n°1
Composante n°2
Cancer1
Cancer2
Figure 3.2 Méthode II : Moyenne des corrélations entre composantes principales et variables intiales. ● ● −1.0 −0.5 0.0 0.5 1.0 1.5 −0.2 0.0 0.2 0.4 0.6 0.8 1.0
HPCA2: RV de Escouffier des variables
Composante n°1
Composante n°2
Cancer1 Cancer2
Figure 3.3 Méthode II : RV de Escouer entre composantes principales et va- riables intiales.
où la somme pondérée des coecients de corrélation met en évidence des liaisons négatives. On constate à partir des gures 3.2et 3.1que les région1 et région2 ont
des valeurs numériques élevées pour la modalité 3 de la variable Cancer1. La région4 a une forte valeur de la modalité 1 de la variable cancer1 et une forte valeur de la modalité 3 de la variable Cancer2. La somme pondérée des coecients de corrélation n'est pas toujours convenable. L'usage du RV de Escouer (1973) peut sembler plus approprié (cf. gure3.3). Cependant, avec le RV de Escouer, l'on ne pourra mettre
en évidence les liaisons négatives.
3.2 Présentation de la procédure informatique HPCA2
écrite en langage R.
La procédure HPCA2 écrite en langage R déroule l'ACP de variable de type histogramme basée sur le produit scalaire. Comme la procédure HPCA1, HPCA2 a en entrée une liste de variables stockées sous la forme de data frame. Ces arguments sont les suivants :
HPCA2( T1,...,Tp, p,axes,xlim=,ylim=,xlegend=,ylegend=NULL, nomInd=NULL,nomVar,xlimvar,ylimvar)
T1, . . . Tp, représente les variables de type histogramme stockées sous forme de
data frame. Les Tj, j = 1 . . . , p sont en fait des tableaux classiques de taille
n × m.
p représente le nombre de variables de type histogramme.
axes=c(axeα,axeβ) représente les αième et βième axe que l'on souhaite visua-
liser. Par défaut, le programme a été initialisé à axes = c(1, 2). Il représente donc les axes 1 et 2.
xlim = c(. . . , . . .) et ylim = c(. . . , . . .) sont les bornes des axes des abscisses et des ordonnées.
xlegend et ylegend sont des arguments pour positionner la légende. Ils sont paramétrés par défaut.
nomInd=c('individu1',. . . ,'individun') est un argument pour nommer les in-
dividus. Il est également déni par défaut.
nomVar=c('variable1',. . . ,'variablep') est un argument pour nommer les va-
riables.
xlimvar = c(xmin, xmax), ylimvar = c(ymin, ymax) sont les limites des bornes
3.3. Apport de l'ACP de variable de type histogramme basée sur le
produit scalaire et perspectives. 65
3.3 Apport de l'ACP de variable de type histogramme
basée sur le produit scalaire et perspectives.
La méthode II, i.e, l'ACP de variable de type histogramme basée sur le produit scalaire, comme l'approche de Nagabhushan et Kumar (2007), construit des composantes principales généralisées. La méthode II utilise le produit scalaire de deux histogrammes dans Rm. Elle construit également des composantes principales
généralisées qui, comme dans le cas de l'approche de Nagabhushan et Kumar (2007), ne sont pas des variables de type histogramme mais des variables symboliques quantitatives à valeurs multiples. Par ailleurs, contrairement à l'approche de Nagabhusan et Kumar (2007), la méthode II fournit un système d'axes communs à l'ensemble des modalités des composantes principales. L'intérêt majeur de cette approche est le fait de pouvoir, contrairement à l'approche de Nagabhushan et Kumar (2007), réduire la dimension des données à partir d'un seul système d'axes. En construisant des composantes principales généralisées Z1, . . . , Zp à partir des
variables de type histogramme Y1, . . . , Yp, l'ACP de variable de type histogramme
basée sur le produit scalaire permet de retenir un nombre restreint de composantes Z1, . . . , Zq avec q < p. Cette réduction de la taille de la dimension des données est
d'un grand intérêt en classication non supervisée (clustering).
Toutefois, au niveau des inconvénients, excepté le fait que l'ACP de variable de type histogramme basée sur le produit scalaire permette d'avoir un système d'axe commun, elle a quasiment les mêmes défauts que l'ACP d'histogrammes associée au rang des modalités. On a entre autre le fait de ne pouvoir traiter les variables n'ayant pas le même nombre de modalités et le fait d'ignorer la contrainte unitaire (Pm
k=1H
(k)
ij = 1). Enn, quand le nombre de modalités est très grand, les
graphiques deviennent diciles à interpréter. Dans les chapitres qui suivent nous proposons des approches nouvelles qui essaient de venir à bout de ces inconvénients.
Chapitre 4
Méthode III : ACP
d'histogrammes à partir de
transformations normalisatrices.
Sommaire
4.1 Principe de l'ACP d'histogrammes à partir de transforma-
tions normalisatrices. . . 69
4.2 Formulation de l'ACP d'histogrammes à partir de trans-
formations normalisatrices.. . . 70
4.2.1 Opérateur ⊗2produit. . . 70
4.2.2 Problèmes posés par la contrainte unitaire. . . 73
4.2.2.1 Problèmes de courbures. . . 73
4.2.2.2 Problèmes posés par la contrainte unitaire . . . 74
4.2.2.3 Le problème du biais négatif . . . 75
4.2.3 Résolutions des problèmes inhérents aux données composition-
nelles par le choix d'une transformation. . . 77
4.2.3.1 Transformation angulaire ou Arcsinus . . . 77
4.2.3.2 Transformation racine carrée : . . . 80
4.2.3.3 Transformations logarithmiques.. . . 80
4.2.4 Détermination des axes principaux et composantes principales généralisées de l'ACP d'histogrammes à partir de transforma-
tions normalisatrices.. . . 82
4.2.4.1 Moyenne et covariance empirique. . . 82
4.2.5 Composantes principales, Outils numériques et graphiques. . 84
4.2.5.1 Composantes principales.. . . 84
4.2.5.2 Outils numériques. . . 84