(1)Analyse des données

Texte intégral

(1)Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. ACP Exercices Exercices corrigés Exercice 1 : On considère la matrice de données X de type (2,3) suivante :. lM ®E.  − 1 0 1  X =   0 − 1 1. ero. 1) Calculer le produit matriciel X’X et s’assurer que c’est une matrice carrée et symétrique. 2) Chercher les valeurs propres λi de X’X et ses vecteurs propres associés ui. Donner la matrice diagonale Λ semblable à X’X et la matrice de passage A.. 3) Vérifier que tr ( X ' X ) = tr (Λ) = ∑ λi i. ua. Solution 1 :. ni. 0 − 1 −1 0  −1 0  1   − 1 0 1      =  0 1 − 1 X ' X =  0 − 1 1) X ' =  0 − 1 ; 0 − 1 1  1  1 1 1     −1 −1 2  qui est bien une matrice carrée d’ordre 3 et elle est symétrique. 1− λ 0 −1 1− λ −1. −1 = 0 2−λ. Te. 0 −1. FP. 2) det( X ' X − λI ) = 0 ⇒. Si on développe suivant la 1ère ligne, on aura : 1− λ −1. −1 1− λ 4 0 − (− 1) = 0 ⇒ (1 − λ )[(1 − λ )(2 − λ ) − 1] − (1 − λ ) = 0 2−λ −1 −1. [. tou. (1 − λ )(− 1)2. ]. ⇒ (1 − λ )[(1 − λ )(2 − λ ) − 1 − 1] = 0 ⇒ (1 − λ ) λ2 − 3λ = 0. λ (1 − λ )(λ − 3) = 0 ,. an. D’où, l’équation caractéristique. Alors, les valeurs propres de X’X sont : λ1=3 ; λ2=1 ; λ3=0 Déterminons les sous-espaces propres associés ;  1 0 − 1  x   3x       Si λ1=3, alors X’Xu=λ1u, c'est-à-dire  0 1 − 1  y  =  3 y   − 1 − 1 2   z   3z       avec x,y et z sont les coordonnées du vecteur propre u cherché.. 1. www.elmerouani.jimdo.com.

(2) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. −1  x= z  2  x − z = 3x  − 2x = z  −1   y= ⇒  y − z = 3y ⇒  − 2y = z ⇒  z 2 − x − y + 2 z = 3 z − x − y = z     z (quelconque)∈ IR . D’où. lM ®E.  1 1 Fλ1 =  − z , − z , z 2  2.    1 1     / z ∈ IR  =  z  − ,− ,1 / z ∈ IR     2 2  . Fλ1 est un espace vectoriel de dimension 1 (c’est une droite vectoriel, un axe, le.  6 6 6  , sa ;− ; premier axe principal). Un vecteur unitaire de Fλ1 est u1 =  − 6 3   6 norme est u1 =. ero. 6 6 6 + + =1. 36 36 9. ni. ua.  1 0 − 1  x   x       Si λ2=1, alors  0 1 − 1  y  =  y  −1 −1 2  z   z       avec x,y et z sont les coordonnées du vecteur propre cherché. x = −y  x−z = x    ⇒ y−z = y ⇒  y (quelconque)∈ IR − x − y + 2 z = z  z=0  . Fλ2 = {(− y, y, 0 ) / y ∈ IR} = {y (− 1,1,0) / y ∈ IR}. FP. D’où. Fλ 2 est un espace vectoriel de dimension 1 (c’est une droite vectoriel, un axe, le. 2 2 + = 1. 4 4. tou. est u 2 =. Te. − 2 2  ; ;0  , sa norme deuxième axe principal). Un vecteur unitaire de Fλ 2 est u 2 =  2   2. an. Si λ3=0, alors si on note x,y et z les coordonnées du vecteur propre cherché. x=z  x−z =0    y=z ⇒  y−z=0 − x − y + 2 z = 0  z (quelconque)∈ IR   D’où. Fλ3 = {( z, z, z ) / z ∈ IR} = {z (1,1,1) / z ∈ IR}. 2. www.elmerouani.jimdo.com.

(3) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. Fλ 3 est un espace vectoriel de dimension 1 (c’est une droite vectoriel, un axe, le  3 3 3  , sa norme troisième axe principal). Un vecteur unitaire de Fλ 3 est u 3 =  ; ;   3 3 3 . 3 3 3 + + = 1. 9 9 9. est u 3 =. lM ®E 3 0 0   Λ =  0 1 0 ; 0 0 0  . (. ).  −1  − 1 1   2  −1  A= 1 1 ; donc  2   1 0 1    . (. Λ = A −1 X ' XA. ). 3) tr (Λ ) = tr A −1 X ' XA = tr A −1 AX ' X = tr (I X ' X ) = tr ( X ' X ). ero. et on a tr ( X ' X ) = 1 + 1 + 2 = 4 = tr (Λ ) = 3 + 1 + 0. Exercice 2 :. ua. Soit la matrice des données suivantes :. ni. 4 5   X = 6 7 8 0  . FP. 1) Soient C1 et C2 les vecteurs colonnes de X. Centrer et normer les variables C1 et C2. 2) Déterminer la matrice V des variances-covariances et la matrice Γ des corrélations. 3) Diagonaliser la matrice V. On note λi ses valeurs propres.. 4) Déterminer les vecteurs propres Fi associés aux valeurs propres λi..  4   1) C1 =  6  8  . et. 5   C2 =  7  , 0  . 4-6=-2 6-6=0 8-6=2. et. C2 = X 2 =. 5-4=1 7-4=3 0-4=-4. 3. 5+7+0 =4 3. an. 8+6+4 =6 3 Center les variables (xij − x j ) :. Les moyennes : C1 = X 1 =. tou. Te. Solution 2 :. www.elmerouani.jimdo.com.

(4) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. Leur normes (écart-types σ Xii ) :. C1 = σ X 1 = et. 1 1 2 2 2 [(− 2) + (2) ] = [4 + 4] = 2 3 3 3. C2 = σ X 2 =.      26  −4 3  26  ⇒ Y1 = C1∗ = 0 et 3 26 3 3. lM ®E. −2 3   2 2  2) Y =  0   3   2. 1 2 2 [1 + 3 2 + (− 4) ] = 3. σ yj = 1;. yij =. avec. 26 3. xij − x j. σX. i. Y2 = C 2∗ = 0. j = 1,2. Cov ( X , Y ) entre deux variables X et Y, mais si σ ( X ) = σ (Y ) = 1, σ ( X )σ (Y ). ero De plus r =. alors r = Cov( X , Y ) .. ua. Calcul du produit matriciel. 1 Y 'Y : p.    3  − 0  1 2 = 3 3 3 3 26   −4 3 26  26  26  Le résultat de ce calcul est la matrice Γ=V. 3) Valeurs propres de V=Γ : 1 − λ − 0,69 det (Γ − λI ) = 0 ⇔ =0 − 0,69 1 − λ 3 26 3 3. ni.  − 3 3  2   2  0  − 4 3   26  3   2. − 15     1 2 13  =    −5 3     2 13. FP.   3 1 3  − 15   2 13. −5   2 13   1  . 2. 2. Ce sont les deux valeurs propres de Γ. 4) Calcul des vecteurs propres associés : Pour λ1 = 1,69 ;. an. ⇔ (0,31 − λ )(1,69 − λ ) = 0 ⇒ λ1 = 1,69 ; λ2 = 0,31. tou. Te. ⇔ (1 − λ ) − (− 0,69) = 0 ⇔ (1 − λ − 0,69)(1 − λ + 0,69) = 0. − 0,69  x1  x   1   = 1,69 1  Γu1 = λ1u1 ⇔  1  x 2   − 0,69  x2 . 4. www.elmerouani.jimdo.com.

(5) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani.  x − 0,69 x 2 = 1,69 x1 ⇒ 1 − 0,69 x1 + x 2 = 1,69 x 2 − 0,69 x1 − 0,69 x 2 = 0 ⇒ ⇒ x1 = − x 2 − 0,69 x1 − 0,69 x 2 = 0 Donc Fλ1 = {( x1 , − x1 ) / x1 ∈ IR} = {x1 (1, − 1) / x1 ∈ IR} Fλ1 est un espace vectoriel de dimension 1 (c’est une droite vectoriel, un axe, le. lM ®E.  2    premier axe principal). Un vecteur unitaire de Fλ1 est u1 =  2  , sa norme est  2 −   2 . 2 2 + = 1. 4 4 Pour λ2 = 0,31 , u1 =. ero. − 0,69  x1   x   x − 0,69 x 2 = 0,31x1  1    = 0,31 1  ⇒  1 1  x 2   − 0,69  x 2  − 0,69 x1 + x 2 = 0,31x 2. ua.  0,69 x1 − 0,69 x 2 = 0 ⇒ − 0,69 x1 + 0,69 x 2 = 0 ⇒ x1 = x2. ni. Donc Fλ 2 = {( x1 , x1 ) / x1 ∈ IR} = {x1 (1,1) / x1 ∈ IR}. Fλ 2 est un espace vectoriel de dimension 1 (c’est une droite vectoriel, un axe, le 2  2  , sa norme est 2  2 . FP.   deuxième axe principal). Un vecteur unitaire de Fλ 2 est u 2 =    . Exercice 3 :. tou. Te. 2 2 + = 1. 4 4 u1 . u 2 = 0 ⇒ {u1 , u 2 }est une base orthonormée. u2 =. 2  6 6  10 . 2  2 4  4 . 5. an. Réaliser l’ACP de la matrice suivante, à partir de sa matrice de dispersion (données centrées mais non réduites) :. www.elmerouani.jimdo.com.

(6) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. Solution 3 : 2  6 Soit Y =  6  10 . 2  2 centrée mais non réduites, 4  4 . (. ). 1 2 2 + 6 2 + 6 2 + 10 2 = 44 = 2 11 4. lM ®E. On a : C1 = σ 1 =. C2 = σ 2 =. (. ). 1 2 2 + 2 2 + 4 2 + 4 2 = 10 4 2     10   2   10  =    4   10   4     10  . 2   10  2  10   4  10  4   10 . 1 11 3. ero.  2   2 11  6  Alors : Z =  2 11  6  2 11  10   2 11. 11 3. ua. 11 5 11. ni. La matrice des corrélations est. 3. 11 2. 11 4. 10. 10. 1. 2   10  2    4  1 10 =   4  4 2  10   11 4   10 . 11 3 11 3. 11. Les valeurs propres de Γ :. an. det (Γ − λI ) = 0 ⇔. 1. 1− λ. 44 = 0 1− λ. 1 44. 1   44   1  . tou. 11 5. 2     1 11  =    1 4     44. Te. 3.    5   11   4   10    . FP.  1  1  11 Γ= 4 2   10. 1 Z ′Z = Γ 4. 2.  1  ⇔ (1 − λ ) −   =0  44  1  1   )  (1 − λ ) + ( ) = 0 ⇔  (1 − λ ) − ( 44  44   2. 6. www.elmerouani.jimdo.com.

(7) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. ⇔ (0,85 − λ )(1,15 + λ ) = 0 Alors λ1 = 1,15 et λ2 = 0,85 sont les valeurs propres de Γ. Cherchons, maintenant, leurs vecteurs propres associés : •. 1   44  x  = 1,15 x  ⇒  x + 0,15 y = 1,15 x  y  0,15 x + y = 1,15 y      1  y  . lM ®E.   1   1   44. Pour λ1 = 1,15 :. ⇒x = y. D’où Fλ1 = {( x, x ) / x ∈ IR} = {x(1,1) / x ∈ IR}. ero. Fλ1 est un espace vectoriel de dimension 1 (c’est une droite vectoriel, un axe, le premier axe 2  2  , sa norme est u = 1 2  2 . •. Pour λ2 = 0,85 :. 2 2 + = 1. 4 4. ni. ua.   principal). Un vecteur unitaire de Fλ1 est u1 =    . FP.  1 0,15  x   x   x + 0,15 y = 0,85 x    = 0,85  ⇒  ⇒ x = −y  0,15 1  y   y  0,15 x + y = 0,85 y Donc Fλ 2 = {( x, − x ) / x ∈ IR} = {x(1, − 1) / x ∈ IR}. Te. D’où. Fλ 2 est un espace vectoriel de dimension 1 (c’est une droite vectoriel, un axe, le. 2 2 + = 1. 4 4. an. u1 =. tou.  2    premier axe principal). Un vecteur unitaire de Fλ 2 est u 2 =  2  , sa norme est − 2    2 . Leur produit scalaire est nul : u1 . u 2 = 0 ⇒ {u1 , u 2 }est une base orthonormée.. 7. www.elmerouani.jimdo.com.

(8) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. Exercices proposés Exercice 1 : On veut faire l’ACP centrée de la matrice :. lM ®E. 1  1 X = 1  1 . 0 1 1 1. 0 0 1 1. 0  0 0  1 . de type (4,4).. On a 4 lignes-individus et 4 colonnes-variables. La pondération des lignes est uniforme, la pondération des colonnes est unitaires, la transformation préalable est le centrage par colonne.. ua. ero. 1) Donner les moyens des 4 variables. Donner les variances des 4 variables. Donner la matrice des variances-covariances de la matrice X. 3 2 1   2) Donner les valeurs propres de la matrice A =  2 4 2  . En déduire les valeurs 1 2 3   propres de l’ACP de X. 3) Donner tr (Λ ) , où Λ est la matrice diagonale des valeurs propres.. ni. 4) Donner le 2ème axe principal de l’ACP de X. 5) Donner les coordonnées des lignes sur le 2ème axe principal de l’ACP de X. 6) Donner les coordonnées des colonnes sur le 2ème axe principal de l’ACP de X.. FP. Exercice 2 :. Te. Une étude gastronomique a conduit à apprécier le service, la qualité et le prix de quatre restaurants. Pour cela, un expert a noté ces restaurants avec des notes allant de -3 à 3. Les résultats sont les suivants : Prix -1 0 -1 2. tou. Restaurant Service Qualité -2 +3 R1 -1 +1 R2 +2 -1 R3 1 -3 R4 La matrice des variances-covariances est :. an. 1   5 −3   2   2 V =  − 3 5 − 2  1 −2 3   2 2   Et celle des corrélations (aux erreurs d’arrondi près) est :. 8. www.elmerouani.jimdo.com.

(9) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. − 0,85 0,26   1   Γ =  − 0,85 1 − 0,73  0,26 − 0,73 1   Pour l’étude, on effectue une ACP centrée avec des poids equi-répartis.. lM ®E. 1) Étude des valeurs propres : a) Vérifier simplement que V admet une valeur propre λ3=0. 30,5 b) On donne λ1 = . En déduire λ2. 4 c) Calculer les pourcentages d’inerties. Quelle est la dimension à retenir?  0,5   0,65      2) a) On donne, aux erreurs d’arrondi près, v1 =  − 0,8  et v 2 =  0,11  . Calculer les  0,3   − 0,75     . Exercice 3 :. ni. ua. ero. composantes principales. b) Représenter les individus dans le plan principal (1,2). 3) a) Déterminer les corrélations entre les variables et les composantes. b) Représenter les variables sur le cercle des corrélations dans le plan factoriel (1,2). c) Interpréter les résultats.. Soit la matrice X=(X1,X2,X3) dont les variables ont pour matrice des corrélations. FP.  1 r − r   Γ =  r 1 r  avec − 1 ≤ r ≤ 1 . On désire effectuer une ACP centrée réduite de X. − r r 1   . Déterminer les autres valeurs propres et vecteurs propres de Γ. Quelles sont les valeurs possibles de r ? Justifier le fait que l’ACP n’a d’intérêt que si -1< r <0. Calculer dans ce cas les pourcentages de variance expliquée. Comment s’interprète par rapport à X1, X2 et X3 l’unique composante à retenir ici ?. an. 2) 3) 4) 5) 6). tou. Te. 1 1   1) Vérifier que Γ admet pour vecteur propre  − 1 . 3  1. 9. www.elmerouani.jimdo.com.

(10) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. Exercice 4 : 2  3 Soit la matrice T = 10  1  2 2 . 2 1 0 1 1. 3  2 3  des mesures de 5 individus munis de poids statistiques  4 3 . lM ®E. égaux ; sur 3 variables notées T1, T2 et T3. On désire effectuer une ACP sur variables centrées-réduites. 1) Calculer l’individu moyen, le vecteur (σ1,σ2,σ3) des écarts types et la X des variables centrées-réduites. 2) Calculer la matrice Γ des corrélations. 3) Calculer les éléments propres de Γ.. ero. 4) Les deux premiers vecteurs propres de Γ associés aux valeurs propres λ1 = 1 +. 2 et 2. ni. ua.  2 0 1   1  λ2 = 1 , sont : v1 =  1  et v 2 = 1 . 2  2 1  −1     Déterminer les composantes principales c1 et c2 dont on vérifie les propriétés statistiques. 5) Représenter les individus et les variables dans le plan factoriels (1,2). Quelle est l’interprétation des variables c1 et c2 ? 6) Représenter dans le plan (1,2) l’individu supplémentaire 10 , 2 10 , 2 10 .. •. ). Références: Jean-François Durand : «Eléments de Calcul Matriciel et d’Analyse Factorielle de Données », polycopie de l’Université Montpellier II, Licence MASS, Maîtrise MASS, Maîtrise d’Ingénierie Mathématique, DEA de Biostatistique, Novembre 2002. Le site Web : foad.refer.org/IMG/pdf/. tou. Te. •. FP. (. an 10. www.elmerouani.jimdo.com.

(11)

(1)Analyse des donn&eacute;es

(1)Analyse des données