(1)Analyse des données

Texte intégral

(1)Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. Qualités et défauts de l’analyse en composantes principales : L’analyse en composantes principales est essentiellement une méthode de description et d’exploration qui permet de révéler des regroupements de faits et suggérer des idées. C’est un outil confortable pour résumer un vaste tableau de données difficilement accessible à l’analyse descriptive habituelle. Les facteurs nés de l’analyse ont la mission de proposer des variables permettant d’élaborer des modèles économétriques de sens traditionnel.. lM ®E. D’un point de vue technique, ce procédé a pour objet l’étude de la structure de la matrice des variances-covariances ou de la matrice des corrélations (des variables). Cette prospection se fait par l’utilisation des ordinateurs et des logiciels de statistique. Mais, le procédé est imparfait dans la mesure que le nuage est déformé par la projection, même si cette dernière est la plus idéale possible. Certains points sont plus altérés que d’autres par la transformation.. ero. L’inconvénient majeur réside dans l’interprétation des axes. Parfois, l’explication est évidente et fait que l’analyse en composantes principales soit redondante ; ou bien elle est contingente pour l'analyste et dans ce dernier cas elle n'apporte pas des renseignements très convaincant es pour l'analyse économétrique postérieure. Néanmoins, l’analyse des données a toujours un rôle essentiel à jouer dans certains problèmes dans certaines limites.. Nombre d’axes à retenir :. ni. ua. L’analyse en composantes principales a pour objet de réduire le nombre de données du phénomène à étudier et de conserver ainsi le moins d’axes possibles. Il faut pour cela que les variables de départ soient raisonnablement corrélées entre elles. Les critères les plus utilisables sont les suivantes :. FP. 1°) Interprétation des axes : On retient que les axes que l’on peut attribuer une forme d’interprétation économique, par exemple, soit directement, soit en terme des variables avec lesquelles ils sont très corrélés.. Te. 2°) Critère de Kaiser (variables centrées et réduites) : On ne retient que les axes associés à valeurs propres supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des variables d’origine.. tou. Une autre interprétation est que la moyenne des valeurs propres étant 1, on ne garde que celles qui sont supérieures à cette moyenne. 3°) Éboulis des valeurs propres :. an 18. www.elmerouani.jimdo.com.

(2) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. On cherche un « coude » dans le graphe des valeurs propres et on ne conserve que les valeurs jusqu’au ce « coude ».. Compléments du cours : Multiplicateurs de Lagrange : Optimisation classique avec contraintes: Cas de deux variables. Soit une fonction à deux variables f(x, y) soumise à une seule contrainte de la forme. lM ®E. g(x, y) = b, avec b une constante réelle. La méthode des multiplicateurs de Lagrange consiste à construire une fonction auxiliaire L(x, y, λ), appelée Lagrangien, définie ainsi : L(x, y,λ) = f(x, y)+λ[g(x, y)-b]. Où λ appelé multiplicateur de Lagrange est une inconnue.. ero. Il faut ensuite annuler ses premières dérivées partielles (condition nécessaire) :. ni. ua.  ∂L ∂f ∂g  ∂x = ∂x + λ ∂x = 0  ∂L ∂f ∂g  = +λ =0  ∂ y ∂ y ∂ y   ∂L = g ( x, y ) − b = 0  ∂λ. FP. Les points candidats s’obtiennent en résolvant ce système de trois équations à trois inconnues (x, y, λ).. Te. Mentionnons que la troisième équation de ce système ∂L/∂λ = g(x, y) -b=0 n’est rien d’autre que la contrainte ! Les points candidats satisfont par conséquent cette contrainte.. Condition suffisante: On pose:. 2. ∂2L ∂2L > 0 et > 0 , on a un minimum ∂x 2 ∂y 2. an. 1. Si ∆>0 ,. ∂2L ∂2L  ∂2L   ∆ = 2 ⋅ 2 −  ∂x ∂y  ∂x∂y . tou. La solution des trois équations ci-dessus fournit les points candidats de la fonction sous contrainte. Ces points candidats satisfont la contrainte mais il reste à déterminer leur nature ;. ∂2L ∂2L < 0 et < 0 , on a un maximum ∂x 2 ∂y 2 3. Si ∆<0, pas d’extremum. 2. Si ∆>0 ,. 4. Si ∆=0, on ne peut pas conclure. 19. www.elmerouani.jimdo.com.

(3) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. Rappel sur la distance : Définition d’une distance : Soit E un sous-ensemble de IRn. Une distance sur E est une application suivantes : ∀ x, y ∈ E ; ∀ x, y ∈ E ; ∀ x, y, z ∈ E ;. possédant. les. propriétés. d ( x, y ) = 0 ⇒ x = y d ( x, y ) = d ( y , x ) d ( x, y ) ≤ d ( x, z ) + d ( z , y ). lM ®E. i. ii. iii.. d : E × E → IR +. Exemple : « La distance euclidienne » Pour x = (x1 , x 2 , L , x n ) , y = ( y1 , y 2 , L , y n )∈ E ⊂ IR n , la distance euclidienne entre x et y est définie par : d ( x, y ) = ( x1 − y1 ) 2 + ( x 2 − y 2 ) 2 + L + ( x n − y n ) 2 .. ero. On peut vérifier facilement les propriétés i, ii, et iii précédentes pour la distance euclidienne. Rappel sur la matrice des variances-covariances et la matrice des corrélations :. ua. 1) La matrice des variances-covariances V de X=(x1,x2,…, xq) est définie par : L Cov( x1 , x q )   L Cov( x 2 , x q )   = E ( XX ′ ) − E ( X ) E ( X ) ′ O M   L σ q2 . ni.  Cov( x1 , x 2 ) σ 12  σ 22  Cov( x 2 , x1 ) V = M   Cov( x , x ) L 1 q . FP. C’est une matrice carrée symétrique d’ordre q.. Si les variables xi sont réduites, V s’identifie avec la matrice des corrélations :. Te. L ρ1q   L ρ 2q  . O M   L 1 . tou. ρ12 1   ρ 21 1 Γ= M  ρ  q1 L.  x11   x 21 X = M  x  p1. x12 x 22 x p2. an. 2) Lorsque l’on observe les valeurs numériques de q variables sur p individus, on se trouve en présence d’un tableau X à p lignes et q colonnes :. L x1q   L x2 q  O M   L x pq . xij est la valeur prise par la variable n° j sur l’ième individu. Le tableau des données centrés Y est : 20. www.elmerouani.jimdo.com.

(4) Analyse des données.  x11 − x1   x 21 − x1 Y = M  x − x  p1 1. S6, Option : Gestion. x12 − x 2 x 22 − x 2 x p 2 − x2. Prof. Mohamed El Merouani. L x1q − x q   L x2q − xq   O M  L x pq − x q . La matrice des variances-covariances des q variables est : L σ 1q   L σ 2q   O M  L σ q2 . lM ®E.  σ 12 σ 12  σ 22 σ V =  21  M σ  q1 L. où σ kl =. 1 p (xik xil − xk xl ) est telle que V = 1 Y ′Y ∑ p i =1 p. ero. La matrice des corrélations entre les q variables prises deux à deux est :. L ρ1q   L ρ 2q  O M   L 1 . ni. ua. ρ12 1   ρ 21 1 Γ= M  ρ  q1 L. Γ est identique à V des données centrées et réduites.. Γ résume la structure des dépendances linéaires entre les q variables.. FP. Le tableau des données centrées et réduites Z est :. x12 − x 2. σ2. x 22 − x 2. σ2. σ2. Alors. Γ=. Si σ j = 1 , alors. an. avec σ j =. 1 p (xij − x j )2 ∑ p i =1. tou. x p 2 − x2. x1q − x q   σq  x2q − xq   L σq   O M x pq − x q   L σ q  L. Te.  x11 − x1   σ1 x −x  21 1 Z =  σ1  M x −x  p1 1  σ 1 . 1 Z ′Z p V=. 1 1 Y ′Y = Z ′Z = Γ p p. 21. www.elmerouani.jimdo.com.

(5) Analyse des données. S6, Option : Gestion. Prof. Mohamed El Merouani. Exercices de TD : Exercice 1 : On considère la matrice X de type (2,3) suivante :  − 1 0 1  . X =   0 − 1 1. ero. lM ®E. 1. Calculer le produit matriciel. X ′ × X . s’assurer que c’est une matrice carrée et symétrique 2. Chercher les valeurs propres λi et les sous-espaces propres associés Fi . Donner le vecteur unitaire u i de chaque sous-espace. Ecrire la matrice diagonale Λ semblable à X’X et sa matrice de passage A 3. Calculer et vérifier que tr ( X ′X ) = tr (Λ). .. Exercice 2 :. Soit la matrice des données suivante :. On note C1 et C2 les vecteurs colonnes de X. Centrer et normer les variables C1 et C2. Déterminer la matrice V des variances-covariances et la matrice Γ des corrélations. Diagonaliser ces matrices. On note λi leurs valeurs propres. Déterminer les espaces propres Fi associés aux valeurs propres λi .. Exercice 3 :. FP. 1. 2. 3. 4.. ni. ua. 4 5   X = 6 7 8 0  . Te. Réaliser l’ACP de la matrice suivante, à partir de sa matrice de dispersion (données centrées mais non réduites) :. an. 22. 2  2 4  4 . tou. 2  6 6  10 . www.elmerouani.jimdo.com.

(6)

(1)Analyse des donn&eacute;es

(1)Analyse des données