Analyses multivariées : des techniques descriptives
ME1AY030
Master Meci
Plan
1. Quelles sont les techniques d'analyse multivariées ? 2. L’Analyse en composante principale : introduction
3. Comment fonctionne la procédure d’ Analyse en Composantes Principales ?
4. Comment analyser les résultats d'une ACP ?
1. Les techniques d’analyses multivariées
Intro
traiter simultanément gd nbre de variables
mettre à jour la structure cachée d’un gd ens d’info. Invisible avec bi ou uni
Condenser une collection d’info pour en donner représentation simplifiée
Définitions
Dèf : Volle : Stat descriptive perfectionnée, analyse des données permet décrire rapidement de gds gisements de données
Traiter gd nbre de variables ensemble et non 2 à 2
Réduit une masse d’info
Exemple : Choix des variables – indicateurs : en fonction des résultats d’études précédentes
En fonction des résultats d’autres études
BPCO des hommes : pathologie dont il a été montré qu’elle est aggravée par la poll atmo (APHEIS)
=> hypothèse : plus pollution atmo élevée ds une ville plus les hospitalisations pour BPCO sont élevées
niveau de chômage niveau régional, % pop sans diplôme, % de ménages non imposables car sont des indicateurs qui traduisent des situations de « déprivation* » qui accompagnent généralement mauvaise situation de santé => villes ds lesquelles déprivation sont aussi celles ds lesquelles santé défavorable
% diplômés bac +2 accompagne en gnl au contraire des situations de santé favorable (en 2000 encore 10 ans de différence d’espérance de vie entre cadres et ouvriers)
Environnement phy : températures car travaux sur les maladies respiratoires montrent qu’elles sont aggravées par les épisodes froids (Besançenot) ; NO2 car lien avéré ds le tps entre BPCO et NO2 ; 03 pour tester combinaison avec NO2 => hypothèse : villes ds lesquelles températures basses sont aussi en situation de santé défavorable
Pneumo et généraliste car accès aux soins va de pair avec situation de santé favorable
Population car gdes villes, pollution atmo plus élevée, et santé moins favorable
* Déprivation : notion multidimensionnelle de la pauvreté : ne prend pas en compte seulement les revenus, mais les biens matériels (par ex la possession d’une voiture), le niveau de diplôme... Très utilisée par les anglosaxons. Traduite ds un indice par Townsend
Exemple : Santé respiratoire et caractéristiques sociales et environnementales des villes
Etudier les inégalités de santé respi en France. BPCO =
bronchopneumopathies chroniques obstructives : ressemble à l’asthme ; pathologie en croissance ; souvent liée au tabagisme. Affecte plus les adultes.
Quelles hypothèses :
Est-ce qu’il existe une structuration dans l’ensemble des 55 villes qui opère simultanément pour la santé, la structure sociale et les caractéristiques de l’atmosphère ?
Comment est organisée cette structure ? Quelles sont les villes qui se ressemblent ? Qui s’opposent ?
Quelle information ?
Disposer d’une info initiale concernant
• ensemble d’individus i=1 à n
• Décrits par variables/caractères j=1 à p
• Chque ligne pour individu i sa situation sur les variables/caractères j
Info ds un tableau élémentaire à n*p cases
En géo les individus st des lieux et les variables les phénomènes qui caractérisent ces lieux
Abondance de l’info cache structure
Exemple : Santé respiratoire et caractéristiques sociales et environnementales des villes
Ici : choix des villes de plus de 100000 notamment car la surveillance de la poll atmo y est obligatoire => mesures journalières Dioxyde d’azote, Particules,
Ozone
Variables qui caractérisent
les dimensions sociales,
environnementales
et d’équipement en soins
Les inégalités interurbaines de santé sont-elles associées à des inégalités sociales ? Environnementales ? D’équipement en soin ?
Quelles sont les dimensions qui s’associent ? Qui s’opposent ?
Différentes recompositions et objectifs pour différentes informations initiales
Chaque technique adaptée à une forme d’information initiale
• Tableau de contingence AFC - CAH
• Tableau de mesure ACP – CAH
Chaque technique recompose l’information initiale d’une manière différente
• Axes factoriels : Gpes de variables : AFC - ACP
• Classes : Gpes d’individus : CAH
Exemple : Pollution et pathologies respiratoires ds les villes fr : l’information initiale
Libellé des unités urbaines BPCO NO2 O3 Tjanv RegChom UUChom SsDiplo Bac Bac2 MenNI Gene Pneumo GiniB2 CVSsDiplo Pop2006
Annemasse 0,89 34,0282 26,5852 5 0,095 0,104 0,172 0,162 0,281 49,9 12,8 0,80,212927415 0,44 118554
Valence 0,56 34,6707 31,1135 8 0,095 0,135 0,198 0,154 0,226 41,1 11,2 0,70,191276158 0,47 120922
Bayonne 0,64 21,9792 21,8604 12 0,109 0,117 0,148 0,171 0,237 39,1 14,7 0,90,152127768 0,35 189836
Avignon 0,90 33,9005 40,0620 9,5 0,133 0,149 0,255 0,148 0,204 44,9 16,2 0,80,231001461 0,43 273359
Béthune 2,76 28,1896 24,9711 6 0,148 0,159 0,226 0,135 0,132 51,9 14,5 0,70,217328527 0,28 259293
Saint-Étienne 1,38 40,8416 31,7381 6 0,095 0,128 0,229 0,145 0,199 44,9 11,0 0,60,243379946 0,42 286400
Metz 1,81 32,2723 25,6218 4 0,113 0,118 0,224 0,141 0,215 41,1 13,5 0,70,312495339 0,56 322946
Douai-Lens 2,25 32,1483 27,9095 5 0,148 0,183 0,263 0,132 0,127 51,7 10,3 0,40,266357108 0,35 512462
Toulon 0,83 39,6103 47,8594 13 0,133 0,136 0,185 0,173 0,213 39,6 14,5 0,70,198192249 0,49 543065
Lyon 0,96 49,5912 40,4763 6 0,095 0,108 0,184 0,155 0,309 34,1 11,0 0,70,264159018 0,61 1417463
Marseille-Aix-en-Provence 1,03 40,8128 52,5695 10 0,133 0,156 0,228 0,154 0,249 40,0 15,2 0,80,293570545 0,57 1418481
Paris 1,07 48,3850 42,8566 6 0,110 0,114 0,185 0,161 0,348 27,4 10,3 0,80,278183486 0,62 10142977
Nice 0,85 39,6238 52,7788 12 0,133 0,114 0,185 0,174 0,247 37,8 14,1 0,70,206458559 0,47 940017
Troyes 0,52 26,93 26,89 5,00 0,12 0,15 0,224 0,133 0,183 43,09 9,8 0,40,221493246 0,50 131039
Caen 0,81 30,4156 28,8061 7 0,104 0,136 0,178 0,143 0,252 40,6 11,2 0,20,298849982 0,57 196323
Angoulême 0,82 23,4624 20,3272 8 0,105 0,140 0,183 0,155 0,198 45,9 12,1 0,80,205825856 0,43 105021
La Rochelle 0,38 21,5340 18,1792 8 0,105 0,138 0,165 0,164 0,235 41,3 14,5 0,80,247286616 0,52 119702
Dijon 0,96 37,3930 28,9021 4 0,100 0,098 0,162 0,161 0,283 33,1 9,3 0,10,252028513 0,63 238088
Montbéliard 0,47 29,7822 32,0953 3 0,100 0,155 0,262 0,120 0,167 42,3 11,1 0,3 0,241296239 0,45 109118
Besançon 0,58 40,0790 39,9585 4 0,100 0,120 0,169 0,153 0,298 40,8 9,7 0,20,200878854 0,72 134951
Brest 0,87 19,2595 19,3691 9 0,090 0,119 0,112 0,175 0,262 40,3 12,9 0,80,205616011 0,51 206394
Nîmes 0,93 29,0943 30,2408 10 0,153 0,191 0,220 0,157 0,235 46,7 16,8 0,90,257070617 0,59 161565
Toulouse 0,84 29,2261 36,3085 9 0,105 0,116 0,140 0,168 0,362 35,4 14,6 1,2 0,19810201 0,66 850873
Bordeaux 0,87 29,8537 35,7484 9 0,109 0,115 0,147 0,166 0,294 35,3 11,1 0,50,229725927 0,54 803117
Montpellier 0,68 34,7890 39,9830 11 0,153 0,166 0,172 0,171 0,362 42,9 16,3 1,30,201877922 0,79 318225
Rennes 0,60 21,6354 21,7601 8 0,090 0,100 0,119 0,169 0,346 34,2 13,3 0,90,213595208 0,63 282550
Tours 0,83 25,9208 31,0173 7 0,100 0,111 0,154 0,158 0,261 37,5 12,1 1,0 0,239987854 0,48 306974
Grenoble 0,82 38,4723 29,6696 6 0,095 0,104 0,189 0,150 0,339 35,5 12,4 0,80,235050218 0,62 427658
Saint-Nazaire 0,75 21,6921 27,8618 9 0,092 0,131 0,148 0,156 0,187 39,3 12,6 0,30,229548485 0,55 143106
Nantes 0,49 26,6551 37,9185 8 0,092 0,110 0,121 0,168 0,303 33,6 12,0 0,60,232527471 0,78 568743
Orléans 0,67 24,7517 28,9893 6 0,100 0,095 0,170 0,157 0,269 32,6 9,9 0,60,216954455 0,61 269283
Angers 0,66 27,4684 36,9815 8 0,092 0,127 0,166 0,151 0,270 40,1 13,8 0,60,257812566 0,70 227771
Reims 0,97 29,7827 26,7432 5 0,118 0,132 0,220 0,145 0,240 38,5 12,1 0,6 0,30078995 0,61 212021
Nancy 0,83 34,5773 28,4578 4 0,113 0,114 0,171 0,147 0,281 38,4 16,1 0,90,257175248 0,61 331279
Lorient 0,90 17,4729 17,1591 9 0,090 0,135 0,145 0,163 0,209 42,0 11,7 0,80,226755668 0,49 116764
Thionville 1,76 32,5906 26,8059 4 0,113 0,121 0,254 0,135 0,172 47,1 11,0 0,50,282553519 0,39 130437
Maubeuge 1,20 24,9270 24,1508 5 0,148 0,223 0,259 0,134 0,126 54,3 9,1 0,40,194831324 0,42 96470
Dunkerque 1,27 30,0205 29,7881 6 0,148 0,170 0,237 0,139 0,155 43,3 12,2 0,70,280400843 0,35 182973
Valenciennes 1,84 32,2857 32,3120 5 0,148 0,175 0,244 0,132 0,141 49,8 10,7 0,30,277561066 0,37 355660
Lille 1,71 36,4390 33,7050 5 0,148 0,149 0,213 0,144 0,261 40,1 14,5 0,40,310184981 0,56 1242219
Creil 1,14 31,7560 28,8216 5 0,122 0,154 0,295 0,135 0,159 45,0 13,4 0,50,248383125 0,52 101100
Calais 1,38 20,3649 21,9010 6 0,148 0,195 0,223 0,144 0,140 47,6 13,6 1,10,321967852 0,48 103277
Clermont-Ferrand 0,39 34,2362 27,5421 7 0,097 0,108 0,146 0,161 0,266 35,7 9,3 0,50,245547641 0,60 260657
Pau 0,58 23,2404 21,2938 11 0,109 0,106 0,138 0,173 0,280 39,4 12,7 0,80,153584857 0,49 193991
Perpignan 0,64 25,3852 40,8724 12 0,153 0,176 0,217 0,163 0,203 52,9 16,9 0,9 0,19546601 0,50 178501
Strasbourg 1,14 40,4939 37,2378 3 0,102 0,131 0,206 0,145 0,292 37,2 14,0 1,20,306157868 0,65 440265
Mulhouse 0,78 35,3237 30,0434 4 0,102 0,153 0,260 0,136 0,188 41,0 10,0 0,30,294101154 0,53 238638
Le Mans 0,46 27,8481 32,5816 7 0,092 0,129 0,176 0,140 0,218 39,0 10,2 0,70,292238428 0,59 192910
Chambéry 0,60 38,1491 33,0629 5 0,095 0,090 0,147 0,162 0,276 36,6 12,6 0,90,163603136 0,53 119266
Annecy 0,59 38,1082 29,9724 4 0,095 0,082 0,158 0,168 0,293 30,4 15,4 0,70,178589275 0,46 144682
Le Havre 1,34 30,5096 33,5942 7 0,118 0,154 0,221 0,135 0,172 41,8 9,8 0,40,358099327 0,55 238776
Rouen 0,67 35,4277 36,8209 8 0,118 0,130 0,212 0,139 0,233 37,9 12,4 0,50,355843233 0,56 388798
Amiens 0,84 29,2041 28,1498 5,5 0,122 0,155 0,227 0,143 0,244 40,7 14,1 0,60,298979138 0,55 161311
Poitiers 0,88 22,5207 21,4378 7 0,105 0,114 0,143 0,163 0,307 42,5 13,2 1,10,224535537 0,71 126652
Limoges 0,60 29,3718 23,1348 7 0,088 0,107 0,160 0,159 0,241 39,2 15,2 0,50,215914397 0,55 177439
L’information stat transformée par technique math
Mathématiquement
• chaque individu peut être représenté et positionné ds l’espace des p variables/caractères : c’est une ‘vecteur ligne’ défini par p coordonnées
• Chaque variable/caractère peut être représenté ds l’espace des n individus : c’est un ‘vecteur colonne’ défini par n coordonnées
Utilise des espaces mathématiques avec gd nbre de dimensions : matrices et règles calcul matriciel
Paris Douai
Béthune
Nice Montpellier
Strasbourg
Nantes Bordeaux
Pour visualiser : Analogies
Analyse bivariée
• Un ensemble d’n individus
• Décrits par 2 dimensions = 2 variables/caractères
• droite de régression = modèle de la relation qui existe au sein de l’ensemble des individus entre les deux dimensions
• Ellipse
Analyse multivariée
• Un ensemble de n individus
• Décris par p dimensions = p caractères
• Axes factoriels : modèlent DES RELATIONS qui existent au sein de l’ensemble des individus
• Nuage = 3 dimensions ballon rugby (Nuage ds le tps = 4 dimensions)
2. L’Analyse en Composantes principales
L’Analyse en Composantes Principales
résume l’information relative aux variables/caractères - privilégie l’analyse des relations entre variables
reconstruit l’info contenue ds un tableau de n lignes et p colonnes
S’appuie pour cette reconstruction sur les oppositions entre variables et individus
n points (individus) peuvent être représentés géométriquement ds un espace à p dimensions
reconstruire l’info c’est projeter les individus ds un autre espace à p dimensions hiérarchisées
Quelle information initiale pour l’analyse en composantes principales
?
tableau de mesure = tableau d’information géographique
variables ou caractères
• hétérogènes : unités de mesures différentes
• volumes très divers
• Tx ou stock
Variables : ordres de grandeur et unités de mesures très différents
Paramètres des distributions statistiques de chaque variable (14 variables, 55 villes : Pop en variable supp)
Population : de 100000 Valenciennes à 10 millions
Environnement phy : Températures : de 3 (Montbéliard, Strasbourg) à 13
(Toulon) (moyenne des températures les plus hautes quotidiennes); NO2 de17, 19 Lorient, Brest à 50 Paris, Marseille, Lyon, St-Etienne (norme européenne 60 ug/m3)
BPCO : des indices qui varient de 0,4 (La Rochelle, Le Mans, Mtbéliard, Nantes…) à à 2,8 (Béthune, Lens, Valenciennes, Metz, Thionville, Lille)...
Statistique BPCO NO2 O3 Tjanv
RegChomp
c SsDiplopc Bacbp Bacp2 MenNI Gene Pneumo Pop2006
Minimum 0,4 17,5 17,2 3,0 8,8 11,2 12,0 12,6 27,4 9,1 0,1 96470
Maximum 2,8 49,6 52,8 13,0 15,3 29,5 17,5 36,2 54,3 16,9 1,3 10142977
1er Quartile 0,6 26,3 26,7 5,0 9,5 15,9 14,2 19,8 37,6 11,0 0,5 139029
Médiane 0,8 30,4 29,8 7,0 10,5 18,5 15,4 24,1 40,3 12,6 0,7 227771
3ème Quartile 1,1 35,4 36,0 8,5 12,7 22,4 16,3 28,1 43,2 14,3 0,8 343470
Moyenne 0,9 31,2 31,0 7,0 11,3 19,2 15,2 24,0 40,8 12,6 0,7 506916
Ecart-type (n) 0,5 7,0 7,8 2,5 2,0 4,3 1,3 6,1 5,6 2,1 0,3 1347020
CV 0,5 0,2 0,3 0,4 0,2 0,2 0,1 0,3 0,1 0,2 0,4 3
Variables : des dispersions qui peuvent elles aussi varier
Paramètres des distributions statistiques de chaque variable (14 variables, 55 villes : Pop en variable supp)
Statistique BPCO NO2 O3 Tjanv RegChomp
c SsDiplopc Bacbp Bacp2 MenNI Gene Pneumo Pop2006
Minimum 0,4 17,5 17,2 3,0 8,8 11,2 12,0 12,6 27,4 9,1 0,1 96470
Maximum 2,8 49,6 52,8 13,0 15,3 29,5 17,5 36,2 54,3 16,9 1,3 10142977
1er Quartile 0,6 26,3 26,7 5,0 9,5 15,9 14,2 19,8 37,6 11,0 0,5 139029
Médiane 0,8 30,4 29,8 7,0 10,5 18,5 15,4 24,1 40,3 12,6 0,7 227771
3ème Quartile 1,1 35,4 36,0 8,5 12,7 22,4 16,3 28,1 43,2 14,3 0,8 343470
Moyenne 0,9 31,2 31,0 7,0 11,3 19,2 15,2 24,0 40,8 12,6 0,7 506916
Ecart-type (n) 0,5 7,0 7,8 2,5 2,0 4,3 1,3 6,1 5,6 2,1 0,3 1347020
CV 0,5 0,2 0,3 0,4 0,2 0,2 0,1 0,3 0,1 0,2 0,4 3
Variables globalement peu « différenciantes » ms tt de même : cv>0,4
Indice standardisé d’hospi pour BPCO : de 0,4 à 2,4 => x 8 => fortes inégalités
% diplômés bac+2 : de 12,6 à 36,2 => x 3
Environnement phy = températures ;
Equipement médical = pneumologues : de 0,1 à 1,3
Conditions nécessaires
Hypothèse de l’existence de relations linéaires entre des ensembles de
variables : si aucune corrélation, inutile car variables indépendantes les unes des autres => pas de relations mathématiques linéaires => pas de résumé possible
Les individus : ensemble cohérent, sans trop individus exceptionnels : car chaque individu sera décrit / aux autres, sans trop de sous-groupes
La matrice des corrélations : plusieurs types de variables s’associent
Variables BPCO NO2 O3 Tjanv RegChompc SsDiplopc Bacbp Bacp2 MenNI Gene Pneumo
BPCO 1 0,11 -0,07 -0,30 0,53 0,52 -0,49 -0,49 0,49 -0,03 -0,09
NO2 0,11 1 0,69 -0,25 0,03 0,24 -0,09 0,27 -0,31 -0,08 -0,09
O3 -0,07 0,69 1 0,26 0,24 0,15 0,09 0,23 -0,22 0,15 0,04
Tjanv -0,30 -0,25 0,26 1 0,17 -0,36 0,65 0,16 0,00 0,45 0,37
RegChompc 0,53 0,03 0,24 0,17 1 0,58 -0,28 -0,44 0,59 0,32 0,08
SsDiplopc 0,52 0,24 0,15 -0,36 0,58 1 -0,81 -0,70 0,58 -0,08 -0,30
Bacbp -0,49 -0,09 0,09 0,65 -0,28 -0,81 1 0,67 -0,45 0,35 0,47
Bacp2 -0,49 0,27 0,23 0,16 -0,44 -0,70 0,67 1 -0,72 0,19 0,41
MenNI 0,49 -0,31 -0,22 0,00 0,59 0,58 -0,45 -0,72 1 0,10 -0,07
Gene -0,03 -0,08 0,15 0,45 0,32 -0,08 0,35 0,19 0,10 1 0,60
Pneumo -0,09 -0,09 0,04 0,37 0,08 -0,30 0,47 0,41 -0,07 0,60 1
Les valeurs en gras sont différentes de 0 à un niveau de signification alpha=0,05
Deux groupes de variables décrivant la dimension sociale des villes sont corrélées négativement
• Un groupe qui associe plutôt : L’indice de BPCO, le chômage régional, les % sans diplo, les ménages non imposables et les généralistes
• Négativement corrélé avec les % bac+2, les bacs => conforme aux hypothèses
Un groupe de variable décrivant la dimension environnement phy des villes :NO2 et O3 => pas associé aux pathologies respiratoires…
Un gpe associant les médecins, corrélés + aux températures de janvier… une association pas attendue
Une corrélation + entre NO2 et % bac+2 et – entre NO2 et ménages non impo (niveau d’équipement automobile ?)
=> Des groupes de variables assez peu liés
3. Comment fonctionne la procédure d’analyse en
composantes principales ?
L’ACP : une procédure de reconstruction de l’information puis des résultats à analyser
La procédure math (conduite par le logiciel)
• Standardisation du tableau d’information initiale
• Identification des vecteurs propres sur la matrice corrélations
• Recherche des axes factoriels (ds le tableau standardisé) associés aux vecteurs propres
• Calcul des positions des individus sur les axes factoriels (corrélations, contribution, qualité de représentation)
• Calcul des positions des variables sur les axes factoriels (corrélations, contribution, qualité de représentation)
Pour l’utilisateur (pour nous !) : des résultats à analyser
• Le tableau des valeurs propres ou axes factoriels
• La structure des axes factoriels
• La position des individus sur les axes factoriels
1ère étape de la procédure : Standardisation du tableau d’information initiale
Standardisation des positions des individus = transformation
• centrage = distance d’un individu à la moyenne
• Réduction = exprime la distance à la moyenne en nbre d’écart-type
• Même pour les distributions (variables) dissymétriques
• La position de chaque individu sera exprimé en écart-type à la moyenne
Objectif : éliminer les différenciations entre les variables qui ne sont dues qu’à l’effet des ordres de grandeurs et des unités de mesures
Standardisation
Libellé des unités urbaines Pop2006 NO2 CentraPop CentrNO2 StdPop StdNO2
Annemasse 118554 34,0 -388361 2,9 -0,3 0,4
Valence 120922 34,7 -385993 3,5 -0,3 0,5
Bayonne 189836 22,0 -317079 -9,2 -0,2 -1,3
Avignon 273359 33,9 -233556 2,7 -0,2 0,4
Béthune 259293 28,2 -247622 -3,0 -0,2 -0,4
Saint-Étienne 286400 40,8 -220515 9,7 -0,2 1,4
Metz 322946 32,3 -183969 1,1 -0,1 0,2
Douai-Lens 512462 32,1 5547 1,0 0,0 0,1
Toulon 543065 39,6 36150 8,4 0,0 1,2
Lyon 1417463 49,6 910548 18,4 0,7 2,6
Marseille-Aix-en-Provence 1418481 40,8 911566 9,6 0,7 1,4
Paris 10142977 48,4 9636062 17,2 7,1 2,4
Nice 940017 39,6 433102 8,5 0,3 1,2
Troyes 131039 26,9 -375876 -4,2 -0,3 -0,6
Caen 196323 30,4 -310592 -0,8 -0,2 -0,1
Angoulême 105021 23,5 -401894 -7,7 -0,3 -1,1
La Rochelle 119702 21,5 -387213 -9,6 -0,3 -1,4
Dijon 238088 37,4 -268827 6,2 -0,2 0,9
Montbéliard 109118 29,8 -397797 -1,4 -0,3 -0,2
Besançon 134951 40,1 -371964 8,9 -0,3 1,3
Brest 206394 19,3 -300521 -11,9 -0,2 -1,7
Nîmes 161565 29,1 -345350 -2,1 -0,3 -0,3
Toulouse 850873 29,2 343958 -1,9 0,3 -0,3
Bordeaux 803117 29,9 296202 -1,3 0,2 -0,2
Montpellier 318225 34,8 -188690 3,6 -0,1 0,5
Rennes 282550 21,6 -224365 -9,5 -0,2 -1,4
Amiens 161311 29,2 -345604 -2,0 -0,3 -0,3
Poitiers 126652 22,5 -380263 -8,6 -0,3 -1,2
Limoges 177439 29,4 -329476 -1,8 -0,2 -0,3
Moyenne 506916 31 0 0 0 0
Ecart-Type 1359435 7 1359435 7 1 1
Min 96470 17 -410445 -14 0 -2
Max 10142977 50 9636062 18 7 3
2e étape de la procédure : recherche des vecteurs propres
Se fait sur la matrice des corrélations = matrice d’inertie
• A la matrice sont associés des vecteurs propres : des associations de corrélations linéaires
• Ces vecteurs résument les associations et les oppositions entre groupes de variables (cf graphe des corrélations)
Inertie est la variation totale du nuage de points (des positions des individus sur les variables)
Trace de la matrice des corrélations = somme de la diagonale = nbre total de variables du tableau d’info standardisé (= initial)
3e étape de la procédure : Elaboration des axes factoriels
Qu’est-ce qu’un axe factoriel ?
• Axe de différenciation max du nuage de pts = axe qui maximise la variance dans le nuage de points (standardisé)
• A chaque axe est associé un vecteur de la matrice des corrélations
• Chaque axe est une combinaison linéaire de toutes les variables
présentes ds le tableau initial : ms certaines variables ont un poids très important dans cette combinaison, d’autres un poids très faible et
négligeable
Le premier facteur est celui qui synthétise les plus grandes différences entre les individus
Il y a autant d’axes ds le tableau reconstruit que ds le tableau initial
Les facteurs sont indpdts les uns des autres (non corrélés entre eux)
Recherche des axes d’allongement du nuage de points
1er axe : droite qui est la plus proche de ts les points du nuage : celle qui maximise la variance : cad les écarts entre les coordonnées des individus pour ttes les variables
ACP normée : méthode des moindres carrés
• minimise le carré de la distance orthogonale de chaque pt à la droite
• Théorème de Pythagore cad maximise les distances de points à l’origine (Oxy)
4. Comment analyser les résultats d’une analyse en
composantes principales ?
4 types d’informations recomposées : à analyser
La procédure a reconstruit l’information
• Les variables ont été remplacées par des axes
• Le nombre d’axes est identique au nombre de variables initiales
• Chaque axe contient une part de l’information du tableau initial
• Le nombre d’individus est inchangé
• les positions des individus les uns par rapport aux autres ont été conservées
La procédure ACP offre 4 types d’informations à analyser
• Le tableau (et l’histogramme) des valeurs propres issus de l’analyse de la matrice des corrélations
• Les tableaux décrivant les axes factoriels
• Les tableaux décrivant les positions des individus
• Les graphiques positionnant les individus et les variables sur les axes
Les valeurs propres de la matrice des corrélations
Les valeurs propres de la matrice des corrélations définissent les axes factoriels : la plus grande valeur propre définit le 1er axe
Le tableau des valeurs propres présente la hiérarchie des valeurs propres et donc des axes (nvlles variables)
En ligne la part d’information prise en compte par chaque axe cad la part de la variabilité du nuage de points
• En valeur absolue : la somme des valeurs absolues = nbre de variables = l’inertie du nuage
• En valeur relative
• En valeur cumulée : la somme d’information prise en compte par tous les axes = 100% => information recomposée = information du tableau initial
En colonne les axes
Si les axes sont très différenciés : la structuration du nuage de points est forte il est allongé dans plusieurs directions
Si axes peu différenciés : structuration du nuage faible : pas de combinaison géographique simple de l’ensemble des variables
Valeurs propres de la matrice des corrélations
Histogramme des valeurs propres
Tableau des valeurs propres de la matrice des corrélations
1er axe : 37,2% des différenciations induites par l’inégale répartition des variables entre individus
2e axe : 18,7%
14e axe : 0,3%
Tous = 100% = tte l’info initiale
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14
Valeur propre 5,2 2,6 2,1 1,0 0,9 0,6 0,5 0,4 0,2 0,2 0,1 0,1 0,1 0,0
% variance 37,2 18,7 14,9 7,4 6,6 3,9 3,4 2,6 1,7 1,1 0,8 0,6 0,5 0,3
% cumulé 37,2 55,9 70,9 78,3 85,0 88,9 92,4 94,9 96,6 97,7 98,5 99,1 99,7 100,0
3 tableaux pour décrire les axes factoriels
Le tableau des coordonnées des variables sur les axes (corrélations)
Le tableau des contributions des variables à la construction des axes
Le tableau des qualité de représentations des variables sur les axes
Le tableau des coordonnées des individus sur les axes (corrélations)
Le tableau des contributions des individus à la construction des axes
Le tableau des qualité de représentations des individus sur les axes
3 tableaux pour décrire les positions des individus sur les axes
factoriels
Valeurs propres : 3 axes pour 75% d’explication des différenciations
Histogramme des valeurs propres
Tableau des valeurs propres de la matrice des corrélations
1er axe : 37,2% des différenciations
2e axe : 20% => bonne hiérarchie de l’ACP
3e axe : 17% => presque équivalent au 2e axe…
À partir du 4e axe : moins explicatif que chaque variable
11e et dernier axe : 0,5%
Tous = 100% = tte l’info initiale
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11
Valeur propre 4,093 2,289 1,947 0,923 0,557 0,342 0,268 0,251 0,163 0,108 0,058 Variabilité (%) 37,210 20,810 17,698 8,395 5,063 3,113 2,435 2,282 1,480 0,984 0,530
% cumulé 37,210 58,020 75,718 84,113 89,176 92,289 94,724 97,006 98,486 99,470 100,00 0
1ère dimension des différences interurbaines : Santé associée à la déprivation (d’abord dimension sociale)
Tableau des coordonnées, des contributions, des qualités de représentations des variables sur les axes factoriels
Axe 1 : Déprivation et santé - 37% de l’information
Coordonnées et Contributions et QLT élevées pour i)
% diplomés du sup et du bac ii) Indice des BPCO, le % ménages non imposables et le % sans diplôme.
NO2 et Ozone sont très mal représentés => ne sont pas associés
=> axe 1 pathologie respiratoire et déprivation : villes ds lesquelles déprivation élevée st aussi celles dans lesquelles BPCO plus présents que ne l’aurait attendu eu égard structure par âge ; st aussi les villes ds
lesquelles % diplômés du sup plus faibles
Conforme à résultats des géo/socio/épidémio sur la part majeure des facteurs sociaux dans la
détermination des situations de santé
F1 Cor Ctr Qlt
Bacbp 0,882 19,005 0,778
Bacp2 0,850 17,665 0,723
Tjanv 0,473 5,478 0,224
Pneumo 0,467 5,331 0,218
Gene 0,270 1,787 0,073
O3 0,130 0,412 0,017
NO2 -0,010 0,003 0,000
RegChompc -0,546 7,291 0,298
BPCO -0,691 11,680 0,478
MenNI -0,716 12,510 0,512
SsDiplopc -0,878 18,839 0,771
Pop2006 0,159 0,062
Comprendre l’information recomposée : les qualités de représentation des individus
sur les axes factoriels
Tableau des qualités de
représentations des individus sur les axes factoriels
Axe de la défaveur : Bien représentées : Valenciennes, Douai-Lens, Dunkerque…
Mal représentées : Marseille, Le Mans, Strasbourg
Axe (3) de la pollution atmo : Bien représentées : Marseille, Angoulème, Lorient, St-Nazaire… Mal représentées : Bordeaux, Nantes, Valenciennes…
F1 F2 F3 F13 F14
Marseille-Aix-en-Provence 0,006 0,043 0,861 0,004
Le Mans 0,013 0,297 0,060 0,022
Strasbourg 0,018 0,108 0,309 0,001
Caen 0,020 0,404 0,048 0,001
Angoulême 0,024 0,245 0,649 0,001
Perpignan 0,039 0,750 0,070 0,002
Rouen 0,042 0,211 0,203 0,012
Lorient 0,048 0,121 0,703 0,001
Annemasse 0,050 0,008 0,101 0,020
Valence 0,050 0,000 0,081 0,001
Saint-Nazaire 0,051 0,002 0,413 0,002
Toulon 0,055 0,265 0,301 0,005
Nîmes 0,088 0,550 0,138 0,000
Besançon 0,100 0,420 0,014 0,000
Reims 0,100 0,344 0,000 0,000
La Rochelle 0,106 0,225 0,359 0,003
Nice 0,108 0,120 0,366 0,001
Dijon 0,124 0,626 0,017 0,001
Nancy 0,138 0,005 0,063 0,033
Avignon 0,159 0,341 0,253 0,001
Montpellier 0,165 0,317 0,311 0,002
Bayonne 0,170 0,479 0,186 0,001
Lyon 0,192 0,368 0,297 0,003
Paris 0,215 0,264 0,349 0,002
Metz 0,254 0,140 0,004 0,000
Saint-Étienne 0,267 0,154 0,000 0,000
Lille 0,273 0,032 0,281 0,000
Amiens 0,290 0,025 0,023 0,029
Troyes 0,315 0,101 0,212 0,011
Limoges 0,319 0,000 0,226 0,006
Brest 0,344 0,148 0,418 0,006
Angers 0,348 0,012 0,017 0,000
Mulhouse 0,363 0,482 0,004 0,008
Montbéliard 0,364 0,220 0,047 0,001
Poitiers 0,381 0,076 0,086 0,003
Tours 0,395 0,016 0,099 0,008
Orléans 0,398 0,192 0,175 0,001
Pau 0,417 0,263 0,221 0,003
Clermont-Ferrand 0,417 0,282 0,083 0,019
Grenoble 0,443 0,251 0,039 0,001
Le Havre 0,454 0,190 0,009 0,002
Annecy 0,465 0,018 0,000 0,002
Calais 0,504 0,160 0,008 0,000
Bordeaux 0,539 0,009 0,001 0,019
Chambéry 0,544 0,021 0,002 0,014
Béthune 0,587 0,117 0,006 0,003
Thionville 0,651 0,100 0,027 0,001
Maubeuge 0,693 0,022 0,065 0,000
Creil 0,711 0,009 0,002 0,001
Nantes 0,715 0,037 0,000 0,001
Toulouse 0,719 0,100 0,053 0,004
Rennes 0,753 0,013 0,133 0,004
Dunkerque 0,828 0,022 0,002 0,000
Douai-Lens 0,909 0,000 0,001 0,000
Valenciennes 0,913 0,005 0,000 0,000
Comprendre l’information recomposée : les contributions
des individus sur les axes factoriels
Tableau des contributions des individus à la construction des axes factoriels
F1 : Défaveur : Douai-Lens, Maubeuge, Valenciennes, Béthune, Rennes, Nantes, Toulouse, Calais, Dunkerque Contributions notables. Pas Marseille, Le Mans, Caen, Angoulême
F3 : Contribution élevée de Marseille, Lorient, Nice, Brest, Montpellier, Paris. Faible de
Valenciennes, Nantes, Annecy…
F1 F2 F3 F13 F14
Le Mans 0,029 1,320 0,332 2,656
Marseille-Aix-en-Provence 0,037 0,498 12,358 1,706
Caen 0,044 1,736 0,260 3,522
Angoulême 0,057 1,162 3,850 3,983
Valence 0,072 0,001 0,288 0,212
Strasbourg 0,093 1,110 3,984 5,171
Rouen 0,134 1,329 1,598 0,527
Reims 0,141 0,963 0,001 0,634
Saint-Nazaire 0,143 0,013 2,880 0,002
Annemasse 0,146 0,045 0,742 0,574
Lorient 0,197 0,985 7,168 4,875
La Rochelle 0,317 1,339 2,671 0,549
Toulon 0,339 3,250 4,621 6,129
Perpignan 0,339 12,905 1,501 9,756
Nancy 0,374 0,025 0,425 2,058
Amiens 0,455 0,078 0,092 3,833
Nîmes 0,492 6,090 1,918 0,632
Besançon 0,575 4,814 0,207 0,506
Avignon 0,633 2,701 2,512 0,069
Dijon 0,674 6,754 0,235 0,805
Saint-Étienne 0,716 0,822 0,001 0,107
Tours 0,716 0,057 0,447 2,821
Nice 0,723 1,602 6,097 0,971
Angers 0,743 0,051 0,089 0,581
Limoges 0,813 0,000 1,436 0,024
Metz 0,850 0,935 0,031 2,692
Lyon 0,954 3,639 3,683 0,513
Troyes 1,040 0,667 1,743 0,750
Lille 1,124 0,263 2,888 6,437
Bayonne 1,157 6,495 3,153 1,693
Grenoble 1,179 1,332 0,257 0,019
Bordeaux 1,221 0,039 0,003 4,355
Orléans 1,257 1,206 1,375 0,069
Clermont-Ferrand 1,318 1,777 0,651 1,580
Paris 1,588 3,886 6,439 4,109
Mulhouse 1,611 4,255 0,045 1,584
Poitiers 1,662 0,663 0,938 0,336
Montpellier 1,759 6,738 8,301 1,205
Brest 1,769 1,520 5,356 1,049
Le Havre 2,097 1,752 0,102 0,120
Chambéry 2,188 0,165 0,021 0,053
Pau 2,301 2,889 3,039 2,068
Montbéliard 2,305 2,776 0,738 0,422
Annecy 2,832 0,223 0,003 0,461
Creil 2,921 0,077 0,025 3,519
Thionville 3,356 1,027 0,346 4,604
Dunkerque 3,784 0,201 0,018 0,159
Calais 4,018 2,538 0,152 0,168
Toulouse 4,061 1,122 0,753 0,391
Nantes 4,117 0,425 0,001 6,277
Rennes 4,614 0,154 2,028 0,001
Béthune 7,416 2,951 0,184 0,895
Valenciennes 7,821 0,089 0,005 0,034
Maubeuge 8,486 0,547 1,978 0,199
Douai-Lens 10,189 0,003 0,031 1,532