• Aucun résultat trouvé

Analyses multivariées : des techniques descriptives ME1AY030 Master Meci

N/A
N/A
Protected

Academic year: 2022

Partager "Analyses multivariées : des techniques descriptives ME1AY030 Master Meci"

Copied!
48
0
0

Texte intégral

(1)

Analyses multivariées : des techniques descriptives

ME1AY030

Master Meci

(2)

Plan

1. Quelles sont les techniques d'analyse multivariées ? 2. L’Analyse en composante principale : introduction

3. Comment fonctionne la procédure d’ Analyse en Composantes Principales ?

4. Comment analyser les résultats d'une ACP ?

(3)

1. Les techniques d’analyses multivariées

(4)

Intro

traiter simultanément gd nbre de variables

mettre à jour la structure cachée d’un gd ens d’info. Invisible avec bi ou uni

Condenser une collection d’info pour en donner représentation simplifiée

(5)

Définitions

Dèf : Volle : Stat descriptive perfectionnée, analyse des données permet décrire rapidement de gds gisements de données

Traiter gd nbre de variables ensemble et non 2 à 2

Réduit une masse d’info

(6)

Exemple : Choix des variables – indicateurs : en fonction des résultats d’études précédentes

En fonction des résultats d’autres études

BPCO des hommes : pathologie dont il a été montré qu’elle est aggravée par la poll atmo (APHEIS)

=> hypothèse : plus pollution atmo élevée ds une ville plus les hospitalisations pour BPCO sont élevées

niveau de chômage niveau régional, % pop sans diplôme, % de ménages non imposables car sont des indicateurs qui traduisent des situations de « déprivation* » qui accompagnent généralement mauvaise situation de santé => villes ds lesquelles déprivation sont aussi celles ds lesquelles santé défavorable

% diplômés bac +2 accompagne en gnl au contraire des situations de santé favorable (en 2000 encore 10 ans de différence d’espérance de vie entre cadres et ouvriers)

Environnement phy : températures car travaux sur les maladies respiratoires montrent qu’elles sont aggravées par les épisodes froids (Besançenot) ; NO2 car lien avéré ds le tps entre BPCO et NO2 ; 03 pour tester combinaison avec NO2 => hypothèse : villes ds lesquelles températures basses sont aussi en situation de santé défavorable

Pneumo et généraliste car accès aux soins va de pair avec situation de santé favorable

Population car gdes villes, pollution atmo plus élevée, et santé moins favorable

* Déprivation : notion multidimensionnelle de la pauvreté : ne prend pas en compte seulement les revenus, mais les biens matériels (par ex la possession d’une voiture), le niveau de diplôme... Très utilisée par les anglosaxons. Traduite ds un indice par Townsend

(7)

Exemple : Santé respiratoire et caractéristiques sociales et environnementales des villes

Etudier les inégalités de santé respi en France. BPCO =

bronchopneumopathies chroniques obstructives : ressemble à l’asthme ; pathologie en croissance ; souvent liée au tabagisme. Affecte plus les adultes.

Quelles hypothèses :

Est-ce qu’il existe une structuration dans l’ensemble des 55 villes qui opère simultanément pour la santé, la structure sociale et les caractéristiques de l’atmosphère ?

Comment est organisée cette structure ? Quelles sont les villes qui se ressemblent ? Qui s’opposent ?

(8)

Quelle information ?

Disposer d’une info initiale concernant

ensemble d’individus i=1 à n

Décrits par variables/caractères j=1 à p

Chque ligne pour individu i sa situation sur les variables/caractères j

Info ds un tableau élémentaire à n*p cases

En géo les individus st des lieux et les variables les phénomènes qui caractérisent ces lieux

Abondance de l’info cache structure

(9)

Exemple : Santé respiratoire et caractéristiques sociales et environnementales des villes

Ici : choix des villes de plus de 100000 notamment car la surveillance de la poll atmo y est obligatoire => mesures journalières Dioxyde d’azote, Particules,

Ozone

Variables qui caractérisent

les dimensions sociales,

environnementales

et d’équipement en soins

Les inégalités interurbaines de santé sont-elles associées à des inégalités sociales ? Environnementales ? D’équipement en soin ?

Quelles sont les dimensions qui s’associent ? Qui s’opposent ?

(10)

Différentes recompositions et objectifs pour différentes informations initiales

Chaque technique adaptée à une forme d’information initiale

Tableau de contingence AFC - CAH

Tableau de mesure ACP – CAH

Chaque technique recompose l’information initiale d’une manière différente

Axes factoriels : Gpes de variables : AFC - ACP

Classes : Gpes d’individus : CAH

(11)

Exemple : Pollution et pathologies respiratoires ds les villes fr : l’information initiale

Libellé des unités urbaines BPCO NO2 O3 Tjanv RegChom UUChom SsDiplo Bac Bac2 MenNI Gene Pneumo GiniB2 CVSsDiplo Pop2006

Annemasse 0,89 34,0282 26,5852 5 0,095 0,104 0,172 0,162 0,281 49,9 12,8 0,80,212927415 0,44 118554

Valence 0,56 34,6707 31,1135 8 0,095 0,135 0,198 0,154 0,226 41,1 11,2 0,70,191276158 0,47 120922

Bayonne 0,64 21,9792 21,8604 12 0,109 0,117 0,148 0,171 0,237 39,1 14,7 0,90,152127768 0,35 189836

Avignon 0,90 33,9005 40,0620 9,5 0,133 0,149 0,255 0,148 0,204 44,9 16,2 0,80,231001461 0,43 273359

Béthune 2,76 28,1896 24,9711 6 0,148 0,159 0,226 0,135 0,132 51,9 14,5 0,70,217328527 0,28 259293

Saint-Étienne 1,38 40,8416 31,7381 6 0,095 0,128 0,229 0,145 0,199 44,9 11,0 0,60,243379946 0,42 286400

Metz 1,81 32,2723 25,6218 4 0,113 0,118 0,224 0,141 0,215 41,1 13,5 0,70,312495339 0,56 322946

Douai-Lens 2,25 32,1483 27,9095 5 0,148 0,183 0,263 0,132 0,127 51,7 10,3 0,40,266357108 0,35 512462

Toulon 0,83 39,6103 47,8594 13 0,133 0,136 0,185 0,173 0,213 39,6 14,5 0,70,198192249 0,49 543065

Lyon 0,96 49,5912 40,4763 6 0,095 0,108 0,184 0,155 0,309 34,1 11,0 0,70,264159018 0,61 1417463

Marseille-Aix-en-Provence 1,03 40,8128 52,5695 10 0,133 0,156 0,228 0,154 0,249 40,0 15,2 0,80,293570545 0,57 1418481

Paris 1,07 48,3850 42,8566 6 0,110 0,114 0,185 0,161 0,348 27,4 10,3 0,80,278183486 0,62 10142977

Nice 0,85 39,6238 52,7788 12 0,133 0,114 0,185 0,174 0,247 37,8 14,1 0,70,206458559 0,47 940017

Troyes 0,52 26,93 26,89 5,00 0,12 0,15 0,224 0,133 0,183 43,09 9,8 0,40,221493246 0,50 131039

Caen 0,81 30,4156 28,8061 7 0,104 0,136 0,178 0,143 0,252 40,6 11,2 0,20,298849982 0,57 196323

Angoulême 0,82 23,4624 20,3272 8 0,105 0,140 0,183 0,155 0,198 45,9 12,1 0,80,205825856 0,43 105021

La Rochelle 0,38 21,5340 18,1792 8 0,105 0,138 0,165 0,164 0,235 41,3 14,5 0,80,247286616 0,52 119702

Dijon 0,96 37,3930 28,9021 4 0,100 0,098 0,162 0,161 0,283 33,1 9,3 0,10,252028513 0,63 238088

Montbéliard 0,47 29,7822 32,0953 3 0,100 0,155 0,262 0,120 0,167 42,3 11,1 0,3 0,241296239 0,45 109118

Besançon 0,58 40,0790 39,9585 4 0,100 0,120 0,169 0,153 0,298 40,8 9,7 0,20,200878854 0,72 134951

Brest 0,87 19,2595 19,3691 9 0,090 0,119 0,112 0,175 0,262 40,3 12,9 0,80,205616011 0,51 206394

Nîmes 0,93 29,0943 30,2408 10 0,153 0,191 0,220 0,157 0,235 46,7 16,8 0,90,257070617 0,59 161565

Toulouse 0,84 29,2261 36,3085 9 0,105 0,116 0,140 0,168 0,362 35,4 14,6 1,2 0,19810201 0,66 850873

Bordeaux 0,87 29,8537 35,7484 9 0,109 0,115 0,147 0,166 0,294 35,3 11,1 0,50,229725927 0,54 803117

Montpellier 0,68 34,7890 39,9830 11 0,153 0,166 0,172 0,171 0,362 42,9 16,3 1,30,201877922 0,79 318225

Rennes 0,60 21,6354 21,7601 8 0,090 0,100 0,119 0,169 0,346 34,2 13,3 0,90,213595208 0,63 282550

Tours 0,83 25,9208 31,0173 7 0,100 0,111 0,154 0,158 0,261 37,5 12,1 1,0 0,239987854 0,48 306974

Grenoble 0,82 38,4723 29,6696 6 0,095 0,104 0,189 0,150 0,339 35,5 12,4 0,80,235050218 0,62 427658

Saint-Nazaire 0,75 21,6921 27,8618 9 0,092 0,131 0,148 0,156 0,187 39,3 12,6 0,30,229548485 0,55 143106

Nantes 0,49 26,6551 37,9185 8 0,092 0,110 0,121 0,168 0,303 33,6 12,0 0,60,232527471 0,78 568743

Orléans 0,67 24,7517 28,9893 6 0,100 0,095 0,170 0,157 0,269 32,6 9,9 0,60,216954455 0,61 269283

Angers 0,66 27,4684 36,9815 8 0,092 0,127 0,166 0,151 0,270 40,1 13,8 0,60,257812566 0,70 227771

Reims 0,97 29,7827 26,7432 5 0,118 0,132 0,220 0,145 0,240 38,5 12,1 0,6 0,30078995 0,61 212021

Nancy 0,83 34,5773 28,4578 4 0,113 0,114 0,171 0,147 0,281 38,4 16,1 0,90,257175248 0,61 331279

Lorient 0,90 17,4729 17,1591 9 0,090 0,135 0,145 0,163 0,209 42,0 11,7 0,80,226755668 0,49 116764

Thionville 1,76 32,5906 26,8059 4 0,113 0,121 0,254 0,135 0,172 47,1 11,0 0,50,282553519 0,39 130437

Maubeuge 1,20 24,9270 24,1508 5 0,148 0,223 0,259 0,134 0,126 54,3 9,1 0,40,194831324 0,42 96470

Dunkerque 1,27 30,0205 29,7881 6 0,148 0,170 0,237 0,139 0,155 43,3 12,2 0,70,280400843 0,35 182973

Valenciennes 1,84 32,2857 32,3120 5 0,148 0,175 0,244 0,132 0,141 49,8 10,7 0,30,277561066 0,37 355660

Lille 1,71 36,4390 33,7050 5 0,148 0,149 0,213 0,144 0,261 40,1 14,5 0,40,310184981 0,56 1242219

Creil 1,14 31,7560 28,8216 5 0,122 0,154 0,295 0,135 0,159 45,0 13,4 0,50,248383125 0,52 101100

Calais 1,38 20,3649 21,9010 6 0,148 0,195 0,223 0,144 0,140 47,6 13,6 1,10,321967852 0,48 103277

Clermont-Ferrand 0,39 34,2362 27,5421 7 0,097 0,108 0,146 0,161 0,266 35,7 9,3 0,50,245547641 0,60 260657

Pau 0,58 23,2404 21,2938 11 0,109 0,106 0,138 0,173 0,280 39,4 12,7 0,80,153584857 0,49 193991

Perpignan 0,64 25,3852 40,8724 12 0,153 0,176 0,217 0,163 0,203 52,9 16,9 0,9 0,19546601 0,50 178501

Strasbourg 1,14 40,4939 37,2378 3 0,102 0,131 0,206 0,145 0,292 37,2 14,0 1,20,306157868 0,65 440265

Mulhouse 0,78 35,3237 30,0434 4 0,102 0,153 0,260 0,136 0,188 41,0 10,0 0,30,294101154 0,53 238638

Le Mans 0,46 27,8481 32,5816 7 0,092 0,129 0,176 0,140 0,218 39,0 10,2 0,70,292238428 0,59 192910

Chambéry 0,60 38,1491 33,0629 5 0,095 0,090 0,147 0,162 0,276 36,6 12,6 0,90,163603136 0,53 119266

Annecy 0,59 38,1082 29,9724 4 0,095 0,082 0,158 0,168 0,293 30,4 15,4 0,70,178589275 0,46 144682

Le Havre 1,34 30,5096 33,5942 7 0,118 0,154 0,221 0,135 0,172 41,8 9,8 0,40,358099327 0,55 238776

Rouen 0,67 35,4277 36,8209 8 0,118 0,130 0,212 0,139 0,233 37,9 12,4 0,50,355843233 0,56 388798

Amiens 0,84 29,2041 28,1498 5,5 0,122 0,155 0,227 0,143 0,244 40,7 14,1 0,60,298979138 0,55 161311

Poitiers 0,88 22,5207 21,4378 7 0,105 0,114 0,143 0,163 0,307 42,5 13,2 1,10,224535537 0,71 126652

Limoges 0,60 29,3718 23,1348 7 0,088 0,107 0,160 0,159 0,241 39,2 15,2 0,50,215914397 0,55 177439

(12)

L’information stat transformée par technique math

Mathématiquement

chaque individu peut être représenté et positionné ds l’espace des p variables/caractères : c’est une ‘vecteur ligne’ défini par p coordonnées

Chaque variable/caractère peut être représenté ds l’espace des n individus : c’est un ‘vecteur colonne’ défini par n coordonnées

Utilise des espaces mathématiques avec gd nbre de dimensions : matrices et règles calcul matriciel

Paris Douai

Béthune

Nice Montpellier

Strasbourg

Nantes Bordeaux

(13)

Pour visualiser : Analogies

Analyse bivariée

Un ensemble d’n individus

Décrits par 2 dimensions = 2 variables/caractères

droite de régression = modèle de la relation qui existe au sein de l’ensemble des individus entre les deux dimensions

Ellipse

Analyse multivariée

Un ensemble de n individus

Décris par p dimensions = p caractères

Axes factoriels : modèlent DES RELATIONS qui existent au sein de l’ensemble des individus

Nuage = 3 dimensions ballon rugby (Nuage ds le tps = 4 dimensions)

(14)

2. L’Analyse en Composantes principales

(15)

L’Analyse en Composantes Principales

résume l’information relative aux variables/caractères - privilégie l’analyse des relations entre variables

reconstruit l’info contenue ds un tableau de n lignes et p colonnes

S’appuie pour cette reconstruction sur les oppositions entre variables et individus

n points (individus) peuvent être représentés géométriquement ds un espace à p dimensions

reconstruire l’info c’est projeter les individus ds un autre espace à p dimensions hiérarchisées

(16)

Quelle information initiale pour l’analyse en composantes principales

?

tableau de mesure = tableau d’information géographique

variables ou caractères

hétérogènes : unités de mesures différentes

volumes très divers

Tx ou stock

(17)

Variables : ordres de grandeur et unités de mesures très différents

Paramètres des distributions statistiques de chaque variable (14 variables, 55 villes : Pop en variable supp)

Population : de 100000 Valenciennes à 10 millions

Environnement phy : Températures : de 3 (Montbéliard, Strasbourg) à 13

(Toulon) (moyenne des températures les plus hautes quotidiennes); NO2 de17, 19 Lorient, Brest à 50 Paris, Marseille, Lyon, St-Etienne (norme européenne 60 ug/m3)

BPCO : des indices qui varient de 0,4 (La Rochelle, Le Mans, Mtbéliard, Nantes…) à à 2,8 (Béthune, Lens, Valenciennes, Metz, Thionville, Lille)...

Statistique BPCO NO2 O3 Tjanv

RegChomp

c SsDiplopc Bacbp Bacp2 MenNI Gene Pneumo Pop2006

Minimum 0,4 17,5 17,2 3,0 8,8 11,2 12,0 12,6 27,4 9,1 0,1 96470

Maximum 2,8 49,6 52,8 13,0 15,3 29,5 17,5 36,2 54,3 16,9 1,3 10142977

1er Quartile 0,6 26,3 26,7 5,0 9,5 15,9 14,2 19,8 37,6 11,0 0,5 139029

Médiane 0,8 30,4 29,8 7,0 10,5 18,5 15,4 24,1 40,3 12,6 0,7 227771

3ème Quartile 1,1 35,4 36,0 8,5 12,7 22,4 16,3 28,1 43,2 14,3 0,8 343470

Moyenne 0,9 31,2 31,0 7,0 11,3 19,2 15,2 24,0 40,8 12,6 0,7 506916

Ecart-type (n) 0,5 7,0 7,8 2,5 2,0 4,3 1,3 6,1 5,6 2,1 0,3 1347020

CV 0,5 0,2 0,3 0,4 0,2 0,2 0,1 0,3 0,1 0,2 0,4 3

(18)

Variables : des dispersions qui peuvent elles aussi varier

Paramètres des distributions statistiques de chaque variable (14 variables, 55 villes : Pop en variable supp)

Statistique BPCO NO2 O3 Tjanv RegChomp

c SsDiplopc Bacbp Bacp2 MenNI Gene Pneumo Pop2006

Minimum 0,4 17,5 17,2 3,0 8,8 11,2 12,0 12,6 27,4 9,1 0,1 96470

Maximum 2,8 49,6 52,8 13,0 15,3 29,5 17,5 36,2 54,3 16,9 1,3 10142977

1er Quartile 0,6 26,3 26,7 5,0 9,5 15,9 14,2 19,8 37,6 11,0 0,5 139029

Médiane 0,8 30,4 29,8 7,0 10,5 18,5 15,4 24,1 40,3 12,6 0,7 227771

3ème Quartile 1,1 35,4 36,0 8,5 12,7 22,4 16,3 28,1 43,2 14,3 0,8 343470

Moyenne 0,9 31,2 31,0 7,0 11,3 19,2 15,2 24,0 40,8 12,6 0,7 506916

Ecart-type (n) 0,5 7,0 7,8 2,5 2,0 4,3 1,3 6,1 5,6 2,1 0,3 1347020

CV 0,5 0,2 0,3 0,4 0,2 0,2 0,1 0,3 0,1 0,2 0,4 3

Variables globalement peu « différenciantes » ms tt de même : cv>0,4

Indice standardisé d’hospi pour BPCO : de 0,4 à 2,4 => x 8 => fortes inégalités

% diplômés bac+2 : de 12,6 à 36,2 => x 3

Environnement phy = températures ;

Equipement médical = pneumologues : de 0,1 à 1,3

(19)

Conditions nécessaires

Hypothèse de l’existence de relations linéaires entre des ensembles de

variables : si aucune corrélation, inutile car variables indépendantes les unes des autres => pas de relations mathématiques linéaires => pas de résumé possible

Les individus : ensemble cohérent, sans trop individus exceptionnels : car chaque individu sera décrit / aux autres, sans trop de sous-groupes

(20)

La matrice des corrélations : plusieurs types de variables s’associent

Variables BPCO NO2 O3 Tjanv RegChompc SsDiplopc Bacbp Bacp2 MenNI Gene Pneumo

BPCO 1 0,11 -0,07 -0,30 0,53 0,52 -0,49 -0,49 0,49 -0,03 -0,09

NO2 0,11 1 0,69 -0,25 0,03 0,24 -0,09 0,27 -0,31 -0,08 -0,09

O3 -0,07 0,69 1 0,26 0,24 0,15 0,09 0,23 -0,22 0,15 0,04

Tjanv -0,30 -0,25 0,26 1 0,17 -0,36 0,65 0,16 0,00 0,45 0,37

RegChompc 0,53 0,03 0,24 0,17 1 0,58 -0,28 -0,44 0,59 0,32 0,08

SsDiplopc 0,52 0,24 0,15 -0,36 0,58 1 -0,81 -0,70 0,58 -0,08 -0,30

Bacbp -0,49 -0,09 0,09 0,65 -0,28 -0,81 1 0,67 -0,45 0,35 0,47

Bacp2 -0,49 0,27 0,23 0,16 -0,44 -0,70 0,67 1 -0,72 0,19 0,41

MenNI 0,49 -0,31 -0,22 0,00 0,59 0,58 -0,45 -0,72 1 0,10 -0,07

Gene -0,03 -0,08 0,15 0,45 0,32 -0,08 0,35 0,19 0,10 1 0,60

Pneumo -0,09 -0,09 0,04 0,37 0,08 -0,30 0,47 0,41 -0,07 0,60 1

Les valeurs en gras sont différentes de 0 à un niveau de signification alpha=0,05

Deux groupes de variables décrivant la dimension sociale des villes sont corrélées négativement

Un groupe qui associe plutôt : L’indice de BPCO, le chômage régional, les % sans diplo, les ménages non imposables et les généralistes

Négativement corrélé avec les % bac+2, les bacs => conforme aux hypothèses

Un groupe de variable décrivant la dimension environnement phy des villes :NO2 et O3 => pas associé aux pathologies respiratoires…

Un gpe associant les médecins, corrélés + aux températures de janvier… une association pas attendue

Une corrélation + entre NO2 et % bac+2 et – entre NO2 et ménages non impo (niveau d’équipement automobile ?)

=> Des groupes de variables assez peu liés

(21)

3. Comment fonctionne la procédure d’analyse en

composantes principales ?

(22)

L’ACP : une procédure de reconstruction de l’information puis des résultats à analyser

La procédure math (conduite par le logiciel)

Standardisation du tableau d’information initiale

Identification des vecteurs propres sur la matrice corrélations

Recherche des axes factoriels (ds le tableau standardisé) associés aux vecteurs propres

Calcul des positions des individus sur les axes factoriels (corrélations, contribution, qualité de représentation)

Calcul des positions des variables sur les axes factoriels (corrélations, contribution, qualité de représentation)

Pour l’utilisateur (pour nous !) : des résultats à analyser

Le tableau des valeurs propres ou axes factoriels

La structure des axes factoriels

La position des individus sur les axes factoriels

(23)

1ère étape de la procédure : Standardisation du tableau d’information initiale

Standardisation des positions des individus = transformation

centrage = distance d’un individu à la moyenne

Réduction = exprime la distance à la moyenne en nbre d’écart-type

Même pour les distributions (variables) dissymétriques

La position de chaque individu sera exprimé en écart-type à la moyenne

Objectif : éliminer les différenciations entre les variables qui ne sont dues qu’à l’effet des ordres de grandeurs et des unités de mesures

(24)

Standardisation

Libellé des unités urbaines Pop2006 NO2 CentraPop CentrNO2 StdPop StdNO2

Annemasse 118554 34,0 -388361 2,9 -0,3 0,4

Valence 120922 34,7 -385993 3,5 -0,3 0,5

Bayonne 189836 22,0 -317079 -9,2 -0,2 -1,3

Avignon 273359 33,9 -233556 2,7 -0,2 0,4

Béthune 259293 28,2 -247622 -3,0 -0,2 -0,4

Saint-Étienne 286400 40,8 -220515 9,7 -0,2 1,4

Metz 322946 32,3 -183969 1,1 -0,1 0,2

Douai-Lens 512462 32,1 5547 1,0 0,0 0,1

Toulon 543065 39,6 36150 8,4 0,0 1,2

Lyon 1417463 49,6 910548 18,4 0,7 2,6

Marseille-Aix-en-Provence 1418481 40,8 911566 9,6 0,7 1,4

Paris 10142977 48,4 9636062 17,2 7,1 2,4

Nice 940017 39,6 433102 8,5 0,3 1,2

Troyes 131039 26,9 -375876 -4,2 -0,3 -0,6

Caen 196323 30,4 -310592 -0,8 -0,2 -0,1

Angoulême 105021 23,5 -401894 -7,7 -0,3 -1,1

La Rochelle 119702 21,5 -387213 -9,6 -0,3 -1,4

Dijon 238088 37,4 -268827 6,2 -0,2 0,9

Montbéliard 109118 29,8 -397797 -1,4 -0,3 -0,2

Besançon 134951 40,1 -371964 8,9 -0,3 1,3

Brest 206394 19,3 -300521 -11,9 -0,2 -1,7

Nîmes 161565 29,1 -345350 -2,1 -0,3 -0,3

Toulouse 850873 29,2 343958 -1,9 0,3 -0,3

Bordeaux 803117 29,9 296202 -1,3 0,2 -0,2

Montpellier 318225 34,8 -188690 3,6 -0,1 0,5

Rennes 282550 21,6 -224365 -9,5 -0,2 -1,4

Amiens 161311 29,2 -345604 -2,0 -0,3 -0,3

Poitiers 126652 22,5 -380263 -8,6 -0,3 -1,2

Limoges 177439 29,4 -329476 -1,8 -0,2 -0,3

Moyenne 506916 31 0 0 0 0

Ecart-Type 1359435 7 1359435 7 1 1

Min 96470 17 -410445 -14 0 -2

Max 10142977 50 9636062 18 7 3

(25)

2e étape de la procédure : recherche des vecteurs propres

Se fait sur la matrice des corrélations = matrice d’inertie

A la matrice sont associés des vecteurs propres : des associations de corrélations linéaires

Ces vecteurs résument les associations et les oppositions entre groupes de variables (cf graphe des corrélations)

Inertie est la variation totale du nuage de points (des positions des individus sur les variables)

Trace de la matrice des corrélations = somme de la diagonale = nbre total de variables du tableau d’info standardisé (= initial)

(26)

3e étape de la procédure : Elaboration des axes factoriels

Qu’est-ce qu’un axe factoriel ?

Axe de différenciation max du nuage de pts = axe qui maximise la variance dans le nuage de points (standardisé)

A chaque axe est associé un vecteur de la matrice des corrélations

Chaque axe est une combinaison linéaire de toutes les variables

présentes ds le tableau initial : ms certaines variables ont un poids très important dans cette combinaison, d’autres un poids très faible et

négligeable

Le premier facteur est celui qui synthétise les plus grandes différences entre les individus

Il y a autant d’axes ds le tableau reconstruit que ds le tableau initial

Les facteurs sont indpdts les uns des autres (non corrélés entre eux)

(27)

Recherche des axes d’allongement du nuage de points

1er axe : droite qui est la plus proche de ts les points du nuage : celle qui maximise la variance : cad les écarts entre les coordonnées des individus pour ttes les variables

ACP normée : méthode des moindres carrés

minimise le carré de la distance orthogonale de chaque pt à la droite

Théorème de Pythagore cad maximise les distances de points à l’origine (Oxy)

(28)

4. Comment analyser les résultats d’une analyse en

composantes principales ?

(29)

4 types d’informations recomposées : à analyser

La procédure a reconstruit l’information

Les variables ont été remplacées par des axes

Le nombre d’axes est identique au nombre de variables initiales

Chaque axe contient une part de l’information du tableau initial

Le nombre d’individus est inchangé

les positions des individus les uns par rapport aux autres ont été conservées

La procédure ACP offre 4 types d’informations à analyser

Le tableau (et l’histogramme) des valeurs propres issus de l’analyse de la matrice des corrélations

Les tableaux décrivant les axes factoriels

Les tableaux décrivant les positions des individus

Les graphiques positionnant les individus et les variables sur les axes

(30)

Les valeurs propres de la matrice des corrélations

Les valeurs propres de la matrice des corrélations définissent les axes factoriels : la plus grande valeur propre définit le 1er axe

Le tableau des valeurs propres présente la hiérarchie des valeurs propres et donc des axes (nvlles variables)

En ligne la part d’information prise en compte par chaque axe cad la part de la variabilité du nuage de points

En valeur absolue : la somme des valeurs absolues = nbre de variables = l’inertie du nuage

En valeur relative

En valeur cumulée : la somme d’information prise en compte par tous les axes = 100% => information recomposée = information du tableau initial

En colonne les axes

Si les axes sont très différenciés : la structuration du nuage de points est forte il est allongé dans plusieurs directions

Si axes peu différenciés : structuration du nuage faible : pas de combinaison géographique simple de l’ensemble des variables

(31)

Valeurs propres de la matrice des corrélations

Histogramme des valeurs propres

Tableau des valeurs propres de la matrice des corrélations

1er axe : 37,2% des différenciations induites par l’inégale répartition des variables entre individus

2e axe : 18,7%

14e axe : 0,3%

Tous = 100% = tte l’info initiale

  F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14

Valeur propre 5,2 2,6 2,1 1,0 0,9 0,6 0,5 0,4 0,2 0,2 0,1 0,1 0,1 0,0

% variance 37,2 18,7 14,9 7,4 6,6 3,9 3,4 2,6 1,7 1,1 0,8 0,6 0,5 0,3

% cumulé 37,2 55,9 70,9 78,3 85,0 88,9 92,4 94,9 96,6 97,7 98,5 99,1 99,7 100,0

(32)

3 tableaux pour décrire les axes factoriels

Le tableau des coordonnées des variables sur les axes (corrélations)

Le tableau des contributions des variables à la construction des axes

Le tableau des qualité de représentations des variables sur les axes

(33)

Le tableau des coordonnées des individus sur les axes (corrélations)

Le tableau des contributions des individus à la construction des axes

Le tableau des qualité de représentations des individus sur les axes

3 tableaux pour décrire les positions des individus sur les axes

factoriels

(34)

Valeurs propres : 3 axes pour 75% d’explication des différenciations

Histogramme des valeurs propres

Tableau des valeurs propres de la matrice des corrélations

1er axe : 37,2% des différenciations

2e axe : 20% => bonne hiérarchie de l’ACP

3e axe : 17% => presque équivalent au 2e axe…

À partir du 4e axe : moins explicatif que chaque variable

11e et dernier axe : 0,5%

Tous = 100% = tte l’info initiale

  F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11

Valeur propre 4,093 2,289 1,947 0,923 0,557 0,342 0,268 0,251 0,163 0,108 0,058 Variabilité (%) 37,210 20,810 17,698 8,395 5,063 3,113 2,435 2,282 1,480 0,984 0,530

% cumulé 37,210 58,020 75,718 84,113 89,176 92,289 94,724 97,006 98,486 99,470 100,00 0

(35)

1ère dimension des différences interurbaines : Santé associée à la déprivation (d’abord dimension sociale)

Tableau des coordonnées, des contributions, des qualités de représentations des variables sur les axes factoriels

Axe 1 : Déprivation et santé - 37% de l’information

Coordonnées et Contributions et QLT élevées pour i)

% diplomés du sup et du bac ii) Indice des BPCO, le % ménages non imposables et le % sans diplôme.

NO2 et Ozone sont très mal représentés => ne sont pas associés

=> axe 1 pathologie respiratoire et déprivation : villes ds lesquelles déprivation élevée st aussi celles dans lesquelles BPCO plus présents que ne l’aurait attendu eu égard structure par âge ; st aussi les villes ds

lesquelles % diplômés du sup plus faibles

Conforme à résultats des géo/socio/épidémio sur la part majeure des facteurs sociaux dans la

détermination des situations de santé

F1 Cor Ctr Qlt

Bacbp 0,882 19,005 0,778

Bacp2 0,850 17,665 0,723

Tjanv 0,473 5,478 0,224

Pneumo 0,467 5,331 0,218

Gene 0,270 1,787 0,073

O3 0,130 0,412 0,017

NO2 -0,010 0,003 0,000

RegChompc -0,546 7,291 0,298

BPCO -0,691 11,680 0,478

MenNI -0,716 12,510 0,512

SsDiplopc -0,878 18,839 0,771

Pop2006 0,159 0,062

(36)

Comprendre l’information recomposée : les qualités de représentation des individus

sur les axes factoriels

Tableau des qualités de

représentations des individus sur les axes factoriels

Axe de la défaveur : Bien représentées : Valenciennes, Douai-Lens, Dunkerque…

Mal représentées : Marseille, Le Mans, Strasbourg

Axe (3) de la pollution atmo : Bien représentées : Marseille, Angoulème, Lorient, St-Nazaire… Mal représentées : Bordeaux, Nantes, Valenciennes…

F1 F2 F3 F13 F14

Marseille-Aix-en-Provence 0,006 0,043 0,861 0,004

Le Mans 0,013 0,297 0,060 0,022

Strasbourg 0,018 0,108 0,309 0,001

Caen 0,020 0,404 0,048 0,001

Angoulême 0,024 0,245 0,649 0,001

Perpignan 0,039 0,750 0,070 0,002

Rouen 0,042 0,211 0,203 0,012

Lorient 0,048 0,121 0,703 0,001

Annemasse 0,050 0,008 0,101 0,020

Valence 0,050 0,000 0,081 0,001

Saint-Nazaire 0,051 0,002 0,413 0,002

Toulon 0,055 0,265 0,301 0,005

Nîmes 0,088 0,550 0,138 0,000

Besançon 0,100 0,420 0,014 0,000

Reims 0,100 0,344 0,000 0,000

La Rochelle 0,106 0,225 0,359 0,003

Nice 0,108 0,120 0,366 0,001

Dijon 0,124 0,626 0,017 0,001

Nancy 0,138 0,005 0,063 0,033

Avignon 0,159 0,341 0,253 0,001

Montpellier 0,165 0,317 0,311 0,002

Bayonne 0,170 0,479 0,186 0,001

Lyon 0,192 0,368 0,297 0,003

Paris 0,215 0,264 0,349 0,002

Metz 0,254 0,140 0,004 0,000

Saint-Étienne 0,267 0,154 0,000 0,000

Lille 0,273 0,032 0,281 0,000

Amiens 0,290 0,025 0,023 0,029

Troyes 0,315 0,101 0,212 0,011

Limoges 0,319 0,000 0,226 0,006

Brest 0,344 0,148 0,418 0,006

Angers 0,348 0,012 0,017 0,000

Mulhouse 0,363 0,482 0,004 0,008

Montbéliard 0,364 0,220 0,047 0,001

Poitiers 0,381 0,076 0,086 0,003

Tours 0,395 0,016 0,099 0,008

Orléans 0,398 0,192 0,175 0,001

Pau 0,417 0,263 0,221 0,003

Clermont-Ferrand 0,417 0,282 0,083 0,019

Grenoble 0,443 0,251 0,039 0,001

Le Havre 0,454 0,190 0,009 0,002

Annecy 0,465 0,018 0,000 0,002

Calais 0,504 0,160 0,008 0,000

Bordeaux 0,539 0,009 0,001 0,019

Chambéry 0,544 0,021 0,002 0,014

Béthune 0,587 0,117 0,006 0,003

Thionville 0,651 0,100 0,027 0,001

Maubeuge 0,693 0,022 0,065 0,000

Creil 0,711 0,009 0,002 0,001

Nantes 0,715 0,037 0,000 0,001

Toulouse 0,719 0,100 0,053 0,004

Rennes 0,753 0,013 0,133 0,004

Dunkerque 0,828 0,022 0,002 0,000

Douai-Lens 0,909 0,000 0,001 0,000

Valenciennes 0,913 0,005 0,000 0,000

(37)

Comprendre l’information recomposée : les contributions

des individus sur les axes factoriels

Tableau des contributions des individus à la construction des axes factoriels

F1 : Défaveur : Douai-Lens, Maubeuge, Valenciennes, Béthune, Rennes, Nantes, Toulouse, Calais, Dunkerque Contributions notables. Pas Marseille, Le Mans, Caen, Angoulême

F3 : Contribution élevée de Marseille, Lorient, Nice, Brest, Montpellier, Paris. Faible de

Valenciennes, Nantes, Annecy…

F1 F2 F3 F13 F14

Le Mans 0,029 1,320 0,332 2,656

Marseille-Aix-en-Provence 0,037 0,498 12,358 1,706

Caen 0,044 1,736 0,260 3,522

Angoulême 0,057 1,162 3,850 3,983

Valence 0,072 0,001 0,288 0,212

Strasbourg 0,093 1,110 3,984 5,171

Rouen 0,134 1,329 1,598 0,527

Reims 0,141 0,963 0,001 0,634

Saint-Nazaire 0,143 0,013 2,880 0,002

Annemasse 0,146 0,045 0,742 0,574

Lorient 0,197 0,985 7,168 4,875

La Rochelle 0,317 1,339 2,671 0,549

Toulon 0,339 3,250 4,621 6,129

Perpignan 0,339 12,905 1,501 9,756

Nancy 0,374 0,025 0,425 2,058

Amiens 0,455 0,078 0,092 3,833

Nîmes 0,492 6,090 1,918 0,632

Besançon 0,575 4,814 0,207 0,506

Avignon 0,633 2,701 2,512 0,069

Dijon 0,674 6,754 0,235 0,805

Saint-Étienne 0,716 0,822 0,001 0,107

Tours 0,716 0,057 0,447 2,821

Nice 0,723 1,602 6,097 0,971

Angers 0,743 0,051 0,089 0,581

Limoges 0,813 0,000 1,436 0,024

Metz 0,850 0,935 0,031 2,692

Lyon 0,954 3,639 3,683 0,513

Troyes 1,040 0,667 1,743 0,750

Lille 1,124 0,263 2,888 6,437

Bayonne 1,157 6,495 3,153 1,693

Grenoble 1,179 1,332 0,257 0,019

Bordeaux 1,221 0,039 0,003 4,355

Orléans 1,257 1,206 1,375 0,069

Clermont-Ferrand 1,318 1,777 0,651 1,580

Paris 1,588 3,886 6,439 4,109

Mulhouse 1,611 4,255 0,045 1,584

Poitiers 1,662 0,663 0,938 0,336

Montpellier 1,759 6,738 8,301 1,205

Brest 1,769 1,520 5,356 1,049

Le Havre 2,097 1,752 0,102 0,120

Chambéry 2,188 0,165 0,021 0,053

Pau 2,301 2,889 3,039 2,068

Montbéliard 2,305 2,776 0,738 0,422

Annecy 2,832 0,223 0,003 0,461

Creil 2,921 0,077 0,025 3,519

Thionville 3,356 1,027 0,346 4,604

Dunkerque 3,784 0,201 0,018 0,159

Calais 4,018 2,538 0,152 0,168

Toulouse 4,061 1,122 0,753 0,391

Nantes 4,117 0,425 0,001 6,277

Rennes 4,614 0,154 2,028 0,001

Béthune 7,416 2,951 0,184 0,895

Valenciennes 7,821 0,089 0,005 0,034

Maubeuge 8,486 0,547 1,978 0,199

Douai-Lens 10,189 0,003 0,031 1,532

Références