Année 2020-21 Analyse des données
Analyse des Données Multidimensionnelles
1. ACP – Analyse en composantes principales
2. AFC – Analyse Factorielle des Correspondances
3. ACM – Analyse des Correspondances Multiples
4. CAH – Classification Ascendante Hiérarchique
• Analyse de donnée = statistique exploratoire multivariée
• Approche multidimensionnelle des individus étudiés
• Synthèse, résumé de tableaux de données volumineux
• Peu d'hypothèses restrictives sur la nature des données
• Représentations graphiques suggestives
• Outil mathématique : géométrie, algèbre matricielle
• Domaines d'applications très variés (psychométrie, taxinomie)
• Benzecri, Hayashi, Guttman, Tukey
L’analyse de données, brièvement…
Statistique « classique » et analyse de données
Histoire de l’analyse des données
Année 2020-21 Analyse des données
Analyses factorielles
• ACP – Analyse en composantes principales
• AFC – Analyse factorielle des correspondances
• ACM – Analyse des correspondances multiples
Panorama des méthodes d’analyse des données
Classification
• CAH – Classification ascendante hiérarchique
• Méthodes de partitionnement direct
Prolongements – Liens avec d’autres méthodes de statistique multivariée - Analyse factorielle discriminante
- Analyse Factorielle multiple : AFM
- Un cadre théorique général : l’analyse canonique (généralisée) - Régression PLS
- Positionnement multidimensionnel (MDS)
Quelques références bibliographiques
• Bouroche J.M. et Saporta G. (1980). L'analyse des données, PUF, Collection Que sais-je ?
• Cornillon P.A. et autres (2008). Statistiques avec R, Presses Universitaire de Rennes.
• Escofier B. et Pagès J. (2008). Analyses factorielles simples et multiples, Objectifs, méthodes et interprétation, 4e édition, Dunod.
• Husson F., Lê S. et Pagès J. (2009). Analyse de données avec R, Presses Universitaire de Rennes.
• Lebart L., Morineau A. et Piron M. (2006). Statistique exploratoire multidimensionnelle, Dunod
• Saporta G. (2006). Probabilités, analyses des données et statistiques,
Année 2020-2021 Analyse des données –ACP
1. ACP – Analyse en composantes principales
Plan
1. Tableau de données, exemples
2. Objectifs et principes de base de l’ACP 3. Le nuage des individus
4. Ajustement du nuage des individus 5. Ajustement du nuage des variables 6. Interprétation conjointe
7. ACP normée ou non normée ?
8. Paramétrage de l’ACP avec FactoMineR 9. Analyse de l’inertie des axes
10. Aides à l’interprétation : qualité de représentation et contribution 11. Méthodologie des variables illustratives
12. Améliorer ses graphes avec le package Factoshiny
Philippe Ricka
Exemple 1 Températures mensuelles pour 15 villes de France
V ille janvier f évrier mars avril mai juin juillet août septembre octobre novembre décembre
Bordeaux 5,60 6,60 10,30 12,80 15,80 19,30 20,90 21,00 18,60 13,80 9,10 6,20
Brest 6,10 5,80 7,80 9,20 11,60 14,40 15,60 16,00 14,70 12,00 9,00 7,00
Clermont 2,60 3,70 7,50 10,30 13,80 17,30 19,40 19,10 16,20 11,20 6,60 3,60
Grenoble 1,50 3,20 7,70 10,60 14,50 17,80 20,10 19,50 16,70 11,40 6,50 2,30
Lille 2,40 2,90 6,00 8,90 12,40 15,30 17,10 17,10 14,70 10,40 6,10 3,50
Lyon 2,10 3,30 7,70 10,90 14,90 18,50 20,70 20,10 16,90 11,40 6,70 3,10
Marseille 5,50 6,60 10,00 13,00 16,80 20,80 23,30 22,80 19,90 15,00 10,20 6,90 Montpellier 5,60 6,70 9,90 12,80 16,20 20,10 22,70 22,30 19,30 14,60 10,00 6,50
Nantes 5,00 5,30 8,40 10,80 13,90 17,20 18,80 18,60 16,40 12,20 8,20 5,50
Nice 7,50 8,50 10,80 13,30 16,70 20,10 22,70 22,50 20,30 16,00 11,50 8,20
Paris 3,40 4,10 7,60 10,70 14,30 17,50 19,10 18,70 16,00 11,40 7,10 4,30
Rennes 4,80 5,30 7,90 10,10 13,10 16,20 17,90 17,80 15,70 11,60 7,80 5,40
Strasbourg 0,40 1,50 5,60 9,80 14,00 17,20 19,00 18,30 15,10 9,50 4,90 1,30
Toulouse 4,70 5,60 9,20 11,60 14,90 18,70 20,90 20,90 18,30 13,30 8,60 5,50
V ichy 2,40 3,40 7,10 9,90 13,60 17,10 19,30 18,80 16,00 11,00 6,60 3,40
Objectifs
Comparer les villes du point de vue des températures mensuelles Tableau de données : Individus x Variables
Exemple 1. Températures mensuelles de jeux de données
1.1 – Tableaux de données, exemples
6
Année 2020-2021 Analyse des données –ACP
Objectifs
•
Comparer les villes du point de vue des températures mensuelles•
Établir des ressemblances entre villes, des oppositions ? Une typologie des villes ?•
Certains mois de l'année sont-ils liés ? Sont-ils corrélés entre eux ?•
Peut-on résumer des variables fortement corrélées par des variables synthétiques ?Philippe Ricka
Exemple 2 Analyse sensorielle de 8 bières [Agrocampus]
Objectifs
Certaines bières présentent-elles un profil sensoriel similaire ? Établir une typologie des produits
Pr oduit Mousse Odeur Malt Acide Sens alcool
3,63 4,88 5,78 3,97 5,34 5,56 5,71 4,94 3,59 2,88 5,13 3,94 4,06
6,59 4,78 4,47 3,50 3,91 5,59 5,09 4,41 3,59 3,81 3,78 4,25 4,34
6,88 4,59 5,53 4,53 4,16 5,06 5,13 4,50 3,41 3,69 4,10 3,53 4,13
6,47 8,53 8,25 5,78 7,22 6,53 8,16 6,09 4,22 4,00 6,90 6,47 5,06
6,72 4,34 5,38 4,41 3,75 4,69 5,53 5,97 3,19 3,81 3,97 4,81 4,38
K 5,22 3,72 4,63 4,13 3,03 6,10 5,31 4,31 3,63 4,13 3,47 4,88 4,56
4,41 2,09 4,66 3,88 3,34 5,81 5,94 6,09 3,25 3,75 3,53 4,75 3,66
4,74 5,35 6,90 4,19 6,65 5,03 6,67 4,71 4,55 3,55 6,45 4,42 4,91
NuanceJauneInt Odeur Odeurlevure Ef f erve int. Gust. Amere Sucree SaveurMalt Note Hedo Buckler
Kro 2,6 Tourtel Lef f e Kronenbourg
Heineken Kro pur malt
En lignes : 8 bières du marché
En colonnes : 12 descripteurs sensoriels, une note hédonique Chaque case : note moyenne accordée par un jury entraîné
Exemple 2. Analyse sensorielle de 8 bières
•
En lignes : 8 bières du marché•
En colonnes : 12 descripteurs sensoriels, une note hédonique•
Chaque case : note moyenne accordée par un jury entraîné8
Année 2020-2021 Analyse des données –ACP
Objectifs
•
Certaines bières présentent-elles un profil sensoriel similaire ?•
Établir une typologie des produits•
Certains attributs sensoriels ont-ils corrélés entre eux ?•
Peut-on résumer des descripteurs sensoriels fortement corrélées entre eux par des variables synthétiques ?Cordage Force Ratio V
167a -13,86 144,88 49,84 41,49 0,83 -9354,54 8034,75 85,88 266a -13,91 148,03 49,68 40,22 0,81 -9325,78 8056,26 86,36 546b -14,10 137,24 49,92 41,84 0,84 -8963,19 8151,42 90,97 659g -14,50 143,69 49,26 41,49 0,84 -9137,72 8226,57 90,06 -14,13 140,06 49,22 40,18 0,82 -8805,24 8159,37 89,48 693a -14,31 140,12 49,70 41,86 0,84 -9056,17 8210,71 90,66 Déflexion Vall Vret Pente all Pente ret Ratio
Pente
VS Touch
Raquette Raideur contrôle Prise effet Puissance
784a/NOIR/PROTO 6,75 7 6,38 7,25
753a/JAUNE/PHT 6,88 7,13 7,38 7
643a/NATUREL/XL 4,5 6,63 5,75 6,5
301b/XCEL POWER 125 5,33 6,56 6,44 6,78
616j/CONQUEST 125 6 6,11 5,33 6,56
801c/PHTOUR 125 7,22 7,33 7,22 6,67
829 q (125) 7,13 6,63 5,88 4,12
Projection d'une balle sur un tamis
Tests sensoriels au près de joueurs
Exemple 3. Comparaison de cordages ou raquettes de tennis
• Projection d’une balle sur un tamis
Exemple 3 Comparaison de cordages ou raquettes de tennis [Babolat]
Cordage Force Ratio V
167a -13,86 144,88 49,84 41,49 0,83 -9354,54 8034,75 85,88 266a -13,91 148,03 49,68 40,22 0,81 -9325,78 8056,26 86,36 546b -14,10 137,24 49,92 41,84 0,84 -8963,19 8151,42 90,97 659g -14,50 143,69 49,26 41,49 0,84 -9137,72 8226,57 90,06 -14,13 140,06 49,22 40,18 0,82 -8805,24 8159,37 89,48 693a -14,31 140,12 49,70 41,86 0,84 -9056,17 8210,71 90,66 Déflexion Vall Vret Pente all Pente ret Ratio
Pente
VS Touch
Raquette Raideur contrôle Prise effet Puissance
784a/NOIR/PROTO 6,75 7 6,38 7,25
753a/JAUNE/PHT 6,88 7,13 7,38 7
643a/NATUREL/XL 4,5 6,63 5,75 6,5
301b/XCEL POWER 125 5,33 6,56 6,44 6,78
616j/CONQUEST 125 6 6,11 5,33 6,56
Projection d'une balle sur un tamis
Tests sensoriels au près de joueurs
• Test sensoriel auprès de joueurs confirmés
Année 2020-2021 Analyse des données –ACP
Exemple 4. Analyse d’échantillons de sol
Code Altitude pente en ° Végétation type de sol pH %argile %limon %sable
RTH 1080 5 forêt 50,3 3,68 8,00 67,30 24,80
THA 1100 4 forêt alocrisol 21,4 3,62 12,30 36,60 51,10
THB 1060 15 forêt alocrisol 13,3 3,96 11,00 25,20 63,80
RCA 1120 4 prairie alocrisol 16,8 4,20 18,40 45,40 36,20
RCD 1170 8 prairie alocrisol 24,8 4,12 11,10 49,40 39,50
CFA 1070 5 prairie alocrisol 19,9 4,000 7,000 17,800 75,200
RCB 1080 3 prairie alocrisol 16,6 4,350 9,700 23,800 66,500
DHS 660 1 forêt alocrisol 20 3,540 12,900 49,500 37,600
FAC 1300 1 prairie 31,3
3,700 5,000 24,500 70,500
KAC 1350 1 prairie 20,4
3,910 2,900 12,900 84,200
KAT 1350 1 prairie 31,4
3,960 2,700 10,900 86,400
WHS 650 18 forêt 4,5
3,700 1,100 4,800 94,200
HAC 1080 10 prairie alocrisol 22,3 4,23 5,00 48,00 47,00
Carbone organique ranker sur
éboulis
ranker cryptpodzoli
que ranker cryptpodzoli
que ranker cryptpodzoli
que sol podzolique
Exemple 5. Typologie d’agence bancaires
Guichet Age <12 Age 22-43 ... % Clients CB
10 12 15 17 19 21 23 25 27 29
...
4110 4112 4114 4121 4125 4150 4161 4212
DateCréation Nb Clients Ancien. Moy Nb Ouv CAV Nb Ferm CAV % Client risq niv1 % clients Assur vie
•
965 agences bancaires•
Variables « clientèles »•
Variables « performance »•
Variables IRIS - InseeAnnée 2020-2021 Analyse des données –ACP
Exemple 6. Perception de publicités sur des parfums
•
400 femmes•
40 parfums (pub)•
75 descripteurs Pub Addictive_Intriguing Casual
Cheap Classic
Conventional Daring
Easy_Comfortable Elegant_refined
Expensive Fashion
Feminine Fragrance
Angel 90 19 41 27 6 129 17 56 70 89 143 111
Aromatics Elixir 116 24 24 33 24 162 19 29 51 51 60 133
Avon Imari 45 44 73 54 34 57 53 81 25 88 206 176
Baby Phat Fabulosity 53 14 18 62 13 57 44 137 147 177 227 142
Belong Celine Dion 32 99 45 80 47 20 140 82 36 88 207 155
Chanel 5 66 17 8 249 32 32 30 275 194 145 251 192
Chanel Chance 84 18 28 62 12 143 44 68 99 96 172 165
Chanel Coco Mad 93 13 21 82 11 151 17 107 140 138 193 151
Ck one 53 61 58 44 13 119 44 14 28 96 60 109
Clinique Happy 45 104 36 34 13 43 141 16 20 65 187 159
Coach 53 26 19 98 30 60 33 95 160 209 162 151
DG Light Blue 66 83 27 70 17 81 89 44 79 86 177 128
DG The One 100 20 14 66 21 107 34 111 153 144 215 172
DK Cashmere Mist 72 48 18 103 31 58 58 90 90 87 165 122
DKNY Be Delicious 57 113 26 47 22 38 137 33 31 77 163 140
DKNY Delicious Night 79 37 17 37 24 80 51 60 62 130 198 174
Daisy Marc Jacobs 31 45 89 24 5 85 44 20 31 60 135 115
Diesel Fuel for Life 74 21 56 35 19 173 12 33 56 120 112 122
Extrait du tableau de données
Exemple 7. Comparaison du lait de mammifères
•
13 mammifères•
Composition biologiqueAnnée 2020-2021 Analyse des données –ACP
1.2 – Objectifs et principes de l’ACP
𝑋1 𝑋𝑗 𝑋𝑝
1
i
n
variables
𝑥𝑖𝑗 𝑥1j
𝑥𝑛𝑗 Le tableau de données étudié
•
Un ensemble de n individus décrits par•
p variables quantitativesindividus
Tableau de données sous forme individus x variables
•
Lignes du tableau : établir un bilan des ressemblances entre individus•
Colonnes du tableau : réaliser un bilan des corrélations entre variables•
Mise en liaison des deux étudesQuelles sont les variables caractéristiques d'un groupe d'individus donné ?
•
Construction de variables synthétiques (composantes principales) NotationsObjectifs
𝑋 ∶ matrice de dim 𝑛, 𝑝 représentant les valeurs du tableau de données 𝑥𝑖 = 𝑥𝑖1, … , 𝑥𝑖𝑗, … 𝑥𝑖𝑝 vecteur des valeurs prises par l’individu i
L’ACP est fondée sur des représentations graphiques suggestives
Année 2020-2021 Analyse des données –ACP
Présentation intuitive
Point de vue des individus
Objectif = résumer par un graphique les similarités entre individus, du point de vue de l'ensemble des p variables simultanément ! S'il n'y avait qu'une
seule variable ...
Exemple 1 Températures mensuelles pour 15 villes de France
V ille janvier f évrier mars avril mai juin juillet août septembre octobre novembre décembre
Bordeaux 5,60 6,60 10,30 12,80 15,80 19,30 20,90 21,00 18,60 13,80 9,10 6,20
Brest 6,10 5,80 7,80 9,20 11,60 14,40 15,60 16,00 14,70 12,00 9,00 7,00
Clermont 2,60 3,70 7,50 10,30 13,80 17,30 19,40 19,10 16,20 11,20 6,60 3,60
Grenoble 1,50 3,20 7,70 10,60 14,50 17,80 20,10 19,50 16,70 11,40 6,50 2,30
Lille 2,40 2,90 6,00 8,90 12,40 15,30 17,10 17,10 14,70 10,40 6,10 3,50
Lyon 2,10 3,30 7,70 10,90 14,90 18,50 20,70 20,10 16,90 11,40 6,70 3,10
Marseille 5,50 6,60 10,00 13,00 16,80 20,80 23,30 22,80 19,90 15,00 10,20 6,90 Montpellier 5,60 6,70 9,90 12,80 16,20 20,10 22,70 22,30 19,30 14,60 10,00 6,50
Nantes 5,00 5,30 8,40 10,80 13,90 17,20 18,80 18,60 16,40 12,20 8,20 5,50
Nice 7,50 8,50 10,80 13,30 16,70 20,10 22,70 22,50 20,30 16,00 11,50 8,20
Paris 3,40 4,10 7,60 10,70 14,30 17,50 19,10 18,70 16,00 11,40 7,10 4,30
Rennes 4,80 5,30 7,90 10,10 13,10 16,20 17,90 17,80 15,70 11,60 7,80 5,40
Strasbourg 0,40 1,50 5,60 9,80 14,00 17,20 19,00 18,30 15,10 9,50 4,90 1,30
Toulouse 4,70 5,60 9,20 11,60 14,90 18,70 20,90 20,90 18,30 13,30 8,60 5,50
V ichy 2,40 3,40 7,10 9,90 13,60 17,10 19,30 18,80 16,00 11,00 6,60 3,40
Objectifs
Comparer les villes du point de vue des températures mensuelles
Établir des ressemblances entre villes, des oppositions ? Une typologie des villes ? Certains mois de l'année sont-ils liés ? Sont-ils corrélés entre eux ?
Tableau de données : Individus x Variables
Brest Lille RennesNantes Strasbourg
Paris
Vichy Clermont
GrenobleLyon Bordeaux Toulouse
Montpellier Nice
Marseille
Représentation axiale
S'il y avait deux variables ...
Nuage de points
V ille janvier f évrier mars avril mai juin juillet août septembre octobre novembre décembre
Bordeaux 5,60 6,60 10,30 12,80 15,80 19,30 20,90 21,00 18,60 13,80 9,10 6,20
Brest 6,10 5,80 7,80 9,20 11,60 14,40 15,60 16,00 14,70 12,00 9,00 7,00
Clermont 2,60 3,70 7,50 10,30 13,80 17,30 19,40 19,10 16,20 11,20 6,60 3,60
Grenoble 1,50 3,20 7,70 10,60 14,50 17,80 20,10 19,50 16,70 11,40 6,50 2,30
Lille 2,40 2,90 6,00 8,90 12,40 15,30 17,10 17,10 14,70 10,40 6,10 3,50
Lyon 2,10 3,30 7,70 10,90 14,90 18,50 20,70 20,10 16,90 11,40 6,70 3,10
Marseille 5,50 6,60 10,00 13,00 16,80 20,80 23,30 22,80 19,90 15,00 10,20 6,90 Montpellier 5,60 6,70 9,90 12,80 16,20 20,10 22,70 22,30 19,30 14,60 10,00 6,50
Nantes 5,00 5,30 8,40 10,80 13,90 17,20 18,80 18,60 16,40 12,20 8,20 5,50
Nice 7,50 8,50 10,80 13,30 16,70 20,10 22,70 22,50 20,30 16,00 11,50 8,20
Paris 3,40 4,10 7,60 10,70 14,30 17,50 19,10 18,70 16,00 11,40 7,10 4,30
Rennes 4,80 5,30 7,90 10,10 13,10 16,20 17,90 17,80 15,70 11,60 7,80 5,40
Strasbourg 0,40 1,50 5,60 9,80 14,00 17,20 19,00 18,30 15,10 9,50 4,90 1,30
Toulouse 4,70 5,60 9,20 11,60 14,90 18,70 20,90 20,90 18,30 13,30 8,60 5,50
V ichy 2,40 3,40 7,10 9,90 13,60 17,10 19,30 18,80 16,00 11,00 6,60 3,40
Objectifs
Comparer les villes du point de vue des températures mensuelles
Établir des ressemblances entre villes, des oppositions ? Une typologie des villes ? Certains mois de l'année sont-ils liés ? Sont-ils corrélés entre eux ?
Peut-on résumer des variables fortement corrélées par des variables synthétiques ? Tableau de données : Individus x Variables
Année 2020-2021 Analyse des données –ACP
Pour trois variables ...
Représentation 3D
Exemple 1 Températures mensuelles pour 15 villes de France
V ille janvier f évrier mars avril mai juin juillet août septembre octobre novembre décembre
Bordeaux 5,60 6,60 10,30 12,80 15,80 19,30 20,90 21,00 18,60 13,80 9,10 6,20
Brest 6,10 5,80 7,80 9,20 11,60 14,40 15,60 16,00 14,70 12,00 9,00 7,00
Clermont 2,60 3,70 7,50 10,30 13,80 17,30 19,40 19,10 16,20 11,20 6,60 3,60
Grenoble 1,50 3,20 7,70 10,60 14,50 17,80 20,10 19,50 16,70 11,40 6,50 2,30
Lille 2,40 2,90 6,00 8,90 12,40 15,30 17,10 17,10 14,70 10,40 6,10 3,50
Lyon 2,10 3,30 7,70 10,90 14,90 18,50 20,70 20,10 16,90 11,40 6,70 3,10
Marseille 5,50 6,60 10,00 13,00 16,80 20,80 23,30 22,80 19,90 15,00 10,20 6,90 Montpellier 5,60 6,70 9,90 12,80 16,20 20,10 22,70 22,30 19,30 14,60 10,00 6,50
Nantes 5,00 5,30 8,40 10,80 13,90 17,20 18,80 18,60 16,40 12,20 8,20 5,50
Nice 7,50 8,50 10,80 13,30 16,70 20,10 22,70 22,50 20,30 16,00 11,50 8,20
Paris 3,40 4,10 7,60 10,70 14,30 17,50 19,10 18,70 16,00 11,40 7,10 4,30
Rennes 4,80 5,30 7,90 10,10 13,10 16,20 17,90 17,80 15,70 11,60 7,80 5,40
Strasbourg 0,40 1,50 5,60 9,80 14,00 17,20 19,00 18,30 15,10 9,50 4,90 1,30
Toulouse 4,70 5,60 9,20 11,60 14,90 18,70 20,90 20,90 18,30 13,30 8,60 5,50
V ichy 2,40 3,40 7,10 9,90 13,60 17,10 19,30 18,80 16,00 11,00 6,60 3,40
Objectifs
Comparer les villes du point de vue des températures mensuelles
Établir des ressemblances entre villes, des oppositions ? Une typologie des villes ? Certains mois de l'année sont-ils liés ? Sont-ils corrélés entre eux ?
Peut-on résumer des variables fortement corrélées par des variables synthétiques ? Tableau de données : Individus x Variables
Problème :
Quelle représentation proposer pour plus de trois variables ?
1.3 – Le nuage des individus : présentation…
Un nuage dans un espace inaccessible !
Les individus étudiés constituent un nuage de points dans un espace comportant autant de dimensions que de variables
janvier février
Clermont
Marseille Lille
Vichy Strasbourg
Un espace à 12 dimensions !
Dans cet espace
• Chaque individu (𝑖) est affecté d’une masse 𝑚𝑖
• Les masses sont en général identiques et 𝑚𝑖 = 1
𝑛
Année 2020-2021 Analyse des données –ACP
Son point moyen : le centre de gravité G
•
Le point moyen du nuage est appelé barycentre ou centre de gravité•
Ses coordonnées sont définies par les valeurs moyennes des variablesjanvier février
décembre
Clermont
Marseille Lille
Vichy Strasbourg
G
𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝
𝐺 = ( ҧ𝑥1 ҧ𝑥2 … 𝑗ҧ𝑥 … ҧ𝑥𝑝)
𝑥𝑖𝑗 𝑖
1
𝑛
Ressemblance entre deux individus
•
Quel outil pour évaluer une ressemblance entre deux individus ?•
La distance euclidienne usuelle !•
Deux individus proches dans le nuage prennent des valeurs similaires pour les différentes variables𝑑2 𝑖, 𝑙 =
𝑗=1 𝑝
𝑥𝑖𝑗 − 𝑥𝑙𝑗 2
janvier février
décembre
Clermont
Marseille Lille
Vichy Strasbourg
Année 2020-2021 Analyse des données –ACP
Une notion essentielle : l’inertie d’un nuage de points
Mécanique
Inertie d’un corps = résistance d’un corps à une mise en rotation autour d’un axe
Statistique
Inertie d’un nuage de points = mesure de dispersion des points au sein du nuage
= somme des carrés des distances par rapport au centre de gravité G du nuage
𝐼 =
𝑖=1 𝑛
𝑚𝑖 × 𝑑2 𝐺, 𝑖
oo
o o
o o o
o oo
o o o
o o o
oo o o
𝐺
𝑖 o
𝑖 : individu (𝑖)
𝐺 : centre de gravité du nuage
𝑚𝑖 : masse de l’individu (𝑖)
L’inertie est étroitement liée à la forme du nuage
o o o oo o
o oo o o o oooo o o o oo o
oo o o o oo o
o o oo
ooo oooo o oo o o oo
ooo oooo o oo
o o
Pour étudier les principales différences entre individus, l’ACP va analyser la forme du nuage, en rechercher ses principales directions d’allongement
o o o o
oo
o o
o o o
o oo
o o o
o o o
oo ooo Ces axes seront appelés
•
Axes ou dimensions factoriel(le)s,•
Axes principaux d’inertie,•
Principaux axes de variabilité Inertie et forme du nuage de pointsDirections d’allongement du nuage : les axes d’inertie
Année 2020-2021 Analyse des données –ACP
L’Inertie : une mesure de variance multidimensionnelle
Illustration en deux dimensions
𝐼 = 𝑉 𝑋1 + 𝑉(𝑋2)
Plus généralement
𝐼 =
𝑗=1 𝑝
𝑉 𝑋𝑗
𝑋1
𝑋2
𝐺
𝑖
ҧ𝑥1
ҧ𝑥2
Transformation préalable des données (1)
Centrage des données
•
Il est réalisé de façon systématique en ACP•
Il consiste à soustraire la moyenne à toutes les valeurs d’une variable (colonne)•
Les nouvelles variables obtenues sont donc toutes de moyenne nulle 𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝𝐺 = ( ҧ𝑥1 ҧ𝑥2… 𝑗ҧ𝑥 … ҧ𝑥𝑝)
𝑥𝑖𝑗
𝑖
𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝
𝐺 = 𝑂 = (0 0 … 0 … 0)
(𝑥𝑖𝑗− ҧ𝑥𝑗)
𝑖
𝑥𝑖𝑗 → (𝑥𝑖𝑗− ҧ𝑥𝑗)
Centrage
Année 2020-2021 Analyse des données –ACP
G
G=O
Consiste à diviser les valeurs d'une variable par son écart-type La nouvelle variable a un écart-type = 1
La réduction
Ville janvier Janvier Centré Janvier CR
Bordeaux 5,60 1,63 0,84
Brest 6,10 2,13 1,1
Clermont 2,60 -1,37 -0,71
Grenoble 1,50 -2,47 -1,28
Lille 2,40 -1,57 -0,81
Lyon 2,10 -1,87 -0,97
Marseille 5,50 1,53 0,79
Montpellier 5,60 1,63 0,84
Nantes 5,00 1,03 0,53
Nice 7,50 3,53 1,82
Paris 3,40 -0,57 -0,3
Rennes 4,80 0,83 0,43
Strasbourg 0,40 -3,57 -1,84
Toulouse 4,70 0,73 0,37
Vichy 2,40 -1,57 -0,81
moyenne 3,97 0 0
écart-type 1,94 1,94 1
Exemple
Centrer les données consiste donc à translater le nuage sur l'origine
O
Exemple : centrage de la variable Janvier
Transformation préalable des données (2)
La réduction des données
•
Elle consiste à diviser par l’écart type les valeurs d’une variable•
Les nouvelles variables obtenues ont un écart type égal à 1𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝
𝑥𝑖𝑗
𝑖
𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝
(𝑥𝑖𝑗− ҧ𝑥𝑗) 𝑠𝑗 𝑥𝑖𝑗 → (𝑥𝑖𝑗− ҧ𝑥𝑗) 𝑖
𝒔𝒋 Réduction Centrage
Moyenne : 0 Écart type : 1
Année 2020-2021 Analyse des données –Consiste à diviser les valeurs d'une variable par son écart-typeACP
La nouvelle variable a un écart-type = 1 La réduction
Ville janvier Janvier Centré Janvier CR
Bordeaux 5,60 1,63 0,84
Brest 6,10 2,13 1,1
Clermont 2,60 -1,37 -0,71
Grenoble 1,50 -2,47 -1,28
Lille 2,40 -1,57 -0,81
Lyon 2,10 -1,87 -0,97
Marseille 5,50 1,53 0,79
Montpellier 5,60 1,63 0,84
Nantes 5,00 1,03 0,53
Nice 7,50 3,53 1,82
Paris 3,40 -0,57 -0,3
Rennes 4,80 0,83 0,43
Strasbourg 0,40 -3,57 -1,84
Toulouse 4,70 0,73 0,37
Vichy 2,40 -1,57 -0,81
moyenne 3,97 0 0
écart-type 1,94 1,94 1
Exemple
Exemple : centrage et réduction de la variable Janvier
• Interprétation de la température de Strasbourg en Janvier : + 0,4° - Données « brutes » : + 0,40 = 3,97 - 1,84 x 1,94
- Données C-R : - 1,84 = 0 - 1,84 x 1
• La température de + 0,4°C , se situe à -1,84 écart-type en dessous de la moyenne
• moyenne = 0 (conséquence du centrage) écart-type = 1 (conséquence de la réduction)
• Elles s’expriment en nombre d’écarts types
• Elles sont indépendantes de l’unité de mesure de la variable
• Elles évaluent le caractère extrême d’une observation par rapport à la dispersion moyenne d’une série
Propriétés des données centrées - réduites
( )
x i
s x
x − Écart de l’observation (𝑖) à sa moyenne Écart moyen à la moyenne
Année 2020-2021 Analyse des données –ACP
Evolution du poids des filles entre 0 et 5 ans
•
La réduction des données n’est pas systématique en ACP !•
La transformation est cependant inévitable lorsque les unités de mesure des variables sont différentes•
La ressemblance est principalement déterminée par les variables prenant des valeurs élevées… Elle résulte donc de l’unité de mesure !•
En réduisant, on équilibre l’influence des variables dans le calcul des ressemblances, on s’affranchit de l’unité de mesure.Quand est-il nécessaire de réduire les données ?
individu enfants salaire taille
i1 0 3000 1,85
i2 3 1100 1,82
i3 2 2000 1,7
i4 2 1500 1,61
𝑑2 𝑖1, 𝑖3 = 0 − 2 2 + 3000 − 2000 2 + 1,85 − 1,70 2
Année 2020-2021 Analyse des données –ACP
1.4 – L’ajustement du nuage des individus
janvier février
décembre
Clermont
Marseille Lille
Vichy Strasbourg
Un espace à 12 dimensions !
Objectif de l’ajustement du nuage
Comment, à l’aide d’une représentation graphique simple (plane), restituer une image approchée de ce nuage de points ?
Comment obtenir la « meilleure image » de ce nuage ?
Cette représentation simplifiée du nuage est obtenue à travers une
projection des individus du nuage sur un plan
janvier février
décembre
Clermont
Marseille Lille
Vichy Strasbourg
Année 2020-2021 Analyse des données –ACP
Une projection étrange…
La meilleure projection =
• la plus « suggestive »
• La moins déformante
• La vue la plus fidèle de la forme réelle du nuage
• la vue la plus vaste de l’objet
?
Projection des individus sur le plan
= Projection orthogonale
Année 2020-2021 Analyse des données –ACP
Comment évaluer la qualité de la projection ?
En projection sur le plan, les points ont une dispersion, appelée inertie projetée Celle-ci doit être maximale
Inertie du nuage projeté
𝐻𝑖 : projection de l'individu (𝑖)
𝐺 : centre de gravité du nuage projeté
𝑚𝑖 : masse de l’individu (𝑖) 𝐼proj = 𝑖=1 𝑛
𝑚𝑖 × 𝑑2 𝐺, 𝐻𝑖
• Sur le plan, l’inertie totale projetée se décompose de façon additive selon l’axe horizontal (axe 1) et l’axe vertical (axe 2)
• Inertie de l’axe 1 : dispersion des individus le long de l’axe 1
• Sur un axe, l’inertie se calcule simplement comme une variance : Décomposition de l'inertie projetée sur le plan
𝐼1 =
𝑖=1 𝑛
𝑚𝑖 × 𝑑2 𝐺, 𝐻𝑖1
𝐼proj = 𝐼(1,2) = 𝐼1 +𝐼2
Année 2020-2021 Analyse des données –ACP
𝐼2 =
𝑖=1 𝑛
𝑚𝑖 × 𝑑2 𝐺, 𝐻𝑖2
Inertie de l’axe 2
Axe 1 = Axe d'allongement maximal du nuage
En projection, les distances entre individus sont les moins « déformées » possible
= les plus grandes possible car la projection réduit toujours les distances Un critère équivalent
vraie ressemblance
ressemblance lue sur le plan
Année 2020-2021 Analyse des données –ACP
Encore un critère équivalent !
Le meilleur plan passe en moyenne au plus près de l’ensemble
des individus du nuage
Exemple des températures
Exemple « températures » : meilleur plan de projection des individus
Année 2020-2021 Analyse des données –ACP
Package factoextra Plan (1,2) des individus
La détermination des axes factoriels
•
Le meilleur plan de projection est construit à partir du meilleur premier axe et du meilleur deuxième axe, orthogonal au premier•
L'ACP recherche une succession d’axes ou dimensions factoriel(le)s Ce sont les principales directions d’allongement du nuage de points, orthogonales 2 à 2•
Ces directions mettent en évidence les différences les plus saillantesAxe 1 = axe d’allongement maximal
Axe 2 = seconde direction d’allongement maxi, orthogonale à l’axe 1
oo
o o
o o o
o oo
o o o
o o o
oo ooo oo
Année 2020-2021 Analyse des données –ACP
Point de vue mathématique
•
L’ACP détermine un nombre d'axes = 𝐦𝐢𝐧(𝒏, 𝒑)C’est la plus petite dimension du tableau de données
•
Les axes factoriels sont déterminés par les vecteurs propres d’une matrice, appelée matrice d’inertie 𝑉•
Les valeurs propres associées sont égales aux inerties des axes obtenus•
Un programme d’ACP :- diagonaliser une matrice d’inertie - tri décroissant des valeurs propres
- les vecteurs propres (les axes) associés sont ainsi hiérarchisés par ordre d’intérêt décroisant
•
Matrice d’inertie 𝑽𝑉 = Matrice de variance-covariance pour des données centrées
𝑉 = Matrice des corrélations pour des données centrées et réduites
𝜆1 𝜆2 𝜆3 𝜆4
𝜆5 𝜆6 axe 1
inertie
axe 2 axe 3
axe 6 axe 4 axe 5
L’ACP d’un nuage à deux dimensions
Les deux axes d'une ACP sur la photo d'un poisson d’après Wikipédia
Axe 1 Axe 2
L’axe 1 : l’axe d’allongement maximal du nuage de points
Année 2020-2021 Analyse des données –ACP
Le nuage des variables
Les variables constituent un nuage de points dans un espace comportant autant de dimensions que d'individus
Les variables sont affectées de masses 𝑚𝑗 en général identiques : 𝑚𝑗 = 1
La longueur d'une variable 𝑥𝑗 est égale à son écart-type
Si les données sont centrées- réduites Les variables sont toutes de longueur 1 Nuage = hypersphère de rayon 1
1.5 – Ajustement du nuage des variables
Le cosinus de l'angle formé par les deux variables est égale à la corrélation linéaire entre les deux variables
Mesure de liaison entre deux variables
𝑟 𝑋1, 𝑋2 = cos 𝑋1𝑋2
L'ACP étudie des liaisons de nature linéaire
Année 2020-2021 Analyse des données –ACP
Bordeaux Brest
Clermont Grenoble Lille
Lyon
Marseille Montpellier
Nantes
Nice
Paris
Rennes
Strasbourg
Toulouse
Vichy
1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8
février
janvier
Représentation usuelle d’une
corrélation linéaire entre deux variables
Intensité de la liaison linéaire
= allongement du nuage de points
Recherche du meilleur plan de projection
•
Critère d'inertie maximale en projection,•
ouLes angles entre vecteurs sont les moins déformés possibleComme pour les individus, on recherchera une suite d’axes orthogonaux 2 à 2 et d’inertie projetée maximale