• Aucun résultat trouvé

Analyse des Données Multidimensionnelles

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse des Données Multidimensionnelles"

Copied!
119
0
0

Texte intégral

(1)

Année 2020-21 Analyse des données

Analyse des Données Multidimensionnelles

1. ACP – Analyse en composantes principales

2. AFC – Analyse Factorielle des Correspondances

3. ACM – Analyse des Correspondances Multiples

4. CAH – Classification Ascendante Hiérarchique

(2)

• Analyse de donnée = statistique exploratoire multivariée

• Approche multidimensionnelle des individus étudiés

• Synthèse, résumé de tableaux de données volumineux

Peu d'hypothèses restrictives sur la nature des données

• Représentations graphiques suggestives

• Outil mathématique : géométrie, algèbre matricielle

• Domaines d'applications très variés (psychométrie, taxinomie)

• Benzecri, Hayashi, Guttman, Tukey

L’analyse de données, brièvement…

Statistique « classique » et analyse de données

Histoire de l’analyse des données

(3)

Année 2020-21 Analyse des données

Analyses factorielles

• ACP – Analyse en composantes principales

• AFC – Analyse factorielle des correspondances

• ACM – Analyse des correspondances multiples

Panorama des méthodes d’analyse des données

Classification

• CAH – Classification ascendante hiérarchique

• Méthodes de partitionnement direct

Prolongements – Liens avec d’autres méthodes de statistique multivariée - Analyse factorielle discriminante

- Analyse Factorielle multiple : AFM

- Un cadre théorique général : l’analyse canonique (généralisée) - Régression PLS

- Positionnement multidimensionnel (MDS)

(4)

Quelques références bibliographiques

Bouroche J.M. et Saporta G. (1980). L'analyse des données, PUF, Collection Que sais-je ?

Cornillon P.A. et autres (2008). Statistiques avec R, Presses Universitaire de Rennes.

Escofier B. et Pagès J. (2008). Analyses factorielles simples et multiples, Objectifs, méthodes et interprétation, 4e édition, Dunod.

Husson F., Lê S. et Pagès J. (2009). Analyse de données avec R, Presses Universitaire de Rennes.

Lebart L., Morineau A. et Piron M. (2006). Statistique exploratoire multidimensionnelle, Dunod

Saporta G. (2006). Probabilités, analyses des données et statistiques,

(5)

Année 2020-2021 Analyse des données –ACP

1. ACP – Analyse en composantes principales

Plan

1. Tableau de données, exemples

2. Objectifs et principes de base de l’ACP 3. Le nuage des individus

4. Ajustement du nuage des individus 5. Ajustement du nuage des variables 6. Interprétation conjointe

7. ACP normée ou non normée ?

8. Paramétrage de l’ACP avec FactoMineR 9. Analyse de l’inertie des axes

10. Aides à l’interprétation : qualité de représentation et contribution 11. Méthodologie des variables illustratives

12. Améliorer ses graphes avec le package Factoshiny

(6)

Philippe Ricka

Exemple 1 Températures mensuelles pour 15 villes de France

V ille janvier f évrier mars avril mai juin juillet août septembre octobre novembre décembre

Bordeaux 5,60 6,60 10,30 12,80 15,80 19,30 20,90 21,00 18,60 13,80 9,10 6,20

Brest 6,10 5,80 7,80 9,20 11,60 14,40 15,60 16,00 14,70 12,00 9,00 7,00

Clermont 2,60 3,70 7,50 10,30 13,80 17,30 19,40 19,10 16,20 11,20 6,60 3,60

Grenoble 1,50 3,20 7,70 10,60 14,50 17,80 20,10 19,50 16,70 11,40 6,50 2,30

Lille 2,40 2,90 6,00 8,90 12,40 15,30 17,10 17,10 14,70 10,40 6,10 3,50

Lyon 2,10 3,30 7,70 10,90 14,90 18,50 20,70 20,10 16,90 11,40 6,70 3,10

Marseille 5,50 6,60 10,00 13,00 16,80 20,80 23,30 22,80 19,90 15,00 10,20 6,90 Montpellier 5,60 6,70 9,90 12,80 16,20 20,10 22,70 22,30 19,30 14,60 10,00 6,50

Nantes 5,00 5,30 8,40 10,80 13,90 17,20 18,80 18,60 16,40 12,20 8,20 5,50

Nice 7,50 8,50 10,80 13,30 16,70 20,10 22,70 22,50 20,30 16,00 11,50 8,20

Paris 3,40 4,10 7,60 10,70 14,30 17,50 19,10 18,70 16,00 11,40 7,10 4,30

Rennes 4,80 5,30 7,90 10,10 13,10 16,20 17,90 17,80 15,70 11,60 7,80 5,40

Strasbourg 0,40 1,50 5,60 9,80 14,00 17,20 19,00 18,30 15,10 9,50 4,90 1,30

Toulouse 4,70 5,60 9,20 11,60 14,90 18,70 20,90 20,90 18,30 13,30 8,60 5,50

V ichy 2,40 3,40 7,10 9,90 13,60 17,10 19,30 18,80 16,00 11,00 6,60 3,40

Objectifs

Comparer les villes du point de vue des températures mensuelles Tableau de données : Individus x Variables

Exemple 1. Températures mensuelles de jeux de données

1.1 – Tableaux de données, exemples

6

(7)

Année 2020-2021 Analyse des données –ACP

Objectifs

Comparer les villes du point de vue des températures mensuelles

Établir des ressemblances entre villes, des oppositions ? Une typologie des villes ?

Certains mois de l'année sont-ils liés ? Sont-ils corrélés entre eux ?

Peut-on résumer des variables fortement corrélées par des variables synthétiques ?

(8)

Philippe Ricka

Exemple 2 Analyse sensorielle de 8 bières [Agrocampus]

Objectifs

Certaines bières présentent-elles un profil sensoriel similaire ? Établir une typologie des produits

Pr oduit Mousse Odeur Malt Acide Sens alcool

3,63 4,88 5,78 3,97 5,34 5,56 5,71 4,94 3,59 2,88 5,13 3,94 4,06

6,59 4,78 4,47 3,50 3,91 5,59 5,09 4,41 3,59 3,81 3,78 4,25 4,34

6,88 4,59 5,53 4,53 4,16 5,06 5,13 4,50 3,41 3,69 4,10 3,53 4,13

6,47 8,53 8,25 5,78 7,22 6,53 8,16 6,09 4,22 4,00 6,90 6,47 5,06

6,72 4,34 5,38 4,41 3,75 4,69 5,53 5,97 3,19 3,81 3,97 4,81 4,38

K 5,22 3,72 4,63 4,13 3,03 6,10 5,31 4,31 3,63 4,13 3,47 4,88 4,56

4,41 2,09 4,66 3,88 3,34 5,81 5,94 6,09 3,25 3,75 3,53 4,75 3,66

4,74 5,35 6,90 4,19 6,65 5,03 6,67 4,71 4,55 3,55 6,45 4,42 4,91

NuanceJauneInt Odeur Odeurlevure Ef f erve int. Gust. Amere Sucree SaveurMalt Note Hedo Buckler

Kro 2,6 Tourtel Lef f e Kronenbourg

Heineken Kro pur malt

En lignes : 8 bières du marché

En colonnes : 12 descripteurs sensoriels, une note hédonique Chaque case : note moyenne accordée par un jury entraîné

Exemple 2. Analyse sensorielle de 8 bières

En lignes : 8 bières du marché

En colonnes : 12 descripteurs sensoriels, une note hédonique

Chaque case : note moyenne accordée par un jury entraîné

8

(9)

Année 2020-2021 Analyse des données –ACP

Objectifs

Certaines bières présentent-elles un profil sensoriel similaire ?

Établir une typologie des produits

Certains attributs sensoriels ont-ils corrélés entre eux ?

Peut-on résumer des descripteurs sensoriels fortement corrélées entre eux par des variables synthétiques ?

(10)

Cordage Force Ratio V

167a -13,86 144,88 49,84 41,49 0,83 -9354,54 8034,75 85,88 266a -13,91 148,03 49,68 40,22 0,81 -9325,78 8056,26 86,36 546b -14,10 137,24 49,92 41,84 0,84 -8963,19 8151,42 90,97 659g -14,50 143,69 49,26 41,49 0,84 -9137,72 8226,57 90,06 -14,13 140,06 49,22 40,18 0,82 -8805,24 8159,37 89,48 693a -14,31 140,12 49,70 41,86 0,84 -9056,17 8210,71 90,66 Déflexion Vall Vret Pente all Pente ret Ratio

Pente

VS Touch

Raquette Raideur contrôle Prise effet Puissance

784a/NOIR/PROTO 6,75 7 6,38 7,25

753a/JAUNE/PHT 6,88 7,13 7,38 7

643a/NATUREL/XL 4,5 6,63 5,75 6,5

301b/XCEL POWER 125 5,33 6,56 6,44 6,78

616j/CONQUEST 125 6 6,11 5,33 6,56

801c/PHTOUR 125 7,22 7,33 7,22 6,67

829 q (125) 7,13 6,63 5,88 4,12

Projection d'une balle sur un tamis

Tests sensoriels au près de joueurs

Exemple 3. Comparaison de cordages ou raquettes de tennis

Projection d’une balle sur un tamis

Exemple 3 Comparaison de cordages ou raquettes de tennis [Babolat]

Cordage Force Ratio V

167a -13,86 144,88 49,84 41,49 0,83 -9354,54 8034,75 85,88 266a -13,91 148,03 49,68 40,22 0,81 -9325,78 8056,26 86,36 546b -14,10 137,24 49,92 41,84 0,84 -8963,19 8151,42 90,97 659g -14,50 143,69 49,26 41,49 0,84 -9137,72 8226,57 90,06 -14,13 140,06 49,22 40,18 0,82 -8805,24 8159,37 89,48 693a -14,31 140,12 49,70 41,86 0,84 -9056,17 8210,71 90,66 Déflexion Vall Vret Pente all Pente ret Ratio

Pente

VS Touch

Raquette Raideur contrôle Prise effet Puissance

784a/NOIR/PROTO 6,75 7 6,38 7,25

753a/JAUNE/PHT 6,88 7,13 7,38 7

643a/NATUREL/XL 4,5 6,63 5,75 6,5

301b/XCEL POWER 125 5,33 6,56 6,44 6,78

616j/CONQUEST 125 6 6,11 5,33 6,56

Projection d'une balle sur un tamis

Tests sensoriels au près de joueurs

Test sensoriel auprès de joueurs confirmés

(11)

Année 2020-2021 Analyse des données –ACP

Exemple 4. Analyse d’échantillons de sol

Code Altitude pente en ° Végétation type de sol pH %argile %limon %sable

RTH 1080 5 forêt 50,3 3,68 8,00 67,30 24,80

THA 1100 4 forêt alocrisol 21,4 3,62 12,30 36,60 51,10

THB 1060 15 forêt alocrisol 13,3 3,96 11,00 25,20 63,80

RCA 1120 4 prairie alocrisol 16,8 4,20 18,40 45,40 36,20

RCD 1170 8 prairie alocrisol 24,8 4,12 11,10 49,40 39,50

CFA 1070 5 prairie alocrisol 19,9 4,000 7,000 17,800 75,200

RCB 1080 3 prairie alocrisol 16,6 4,350 9,700 23,800 66,500

DHS 660 1 forêt alocrisol 20 3,540 12,900 49,500 37,600

FAC 1300 1 prairie 31,3

3,700 5,000 24,500 70,500

KAC 1350 1 prairie 20,4

3,910 2,900 12,900 84,200

KAT 1350 1 prairie 31,4

3,960 2,700 10,900 86,400

WHS 650 18 forêt 4,5

3,700 1,100 4,800 94,200

HAC 1080 10 prairie alocrisol 22,3 4,23 5,00 48,00 47,00

Carbone organique ranker sur

éboulis

ranker cryptpodzoli

que ranker cryptpodzoli

que ranker cryptpodzoli

que sol podzolique

(12)

Exemple 5. Typologie d’agence bancaires

Guichet Age <12 Age 22-43 ... % Clients CB

10 12 15 17 19 21 23 25 27 29

...

4110 4112 4114 4121 4125 4150 4161 4212

DateCation Nb Clients Ancien. Moy Nb Ouv CAV Nb Ferm CAV % Client risq niv1 % clients Assur vie

965 agences bancaires

Variables « clientèles »

Variables « performance »

Variables IRIS - Insee

(13)

Année 2020-2021 Analyse des données –ACP

Exemple 6. Perception de publicités sur des parfums

400 femmes

40 parfums (pub)

75 descripteurs Pub Addic

tive_Intriguing Casual

Cheap Classic

Conventional Daring

Easy_Comfortable Elegant_refined

Expensive Fashion

Feminine Fragrance

Angel 90 19 41 27 6 129 17 56 70 89 143 111

Aromatics Elixir 116 24 24 33 24 162 19 29 51 51 60 133

Avon Imari 45 44 73 54 34 57 53 81 25 88 206 176

Baby Phat Fabulosity 53 14 18 62 13 57 44 137 147 177 227 142

Belong Celine Dion 32 99 45 80 47 20 140 82 36 88 207 155

Chanel 5 66 17 8 249 32 32 30 275 194 145 251 192

Chanel Chance 84 18 28 62 12 143 44 68 99 96 172 165

Chanel Coco Mad 93 13 21 82 11 151 17 107 140 138 193 151

Ck one 53 61 58 44 13 119 44 14 28 96 60 109

Clinique Happy 45 104 36 34 13 43 141 16 20 65 187 159

Coach 53 26 19 98 30 60 33 95 160 209 162 151

DG Light Blue 66 83 27 70 17 81 89 44 79 86 177 128

DG The One 100 20 14 66 21 107 34 111 153 144 215 172

DK Cashmere Mist 72 48 18 103 31 58 58 90 90 87 165 122

DKNY Be Delicious 57 113 26 47 22 38 137 33 31 77 163 140

DKNY Delicious Night 79 37 17 37 24 80 51 60 62 130 198 174

Daisy Marc Jacobs 31 45 89 24 5 85 44 20 31 60 135 115

Diesel Fuel for Life 74 21 56 35 19 173 12 33 56 120 112 122

Extrait du tableau de données

(14)

Exemple 7. Comparaison du lait de mammifères

13 mammifères

Composition biologique

(15)

Année 2020-2021 Analyse des données –ACP

1.2 – Objectifs et principes de l’ACP

𝑋1 𝑋𝑗 𝑋𝑝

1

i

n

variables

𝑥𝑖𝑗 𝑥1j

𝑥𝑛𝑗 Le tableau de données étudié

Un ensemble de n individus décrits par

p variables quantitatives

individus

Tableau de données sous forme individus x variables

(16)

Lignes du tableau : établir un bilan des ressemblances entre individus

Colonnes du tableau : réaliser un bilan des corrélations entre variables

Mise en liaison des deux études

Quelles sont les variables caractéristiques d'un groupe d'individus donné ?

Construction de variables synthétiques (composantes principales) Notations

Objectifs

𝑋 ∶ matrice de dim 𝑛, 𝑝 représentant les valeurs du tableau de données 𝑥𝑖 = 𝑥𝑖1, … , 𝑥𝑖𝑗, … 𝑥𝑖𝑝 vecteur des valeurs prises par l’individu i

L’ACP est fondée sur des représentations graphiques suggestives

(17)

Année 2020-2021 Analyse des données –ACP

Présentation intuitive

Point de vue des individus

Objectif = résumer par un graphique les similarités entre individus, du point de vue de l'ensemble des p variables simultanément ! S'il n'y avait qu'une

seule variable ...

Exemple 1 Températures mensuelles pour 15 villes de France

V ille janvier f évrier mars avril mai juin juillet août septembre octobre novembre décembre

Bordeaux 5,60 6,60 10,30 12,80 15,80 19,30 20,90 21,00 18,60 13,80 9,10 6,20

Brest 6,10 5,80 7,80 9,20 11,60 14,40 15,60 16,00 14,70 12,00 9,00 7,00

Clermont 2,60 3,70 7,50 10,30 13,80 17,30 19,40 19,10 16,20 11,20 6,60 3,60

Grenoble 1,50 3,20 7,70 10,60 14,50 17,80 20,10 19,50 16,70 11,40 6,50 2,30

Lille 2,40 2,90 6,00 8,90 12,40 15,30 17,10 17,10 14,70 10,40 6,10 3,50

Lyon 2,10 3,30 7,70 10,90 14,90 18,50 20,70 20,10 16,90 11,40 6,70 3,10

Marseille 5,50 6,60 10,00 13,00 16,80 20,80 23,30 22,80 19,90 15,00 10,20 6,90 Montpellier 5,60 6,70 9,90 12,80 16,20 20,10 22,70 22,30 19,30 14,60 10,00 6,50

Nantes 5,00 5,30 8,40 10,80 13,90 17,20 18,80 18,60 16,40 12,20 8,20 5,50

Nice 7,50 8,50 10,80 13,30 16,70 20,10 22,70 22,50 20,30 16,00 11,50 8,20

Paris 3,40 4,10 7,60 10,70 14,30 17,50 19,10 18,70 16,00 11,40 7,10 4,30

Rennes 4,80 5,30 7,90 10,10 13,10 16,20 17,90 17,80 15,70 11,60 7,80 5,40

Strasbourg 0,40 1,50 5,60 9,80 14,00 17,20 19,00 18,30 15,10 9,50 4,90 1,30

Toulouse 4,70 5,60 9,20 11,60 14,90 18,70 20,90 20,90 18,30 13,30 8,60 5,50

V ichy 2,40 3,40 7,10 9,90 13,60 17,10 19,30 18,80 16,00 11,00 6,60 3,40

Objectifs

Comparer les villes du point de vue des températures mensuelles

Établir des ressemblances entre villes, des oppositions ? Une typologie des villes ? Certains mois de l'année sont-ils liés ? Sont-ils corrélés entre eux ?

Tableau de données : Individus x Variables

Brest Lille RennesNantes Strasbourg

Paris

Vichy Clermont

GrenobleLyon Bordeaux Toulouse

Montpellier Nice

Marseille

Représentation axiale

(18)

S'il y avait deux variables ...

Nuage de points

V ille janvier f évrier mars avril mai juin juillet août septembre octobre novembre décembre

Bordeaux 5,60 6,60 10,30 12,80 15,80 19,30 20,90 21,00 18,60 13,80 9,10 6,20

Brest 6,10 5,80 7,80 9,20 11,60 14,40 15,60 16,00 14,70 12,00 9,00 7,00

Clermont 2,60 3,70 7,50 10,30 13,80 17,30 19,40 19,10 16,20 11,20 6,60 3,60

Grenoble 1,50 3,20 7,70 10,60 14,50 17,80 20,10 19,50 16,70 11,40 6,50 2,30

Lille 2,40 2,90 6,00 8,90 12,40 15,30 17,10 17,10 14,70 10,40 6,10 3,50

Lyon 2,10 3,30 7,70 10,90 14,90 18,50 20,70 20,10 16,90 11,40 6,70 3,10

Marseille 5,50 6,60 10,00 13,00 16,80 20,80 23,30 22,80 19,90 15,00 10,20 6,90 Montpellier 5,60 6,70 9,90 12,80 16,20 20,10 22,70 22,30 19,30 14,60 10,00 6,50

Nantes 5,00 5,30 8,40 10,80 13,90 17,20 18,80 18,60 16,40 12,20 8,20 5,50

Nice 7,50 8,50 10,80 13,30 16,70 20,10 22,70 22,50 20,30 16,00 11,50 8,20

Paris 3,40 4,10 7,60 10,70 14,30 17,50 19,10 18,70 16,00 11,40 7,10 4,30

Rennes 4,80 5,30 7,90 10,10 13,10 16,20 17,90 17,80 15,70 11,60 7,80 5,40

Strasbourg 0,40 1,50 5,60 9,80 14,00 17,20 19,00 18,30 15,10 9,50 4,90 1,30

Toulouse 4,70 5,60 9,20 11,60 14,90 18,70 20,90 20,90 18,30 13,30 8,60 5,50

V ichy 2,40 3,40 7,10 9,90 13,60 17,10 19,30 18,80 16,00 11,00 6,60 3,40

Objectifs

Comparer les villes du point de vue des températures mensuelles

Établir des ressemblances entre villes, des oppositions ? Une typologie des villes ? Certains mois de l'année sont-ils liés ? Sont-ils corrélés entre eux ?

Peut-on résumer des variables fortement corrélées par des variables synthétiques ? Tableau de données : Individus x Variables

(19)

Année 2020-2021 Analyse des données –ACP

Pour trois variables ...

Représentation 3D

Exemple 1 Températures mensuelles pour 15 villes de France

V ille janvier f évrier mars avril mai juin juillet août septembre octobre novembre décembre

Bordeaux 5,60 6,60 10,30 12,80 15,80 19,30 20,90 21,00 18,60 13,80 9,10 6,20

Brest 6,10 5,80 7,80 9,20 11,60 14,40 15,60 16,00 14,70 12,00 9,00 7,00

Clermont 2,60 3,70 7,50 10,30 13,80 17,30 19,40 19,10 16,20 11,20 6,60 3,60

Grenoble 1,50 3,20 7,70 10,60 14,50 17,80 20,10 19,50 16,70 11,40 6,50 2,30

Lille 2,40 2,90 6,00 8,90 12,40 15,30 17,10 17,10 14,70 10,40 6,10 3,50

Lyon 2,10 3,30 7,70 10,90 14,90 18,50 20,70 20,10 16,90 11,40 6,70 3,10

Marseille 5,50 6,60 10,00 13,00 16,80 20,80 23,30 22,80 19,90 15,00 10,20 6,90 Montpellier 5,60 6,70 9,90 12,80 16,20 20,10 22,70 22,30 19,30 14,60 10,00 6,50

Nantes 5,00 5,30 8,40 10,80 13,90 17,20 18,80 18,60 16,40 12,20 8,20 5,50

Nice 7,50 8,50 10,80 13,30 16,70 20,10 22,70 22,50 20,30 16,00 11,50 8,20

Paris 3,40 4,10 7,60 10,70 14,30 17,50 19,10 18,70 16,00 11,40 7,10 4,30

Rennes 4,80 5,30 7,90 10,10 13,10 16,20 17,90 17,80 15,70 11,60 7,80 5,40

Strasbourg 0,40 1,50 5,60 9,80 14,00 17,20 19,00 18,30 15,10 9,50 4,90 1,30

Toulouse 4,70 5,60 9,20 11,60 14,90 18,70 20,90 20,90 18,30 13,30 8,60 5,50

V ichy 2,40 3,40 7,10 9,90 13,60 17,10 19,30 18,80 16,00 11,00 6,60 3,40

Objectifs

Comparer les villes du point de vue des températures mensuelles

Établir des ressemblances entre villes, des oppositions ? Une typologie des villes ? Certains mois de l'année sont-ils liés ? Sont-ils corrélés entre eux ?

Peut-on résumer des variables fortement corrélées par des variables synthétiques ? Tableau de données : Individus x Variables

Problème :

Quelle représentation proposer pour plus de trois variables ?

(20)

1.3 – Le nuage des individus : présentation…

Un nuage dans un espace inaccessible !

Les individus étudiés constituent un nuage de points dans un espace comportant autant de dimensions que de variables

janvier février

Clermont

Marseille Lille

Vichy Strasbourg

Un espace à 12 dimensions !

Dans cet espace

• Chaque individu (𝑖) est affecté d’une masse 𝑚𝑖

• Les masses sont en général identiques et 𝑚𝑖 = 1

𝑛

(21)

Année 2020-2021 Analyse des données –ACP

Son point moyen : le centre de gravité G

Le point moyen du nuage est appelé barycentre ou centre de gravité

Ses coordonnées sont définies par les valeurs moyennes des variables

janvier février

décembre

Clermont

Marseille Lille

Vichy Strasbourg

G

𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝

𝐺 = ( ҧ𝑥1 ҧ𝑥2𝑗ҧ𝑥 … ҧ𝑥𝑝)

𝑥𝑖𝑗 𝑖

1

𝑛

(22)

Ressemblance entre deux individus

Quel outil pour évaluer une ressemblance entre deux individus ?

La distance euclidienne usuelle !

Deux individus proches dans le nuage prennent des valeurs similaires pour les différentes variables

𝑑2 𝑖, 𝑙 = ෍

𝑗=1 𝑝

𝑥𝑖𝑗 − 𝑥𝑙𝑗 2

janvier février

décembre

Clermont

Marseille Lille

Vichy Strasbourg

(23)

Année 2020-2021 Analyse des données –ACP

Une notion essentielle : l’inertie d’un nuage de points

Mécanique

Inertie d’un corps = résistance d’un corps à une mise en rotation autour d’un axe

Statistique

Inertie d’un nuage de points = mesure de dispersion des points au sein du nuage

= somme des carrés des distances par rapport au centre de gravité G du nuage

𝐼 = ෍

𝑖=1 𝑛

𝑚𝑖 × 𝑑2 𝐺, 𝑖

oo

o o

o o o

o oo

o o o

o o o

oo o o

𝐺

𝑖 o

𝑖 : individu (𝑖)

𝐺 : centre de gravité du nuage

𝑚𝑖 : masse de l’individu (𝑖)

(24)

L’inertie est étroitement liée à la forme du nuage

o o o oo o

o oo o o o oooo o o o oo o

oo o o o oo o

o o oo

ooo oooo o oo o o oo

ooo oooo o oo

o o

Pour étudier les principales différences entre individus, l’ACP va analyser la forme du nuage, en rechercher ses principales directions d’allongement

o o o o

oo

o o

o o o

o oo

o o o

o o o

oo ooo Ces axes seront appelés

Axes ou dimensions factoriel(le)s,

Axes principaux d’inertie,

Principaux axes de variabilité Inertie et forme du nuage de points

Directions d’allongement du nuage : les axes d’inertie

(25)

Année 2020-2021 Analyse des données –ACP

L’Inertie : une mesure de variance multidimensionnelle

Illustration en deux dimensions

𝐼 = 𝑉 𝑋1 + 𝑉(𝑋2)

Plus généralement

𝐼 = ෍

𝑗=1 𝑝

𝑉 𝑋𝑗

𝑋1

𝑋2

𝐺

𝑖

ҧ𝑥1

ҧ𝑥2

(26)

Transformation préalable des données (1)

Centrage des données

Il est réalisé de façon systématique en ACP

Il consiste à soustraire la moyenne à toutes les valeurs d’une variable (colonne)

Les nouvelles variables obtenues sont donc toutes de moyenne nulle 𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝

𝐺 = ( ҧ𝑥1 ҧ𝑥2𝑗ҧ𝑥 … ҧ𝑥𝑝)

𝑥𝑖𝑗

𝑖

𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝

𝐺 = 𝑂 = (0 0 … 0 … 0)

(𝑥𝑖𝑗− ҧ𝑥𝑗)

𝑖

𝑥𝑖𝑗 → (𝑥𝑖𝑗− ҧ𝑥𝑗)

Centrage

(27)

Année 2020-2021 Analyse des données –ACP

G

G=O

Consiste à diviser les valeurs d'une variable par son écart-type La nouvelle variable a un écart-type = 1

La réduction

Ville janvier Janvier Centré Janvier CR

Bordeaux 5,60 1,63 0,84

Brest 6,10 2,13 1,1

Clermont 2,60 -1,37 -0,71

Grenoble 1,50 -2,47 -1,28

Lille 2,40 -1,57 -0,81

Lyon 2,10 -1,87 -0,97

Marseille 5,50 1,53 0,79

Montpellier 5,60 1,63 0,84

Nantes 5,00 1,03 0,53

Nice 7,50 3,53 1,82

Paris 3,40 -0,57 -0,3

Rennes 4,80 0,83 0,43

Strasbourg 0,40 -3,57 -1,84

Toulouse 4,70 0,73 0,37

Vichy 2,40 -1,57 -0,81

moyenne 3,97 0 0

écart-type 1,94 1,94 1

Exemple

Centrer les données consiste donc à translater le nuage sur l'origine

O

Exemple : centrage de la variable Janvier

(28)

Transformation préalable des données (2)

La réduction des données

Elle consiste à diviser par l’écart type les valeurs d’une variable

Les nouvelles variables obtenues ont un écart type égal à 1

𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝

𝑥𝑖𝑗

𝑖

𝑋1 𝑋2 … 𝑋𝑗 … 𝑋𝑝

(𝑥𝑖𝑗− ҧ𝑥𝑗) 𝑠𝑗 𝑥𝑖𝑗 (𝑥𝑖𝑗− ҧ𝑥𝑗) 𝑖

𝒔𝒋 Réduction Centrage

Moyenne : 0 Écart type : 1

(29)

Année 2020-2021 Analyse des données –Consiste à diviser les valeurs d'une variable par son écart-typeACP

La nouvelle variable a un écart-type = 1 La réduction

Ville janvier Janvier Centré Janvier CR

Bordeaux 5,60 1,63 0,84

Brest 6,10 2,13 1,1

Clermont 2,60 -1,37 -0,71

Grenoble 1,50 -2,47 -1,28

Lille 2,40 -1,57 -0,81

Lyon 2,10 -1,87 -0,97

Marseille 5,50 1,53 0,79

Montpellier 5,60 1,63 0,84

Nantes 5,00 1,03 0,53

Nice 7,50 3,53 1,82

Paris 3,40 -0,57 -0,3

Rennes 4,80 0,83 0,43

Strasbourg 0,40 -3,57 -1,84

Toulouse 4,70 0,73 0,37

Vichy 2,40 -1,57 -0,81

moyenne 3,97 0 0

écart-type 1,94 1,94 1

Exemple

Exemple : centrage et réduction de la variable Janvier

Interprétation de la température de Strasbourg en Janvier : + 0,4° - Données « brutes » : + 0,40 = 3,97 - 1,84 x 1,94

- Données C-R : - 1,84 = 0 - 1,84 x 1

La température de + 0,4°C , se situe à -1,84 écart-type en dessous de la moyenne

(30)

moyenne = 0 (conséquence du centrage) écart-type = 1 (conséquence de la réduction)

• Elles s’expriment en nombre d’écarts types

• Elles sont indépendantes de l’unité de mesure de la variable

• Elles évaluent le caractère extrême d’une observation par rapport à la dispersion moyenne d’une série

Propriétés des données centrées - réduites

( )

x i

s x

xÉcart de l’observation (𝑖) à sa moyenne Écart moyen à la moyenne

(31)

Année 2020-2021 Analyse des données –ACP

Evolution du poids des filles entre 0 et 5 ans

(32)

La réduction des données n’est pas systématique en ACP !

La transformation est cependant inévitable lorsque les unités de mesure des variables sont différentes

La ressemblance est principalement déterminée par les variables prenant des valeurs élevées… Elle résulte donc de l’unité de mesure !

En réduisant, on équilibre l’influence des variables dans le calcul des ressemblances, on s’affranchit de l’unité de mesure.

Quand est-il nécessaire de réduire les données ?

individu enfants salaire taille

i1 0 3000 1,85

i2 3 1100 1,82

i3 2 2000 1,7

i4 2 1500 1,61

𝑑2 𝑖1, 𝑖3 = 0 − 2 2 + 3000 − 2000 2 + 1,85 − 1,70 2

(33)

Année 2020-2021 Analyse des données –ACP

1.4 – L’ajustement du nuage des individus

janvier février

décembre

Clermont

Marseille Lille

Vichy Strasbourg

Un espace à 12 dimensions !

Objectif de l’ajustement du nuage

Comment, à l’aide d’une représentation graphique simple (plane), restituer une image approchée de ce nuage de points ?

(34)

Comment obtenir la « meilleure image » de ce nuage ?

Cette représentation simplifiée du nuage est obtenue à travers une

projection des individus du nuage sur un plan

janvier février

décembre

Clermont

Marseille Lille

Vichy Strasbourg

(35)

Année 2020-2021 Analyse des données –ACP

Une projection étrange…

La meilleure projection =

• la plus « suggestive »

• La moins déformante

• La vue la plus fidèle de la forme réelle du nuage

• la vue la plus vaste de l’objet

?

(36)

Projection des individus sur le plan

= Projection orthogonale

(37)

Année 2020-2021 Analyse des données –ACP

Comment évaluer la qualité de la projection ?

En projection sur le plan, les points ont une dispersion, appelée inertie projetée Celle-ci doit être maximale

Inertie du nuage projeté

𝐻𝑖 : projection de l'individu (𝑖)

𝐺 : centre de gravité du nuage projeté

𝑚𝑖 : masse de l’individu (𝑖) 𝐼proj = ෍𝑖=1 𝑛

𝑚𝑖 × 𝑑2 𝐺, 𝐻𝑖

(38)

Sur le plan, l’inertie totale projetée se décompose de façon additive selon l’axe horizontal (axe 1) et l’axe vertical (axe 2)

Inertie de l’axe 1 : dispersion des individus le long de l’axe 1

Sur un axe, l’inertie se calcule simplement comme une variance : Décomposition de l'inertie projetée sur le plan

𝐼1 = ෍

𝑖=1 𝑛

𝑚𝑖 × 𝑑2 𝐺, 𝐻𝑖1

𝐼proj = 𝐼(1,2) = 𝐼1 +𝐼2

(39)

Année 2020-2021 Analyse des données –ACP

𝐼2 = ෍

𝑖=1 𝑛

𝑚𝑖 × 𝑑2 𝐺, 𝐻𝑖2

Inertie de l’axe 2

Axe 1 = Axe d'allongement maximal du nuage

(40)

En projection, les distances entre individus sont les moins « déformées » possible

= les plus grandes possible car la projection réduit toujours les distances Un critère équivalent

vraie ressemblance

ressemblance lue sur le plan

(41)

Année 2020-2021 Analyse des données –ACP

Encore un critère équivalent !

Le meilleur plan passe en moyenne au plus près de l’ensemble

des individus du nuage

(42)

Exemple des températures

Exemple « températures » : meilleur plan de projection des individus

(43)

Année 2020-2021 Analyse des données –ACP

Package factoextra Plan (1,2) des individus

(44)

La détermination des axes factoriels

Le meilleur plan de projection est construit à partir du meilleur premier axe et du meilleur deuxième axe, orthogonal au premier

L'ACP recherche une succession d’axes ou dimensions factoriel(le)s Ce sont les principales directions d’allongement du nuage de points, orthogonales 2 à 2

Ces directions mettent en évidence les différences les plus saillantes

Axe 1 = axe d’allongement maximal

Axe 2 = seconde direction d’allongement maxi, orthogonale à l’axe 1

oo

o o

o o o

o oo

o o o

o o o

oo ooo oo

(45)

Année 2020-2021 Analyse des données –ACP

Point de vue mathématique

L’ACP détermine un nombre d'axes = 𝐦𝐢𝐧(𝒏, 𝒑)

C’est la plus petite dimension du tableau de données

Les axes factoriels sont déterminés par les vecteurs propres d’une matrice, appelée matrice d’inertie 𝑉

Les valeurs propres associées sont égales aux inerties des axes obtenus

Un programme d’ACP :

- diagonaliser une matrice d’inertie - tri décroissant des valeurs propres

- les vecteurs propres (les axes) associés sont ainsi hiérarchisés par ordre d’intérêt décroisant

Matrice d’inertie 𝑽

𝑉 = Matrice de variance-covariance pour des données centrées

𝑉 = Matrice des corrélations pour des données centrées et réduites

𝜆1 𝜆2 𝜆3 𝜆4

𝜆5 𝜆6 axe 1

inertie

axe 2 axe 3

axe 6 axe 4 axe 5

(46)

L’ACP d’un nuage à deux dimensions

Les deux axes d'une ACP sur la photo d'un poisson d’après Wikipédia

Axe 1 Axe 2

L’axe 1 : l’axe d’allongement maximal du nuage de points

(47)

Année 2020-2021 Analyse des données –ACP

Le nuage des variables

Les variables constituent un nuage de points dans un espace comportant autant de dimensions que d'individus

Les variables sont affectées de masses 𝑚𝑗 en général identiques : 𝑚𝑗 = 1

La longueur d'une variable 𝑥𝑗 est égale à son écart-type

Si les données sont centrées- réduites Les variables sont toutes de longueur 1 Nuage = hypersphère de rayon 1

1.5 – Ajustement du nuage des variables

(48)

Le cosinus de l'angle formé par les deux variables est égale à la corrélation linéaire entre les deux variables

Mesure de liaison entre deux variables

𝑟 𝑋1, 𝑋2 = cos ෣𝑋1𝑋2

L'ACP étudie des liaisons de nature linéaire

(49)

Année 2020-2021 Analyse des données –ACP

Bordeaux Brest

Clermont Grenoble Lille

Lyon

Marseille Montpellier

Nantes

Nice

Paris

Rennes

Strasbourg

Toulouse

Vichy

1 2 3 4 5 6 7 8 9

0 1 2 3 4 5 6 7 8

février

janvier

Représentation usuelle d’une

corrélation linéaire entre deux variables

Intensité de la liaison linéaire

= allongement du nuage de points

(50)

Recherche du meilleur plan de projection

Critère d'inertie maximale en projection,

ouLes angles entre vecteurs sont les moins déformés possible

Comme pour les individus, on recherchera une suite d’axes orthogonaux 2 à 2 et d’inertie projetée maximale

Références

Documents relatifs

Le graphe de l’ACP permet de juger la corrélation de la variable k avec chacune des composantes principales (la coordonnée de la variable.. k sur l’axe s est son

L’analyse factorielle usuelle d’un ensemble de variables qualitatives étant l’ACM, il est naturel de faire reposer l’AFM de J groupes de variables qualitatives.. sur une

Pour cela, on définit une analyse factorielle qui décrit la «forme de l’association», mesurée par un coefficient choisi dans une famille infinie de

&lt;borne sup) appartenant à un type scalaire discret ordonnée (entier, caractère et scalaire énuméré) Activité: Définir le type mois, le type weekend et le type lettres. Tableau

Dans ce travail, nous avons tenté de relier les paramètres de vagues et de niveau d’eau avec les dommages observés sur la Grande Plage de Biarritz. Les résultats préliminaires

nombre infini de tirages successifs la probabilité pour que A ren- ferme k .boules blanches est égale à celle d’obtenir k boules blanches dans un groupe de e

Construction d’un schéma d’implication entre variables issues d’une analyse des correspondances

des relations entre variables ou les ressemblances entre individus, incite à penser que les méthodes les plus classiques, Analyse en Composantes Principales