• Aucun résultat trouvé

M1 Analyse de données exploratoire - 2018/19 | Julie Scholler

N/A
N/A
Protected

Academic year: 2022

Partager "M1 Analyse de données exploratoire - 2018/19 | Julie Scholler"

Copied!
55
0
0

Texte intégral

(1)

M Éc E n

C4. A

NALYSE DES CORRESPONDANCES MULTIPLES

Julie Scholler - Bureau B246

I. Problématique

Plusieurs variables qualitatives

Quel tableau pour coder les données ? pour l’analyse factorielle ?

Que peut-on attendre d’une telle analyse ?

(2)

II. Données

Nos données

Résultats des votes de la chambre des représentants du congrès américain en 1984 avec l’affiliation des différents représentants Individus : 435 représentants

Variables :

affiliation : democrat ou republican

budget, physician, salvador, nicaraguan, missile, education : y, n, neither

II. Données

Tableau condensé

affiliation budg. physi. salva. nicara. missile educ.

1 republican n y y n n y

2 republican n y y n n y

3 democrat y neither y n n n

4 democrat y n neither n n n

5 democrat y n y n n neither

6 democrat y n y n n n

7 democrat n y y n n n

8 republican n y y n n n

(3)

II. Données

Tableau condensé

Tableau : individus x variables

I individus et J variables qualitatives

yi,j : numéro de la modalité de la variable j prise par l’individu i

1 · · · j · · · J 1...

i...

I

· · · ·

· · · ·

· · · yi,j · · · ·

· · · ·

· · · ·

Pas de propriétés numériques donc pas de sens de traiter ce tableau par une analyse factorielle

II. Données

Hypertableau de contingence

Généralisation du tableau de contingence pour deux variables qualitatives

Nombre de cases : YJ

j=1

Kj avec Kj nombre de modalités de la variable j

Croît très rapidement avec J

Dépasse rapidement l’effectif total : beaucoup de cases à effectif nul

(4)

II. Données

Tableau disjonctif complet

Variable 1 Variable j Variable J

K1 modalités Kj modalités KJ modalités

1 K1 K1+ 1 k K Marge

Individus

1 J

i 0 1 0 0 . . . xik 0 0 1 0 . . . J

I J

Marge I1 Ik IK IJ

xik =

(1 si l’individu i prend la modalité k 0 sinon

Tableau de I lignes et K = XJ

j=1

Kj colonnes

II. Données

Tableau disjonctif complet

Variable 1 Variable j Variable J

K1 modalités Kj modalités KJ modalités

1 K1 K1+ 1 k K Marge

Individus

1 J

i 0 1 0 0 . . . xik 0 0 1 0 . . . J

I J

Marge I1 Ik IK IJ

Notations :

I nombre d’individus, J nombre de variables

Kj nombre de modalités de la je variable

Ik nombre d’individus ayant la modalité k

(5)

II. Données

Tableau disjonctif complet

affi.democrat affi.repu budget.n budget.neither budget.y

1 0 1 1 0 0

2 0 1 1 0 0

3 1 0 0 0 1

4 1 0 0 0 1

5 1 0 0 0 1

6 1 0 0 0 1

7 1 0 1 0 0

8 0 1 1 0 0

II. Données

Tableau de Burt

Variablej Variablel

1 k q K

1 ... ... ...

... ... ...

Variablej ... ... ...

k · · · · · · Ikk · · · · · · Iqk · · ·

... ... ...

... ... ...

Variablel ... ... ...

... ... ...

q · · · · · · Iqk · · · · · · Iqq · · ·

... ... ...

... ... ...

K ... ... ...

Récapitule les liens entre les variables 2 à 2

Moins d’informations que l’hypertableau de contingence ou le TDC

(6)

II. Données

Tableau de Burt

affi.dem affi.repu budg.n budg.neith budg.y

affi.demo 267 0 29 7 231

affi.repu 0 168 142 4 22

budget.n 29 142 171 0 0

budget.neither 7 4 0 11 0

budget.y 231 22 0 0 253

physician.n 245 2 25 3 219

physician.neither 8 3 0 6 5

physician.y 14 163 146 2 29

III. Objectifs

Objectifs

Individus :

typologie d’individus

mise en évidence de caractéristiques qui séparent des classes d’individus

Variables :

relations entre les modalités relations entre variables variables synthétiques

(7)

IV. AFC du TDC

Rappels AFC

1 · · · j · · · J 1...

i...

I

· · · ·

· · · ·

· · · fij · · · ·

· · · ·

· · · ·

f1•

...

fi ...

fI•

f•1 · · · f•j · · · f•J 1 Distance du χ2

entre deux profils lignes : d2(i, `) = XJ

j=1

1 f•j

fij

fif`j f`•

2

entre deux profils colonnes : d2(j,k) = XI

i=1

1 fi

fij

f•jfik f•k

!2

IV. AFC du TDC

Application au TDC

1 · · · k · · · K 1...

i...

I

· · · ·

· · · ·

· · · xik · · · ·

· · · ·

· · · ·

J...

J...

J I1 · · · Ik · · · IK IJ

Poids des individus : 1

I , . . . , 1

I , . . . 1 I

Poids des modalités : I1

IJ, . . . , Ik

IJ, . . . , IK IJ

Distances induites

entre deux individus : d2(i, `) = 1 J

K

X

k=1

I

Ik (xikx`k)2

entre deux modalités : d2(j,k) = I

I

X

i=1

xij

Ijxik Ik

!2

(8)

IV. AFC du TDC

Étude des individus

Distance entre deux individus d2(i, `) = 1

J

K

X

k=1

I

Ik (xikx`k)2

IV. AFC du TDC

Tableau condensé

affiliation budg. physi. salva. nicara. missile educ.

1 republican n y y n n y

2 republican n y y n n y

3 democrat y neither y n n n

4 democrat y n neither n n n

5 democrat y n y n n neither

6 democrat y n y n n n

7 democrat n y y n n n

8 republican n y y n n n

(9)

IV. AFC du TDC

Étude des individus

Distance entre deux individus d2(i, `) = 1

J

K

X

k=1

I

Ik (xikx`k)2 Barycentre des individus GI

(GI)k = X

i

1 I

xik

J = 1 IJ

X

i

xik = Ik IJ Distance au barycentre

d2(i,GI) = 1 J

K

X

k=1

I Ik

xikIk I

2

IV. AFC du TDC

Étude des variables

Distance entre deux modalités : d2(j,k) = I

I

X

i=1

xij

Ijxik Ik

!2

= I

IkIj × Ik6=j

avec Ik6=j : nombre d’individus possédant une et une seule des modalités k ou j.

Barycentre des modalités GK (GK)i = X

k

Ik IJ

xik

Ik = 1 IJ

X

k

xik = 1

I donc GK = 1

I, . . . , 1 I

Distance au barycentre

d2(k,GK) = XI

i=1

I xik

Ik − 1 I

2

= I Ik − 1

(10)

V. Ajustement des nuages

Ajustement des nuages

On procède comme pour les analyses factorielles déjà vues.

1. L’origine des axes est placé au barycentre/centre de gravité.

2. On cherche une suite d’axes orthogonaux maximisant l’inertie projetée.

3. On représente ces projections sur des plans associant deux axes, en premier lieu (u1,u2).

Propriétés déjà vues en AFC

Les deux nuages ont la même inertie.

Leurs ajustements sont « duaux »

les inerties associées aux axes de même rang dans chacun des nuages sont égales ;

les facteurs de même rang sont liés par des relations dites de transition.

−2 −1 0 1 2

0123456

Individus

Dim 1 (37.14%)

Dim 2 (17.61%)

−2 −1 0 1 2

012345

Modalités

Dim 1 (37.14%)

Dim 2 (17.61%)

budget_n budget_neither

budget_yphysician_n physician_neither

physician_y salvador_n

salvador_neither

salvador_ynicaraguan_n nicaraguan_neither

nicaraguan_y missile_n missile_neither

missile_y

education_n education_neither

education_y

(11)

−4 −2 0 2 4

0123456

Représentation simultanée

Dim 1 (37.14%)

Dim 2 (17.61%)

budget_n budget_neither

budget_y physician_n physician_neither

physician_y salvador_n

salvador_neither

salvador_ynicaraguan_n nicaraguan_neither

nicaraguan_y missile_n missile_neither

missile_y education_n

education_neither

education_y

V. Ajustement des nuages

Relations de transition et représentations simultanées

Fs(i) = 1√ λs

K

X

k=1

xik

J Gs(k) et Gs(k) = 1√ λs

I

X

i=1

xik

Ik Fs(i) En projection sur l’axe s, l’individu i est placé (au coefficient 1/pλs

près) au barycentre des modalités qu’il possède. Idem pour les modalités.

(12)

V. Ajustement des nuages

Inerties

Inertie d’une modalité :

Inertie(k/GK) = 1 J

1− Ik I

Inertie totale

Inertie(NK) = K J −1 Inertie de la variable j

Kj − 1 J

V. Ajustement des nuages

Inerties relatives de chaque axe

1 2 3 4 5 6 7 8 9 10 11 12

Axes factoriels

Parts

0 5 10 15 20 25 30 35

(13)

V. Ajustement des nuages

Facteurs

Fs : ensemble des projections de tous les points du nuages NI sur le se axe

Les Fs constituent de nouvelles variables quantitatives. Liens avec les variables étudiées ?

Comment mesurer le lien entre une variable quantitative et une variable qualitative ?

V. Ajustement des nuages

Carré du rapport de corrélation

Carré du rapport de corrélation : η2 = inertie inter classeinertie totale 0 6 η2 6 1

Barycentre des individus prenant la modalité k : Gmod k

Poids de Gmod k : Ik I

Coordonnées de Gmod k sur le se axe : Fs(Gmod k)

η2(Fs,j) = P

k∈K˜j Ik

I (Fs(Gmod k))2 λs

Fs(Gmod k) ?

(14)

V. Ajustement des nuages

Relations de transition et représentations simultanées

Fs(i) = 1√ λs

K

X

k=1

xik

J Gs(k) et Gs(k) = 1√ λs

I

X

i=1

xik

Ik Fs(i) En projection sur l’axe s, l’individu i est placé (au coefficient 1/pλs

près) au barycentre des modalités qu’il possède. Idem pour les modalités.

V. Ajustement des nuages

η2(Fs,j) = P

k∈K˜j Ik

I (Fs(Gmod k))2 λs

= J X

k∈K˜j

Ik

IJGs(k)2

= J X

k∈K˜j

Inertie de la modalité k projetée sur le se axe

Quantité maximisée par la méthode :

Inertie de NK projeté sur le se axe = XK

k=1

Ik

IJGs(k)2

= 1J

J

X

j=1

η2(Fs,j)

Fs : variables quantitatives les plus liées à l’ensemble des variables qualitatives étudiées

(15)

VI. Aide à l’interprétation

Aides à l’interprétation

Valeurs propres, pourcentage d’inertie associée à un axe

Forme des nuages, coordonnées

Qualité de représentation

Contributions : individus, modalités, variables

Représentation des variables par leurs carrés des rapports de corrélation

Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives

VI. Aide à l’interprétation

Valeur propre Part d’inertie Part cumulée d’inertie

dim 1 0.74 37.14 37.14

dim 2 0.35 17.61 54.75

dim 3 0.18 8.97 63.72

dim 4 0.14 7.21 70.93

dim 5 0.13 6.48 77.41

dim 6 0.12 6.21 83.63

dim 7 0.09 4.39 88.01

dim 8 0.08 3.81 91.83

dim 9 0.06 2.92 94.75

dim 10 0.04 2.2 96.95

dim 11 0.04 1.89 98.84

dim 12 0.02 1.16 100

Total 2 100 /

(16)

VI. Aide à l’interprétation

1 2 3 4 5 6 7 8 9 10 11 12

Axes factoriels

Parts

0 5 10 15 20 25 30 35

VI. Aide à l’interprétation

Aides à l’interprétation

Valeurs propres, pourcentage d’inertie associée à un axe

Forme des nuages, coordonnées

Qualité de représentation

Contributions : individus, modalités, variables

Représentation des variables par leurs carrés des rapports de corrélation

Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives

(17)

−2 −1 0 1 2

0123456

Individus

Dim 1 (37.14%)

Dim 2 (17.61%)

−2 −1 0 1 2

012345

Modalités

Dim 1 (37.14%)

Dim 2 (17.61%)

budget_n budget_neither

budget_yphysician_n physician_neither

physician_y salvador_n

salvador_neither

salvador_ynicaraguan_n nicaraguan_neither

nicaraguan_y missile_n missile_neither

missile_y

education_n education_neither

education_y

−2 −1 0 1 2 3

−4−2024

Individus

Dim 3 (8.97%)

Dim 4 (7.21%)

−3 −2 −1 0 1 2 3

−4−2024

Modalités

Dim 3 (8.97%)

Dim 4 (7.21%) budget_n

budget_neither

budget_y physician_n physician_neither

physician_y salvador_n

salvador_neither

salvador_y nicaraguan_n

nicaraguan_neither nicaraguan_y missile_n

missile_neither

missile_y education_n

education_neither education_y

(18)

−4 −2 0 2 4

0123456

Dim 1 (37.14%)

Dim 2 (17.61%)

budget_n budget_neither budget_y

−4 −2 0 2 4

0123456

Dim 1 (37.14%)

Dim 2 (17.61%)

physician_n physician_neither physician_y

−4 −2 0 2 4

0123456

Dim 1 (37.14%)

Dim 2 (17.61%)

salvador_n salvador_neither salvador_y

−4 −2 0 2 4

0123456

Dim 1 (37.14%)

Dim 2 (17.61%)

nicaraguan_n nicaraguan_neither nicaraguan_y

−4 −2 0 2 4

0123456

Dim 1 (37.14%)

Dim 2 (17.61%)

missile_n missile_neither missile_y

−4 −2 0 2 4

0123456

Dim 1 (37.14%)

Dim 2 (17.61%)

education_n education_neither education_y

VI. Aide à l’interprétation

Individus extrêmes

Dimension 1

affiliation budget physician salvador nicarag. missile educ. Coord.

16 republican n y y n n y 1.14

31 republican n y y n n y 1.14

18 democrat y n n y y n -0.91

20 democrat y n n y y n -0.91

Dimension 2

affiliation budget physician salvador nicarag. missile educ. Coord.

108 republican neither neither neither neither neither neither 5.19 249 republican neither neither neither neither neither neither 5.19 184 democrat neither neither neither neither y neither 4.77

395 democrat neither neither neither n n n 3.35

394 republican neither neither n y y y 2.38

105 democrat neither neither n y y n 2.37

144 democrat n n n y y n -0.22

145 democrat n n n y y n -0.22

(19)

VI. Aide à l’interprétation

Aides à l’interprétation

Valeurs propres, pourcentage d’inertie associée à un axe

Forme des nuages, coordonnées

Qualités de représentation

Contributions : individus, modalités, variables

Représentation des variables par leurs carrés des rapports de corrélation

Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives

VI. Aide à l’interprétation

Les 244 individus les mieux représentés dans le premier plan ont une qualité de représentation supérieure à 0.92. Les individus suivants ont une qualité inférieure à 0.62.

−6 −4 −2 0 2 4 6

0123456

Individus

Dim 1 (37.14%)

Dim 2 (17.61%)

(20)

VI. Aide à l’interprétation

Aides à l’interprétation

Valeurs propres, pourcentage d’inertie associée à un axe

Forme des nuages, coordonnées

Qualités de représentation

Contributions : individus, modalités, variables

Représentation des variables par leurs carrés des rapports de corrélation

Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives

VI. Aide à l’interprétation

Nombre d’individus nécessaires pour atteindre 50% des contributions Dim 1 Dim 2 Dim 3 Dim 4 Dim 5

132 4 13 19 12

163134363739505456575859606266676880838485878810010711211412012212312612713313413513613714714915115515715916417219119620720821221521822422622923123423625125225425725826727727928028430330430530630730931132532833133634034134634734835735836037537637938039340240440540640841041141343343515921521561922961112199022524828312118202224252627283032333540414243444547515361636469707173759192991061091101111151171191251281321381391401461501531541581661701711731751761801811821831851871881901941992012022032042102112132142192202212232272282372422452462532552562592602612632642652662692702712722732812852862942983003083123133193203213223293303323333343383393453613773813904124154184204234244254274321310400288342378401464823924425041638240275364365370383417

87

2321182052162973143543733853893024291011611621651743861241892743154281311602913722365178179186209262292355434105130141951162438119720623534935936340921499311312923329329533736736941942614414519326829931031839297721773563919424738238438832617822873352003447619832423043198366398430778616329142143301167168394152396316241371 541455238148317184403141327353351289290368387397399422323104

389362407108249741693747995102222276343

6

27828242110321778350352964395

Contributions des individus à l'axe 1

0.0 0.1 0.2 0.3 0.4

10824918439539410596152396323371116378401121973 434374288342302429400130143914

430131160291372521561922963162411951119902252482831241452432365178179186209262292355326103217104324144145193268299310318392182022242526272830323335404142434445475153616364697071737591929910610911011111511711912512813213813914014615015315415816617017117317517618018118218318518718819019419920120220320421021121321421922022122322722823724224524625325525625926026126326426526626927027127227328128528629429830030831231331932032132232933033233333433833934536137738139041241541842042342442542743213103511413273531782287335148317947217735681197206235349359363409464823924425041640320024738238438821499311312923329329533736736941942689362407344552382914214330174169783503522322304312892903683873973994229836639867995102222276343278282421 738240275364365370383417

8

101161162165174386124189274315428761987786163167168

231343637395054565758596062666768808384858788100107112114120122123126127133134135136137147149151155157159164172191196207208212215218224226229231234236251252254257258267277279280284303304305306307309311325328331336340341346347348357358360375376379380393402404405406408410411413433435159161

118205216297314354373385389

Contributions des individus à l'axe 2

0 5 10 15

963951053944341301437840117822873353243264648239244250416200103217104288342302429121 33749718452156192296316195241152323

5243414236517817918620926229235511199022524828312396108249371400131160291372

4

43039111634474169141327353721773562323512304319440338240275364365370383417

7829142143301893624077619814414519326829931031839278350352131820222425262728303233354041424344454751536163646970717375919299106109110111115117119125128132138139140146150153154158166170171173175176180181182183185187188190194199201202203204210211213214219220221223227228237242245246253255256259260261263264265266269270271272273281285286294298300308312313319320321322329330332333334338339345361377381390412415418420423424425427432101231343637395054565758596062666768808384858788100107112114120122123126127133134135136137147149151155157159164172191196207208212215218224226229231234236251252254257258267277279280284303304305306307309311325328331336340341346347348357358360375376379380393402404405406408410411413433435159162473823843881182052162973143543733853891483172782824218119720623534935936340998366398124189274315428

67995102222276343167168214993113129233293295337367369419426552381011611621651743867786163289290368387397399422

Contributions des individus à l'axe 3

0 2 4 6 8

(21)

physician_y nicaraguan_n budget_n salvador_y salvador_n missile_n education_y nicaraguan_y missile_y physician_n budget_y education_n missile_neither nicaraguan_neither physician_neither salvador_neither budget_neither education_neither

Contributions des modalités à l'axe 1

0 2 4 6 8 10

budget_neither physician_neither salvador_neither nicaraguan_neither education_neither missile_neither education_n salvador_n physician_n nicaraguan_y budget_y education_y missile_y budget_n physician_y nicaraguan_n salvador_y missile_n

Contributions des modalités à l'axe 2

0 5 10 15 20

missile_neither budget_neither physician_neither nicaraguan_neither education_neither missile_y salvador_neither education_n physician_n nicaraguan_n budget_y missile_n education_y salvador_y budget_n nicaraguan_y physician_y salvador_n

Contributions des modalités à l'axe 3

0 10 20 30 40

missile_neither education_neither salvador_neither budget_neither physician_neither nicaraguan_neither missile_y education_y education_n nicaraguan_n physician_y missile_n salvador_n budget_y salvador_y budget_n nicaraguan_y physician_n

Contributions des modalités à l'axe 4

0 10 20 30

salvador_neither education_neither nicaraguan_neither budget_neither physician_neither education_n salvador_n education_y physician_n salvador_y nicaraguan_y missile_neither physician_y missile_y budget_y nicaraguan_n missile_n budget_n

Contributions des modalités à l'axe 5

0 10 20 30 40

VI. Aide à l’interprétation

−2 −1 0 1 2

012345

Modalités contribuant le plus

Dim 1 (37.14%)

Dim 2 (17.61%)

budget_n budget_neither physician_neither

physician_y salvador_n

salvador_y nicaraguan_n

−3 −2 −1 0 1 2 3

−4−2024

Modalités contribuant le plus

Dim 3 (8.97%)

Dim 4 (7.21%)

budget_neither

missile_neither

education_neither

(22)

VI. Aide à l’interprétation

Aides à l’interprétation

Valeurs propres, pourcentage d’inertie associée à un axe

Forme des nuages, coordonnées

Qualités de représentation

Contributions : individus, modalités

Représentation des variables par leurs carrés des rapports de corrélation

Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives

VI. Aide à l’interprétation

Dim 1 Dim 2 Dim 3 Dim 4 Dim 5

budget 0.7 0.52 0.15 0.06 0.03

physician 0.77 0.52 0.15 0.06 0.03

salvador 0.82 0.37 0.01 0.08 0.33

nicaraguan 0.79 0.33 0.14 0.05 0.08

missile 0.72 0.1 0.48 0.36 0

education 0.64 0.26 0.13 0.25 0.31

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Dim 1 (37.14%)

Dim 2 (17.61%)

budget physician salvador nicaraguan

missile education

affiliation

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Dim 3 (8.97%)

Dim 4 (7.21%)

budget physician salvadornicaraguan

missile education

affiliation

(23)

VI. Aide à l’interprétation

Aides à l’interprétation

Valeurs propres, pourcentage d’inertie associée à un axe

Forme des nuages, coordonnées

Qualités de représentation

Contributions : individus, modalités

Représentation des variables par leurs carrés des rapports de corrélation

Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives

VI. Aide à l’interprétation

Variables qualitatives supplémentaires

−2 −1 0 1 2

0123456

Individus selon lors affiliation

Dim 1 (37.14%)

Dim 2 (17.61%)

democrat republican

−2 −1 0 1 2

012345

Modalités avec affiliation

Dim 1 (37.14%)

Dim 2 (17.61%)

budget_n budget_neither

budget_y physician_n physician_neither

physician_y salvador_n

salvador_neither

salvador_y nicaraguan_n nicaraguan_neither

nicaraguan_y

missile_n missile_neither

missile_y education_n

education_neither

education_y democrat republican

(24)

VI. Aide à l’interprétation

Quelques types de facteurs

Facteur dû à quelques éléments hors norme

Facteur m’étant en évidence un groupe

Facteur d’opposition

Facteur associé à une partition

Facteur d’échelle

Effet Guttman

VII. Tableau de Burt

Tableau de Burt

−2 −1 0 1 2 3

0123456

AMC à partir du tabeau de Burt

Dim 1 (70.57%)

Dim 2 (15.87%)

budget_n budget_neither

budget_y physician_n

physician_neither

physician_y salvador_n salvador_neither

salvador_y nicaraguan_n

nicaraguan_neither

nicaraguan_y missile_n missile_neither

missile_yeducation_n education_neither

education_y

−2 −1 0 1 2 3

0123456

AMC à partir du TDC

Dim 1 (37.14%)

Dim 2 (17.61%)

budget_n budget_neither

budget_y physician_n physician_neither

physician_y salvador_n salvador_neither

salvador_y nicaraguan_n

nicaraguan_neither

nicaraguan_ymissile_n missile_neither

missile_y education_n education_neither

education_y

(25)

VIII. Généralisation

Généralisation

Données quantitatives en ACM : intérêt ? comment ?

−4 −2 0 2 4 6

−505

Premier plan pour l'ACP

Dim 1 (79.85%)

Dim 2 (18.97%)

Bordeaux Brest

Clermont Grenoble Lille

Lyon Marseille Montpellier

Nantes Nice

Paris Rennes

Strasbourg Toulouse Vichy

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

−2−1012

Premier pan pour l'ACM

Dim 1 (21.62%)

Dim 2 (16.15%)

Bordeaux Brest

Clermont Grenoble Lille

Lyon

Marseille Montpellier

Nantes

Nice

Paris Rennes

Strasbourg

Toulouse Vichy

(26)

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

Liaisons pour l'ACP

Dim 1 (79.85%)

Dim 2 (18.97%)

jan fev

mar avr mai juin juil

aou sept

oct nov

dec lati

longi

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Liaisons pour l'ACM

Dim 1 (21.62%)

Dim 2 (16.15%)

jan

fev mar

avr maijuin juil septaou

oct

nov dec

lati longi

−4 −2 0 2 4 6

−0.50.00.51.01.5

Coefficient de corrélation linéaire : 0.93

Premier facteur de l'ACP

Premier facteur de l'ACM

−2 −1 0 1 2 3 4

−1.5−1.0−0.50.00.51.0

Coefficient de corrélation linéaire : 0.43

Deuxième facteur de l'ACP

Deuxième facteur de l'ACM

(27)

−1.0 0.5 2.0

−4−202

Janvier

Dim 1 (21.62%)

Dim 2 (16.15%)

[0.4,2.34]

(4.88,5.6]

(5.6,7.5]

−1.0 0.5 2.0

−4−202

Février

Dim 1 (21.62%)

Dim 2 (16.15%)

[1.5,3.28]

(3.28,3.94]

(5.42,6.6]

(6.6,8.5]

−1.0 0.5 2.0

−4−202

Mars

Dim 1 (21.62%)

Dim 2 (16.15%)

[5.6,7.42]

(7.42,7.7]

(7.7,8.1]

(8.1,9.92]

(9.92,10.8]

−1.0 0.5 2.0

−4−202

Avril

Dim 1 (21.62%)

Dim 2 (16.15%)

[8.9,9.88]

(9.88,10.5]

(10.5,10.8]

(10.8,12.8]

(12.8,13.3]

−1.0 0.5 2.0

−4−202

Mai

Dim 1 (21.62%)

Dim 2 (16.15%)

[11.6,13.5]

(13.5,14]

(14,14.7]

(14.7,15.9]

−1.0 0.5 2.0

−4−202

Juin

Dim 1 (21.62%)

Dim 2 (16.15%)

[14.4,16.9]

(16.9,17.3]

(18.1,19.5]

−1.0 0.5 2.0

−4−202

Juillet

Dim 1 (21.62%)

Dim 2 (16.15%)

(19.2,20.3]

(20.3,21.3]

(21.3,23.3]

−1.0 0.5 2.0

−4−202

Août

Dim 1 (21.62%)

Dim 2 (16.15%)

[16,18.2]

(18.2,18.8]

(19.7,21.3]

(21.3,22.8]

−1.0 0.5 2.0

−4−202

Septembre

Dim 1 (21.62%)

Dim 2 (16.15%)

[14.7,15.6]

(15.6,16.1]

(16.1,16.8]

(16.8,18.7]

(18.7,20.3]

−1.0 0.5 2.0

−4−202

Octobre

Dim 1 (21.62%)

Dim 2 (16.15%)

[9.5,11.2]

(11.2,11.4]

(11.4,12.1]

(12.1,14]

(14,16]

−1.0 0.5 2.0

−4−202

Novembre

Dim 1 (21.62%)

Dim 2 (16.15%)

[4.9,6.58]

(6.58,6.94]

(6.94,8.36]

(8.36,9.28]

−1.0 0.5 2.0

−4−202

Décembre

Dim 1 (21.62%)

Dim 2 (16.15%)

[1.3,3.34]

(3.34,4.02]

VIII. Généralisation

Généralisation

Données quantitatives en ACM

Données mixtes : AFDM

(28)

IX. Mise en pratique

Mise en pratique

Les données sont extraites d’une ancienne enquête du Crédoc.

On a posé à 1000 personnes, les quatre questions d’opinion suivantes :

1. La préservation de l’environnement est une chose ...

2. Les découvertes scientifiques améliorent-elles la vie ? 3. Opinion sur le fonctionnement de la justice

4. La société française a-t-elle besoin de se transformer ? En outre, on a demandé les quatre repères sociaux suivants :

6. Sexe 7. Diplôme 8. Profession 9. Âge

(29)

M Éc E n

C5. C

LASSIFICATION NON SUPERVISÉE Julie Scholler - Bureau B246

I. Introduction

Classification

Objectif : distinguer des sous-ensembles homogènes susceptibles de traitements et d’analyses différenciées

Classification : regrouper des objets en un nombre limité de classes ayant les propriétés suivantes :

elles ne sont pas définies par l’analyste mais découvertes

elles regroupent les objets ayant des caractéristiques similaires et séparent les objets très différents

Attention au vocabulaire : classification 6= classement

(30)

I. Introduction

Méthodes

Nombre de partitions de n objets : Bn = 1

e

n

X

k=1

kn k!

B4 = 15, B6 ' 200, B7 ' 900, B12 ' 30.000.000, B30 ' 1024 Impossible d’étudier toutes les partitions

Nécessité d’algorithmes performants Deux types :

méthodes de partitionnement

classifications hiérarchiques

I. Introduction

Qualité d’une partition

Critère de l’inertie

Grande inertie interclasse

Proportion d’inertie expliquée par les classes Nombre optimum de classes ?

(31)

II. Méthodes de partitionnement

Méthodes de partitionnement

Nombre de classes fixé Différents algorithmes :

méthode des centres mobiles

méthode des k-means

méthode des nuées dynamiques

II. Méthodes de partitionnement

Algorithme des centres mobiles

Initialisation : On choisit k objets comme centres initiaux (tirage au sort, k premiers, un tous les n/k, etc.).

Puis on répète les étapes suivantes jusqu’à ce que la qualité de la partition ne s’accroisse plus significativement ou jusqu’à un nombre d’itérations fixé.

1. On calcule les distances entre les objets et les centres, puis on affecte chaque objet au centre le plus proche.

2. On remplace les k centres précédents par les barycentres des k nouvelles classes définies à l’étape précédente.

(32)

II. Méthodes de partitionnement

Premier exemple

+ + +

+

+ +

x

x x

II. Méthodes de partitionnement

Deuxième exemple

+ + + + + + +

A B C D E

F G

(33)

II. Méthodes de partitionnement

Avantages

complexité linéaire : temps d’exécution proportionnel au nombre d’individu

chaque itération améliore la qualité des classes qui peut être très élevées pour des classes sphériques

Inconvénients

nombre de classes fixé

la partition obtenue dépend des centres initiaux

pas d’optimum global, juste local

II. Méthodes de partitionnement

Encore un exemple

−2 0 2 4

−6−4−202

Vitesse des différents algorithmes

centres mobiles : 4 itérations

k-means : 2 itérations

nuées dynamiques : 1 seule itération

(34)

II. Méthodes de partitionnement

Encore un exemple

−2 0 2 4

−6−4−202

Inertie totale : 473.6

Inerties intra-groupes : 63.2 et 65.4 (en tout 128.6)

Inertie inter-groupes : 345.0

72.8% de l’inertie est expliquée par le découpage en groupes.

II. Méthodes de partitionnement

En trois groupes

−2 0 2 4

−6−4−202

Essai 1 Inertie inter=375.45

−2 0 2 4

−6−4−202

Essai 2 Inertie inter=373.73

−2 0 2 4

−6−4−202

Essai 3 Inertie inter=369.29

Part d’inertie expliquée par le découpage : entre 78 et 79 %

(35)

III. Classifications hiérarchiques

Classification hiérarchique ascendante

Produit une suite de partitions emboîtées Algorithme

Initialisation : les classes initiales sont les n objets seuls.

Puis on répète les étapes suivantes jusqu’à ce que l’on ait plus qu’une seule classe.

1. On calcule les distances entre toutes les classes 2 à 2.

2. On regroupe les deux classes les plus proches.

III. Classifications hiérarchiques

Premier exemple

A

+

B

+

C

+

D

+

E

+

Coordonnées :

A (6; 0)

B (2; 2)

C (3,3)

D (6; 4)

E (7.5; 4)

Références

Documents relatifs

Les chemins donn´ es sont parcourus dans le sens positif.

Écrire un bloc PL/SQL anonyme permettant d’afficher le nom (PRODUCT_NAME) et le prix (LIST_PRICE) des 5 produits les plus chers de la table DEMO_PRODUCT_INFO.

Télécharger l’extrait de données d’enchères réelles à l’adresse ci-dessous, créer dans BaseX une nouvelle base de données avec ce document et visualiser sa

Soient f et g deux fonctions continues de [a, b] dans R et d´ erivables sur ]a, b[.. Traduire ceci dans les termes du th´ eor` eme, en particulier quelle est la fonction ϕ ici,

Sans d´ eterminer son expression g´ en´ erale montrer que la suite (F n ) est

Justifier que cette s´ erie

On s'interroge sur la comparaison des tailles moyennes des garçons et des lles de 6 ans dans une popu- lation, pour cela on a pris comme échantillon, jugé représentatif de cette

On remarque qu’à "basse" température (par rapport à la température de Curie), tous les spins sont alignés dans le même sens (up) tandis qu’à "haute"