• Aucun résultat trouvé

S´eance 2: Analyse Factorielle des Correspondances

N/A
N/A
Protected

Academic year: 2022

Partager "S´eance 2: Analyse Factorielle des Correspondances"

Copied!
26
0
0

Texte intégral

(1)

Correspondances

R ´evisions

S ´ebastien Gadat

Laboratoire de Statistique et Probabilit ´es UMR 5583 CNRS-UPS

www.lsp.ups-tlse.fr/gadat

(2)

Repr ´esentations graphiques

Deuxi `eme partie II

Analyse Factorielle des Correspondances

(3)

Repr ´esentations graphiques

Donn ´ees Qualitatives

Notations

On suppose donn ´es 2 variablesXetYqualitatives.

On suppose donn ´esnindividus d ´ecrits par ces chacune de ces 2 variables.

Les r ´ealisations desnindividus sont not ´eesx1, . . .xnety1, . . .yn. Xposs `edem1modalit ´es,Y en poss `edem2.

Les modalit ´es deXsont not ´eesi1, . . .im1

Les modalit ´es deYsont not ´eesj1, . . .jm2

(4)

Repr ´esentations graphiques

Donn ´ees Qualitatives

Objectifs

Recherche de lad ´ependanceentre les diff ´erentes modalit ´es de XetY.

Y a-t-il des modalit ´es corr ´el ´ees entreXetY?

Pourquoi comparer les modalit ´es deXpose probl `eme ? Idem pour Y ?

Comment r ´esumer les donn ´ees ?

(5)

Repr ´esentations graphiques

Tableau de contingence, nuage associ ´es

D ´efinition

On construit une table de contingence associ ´ee `a ces observations

La dimension de la table estm1×m2

La table est souvent not ´eeTouN

Son ´el ´ement g ´en ´erique estn`h, effectif conjoint n`h=Card{i | xi=i` et yi=jh}

(6)

Repr ´esentations graphiques

Tableau de contingence, nuage associ ´es

Elle se pr ´esente sous la forme suivante :

j1 · · · jh · · · jm2 sommes

i1 n11 · · · n1h · · · n1c n1+

... ... ... ... ...

i` n`1 · · · n`h · · · n`c n`+

... ... ... ... ...

im1 nr1 · · · nrh · · · nrc nm1+

sommes n+1 · · · n+h · · · n+m2 n

Les effectifsn`+etn+hsont d ´efinis par n`+=

m2

X

h=1

n`h et n+h=

m1

X

`=1

n`h

(7)

Repr ´esentations graphiques

Effectifs Marginaux

On note parD1 etD2les matrices diagonales des effectifs marginaux des variablesXetY:

D1=

n1+ . . . 0 . . . 0

... . .. . . ...

0 . . . ni+ . .. 0

... . . .. ... ...

0 . . . 0 . . . nm1+

D2=

n+1 . . . 0 . . . 0

... . .. . . ...

0 . . . n+j . .. 0

... . . .. ... ...

0 . . . 0 . . . n+m2

La taille deD1estm1×m1alors queD2est de taillem2×m2.

(8)

Repr ´esentations graphiques

Profils Lignes

On construit `a partir deT un tableau de fr ´equences marginales pour la variableX.

Tableau desProfils Lignesest compos ´e des ´el ´ements ni,j

ni+

C’est la fraction des individus ayant la modalit ´eX=iqui ont la

´egalement modalit ´eY =j

PropositionCe tableau des profils lignes est donn ´e par la multiplication matricielle

PL=D−11 ×T

(9)

Repr ´esentations graphiques

Profils Colonnes

On construit `a partir deT un tableau de fr ´equences marginales pour la variableY.

Tableau desProfils Colonnesest compos ´e des ´el ´ements ni,j

n+j

C’est la fraction des individus ayant la modalit ´eY =jqui ont la

´egalement modalit ´eX=i

PropositionCe tableau des profils colonnes est donn ´e par la multiplication matricielle

PC=D−12 ×T0

(10)

Repr ´esentations graphiques

Positionnement dimensionnel Profils Lignes

On consid `ere les Profils Lignes commem1 points dansRm2. On le note

PLi=

ni,1

ni+

...

ni,m2

ni+

Chacun de ces points est affect ´e d’un poids proportionnel `a sa fr ´equence marginale nni+

Centre de gravit ´e du nuage de points :

gl=1

n(D−11 T)0D11=

 n+1/n

... n+m2/n

(11)

Repr ´esentations graphiques

Positionnement dimensionnel Profils Colonnes

On consid `ere les Profils Colonnes commem1points dansRm1. On le note

PCj=

n1j n+j

...

nm1j

n+j

Chacun de ces points est affect ´e d’un poids proportionnel `a sa fr ´equence marginale nn+j

Centre de gravit ´e du nuage de points :

gc=

 n1+/n

... nm1+/n

(12)

Repr ´esentations graphiques

Positionnement dimensionnel

Lesm1 profils lignes appartiennent `a un sous-espace affineW2

deRm2.

W2est de dimensionm2−1d ´efini par :

∀i∈ {1, . . .m1}

m2

X

j=1

PLi(j) =1

Lesm2 profils colonnes appartiennent `a un sous-espace affine W1deRm1.

W1est de dimensionm1−1d ´efini par :

∀j∈ {1, . . .m2}

m1

X

i=1

PCj(i) =1

(13)

Repr ´esentations graphiques

M ´etrique du χ

2

, Ind ´ependance

Dans le cas de l’ind ´ependance statistique entre la modalit ´eide Xet la modalit ´ejdeY, on a

P(X=i,Y=j) =P(X=i)P(Y=j) Proposition :Le pendant empirique de cette relation est :

nij=ni+n+j

n

Pourcalculer la distance entre deux profils lignesieti0, on utilise la formule :

d2χ2(i,i0) =

m2

X

j=1

n n+j

nij

ni+

− ni0j

ni0+

2

=DMl(PLi,PLi0)

PropositionLa m ´etriqueMlest donn ´ee parMl=nD−12

Cette m ´etrique revient l `a-encore `a donner autant d’importance `a

(14)

Repr ´esentations graphiques

M ´etrique du χ

2

, Ind ´ependance

Pourcalculer la distance entre deux profils colonnesjetj0, on utilise la formule :

d2χ2(j,j0) =

m1

X

i=1

n ni+

nij n+j

− nij0 n+j0

2

=DMc(PCj,PCj0)

PropositionLa m ´etriqueMcest donn ´ee parMc=nD−11

Cette m ´etrique revient l `a-encore `a donner autant d’importance `a chacune des modalit ´es deX.

(15)

Repr ´esentations graphiques

M ´etrique du χ

2

, Ind ´ependance

D ´efinition :La quantit ´eϕ2mesure l’ ´ecart `a l’ind ´ependance :

ϕ2= 1 n

m1

X

i=1 m2

X

j=1

nijni+nn+j2 ni+n+j

n

Proposition :L’inertie des Profils Lignes et l’inertie des Profils Colonnes co¨ıncident et valent leϕ2.

(16)

Repr ´esentations graphiques

Propri ´et ´es de la distance du χ

2

Proposition :Etant donn ´ees deux colonnes de´ T,jetj0 ayant le m ˆeme profil, si l’on regroupe ces 2 colonnes en une seule d’effectifnij+nij0 pour chacune des lignesi, alors les distances entre profils lignes est inchang ´ee.

Proposition :Etant donn ´ees deux lignes de´ T,ieti0ayant le m ˆeme profil, si l’on regroupe ces 2 lignes en une seule d’effectif ni0j+nijpour chacune des colonnesj, alors les distances entre profils colonnes est inchang ´ee.

Cette propri ´et ´e est-elle vraie pour la m ´etrique euclidienne ?

(17)

Repr ´esentations graphiques

Analyse en composantes principales des deux nuages de profils

ACP profils lignes Donn ´eesX=D−11 T M ´etriqueM=nD−12 PoidsD= Dn1

ACP profils colonnes Donn ´eesX=D−12 T0 M ´etriqueM=nD−11 PoidsD= Dn2

Nous verrons que ces deux ACP am `enent `a des r ´esultats parfaitement duaux l’un de l’autre.

(18)

Repr ´esentations graphiques

ACP non centr ´ees et facteur trivial

Proposition0glest orthogonal `aW1 pour la m ´etrique duχ2. Propositionkglkχ2=1

Proposition :g(glougc) est vecteur propre associ ´e `a la valeur propre1pour les deux ACPs.

Il est donc `a chaque fois inutile de pr ´eciser ce r ´esultat dans les AFC, ainsi que la valeur propre 1.

Quelle ACP choisir ?

(19)

Repr ´esentations graphiques

ACP non centr ´ees et facteur trivial

Th ´eor `eme : ACP profils lignes Facteurs Principaux

VP de D−12 T0D−11 T

Composantes principales VP de D−11 TD−12 T0

Normalis ´es par

a0D1

n a=λ

ACP profils colonnes Facteurs Principaux

VP de D−11 TD−12 T0

Composantes principales VP de D−12 T0D−11 T

Normalis ´es par b0D2

n b=λ

(20)

Repr ´esentations graphiques

ACP non centr ´ees et facteur trivial

Th ´eor `eme :

Les 2 analyses conduisent aux m ˆemes valeurs propres.

Les facteurs principaux de l’une sont les composantes principales de l’autre.

Les coordonn ´ees des points-lignes et points-colonnes

s’obtiennent en cherchant les vecteurs propres des produits des deux tableaux de profils

(21)

Repr ´esentations graphiques

Contributions

Cercle de corr ´elation : aucun int ´er ˆet dans le contexte de variables qualitatives

On a la relation entre les valeurs propresλet les vecteurs propres :

λ=1 n

m1

X

i=1

ni+a2i =1 n

m2

X

j=1

n+jb2j

On d ´efinit la contribution des profils lignes et colonnes par : CTR(i) =

ni+

n a2i

λ CTR(j) =

n+j

n b2j λ

(22)

Repr ´esentations graphiques

Formules de transition

Th ´eor `eme :

b= 1

√λD−12 N0a a= 1

√λD−11 Nb C’est- `a-dire :

bj= 1

√λ

m1

X

i=1

nij

nj+

ai ai= 1

√λ

m2

X

i=1

nij

n+i

aj

(23)

Repr ´esentations graphiques

Reconstitution des donn ´ees

Sim1<m2, en ´eliminant la valeur propre 1, on a :

ϕ2=

m1−1

X

k=1

λk

Les pourcentages de variance sont ´egaux `a :

%Varkk ϕ2 La formule de reconstitution est :

nij=ni+n+j

n 1+X

k

akibkj

√λk

!

(24)

Repr ´esentations graphiques

Donn ´ees AGR concernent les exploitations agricoles de la r ´egion Midi-Pyr ´en ´ees.

Elles proviennent des ”Tableaux Economiques de Midi-Pyr ´en ´ees”, publi ´es par la Direction R ´egionale de Toulouse de l’INSEE, en 1996 (donn ´ees relatives `a l’ann ´ee 1993 ; chiffres arrondis `a la dizaine pr `es).

Les 73 000 exploitations ont ´et ´e ventil ´ees dans une table de

contingence selon le d ´epartement (en lignes, 8 modalit ´es) et la SAU (Surface Agricole Utilis ´ee, en colonnes, 6 classes).

D ´epartements : ARIE = Ari `ege ; AVER = Aveyron ; H.G. =

Haute-Garonne ; GERS = Gers ; LOT = Lot ; H.P. = Hautes-Pyr ´en ´ees ; TARN = Tarn ; T.G. = Tarn-et-Garonne.

SAU : inf05 = moins de 5 hectares ; s0510 = entre 5 et 10 hectares... ; sup50 = plus de 50 hectares.

(25)

Repr ´esentations graphiques

Repr ´esentations graphiques

arie

aver h.g.

gers

lot

h.p.

tarn t.g.

SINF1

S1_5

S5_10 S10_20

S20_50 S50_99S_100 A

x e 2

-0.2 -0.1 0.0 0.1 0.2 0.3 0.4

Axe 1

-0.5 -0.3 -0.1 0.1 0.3 0.5 0.7

FIG.:Biplot isom ´etrique des donn ´ees AGR.

(26)

Repr ´esentations graphiques

Interpr ´etation

Quelles sont les variables qui sont crois ´ees entre elles ? Que met en ´evidence le premier axe ?

Que met en ´evidence le second axe ?

Références

Documents relatifs

PR ´ EPARATION DES DONN ´ EES Pour pouvoir manipuler ce fichier (et faire des statistiques dessus), il faut le stocker dans une variable de type un peu sp´ ecial qu’on

[r]

Perdre ses photos de vacances : ¸ca n’a pas de

Pour revenir `a notre ´etude, `a partir de chaque mod`ele propos´e dans le paragraphe pr´ec´edent, nous pouvons rechercher les g`enes diff´erentiellement exprim´es entre les

Interrogeons nous maintenant sur la fa¸con dont sont construits ces tests multidimensionnels, autrement dit sur la fa¸con dont sont obtenues les matrices E pour les erreurs du

La méthode proposée pour étudier des tableaux multiples est de choisir le tableau binaire.. &#34;optimal&#34;, c’est-à-dire ayant la plus grande variance et d’en

Introduction.- En langage C, l’acc`es ` a un ´el´ement d’un tableau peut se faire classiquement par le nom du tableau accompagn´e d’un index, mais aussi par un pointeur

Une exp´ erience par coloration a montr´ e qu’une rivi` ere souterraine alimente une r´ esurgence dans la vall´ ee. La rivi` ere souterraine a un d´ ebit tr` es sensible aux