• Aucun résultat trouvé

Slides AFC

N/A
N/A
Protected

Academic year: 2022

Partager "Slides AFC"

Copied!
4
0
0

Texte intégral

(1)

Analyse Factorielle des Correspondances

Sidi Mohamed MAOULOUD

15 janvier 2016

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Introduction

On consid`ere deux variables qualitativesX et Y observ´ees sur n unit´es statistiques ;

Les modalit´es de la variableX sontx1, x2, . . . ,xl et celle de la variableY sont y1, y2, . . . ,yc

ni,j et fi,j = nni,j d´esignent resp. le nombre et la fr´equence d’occurrence simultan´ee de la modalit´exi de la variable X et de la modalit´eyj de la variable Y ; ;

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Tableau de contingence

Les tableaux de contingence des effectifs et des fr´equences sont donn´ee par sont donn´es par

X Y y1 · · · yj · · · yc y1 · · · yj · · · yc

x1 n1,1 n1,j n1,c f1,1 f1,j f1,c

... ... ...

xi ni,1 ni,j ni,c fi,1 fi,j fi,c

... ... ...

xl nl,1 · · · nl,j · · · nl,c fl,1 · · · fl,j · · · fl,c

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Les tableaux de contingence des effectifs et fr´equences avec les marges sont donn´es par

X Y y1 · · · yj · · · yc T y1 · · · yj · · · yc T

x1 n1,1 n1,j n1,c n1,· f1,1 f1,j f1,c f1,·

... ... ...

xi ni,1 ni,j ni,c ni,· fi,1 fi,j fi,c fi,·

... ... ...

xl nl,1 · · · nl,j · · · nl,c n1,· fl,1 · · · fl,j · · · fl,c f1,·

T n·,1 n·,j n·,c n f·,1 f·,j f·,c 1

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

(2)

Objectifs

L’AFC permet d’´etudier la liaison (dite encore correspondance) entre deux variables qualitatives.

On pourra, avant de faire une AFC, effectuer un test d’ind´ependance appel´e test du chi-deux.

Sur le plan math´ematique, on peut consid´erer l’analyse des correspondances soit comme une analyse en composantes principales avec une m´etrique sp´eciale, la m´etrique du Chi deux. Ce qu’on verra plus loin

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Test du chi-deux

On cherche `a r´epondre `a la question si les variables sont ou pas d´ependante..

Les hypoth`eses d’un test sontH0 :X et Y sont ind´ependante contreH1 :X et Y sont d´ependantes

Pour cela on construit une statistique qui va mesurer l’´ecart entre la situation observ´ee et une situation th´eorique d’ind´ependance. plus loin

Lorsqu’il y a ind´ependance On devrait avoirfi,j =fi,·f·,j

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Test du chi-deux

L’´ecart `a l’ind´ependance peut ˆetre mesur´e par P

i

P

j(fi,j−fi,·f·,j)2 On pr´ef´erera utiliser

χ2 =nX

i

X

j

(fi,j −fi,·f·,j)2 fi,·f·,j

qui permet de donner une plus grande importance au modalit´es d’effectif faible.

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Test du chi-deux

On peut montrer facilement que

χ2 =X

i

X

j

!ni,jni,·n·,j

n

2 ni,·n·,j

n

On montre que sous l’hypoth`ese d’ind´ependance la statistique χ2 suit une loi de χ2 `a (l−1)(c −1) ddl

On rejettera l’hypoth`ese d’ind´ependance (c.-`a-d., on conclue `a un lien entre les variables) siχ2 est sup´erieur au seuil

th´eorique.

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

(3)

L’AFC

Soit un tableau de contingenceN `al lignes etc colonnes On pose

Dl =

n · · · 0 ... . .. ...

0 · · · n

et Dc =

n·1 · · · 0 ... . .. ...

0 · · · n·c

Le tableau des profils lignes n

ij

n

est obtenu par Dl1N ; le tableau des profils colonnes n

ij

n·j

est obtenu par NDc−1

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Les profils lignes et colonnes

Les profils lignes forment un nuage del points dans Rc; chacun de ces points affect´e d’un poids proportionnel `a sa fr´equence marginale. La matrice poids et donc 1nDl Le centre de gravit´e de ce nuage de profils lignes est glT = (f·1,· · ·,f·c)

R´eciproquement, les profils de colonnes forment un nuage de c points dansRl; chacun de ces points affect´e d’un poids proportionnel `a sa fr´equence marginale. La matrice poids et donc 1nDc.

Le centre de gravit´e de ce nuage de profils colonnes est gc = (f1·,· · · ,fl·)

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

La m´ etrique du χ

2

Pour calculer la distance entre deux profils-lignes i et i on utilise la formule suivante :

dχ22

!i,i

=

c

X

j=1

n n·j

nij ni·− nij

ni·

2

Il s’agit de la m´etrique associ´ee `a la matrice diagonale nDc1 Le terme de m´etrique du χ2 vient du fait que les deux nuages ont pour inertie totale la quantit´e mesurant l’´ecart `a

l’ind´ependance

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

La m´ etrique du χ

2

On a en effet

ϕ2 =Pl i=1

ni·

ndχ22(i,gl)

=Pl

i=1

Pc

j=1 n

n n n·j

n

ij

n

n.j

n

2

= 1nPl i=1

Pc j=1

nijni·nn.j

2

ni·n·j n

= χn2 de mˆeme pour les profils colonnes

ϕ2 =Pc j=1

n·j

ndχ22(j,gc)

=Pc

j=1

Pl

i=1 n·j

n n n

n

ij

n·j

ni·

n

2

= 1nPc j=1

Pl i=1

nijni·nn.j

2

ni·n·j n

= χn2

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

(4)

ACP du nuage des profils lignes

Tableau de donn´ees X =Dl1N

M´etrique de l’espace des individus (Profils lignes) : M =nDc1

Matrice des poids :D = 1nDl

Matrice de covariance est V =XTDX = 1nNTDl−1N Donc MV =Dc1NTDl1N

Les facteurs principaux sont les vecteurs propresu ∈Rc de Dl1NTDl1N tels que 1nuTDcu = 1

Composantes principales sont les vecteurs propres c ∈Rl de Dl−1NDc−1NT associ´es aux mˆemes valeurs propres

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

ACP du nuage des profils colonnes

Tableau de donn´eesX =Dc1NT

M´etrique de l’espace des individus (Profils lignes) : M =nDl−1

Matrice des poids :D= n1Dc

Matrice de covariance estV =XTDX = 1nNDc1NT DoncMV =Dl1NDc1NT

Ainsi les facteurs principaux sont les vecteurs propresu∈Rl deDl1N Dc1NT tels que n1uTDlu= 1

Les composantes principales sont les vecteurs propresc ∈Rc deDc1NTDl1N associ´es aux mˆemes valeurs propres

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Lien entre ACPs de nuages des profils lignes et colonnes

Les facteurs principaux associ´es aux profils lignes sont les composantes principales associ´ee aux profils de colonnes et vice versa

Si u∈Rl est une composante principale des profils lignes et donc un facteur principal des profils colonne associ´e `a la valeur propreλc-`a-d , Dl1N Dc1NTu =λu et 1nuTDlu =λ alors : v = 1

λ Dc1NTu est une composante principale des profils colonne et est un facteur principale des profils lignes

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Interpretations des axes

Contributions des modalit´es. On a λk = 1

n

l

X

i=1

n(uik)2 = 1 n

c

X

j=1

n·j(vjk)2 Alors les contributions sont d´efinies par

contribk(i) = ni·(uik)2

k et contribk(j)n·j(vjk)2k On consid`ere les modalit´es dont les contributions sont

sup´erieures `a leurs poidscontribk(i)> nni· et contribk(j) = nn·j Qualit´es de repr´esentation des modalit´es. Sont donn´ees pas les cosinus au carr´e de l’angle form´e avec l’axe

cos2k(i) = (uik)2 Pl

i=1(uik)2

et cos2k(j) = (vjk)2 Pl

j=1(ujk)2 Les qualit´es sont des cosinus et donc sont additives

Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances

Références

Documents relatifs

On ne conserve alors que les valeurs propres supérieures à leur moyenne car seules jugées plus “informatives” que les variables initiales ; dans le cas d’une ACP réduite, ne

Les qualités de représentation dans la dimension choisie et les contributions des modalités de X ou de Y se déduisent aisément de celles de l’ACP Ces quantités sont utilisées à

Caractérisation des facteurs à l’aide des variables – Cercle des

Introduction Régression orthogonale : Axe principal Définitions Diagonalisation de la matrice des variances- covariances Recherche des axes principaux Coordonnées factorielles

`a ce que le texte que vous ´ecrivez y r´eponde explicitement (par exemple : le correcteur ne doit pas avoir `a conclure lui-mˆeme).. Quand il est n´ecessaire de justifier,

Les éléments de A étant les coordonnées des variables observables sur les facteurs communs, si A contient de nombreux éléments nuls (structure simple pour A),

cation de ces ressemblances par le calcul de distances euclidiennes entre les indi- vidus rendu possible par le choix d’une métrique Q sur RP.. L’ANALYSE EN

Ils réalisent une dichotomie "droite-gauche" très classique pour cette sorte d'analyse (cf [1] par exemple). Les combinaisons linéaires corres- pondantes constituent