• Aucun résultat trouvé

S´eance 4: Analyse Factorielle des Correspondances Multiples

N/A
N/A
Protected

Academic year: 2022

Partager "S´eance 4: Analyse Factorielle des Correspondances Multiples"

Copied!
17
0
0

Texte intégral

(1)

Correspondances Multiples

R ´evisions

S ´ebastien Gadat

Laboratoire de Statistique et Probabilit ´es UMR 5583 CNRS-UPS

www.lsp.ups-tlse.fr/gadat

(2)

Interpr ´etation

Quatri `eme partie IV

Analyse Factorielle des Correspondances Multiples

S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples

(3)

Interpr ´etation

Tableau disjonctif complet

G ´en ´eralisation de l’AFC pourp>2observ ´ees surnindividus Parfois utilis ´ee pour la construction de ”scores” afin d’effectuer une m ´ethode de classification

Xvariable `acmodalit ´es, on d ´efinit lavariable indicatricecomme

∀k∈ {1. . .c} X(k)(i) =1 si X(i) =Xk et 0 sinon

On notenkl’effectif deXk

La matrice des indicatrices deXest donn ´ee par son terme g ´en ´eral

xki =X(k)(i)

n

X

i=1

xki =nk

c

X

k=1

xki =1

(4)

Interpr ´etation

Tableau disjonctif complet

On consid `erepvariables not ´eesX1, . . .Xp cjest le nombre de modalit ´es deXj

Le nombre de modalit ´es totalcest donn ´e par c=c1+· · ·+cp

Letableau disjonctif completXde taillen×cest obtenue par concat ´enation

X=|X1|. . .|Xp|

Chaque sous-matriceXjest obtenue comme pr ´ec ´edemment Xv ´erifie

n

X

i=1 p

X

k=1

xki =np

p

X

k=1

xki =p

S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples

(5)

Interpr ´etation

Tableau de Burt

On construit `a partir deXletableau de Burt: B=X0X

Ba pour taillec×c

On peut ´ecrireB= (Bj,l),j,l=1. . .p La taille deBj,lestcj×cl

Bj,l=X0jXl

Sij6=l,Bj,lest latable de contingencecroisantXjavecXl Sij=l,Bj,jestdiagonalev ´erifiant

Bj,j=diag(nj1, . . .njcj)

Bestsym ´etrique, d’effectifs marginauxnljpet d’effectif totalnp2

(6)

Interpr ´etation

D ´emarche

On s’int ´eresse aux r ´esultats fournis par l’AFC r ´ealis ´ee sur|X1|X2| (table de contingence relative `a 2 variables qualitatives)

On g ´en ´eralise les propri ´et ´es obtenues dans ce cas `a un nombre plus important de variables (p)

On d ´efinit ainsi l’AFCM

On noteraAetBles profils lignes et profils colonnes standards en AFC (croisement de 2 variables)

D1etD2d ´esignent les matrices de m ´etriques standards en AFC.

S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples

(7)

Interpr ´etation

D ´emarche

T=X=|X1|X2| rvaleurs pourX1etcpourX2

Matrice despoidsP¯=1/nIn(cas ´equipond ´er ´e) La matrice de lam ´etriqueD¯ est donn ´ee par

D¯ =1 2

D1 0

0 D2

=1 2∆

Le tableau des profils lignes est donn ´e par PL¯ =1/2nT0−1= 1

2X0 Le tableau des profils colonnes est donn ´e par

PC¯ =1/2nTD¯−1=1 nX∆−1

(8)

Interpr ´etation

ACP du Profil Ligne

L’ACP du profil ligne issue de l’AFC r ´ealis ´ee surTconduit `a l’analyse spectrale dePL¯ ×PC¯ avecPL¯ ×PC¯ =

Ir B A Ic

Lesr+cvaleurs propres sont

µk= 1+√

λk

2 o `u Sp(A×B) = (λk)k≥0 M=diag(µ1, . . . µr+c) Les vecteursD¯ norm ´es se mettent sous la forme

1 2

U V

o `uUetV vecteurs propres obtenus en diagonalisantABetBA.

Dans la pratique, on ne garde queinf(r−1,c−1)axes La matrice des composantes principales vaut

r= 1

2(X1Cr+X2Cc)∆−1/2 Cr etCccomposantes principales de l’AFC classique

S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples

(9)

Interpr ´etation

ACP du Profil Colonne

On obtient des r ´esultats similaires en op ´erant une AFC sur les profils colonnes

On diagonalise la matricePC¯ ×PL¯

Lesr+cvaleurs propres non nulles sont lesµk

Les vecteurs propres associ ´es se mettent sous la forme

U= 1 n

rM−1/2

Les composantes principales s’ ´ecrit C¯c=1

2 Cr

Cc

−1/2M1/2

On obtient ainsi la repr ´esentation des modalit ´es des variables

(10)

Interpr ´etation

AFC du tableau de Burt

On effectue une AFC sur le tableau de BurtB=X0Xqui peut ˆetre ´egalement consid ´er ´e comme une table de contingence.

Best une matrice sym ´etrique.

B=

nD1 T

T0 nD2

L’ACP issue de l’AFC du tableau de Burt conduit `a l’analyse spectrale de

PL˜ ×PC˜ = [ ¯PL×PC]¯ 2 Les valeurs propres associ ´ees v ´erifientνk2k Les composantes principales s’ ´ecrit

Cr

Cc

−1/2M

S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples

(11)

Interpr ´etation

AFC du tableau de Burt

X=|X1|. . .|Xp|tableau disjonctif complet B=X0XTableau de Burt

L’AFCM est l’AFC effectu ´ee sur le tableau de Burt On d ´efinitDj=diag(nj1, . . .njcj)/net∆ =diag(D1, . . .Dp) On reprend les notations

T=X P¯=In/n D= ∆/p PL¯ =X0/p PC¯ =X∆−1/n On effectue l’ACP des Profils Lignes via l’analyse spectrale de

PL¯ ×PC¯ = 1 nB∆−1

On effectue l’ACP des Profils Colonnes via l’analyse spectrale de PC¯ ×PL¯ = 1

npX∆−1X0

On effectue l’ACP du tableau de Burt via l’analyse spectrale de [ ¯PL×PC]¯ 2

(12)

Interpr ´etation

Interpr ´etation

L’interpr ´etation se fait de fac¸on comparable aux AFC On interpr `eteles proximit ´es et les oppositionsentre les modalit ´es des diff ´erentes variables

On privil ´egie les interpr ´etations sur les modalit ´essuffisamment

´eloign ´ees du centre du graphique

Les rapports de valeurs propres ne sont pas interpr ´etables mais on regarde lad ´ecroissancedes valeurs propres pour choisir la dimension

Seules les contributions des modalit ´es `a l’inertie selon les axes sont interpr ´etables

S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples

(13)

Interpr ´etation

Interpr ´etation

Donn ´ees : trois centres hospitaliers (Boston, Glamorgan, Tokyo) sur des patientes atteintes d’un cancer du sein. ´Etudier la survie de ces patientes, trois ans apr `es le diagnostic. En plus de cette information, quatre autres variables sont connues pour chacune des patientes :

le centre de diagnostic, la tranche d’ ˆage,

le degr ´e d’inflammation chronique, l’apparence relative (b ´enigne ou maligne).

L’objectif de cette ´etude est une analyse descriptive de cette table en recherchant `a mettre en ´evidence les facteurs de d ´ec `es.

(14)

Interpr ´etation

Donn ´ees

TAB.:Donn ´ees sous la forme d’une table de contingence compl `ete

Histologie

Inflammation minime Grande inflammation Centre Ageˆ Survie Maligne B ´enigne Maligne B ´enigne

Tokyo <50 non 9 7 4 3

oui 26 68 25 9

5069 non 9 9 11 2

oui 20 46 18 5

>70 non 2 3 1 0

oui 1 6 5 1

Boston <50 non 6 7 6 0

oui 11 24 4 0

5069 non 8 20 3 2

oui 18 58 10 3

>70 non 9 18 3 0

oui 15 26 1 1

Glamorgan <50 non 16 7 3 0

oui 16 20 8 1

5069 non 14 12 3 0

oui 27 39 10 4

>70 non 3 7 3 0

oui 12 11 4 1

S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples

(15)

Interpr ´etation

R ´esultats

C b o s

C g l a

C t o k A < 5 0 A > - <

A > 7 0 S n o n

S o u i

I g r a

I p e t

T b e n

T m a l

A x e 2

- 0 . 7 - 0 . 6 - 0 . 5 - 0 . 4 - 0 . 3 - 0 . 2 - 0 . 1 0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0

A x e 1

- 1 0 1 2

FIG.:Cancer du sein : analyse des donn ´ees brutes.

La variable survie, qui joue en quelques sortes le r ˆole de variable `a expliquer, est tr `es proche de l’axe 2 et semble li ´ee `a chacune des autres variables.

(16)

Interpr ´etation

R ´esultats

Les variables ”centre” et ” ˆage” sont crois ´ees, pour construire une variable ”c x ˆage”, `a 9 modalit ´es.

Les variables ”inflam” et ”appar” sont ´egalement crois ´ees pour d ´efinir la variable ”histol”, `a 4 modalit ´es.

Une nouvelle analyse est alors r ´ealis ´ee en consid ´erant comme actives les deux variables nouvellement cr ´e ´ees, ainsi que la variable

”survie”, et comme illustratives les variables initiales : ”centre, ˆage, inflam, appar”. Les r ´esultats sont donn ´es dans la figure suivante.

S ´ebastien Gadat S ´eance 4: Analyse Factorielle des Correspondances Multiples

(17)

Interpr ´etation

R ´esultats

S n o n S o u i

H g - b

H g - m

H p - b

H p - m X B < 5

X B > - X B > 7

X G < 5

X G > - X G > 7 X T < 5

X T > - X T > 7

C b o s C g l a C t o k

A < 5 0 A > - <

A > 7 0 I g r a

I p e t T b e n

T m a l

A x e 2

- 2 - 1 0 1 2

A x e 1

- 2 - 1 0 1 2

FIG.:Cancer du sein : analyse des interactions.

Références

Documents relatifs

PR ´ EPARATION DES DONN ´ EES Pour pouvoir manipuler ce fichier (et faire des statistiques dessus), il faut le stocker dans une variable de type un peu sp´ ecial qu’on

La partie positive de l'axe correspond aux régions où les votes Sarkozy et Bayrou sont supérieurs à la moyenne nationale, tandis que la partie négative correspond à des régions où

4) On a calculé le carré de la distance euclidienne des points lignes à l'origine des axes, dans l'espace factoriel de dimension 12. Quels sont les individus dont la contribution

c) Quel est le taux de liaison le plus élevé ? Quelle autre interprétation peut-on donner de cette valeur ? d) Pour chacun des mots inducteurs, quel est le mot réponse qui lui est

correspondances multiples, complétée par une typologie. L'analyse s'est faite sur la base de données du Ministère de l'Agriculture du Burkina Faso. On reprend ici une partie de

Il faut reprendre l’analyse en mettant les Il faut reprendre l analyse en mettant les candidats Crépeau, ou bien Marchais et p , Crépeau en

Descendant des chiens blancs du roy, qui constituèrent en grande partie les meutes royales de François 1 er à Louis XV, il fut croisé au XIX e siècle avec plusieurs races royales

La méthode proposée pour étudier des tableaux multiples est de choisir le tableau binaire.. &#34;optimal&#34;, c’est-à-dire ayant la plus grande variance et d’en