S ´ebastien Gadat
Laboratoire de Statistique et Probabilit ´es UMR 5583 CNRS-UPS
www.lsp.ups-tlse.fr/gadat
S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante
Cinqui `eme partie V
Analyse Factorielle Discriminante
Donn ´ees - Objectifs
Pr ´edire une variable qualitative `akmodalit ´esen fonction dep pr ´edicteurs
nobservations r ´eparties enkclasses d ´ecrites parpvariables explicatives
Objectif descriptif: chercher les c.l. permettant de s ´eparer au mieux leskcat ´egories
Objectif d ´ecisionnel: classer un nouvel individu en fonction desp valeurs des pr ´edicteurs
Applications : aide `a la d ´ecision en m ´edecine, pr ´evision en m ´et ´eorologie, finance, . . .
S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante
Donn ´ees et Notations
nindividuseiformant un nuageE⊂Rp, pond ´er ´es parpi
PartitionE1, . . .Ekdes individus pond ´er ´es parqj
qj=X
i∈Ej
pi
Centre de gravit ´esg1, . . .gk
Matrice de variancesV1, . . .Vk Matrice de poids des individusD.
Relations basiques
gj=X
i∈Ej
pi
qj
ei g=
k
X
j=1
qjgj Vj=X
i∈Ej
pi
qj
(ei−gj)(ei−gj)0
Bmatrice de variance inter-classe,Wmatrice de variance intra-classe
B=
k
X
j=1
qj(gj−g)(gj−g)0 et W =
k
X
j=1
qjVj
Formule de reconstitution :V =B+W
Dans la suite de l’ ´etude, on supposerapi=1/n
S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante
Donn ´ees et Notations
On suppose les donn ´ees centr ´ees. On ´ecrit les donn ´ees en :
1 0 . . . 0 |
0 |
... A | X
|
0 0 1 |
Xmatrice de taillen×p,Atableau logique associ ´e `a la variable qualitative.
Leskcentres de gravit ´e se lisent en ligne dans la matrice G= (A0DA)−1(A0DX)
La matrice des poids des sous-nuages est Dq=A0DA La matrice de variance interclasse vaut
D= (X0DA)D−1q (A0DX)
Analyse Factorielle Discriminante
L’AFD consiste `a chercher des nouvelles variables discriminantes s ´eparant au mieux leskgroupes.
C A R V P R 0 1
P S E U D Y
0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0
C A N 1
- 2 - 1 0 1 2 3 4 5
L’axe 1 ne fournit pas une tr `es bonne s ´eparation. L’axe 2 n’est pas du tout discriminant.
S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante
Mod `ele Analyse Factorielle Discriminante
Id ´ee : siad ´esigne un axe de projection, leskcentres de gravit ´e doivent ˆetrele plus s ´epar ´es possiblealors quel’inertie de chaque nuage projet ´e issu deEkdoit ˆetre la plus faible possible.
Propri ´et ´e ´equivalente : le nuage des projections desgidoit avoir une inertie maximale et les inerties intra doivent ˆetre faible.
(Pourquoi ?)
L’inertie du nuage projet ´e suravaut
Iinter,proj(a) =a0MBMa L’inertie intra projet ´ee suravaut
∀j∈ {1, . . .k} Iintra,projj (a) =a0MVjMa
Crit `ere `a maximiser :
C(a) =a0MBMa a0MVMa
R ´esolution du mod `ele
Maximum r ´ealis ´e pouravecteur propre de(MVM)−1MBM On cherchela plus grande valeur propreλ1de :
M−1V−1BMa=λ1a Facteur discriminantu=Ma
V−1Bu=λ1u 0≤λ1≤1
λ1=1correspond `a une dispersion intra-classe nulle pour les projections sura. Il y a discrimination parfaite si les centres de gravit ´es se projettent en des points diff ´erents.
λ1=0correspond au cas o `u le meilleur axe ne s ´epare pas les centres de gravit ´es : nuages concentriques et aucune s ´eparation lin ´eairepossible.
λest une mesure pessimiste du pouvoir de discrimination d’un axe
Le nombre de valeurs propres non nulles est ´egal `ak−1lorsque n>p>k
S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante
Repr ´esentation graphique et interpr ´etations
Repr ´esentation simultan ´ee des individus et barycentres des classes
Appr ´eciation visuelle de la discrimination
Un cosinus au carr ´e permet de pr ´eciser la qualit ´e de repr ´esentation d’un individu
Projection des variables sur les axes : utilit ´e pour interpr ´eter les axes en fonction des variables initiales
Si les groupes sont bien discrimin ´es, on peut faire une bonne interpr ´etation des axesvia l’AFD
Sinon, l’AFD est inutile
Exemple
Les donn ´ees d ´ecrivent trois classes d’insectes sur lesquels ont ´et ´e r ´ealis ´ees 6 mesures anatomiques. On cherche `a savoir si ces mesures permettent de retrouver la typologie de ces insectes. Ce jeu de donn ´ees “scolaire” conduit `a une bien meilleure discrimination que ce que l’on peut obtenir dans une situation concr `ete.
Ax e 2
- 4 - 3 - 2 - 1 0 1 2 3
A x e 1
- 4 - 3 - 2 - 1 0 1 2 3 4
FIG.:Insectes : premier plan factoriel de l’ACP.
S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante
Exemple
A x e 2
- 4 - 3 - 2 - 1 0 1 2 3 4 5
A x e 1
- 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7
FIG.:Insectes : premier plan factoriel de l’AFD.