• Aucun résultat trouvé

S´eance 5: Analyse Factorielle Discriminante

N/A
N/A
Protected

Academic year: 2022

Partager "S´eance 5: Analyse Factorielle Discriminante"

Copied!
12
0
0

Texte intégral

(1)

S ´ebastien Gadat

Laboratoire de Statistique et Probabilit ´es UMR 5583 CNRS-UPS

www.lsp.ups-tlse.fr/gadat

S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante

(2)

Cinqui `eme partie V

Analyse Factorielle Discriminante

(3)

Donn ´ees - Objectifs

Pr ´edire une variable qualitative `akmodalit ´esen fonction dep pr ´edicteurs

nobservations r ´eparties enkclasses d ´ecrites parpvariables explicatives

Objectif descriptif: chercher les c.l. permettant de s ´eparer au mieux leskcat ´egories

Objectif d ´ecisionnel: classer un nouvel individu en fonction desp valeurs des pr ´edicteurs

Applications : aide `a la d ´ecision en m ´edecine, pr ´evision en m ´et ´eorologie, finance, . . .

S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante

(4)

Donn ´ees et Notations

nindividuseiformant un nuageE⊂Rp, pond ´er ´es parpi

PartitionE1, . . .Ekdes individus pond ´er ´es parqj

qj=X

i∈Ej

pi

Centre de gravit ´esg1, . . .gk

Matrice de variancesV1, . . .Vk Matrice de poids des individusD.

(5)

Relations basiques

gj=X

i∈Ej

pi

qj

ei g=

k

X

j=1

qjgj Vj=X

i∈Ej

pi

qj

(ei−gj)(ei−gj)0

Bmatrice de variance inter-classe,Wmatrice de variance intra-classe

B=

k

X

j=1

qj(gj−g)(gj−g)0 et W =

k

X

j=1

qjVj

Formule de reconstitution :V =B+W

Dans la suite de l’ ´etude, on supposerapi=1/n

S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante

(6)

Donn ´ees et Notations

On suppose les donn ´ees centr ´ees. On ´ecrit les donn ´ees en :

1 0 . . . 0 |

0 |

... A | X

|

0 0 1 |

Xmatrice de taillen×p,Atableau logique associ ´e `a la variable qualitative.

Leskcentres de gravit ´e se lisent en ligne dans la matrice G= (A0DA)−1(A0DX)

La matrice des poids des sous-nuages est Dq=A0DA La matrice de variance interclasse vaut

D= (X0DA)D−1q (A0DX)

(7)

Analyse Factorielle Discriminante

L’AFD consiste `a chercher des nouvelles variables discriminantes s ´eparant au mieux leskgroupes.

C A R V P R 0 1

P S E U D Y

0 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1 . 0

C A N 1

- 2 - 1 0 1 2 3 4 5

L’axe 1 ne fournit pas une tr `es bonne s ´eparation. L’axe 2 n’est pas du tout discriminant.

S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante

(8)

Mod `ele Analyse Factorielle Discriminante

Id ´ee : siad ´esigne un axe de projection, leskcentres de gravit ´e doivent ˆetrele plus s ´epar ´es possiblealors quel’inertie de chaque nuage projet ´e issu deEkdoit ˆetre la plus faible possible.

Propri ´et ´e ´equivalente : le nuage des projections desgidoit avoir une inertie maximale et les inerties intra doivent ˆetre faible.

(Pourquoi ?)

L’inertie du nuage projet ´e suravaut

Iinter,proj(a) =a0MBMa L’inertie intra projet ´ee suravaut

∀j∈ {1, . . .k} Iintra,projj (a) =a0MVjMa

Crit `ere `a maximiser :

C(a) =a0MBMa a0MVMa

(9)

R ´esolution du mod `ele

Maximum r ´ealis ´e pouravecteur propre de(MVM)−1MBM On cherchela plus grande valeur propreλ1de :

M−1V−1BMa=λ1a Facteur discriminantu=Ma

V−1Bu=λ1u 0≤λ1≤1

λ1=1correspond `a une dispersion intra-classe nulle pour les projections sura. Il y a discrimination parfaite si les centres de gravit ´es se projettent en des points diff ´erents.

λ1=0correspond au cas o `u le meilleur axe ne s ´epare pas les centres de gravit ´es : nuages concentriques et aucune s ´eparation lin ´eairepossible.

λest une mesure pessimiste du pouvoir de discrimination d’un axe

Le nombre de valeurs propres non nulles est ´egal `ak−1lorsque n>p>k

S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante

(10)

Repr ´esentation graphique et interpr ´etations

Repr ´esentation simultan ´ee des individus et barycentres des classes

Appr ´eciation visuelle de la discrimination

Un cosinus au carr ´e permet de pr ´eciser la qualit ´e de repr ´esentation d’un individu

Projection des variables sur les axes : utilit ´e pour interpr ´eter les axes en fonction des variables initiales

Si les groupes sont bien discrimin ´es, on peut faire une bonne interpr ´etation des axesvia l’AFD

Sinon, l’AFD est inutile

(11)

Exemple

Les donn ´ees d ´ecrivent trois classes d’insectes sur lesquels ont ´et ´e r ´ealis ´ees 6 mesures anatomiques. On cherche `a savoir si ces mesures permettent de retrouver la typologie de ces insectes. Ce jeu de donn ´ees “scolaire” conduit `a une bien meilleure discrimination que ce que l’on peut obtenir dans une situation concr `ete.

Ax e 2

- 4 - 3 - 2 - 1 0 1 2 3

A x e 1

- 4 - 3 - 2 - 1 0 1 2 3 4

FIG.:Insectes : premier plan factoriel de l’ACP.

S ´ebastien Gadat S ´eance 5: Analyse Factorielle Discriminante

(12)

Exemple

A x e 2

- 4 - 3 - 2 - 1 0 1 2 3 4 5

A x e 1

- 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7

FIG.:Insectes : premier plan factoriel de l’AFD.

Références

Documents relatifs

Montrer que les inclusions présentées au début de cette partie sont strictes, c'est à dire qu'il n'y a aucune égalité parmi

In order to make a fair and accurate assessment of each candidate’s performance, the examiners must be given a reasonable amount of language to assess and this part of the test

1°) Entre les deux classes actuelles q et q', en lesquelles sont ré- partis les individus de I, peut-on dans E placer une cloison du type fixé (e.g. hyperplane : il est essentiel

Acla maJh~mat~ca.. I t will be apparent by inspection of the above formulm, and it becomes still more evident i n working systematically with the twelve func-

* Si _C1=-1/4 et _C2=0 alors la solution correspondante tend vers 0 en +infini et en -infini (croissances comparées). En effet Sol_bornee semble admettre un minimum local

[r]

Application 2 : Il existe des fonctions continues diérentes de la somme de leur série de Fourier.. • Soit E l'espace vectoriel des fonctions continues de R dans

[r]