• Aucun résultat trouvé

Analyse discriminante

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse discriminante"

Copied!
18
0
0

Texte intégral

(1)

Analyse discriminante

Sidi Mohamed MAOULOUD

February 9, 2016

Sidi Mohamed MAOULOUD Analyse discriminante

(2)

Introduction

Nous disposons d'un échantillon de n observations réparties dansK groupes d'eectifsnk.

Y la variable à prédire, est à valeurs dans {y1, . . . ,yK}. Nous disposons de p variables prédictives X = (X1, . . . ,Xp).

µk les centres de gravité des nuages de points de chaque groupe etWk leurs matrice de variance-covariance.

Objectifs: mettre en évidence des diérences entre les groupes c-à-d entre les observations appartenant à des groupes

diérentes;

description des liaisons entre la variable groupe et les variables quantitatives: les k groupes dièrent-elles sur l'ensemble des variables numériques?

(3)

Deux aspects de l'AFD

On distingue deux aspects en analyse discriminante:

descriptif: chercher quelles sont les combinaisons linéaires de variables qui permettent de séparer le mieux possible les groupes et donner une représentation graphique, qui rende compte au mieux de cette séparation;

décisionnel: un nouvel individu se présente pour lequel on connaît les valeurs des prédicteurs. Il s'agit alors de décider dans quel groupe il faut l'aecter. C'est un problème de classement.

Sidi Mohamed MAOULOUD Analyse discriminante

(4)

Applications de l'AFD

aide à la décision en médecine: à partir de mesures de

laboratoire, on cherche une fonction permettant de prédire au mieux le type d'aection d'un malade, ou son évolution probable an d'orienter le traitement

nance: prévision du comportement de demandeurs de crédit.

En informatique, pour la reconnaissance optique de caractères (OCR). L'analyse discriminante est utilisée pour reconnaître un caractère imprimé à partir d'informations simples, comme la présence ou non de symétrie, le nombre d'extrémités;

En biologie, lorsque l'on veut aecter un objet à sa famille d'appartenance à partir de ses caractéristiques physiques.

(5)

L'AFD descriptive : Mèhtode

déterminer des facteurs, (des combinaisons linéaires des variables descriptives), qui prennent des valeurs les plus proches possible pour des éléments d'un même groupe, et les plus éloignées possible entre éléments de classes diérentes.

On appelle ces facteurs Facteurs discriminants

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.01.21.4

x

y

Sidi Mohamed MAOULOUD Analyse discriminante

(6)

L'AFD descriptive : Variance

La population est partitionnée à l'aide de la variable qualitative Y en plusieurs groupes.

Soit V la matrice de variance-covariance de la population entière

pourj =1,· · ·,k, on désigne parnj,gj,Vj respectivement l'eectif, le centre de gravité et la matrice de

variance-covariance de chaque j.

(7)

L'AFD descriptive : Variance

On appelle variance intra-groupe (within), qu'on note par B, la moyenne des matrices de variance pondérées par les eectifs des groupes

W = 1 n

k

X

j=1

njVj

La matrice de variance inter-groupe (Between), la matrice de variance du nuage de points constitué des centre de gravitégj

chacun aecté du poids proportionnel à l'eectif de son groupe

Sidi Mohamed MAOULOUD Analyse discriminante

(8)

L'AFD descriptive : Variance

Le théoreme de König-Huygens montre que

Variance = variance des moyennes + moyenne des variances Variance = Variance inter + Variance intra

V = B + W

(9)

L'AFD descriptive : Recherche des facteurs

L'idée de l'AFD est de rechercher un axe qui l'inertie intra et maximise l'inertie inter

On l'inertie projetée d'un nuage de points, de matrice de varianceV sur un axe avaut aTVa

L'inertie projetée se décompose en

aTVa=aTBa+aTWa

Sidi Mohamed MAOULOUD Analyse discriminante

(10)

L'AFD descriptive : Recherche des facteurs

MaximiseraTBaet minimiser aTWarevient à solutionner l'un des problèmes d'optimisation équivalents suivants :

A : max

a = aTBa aTWa A' : max

a =aTBa sous la contrainteaTWa=1 B : max

a = aTBa aTVa B' : max

a =aTBa sous la contrainteaTVa=1

(11)

L'AFD descriptive : Recherche des facteurs

Eectuer une AFD revient donc efectuer une ACP particulière On cherche les valeurs propres µassociées aux vecteurs propres u de la matrice W1B

ou chercher les valeurs propres λassociées aux méme vecteurs propres u de la matrice V1B

Si V1Bu =λu ⇐⇒Bu=λVu=λ(B+W)u ⇐⇒

(1−λ)Bu=λWu ⇐⇒W1Bu = 1−λλ u Les deux approches sont équivalentes

Sidi Mohamed MAOULOUD Analyse discriminante

(12)

L'AFD descriptive : Recherche des facteurs

On a toujours 0≤λ≤1 la quantité à maximiser

λ1=1 correspond au cas ou chaque groupe est projeté en un point. Il y a évidemment discrimination parfaite si les centres de gravité se projettent en des points diérents.

λ1=0 correspond au cas où le meilleur axe ne permet pas de séparer les centres de gravitégj. c'est le cas où ils sont confondus.

le nombre des valeurs propres est inférieur à min(p,k−1)

(13)

L'AFD descriptive : Interprétation

Comme en ACP on regarde la corrélation entre les facteurs et les axes

Sidi Mohamed MAOULOUD Analyse discriminante

(14)

L'AFD descriptive : Règle géométrique d'aectation

Comme en ACP, la coordonnée de la projection d'un individue sur un axe u est obtenu par(e−g).u où g est le centre de gravité du nuage de points.

On calcule donc la matrice qui contient les coordonnées des individus sur les axes principaux

c = (I−11T/n)XU où U est une matrice des vecteurs propres

En fait, (I−11T/n)X n'est autre que le tableau centré.

(15)

L'AFD descriptive : Règle géométrique d'aectation

Comme en ACP, la coordonnée de la projection d'un individue sur un axe u est obtenu par(e−g).u où g est le centre de gravité du nuage de points.

On calcule donc la matrice qui contient les coordonnées des individus sur les axes principaux

c = (I−11T/n)XU où U est une matrice des vecteurs propres

En fait, (I−11T/n)X n'est autre que le tableau centré.

Sidi Mohamed MAOULOUD Analyse discriminante

(16)

La règle bayesienne

La règle bayesienne consiste à produire une estimation de la probabilité a posteriori d'aectation

P(Y =yk |X) = P(Y =yk)×P(X |Y =yk) PK

i=1P(Y =yi)×P(X |Y =yi) P(Y =yk) est la probabilité a priori d'appartenance à une classe.

P(X |Y =yk) représente la fonction de densité des X conditionnellement à la classe yk.

La règle d'aectation pour un individuω à classer devient alors Y(ω) =arg maxk P(Y =yk |X(ω)).

Toute la problématique de l'analyse discriminante revient alors

(17)

L'analyse discriminante paramétrique - L'hypothèse de multinormalité

On mets une hypothèse sur la distribution des nuages de points conditionnels, à savoir une loi multinormale

La distribution des nuages de points conditionnels s'écrit :

fk(X) =P(X |Y =yk) = 1

p(2π)j|Wk|×e12t(X−µk)Wk1(X−µk) où |Wk|représente le déterminant de la matrice de variance covariance conditionnellement àyk.

Sidi Mohamed MAOULOUD Analyse discriminante

(18)

L'analyse discriminante paramétrique - L'hypothèse de multinormalité

L'objectif étant de déterminer le maximum de la probabilité a posteriori d'aectation, nous pouvons négliger tout ce qui ne dépend pas de k. En appliquant le logarithme à la relation de Bayes, nous obtenons le score discriminant proportionnel à ln[P(Y =yk |X)]:

D(Y =yk,X) =2 ln[P(Y =yk)]−ln|Wk|−t(X−µk)Wk1(X−µk)

Références

Documents relatifs

Over-fit : High complexity models are memorizing the data they have seen and are unable to generalize to unseen examples...

When the number n of data points increases the nearest neighbor of X gets closer to X (this.. has to be made rigorous since X is a random variable).. This result was first proved

L’estimation par échantillon test s’obtient en estimant les probabilités Q*s|r par les proportions observées Nets|r/Netr d’observations dans l’échantillon test

Le premier croise ces individus avec des variables quantitatives et le deuxième les croise avec des variables qualitatives.. Les variables qualitatives induisent

Les distributions correspondantes à un téta donné sont Fq et Gq.On utilise les échantillons pour estimer q par une q^ et on utilise alors les distributions Fq^ et Gq^ comme dans

[r]

2 - Démontrer qu'il existe une infinité de triangles ABC qui ont la propriété (Π) et dont l'aire est aussi un nombre entier... Cela fait penser aux

[r]