Analyse discriminante

(1)

Analyse discriminante

Sidi Mohamed MAOULOUD

February 9, 2016

Sidi Mohamed MAOULOUD Analyse discriminante

(2)

Introduction

Nous disposons d'un échantillon de n observations réparties dansK groupes d'eectifsn_k.

Y la variable à prédire, est à valeurs dans {y₁, . . . ,y_K}. Nous disposons de p variables prédictives X = (X₁, . . . ,Xp).

µ_k les centres de gravité des nuages de points de chaque groupe etWk leurs matrice de variance-covariance.

Objectifs: mettre en évidence des diérences entre les groupes c-à-d entre les observations appartenant à des groupes

diérentes;

description des liaisons entre la variable groupe et les variables quantitatives: les k groupes dièrent-elles sur l'ensemble des variables numériques?

(3)

Deux aspects de l'AFD

On distingue deux aspects en analyse discriminante:

descriptif: chercher quelles sont les combinaisons linéaires de variables qui permettent de séparer le mieux possible les groupes et donner une représentation graphique, qui rende compte au mieux de cette séparation;

décisionnel: un nouvel individu se présente pour lequel on connaît les valeurs des prédicteurs. Il s'agit alors de décider dans quel groupe il faut l'aecter. C'est un problème de classement.

(4)

Applications de l'AFD

aide à la décision en médecine: à partir de mesures de

laboratoire, on cherche une fonction permettant de prédire au mieux le type d'aection d'un malade, ou son évolution probable an d'orienter le traitement

nance: prévision du comportement de demandeurs de crédit.

En informatique, pour la reconnaissance optique de caractères (OCR). L'analyse discriminante est utilisée pour reconnaître un caractère imprimé à partir d'informations simples, comme la présence ou non de symétrie, le nombre d'extrémités;

En biologie, lorsque l'on veut aecter un objet à sa famille d'appartenance à partir de ses caractéristiques physiques.

(5)

L'AFD descriptive : Mèhtode

déterminer des facteurs, (des combinaisons linéaires des variables descriptives), qui prennent des valeurs les plus proches possible pour des éléments d'un même groupe, et les plus éloignées possible entre éléments de classes diérentes.

On appelle ces facteurs Facteurs discriminants

●

● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.01.21.4

x

y

(6)

L'AFD descriptive : Variance

La population est partitionnée à l'aide de la variable qualitative Y en plusieurs groupes.

Soit V la matrice de variance-covariance de la population entière

pourj =1,· · ·,k, on désigne parnj,gj,Vj respectivement l'eectif, le centre de gravité et la matrice de

variance-covariance de chaque j.

(7)

L'AFD descriptive : Variance

On appelle variance intra-groupe (within), qu'on note par B, la moyenne des matrices de variance pondérées par les eectifs des groupes

W = 1 n

k

X

j=1

n_jV_j

La matrice de variance inter-groupe (Between), la matrice de variance du nuage de points constitué des centre de gravitégj

chacun aecté du poids proportionnel à l'eectif de son groupe

(8)

L'AFD descriptive : Variance

Le théoreme de König-Huygens montre que

Variance = variance des moyennes + moyenne des variances Variance = Variance inter + Variance intra

V = B + W

(9)

L'AFD descriptive : Recherche des facteurs

L'idée de l'AFD est de rechercher un axe qui l'inertie intra et maximise l'inertie inter

On l'inertie projetée d'un nuage de points, de matrice de varianceV sur un axe avaut a^TVa

L'inertie projetée se décompose en

a^TVa=a^TBa+a^TWa

(10)

L'AFD descriptive : Recherche des facteurs

Maximisera^TBaet minimiser a^TWarevient à solutionner l'un des problèmes d'optimisation équivalents suivants :

A : max

a = a^TBa a^TWa A' : max

a =a^TBa sous la contraintea^TWa=1 B : max

a = a^TBa a^TVa B' : max

a =a^TBa sous la contraintea^TVa=1

(11)

L'AFD descriptive : Recherche des facteurs

Eectuer une AFD revient donc efectuer une ACP particulière On cherche les valeurs propres µassociées aux vecteurs propres u de la matrice W⁻¹B

ou chercher les valeurs propres λassociées aux méme vecteurs propres u de la matrice V⁻¹B

Si V⁻¹Bu =λu ⇐⇒Bu=λVu=λ(B+W)u ⇐⇒

(1−λ)Bu=λWu ⇐⇒W⁻¹Bu = ₁_−λ^λ u Les deux approches sont équivalentes

(12)

L'AFD descriptive : Recherche des facteurs

On a toujours 0≤λ≤1 la quantité à maximiser

λ₁=1 correspond au cas ou chaque groupe est projeté en un point. Il y a évidemment discrimination parfaite si les centres de gravité se projettent en des points diérents.

λ₁=0 correspond au cas où le meilleur axe ne permet pas de séparer les centres de gravitégj. c'est le cas où ils sont confondus.

le nombre des valeurs propres est inférieur à min(p,k−1)

(13)

L'AFD descriptive : Interprétation

Comme en ACP on regarde la corrélation entre les facteurs et les axes

(14)

L'AFD descriptive : Règle géométrique d'aectation

Comme en ACP, la coordonnée de la projection d'un individue sur un axe u est obtenu par(e−g).u où g est le centre de gravité du nuage de points.

On calcule donc la matrice qui contient les coordonnées des individus sur les axes principaux

c = (I−11^T/n)XU où U est une matrice des vecteurs propres

En fait, (I−11^T/n)X n'est autre que le tableau centré.

(15)

L'AFD descriptive : Règle géométrique d'aectation

Comme en ACP, la coordonnée de la projection d'un individue sur un axe u est obtenu par(e−g).u où g est le centre de gravité du nuage de points.

On calcule donc la matrice qui contient les coordonnées des individus sur les axes principaux

c = (I−11^T/n)XU où U est une matrice des vecteurs propres

En fait, (I−11^T/n)X n'est autre que le tableau centré.

(16)

La règle bayesienne

La règle bayesienne consiste à produire une estimation de la probabilité a posteriori d'aectation

P(Y =y_k |X) = P(Y =y_k)×P(X |Y =y_k) PK

i=1P(Y =y_i)×P(X |Y =y_i) P(Y =y_k) est la probabilité a priori d'appartenance à une classe.

P(X |Y =yk) représente la fonction de densité des X conditionnellement à la classe y_k.

La règle d'aectation pour un individuω à classer devient alors Y(ω) =arg maxk P(Y =y_k |X(ω)).

Toute la problématique de l'analyse discriminante revient alors

(17)

L'analyse discriminante paramétrique - L'hypothèse de multinormalité

On mets une hypothèse sur la distribution des nuages de points conditionnels, à savoir une loi multinormale

La distribution des nuages de points conditionnels s'écrit :

f_k(X) =P(X |Y =y_k) = 1

p(2π)^j|W_k|×e⁻¹²^t^(X^−µ^k^)W^k⁻¹^(X^−µ^k⁾ où |W_k|représente le déterminant de la matrice de variance covariance conditionnellement ày_k.

(18)

L'analyse discriminante paramétrique - L'hypothèse de multinormalité

L'objectif étant de déterminer le maximum de la probabilité a posteriori d'aectation, nous pouvons négliger tout ce qui ne dépend pas de k. En appliquant le logarithme à la relation de Bayes, nous obtenons le score discriminant proportionnel à ln[P(Y =y_k |X)]:

D(Y =y_k,X) =2 ln[P(Y =y_k)]−ln|W_k|−^t(X−µ_k)W_k⁻¹(X−µ_k)