Analyse discriminante
Sidi Mohamed MAOULOUD
February 9, 2016
Sidi Mohamed MAOULOUD Analyse discriminante
Introduction
Nous disposons d'un échantillon de n observations réparties dansK groupes d'eectifsnk.
Y la variable à prédire, est à valeurs dans {y1, . . . ,yK}. Nous disposons de p variables prédictives X = (X1, . . . ,Xp).
µk les centres de gravité des nuages de points de chaque groupe etWk leurs matrice de variance-covariance.
Objectifs: mettre en évidence des diérences entre les groupes c-à-d entre les observations appartenant à des groupes
diérentes;
description des liaisons entre la variable groupe et les variables quantitatives: les k groupes dièrent-elles sur l'ensemble des variables numériques?
Deux aspects de l'AFD
On distingue deux aspects en analyse discriminante:
descriptif: chercher quelles sont les combinaisons linéaires de variables qui permettent de séparer le mieux possible les groupes et donner une représentation graphique, qui rende compte au mieux de cette séparation;
décisionnel: un nouvel individu se présente pour lequel on connaît les valeurs des prédicteurs. Il s'agit alors de décider dans quel groupe il faut l'aecter. C'est un problème de classement.
Sidi Mohamed MAOULOUD Analyse discriminante
Applications de l'AFD
aide à la décision en médecine: à partir de mesures de
laboratoire, on cherche une fonction permettant de prédire au mieux le type d'aection d'un malade, ou son évolution probable an d'orienter le traitement
nance: prévision du comportement de demandeurs de crédit.
En informatique, pour la reconnaissance optique de caractères (OCR). L'analyse discriminante est utilisée pour reconnaître un caractère imprimé à partir d'informations simples, comme la présence ou non de symétrie, le nombre d'extrémités;
En biologie, lorsque l'on veut aecter un objet à sa famille d'appartenance à partir de ses caractéristiques physiques.
L'AFD descriptive : Mèhtode
déterminer des facteurs, (des combinaisons linéaires des variables descriptives), qui prennent des valeurs les plus proches possible pour des éléments d'un même groupe, et les plus éloignées possible entre éléments de classes diérentes.
On appelle ces facteurs Facteurs discriminants
●
●
● ●
● ●
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.01.21.4
x
y
Sidi Mohamed MAOULOUD Analyse discriminante
L'AFD descriptive : Variance
La population est partitionnée à l'aide de la variable qualitative Y en plusieurs groupes.
Soit V la matrice de variance-covariance de la population entière
pourj =1,· · ·,k, on désigne parnj,gj,Vj respectivement l'eectif, le centre de gravité et la matrice de
variance-covariance de chaque j.
L'AFD descriptive : Variance
On appelle variance intra-groupe (within), qu'on note par B, la moyenne des matrices de variance pondérées par les eectifs des groupes
W = 1 n
k
X
j=1
njVj
La matrice de variance inter-groupe (Between), la matrice de variance du nuage de points constitué des centre de gravitégj
chacun aecté du poids proportionnel à l'eectif de son groupe
Sidi Mohamed MAOULOUD Analyse discriminante
L'AFD descriptive : Variance
Le théoreme de König-Huygens montre que
Variance = variance des moyennes + moyenne des variances Variance = Variance inter + Variance intra
V = B + W
L'AFD descriptive : Recherche des facteurs
L'idée de l'AFD est de rechercher un axe qui l'inertie intra et maximise l'inertie inter
On l'inertie projetée d'un nuage de points, de matrice de varianceV sur un axe avaut aTVa
L'inertie projetée se décompose en
aTVa=aTBa+aTWa
Sidi Mohamed MAOULOUD Analyse discriminante
L'AFD descriptive : Recherche des facteurs
MaximiseraTBaet minimiser aTWarevient à solutionner l'un des problèmes d'optimisation équivalents suivants :
A : max
a = aTBa aTWa A' : max
a =aTBa sous la contrainteaTWa=1 B : max
a = aTBa aTVa B' : max
a =aTBa sous la contrainteaTVa=1
L'AFD descriptive : Recherche des facteurs
Eectuer une AFD revient donc efectuer une ACP particulière On cherche les valeurs propres µassociées aux vecteurs propres u de la matrice W−1B
ou chercher les valeurs propres λassociées aux méme vecteurs propres u de la matrice V−1B
Si V−1Bu =λu ⇐⇒Bu=λVu=λ(B+W)u ⇐⇒
(1−λ)Bu=λWu ⇐⇒W−1Bu = 1−λλ u Les deux approches sont équivalentes
Sidi Mohamed MAOULOUD Analyse discriminante
L'AFD descriptive : Recherche des facteurs
On a toujours 0≤λ≤1 la quantité à maximiser
λ1=1 correspond au cas ou chaque groupe est projeté en un point. Il y a évidemment discrimination parfaite si les centres de gravité se projettent en des points diérents.
λ1=0 correspond au cas où le meilleur axe ne permet pas de séparer les centres de gravitégj. c'est le cas où ils sont confondus.
le nombre des valeurs propres est inférieur à min(p,k−1)
L'AFD descriptive : Interprétation
Comme en ACP on regarde la corrélation entre les facteurs et les axes
Sidi Mohamed MAOULOUD Analyse discriminante
L'AFD descriptive : Règle géométrique d'aectation
Comme en ACP, la coordonnée de la projection d'un individue sur un axe u est obtenu par(e−g).u où g est le centre de gravité du nuage de points.
On calcule donc la matrice qui contient les coordonnées des individus sur les axes principaux
c = (I−11T/n)XU où U est une matrice des vecteurs propres
En fait, (I−11T/n)X n'est autre que le tableau centré.
L'AFD descriptive : Règle géométrique d'aectation
Comme en ACP, la coordonnée de la projection d'un individue sur un axe u est obtenu par(e−g).u où g est le centre de gravité du nuage de points.
On calcule donc la matrice qui contient les coordonnées des individus sur les axes principaux
c = (I−11T/n)XU où U est une matrice des vecteurs propres
En fait, (I−11T/n)X n'est autre que le tableau centré.
Sidi Mohamed MAOULOUD Analyse discriminante
La règle bayesienne
La règle bayesienne consiste à produire une estimation de la probabilité a posteriori d'aectation
P(Y =yk |X) = P(Y =yk)×P(X |Y =yk) PK
i=1P(Y =yi)×P(X |Y =yi) P(Y =yk) est la probabilité a priori d'appartenance à une classe.
P(X |Y =yk) représente la fonction de densité des X conditionnellement à la classe yk.
La règle d'aectation pour un individuω à classer devient alors Y(ω) =arg maxk P(Y =yk |X(ω)).
Toute la problématique de l'analyse discriminante revient alors
L'analyse discriminante paramétrique - L'hypothèse de multinormalité
On mets une hypothèse sur la distribution des nuages de points conditionnels, à savoir une loi multinormale
La distribution des nuages de points conditionnels s'écrit :
fk(X) =P(X |Y =yk) = 1
p(2π)j|Wk|×e−12t(X−µk)Wk−1(X−µk) où |Wk|représente le déterminant de la matrice de variance covariance conditionnellement àyk.
Sidi Mohamed MAOULOUD Analyse discriminante
L'analyse discriminante paramétrique - L'hypothèse de multinormalité
L'objectif étant de déterminer le maximum de la probabilité a posteriori d'aectation, nous pouvons négliger tout ce qui ne dépend pas de k. En appliquant le logarithme à la relation de Bayes, nous obtenons le score discriminant proportionnel à ln[P(Y =yk |X)]:
D(Y =yk,X) =2 ln[P(Y =yk)]−ln|Wk|−t(X−µk)Wk−1(X−µk)