Université Paris 13/Younès Bennani Reconnaissance des Formes 1
des Formes
5
Younès BENNANIUniversité Paris 13/Younès Bennani Reconnaissance des Formes 3
caractéristiques
Système
X= x1 x2
x3
x4
!
"
#
# #
$
%
&
&
&
x1
x3
!
"
#
# #
$
%
&
&
&
X X
Système
X= x1
x2
x3
x4
!
"
#
# #
$
%
&
&
&
!
ƒ1( )xi i=1...4
ƒ2( )xi i=1...4
"
#
$
$ $
%
&
' ' '
Sélection
Extraction
Sélection de variables
«!Feature selection!»
Classificateur
X= x1 x2
x3
x4
!
"
#
# #
$
%
&
&
&
xx x
x x
x x x x
x oo
o
o oo o
o o
o o
Classificateur
xx x x x
x x x x
x o
o o o ooo
o o
o o
Sélection de variables
X= x1 x2
x3
x4
!
"
#
# #
$
%
&
&
&
x1
x3
!
"
#
# #
$
%
&
&
&
X X
Université Paris 13/Younès Bennani Reconnaissance des Formes 5
«!Feature selection!»
Régression
X= x1
x2
x3
x4
!
"
#
# #
$
%
&
&
&
Régression
Sélection de variables
X= x1
x2
x3
x4
!
"
#
# #
$
%
&
&
&
x1
x3
!
"
#
# #
$
%
&
&
&
X X
Sélection de variables
CAKMAKOV D. & BENNANI Y. (2002)
“Feature Selection for Pattern Recognition", ISBN 9989-943-02-8, Editions Informa.
BENNANI Y. (2001)
“Systèmes d’Apprentissage Connexionnistes", Numéro spécial de la“Revue d’Intelligence Artificielle”, 15(3)!:4/2001, Editions Hermès.
Université Paris 13/Younès Bennani Reconnaissance des Formes 7
Définition :
La sélection de variables est un procédé permettant de choisir un sous-ensemble optimal de variables pertinentes, à partir d'un ensemble de variables, selon un certain critère de performance.
A partir de cette définition, on peut se poser trois questions essentielles :
Q1 : Comment mesurer la pertinence des variables ?
Q2 : Comment former le sous-ensemble optimal ?
Q3 : Quel critère d'optimalité utiliser ?
Sélection de variables
La réponse à
Q1 consiste à trouver une mesure depertinence ou un
critère d'évaluation permettant dequantifier l'importance d'une variable ou d'un ensemble de variables .
Q2 évoque le problème du choix de la procédure de recherche ou de constitution du sous-ensemble optimal
des variables pertinentes.
Q3 demande la définition d'un critère d'arrêt de la
recherche. (généralement déterminé à travers une combinaison particulière entre la mesure de pertinence et la procédure de recherche)
J ( X)
Université Paris 13/Younès Bennani Reconnaissance des Formes 9
Critère d'évaluation
Dans le cas d’un problème de
classement, on teste, parexemple, la
qualité de discrimination du système enprésence ou en absence d’une variable.
Par contre, pour un problème de régression, on teste plutôt la qualité de prédiction par rapport aux autres variables.
Définition [Bennani, 2001] :
Une variable pertinente est une variable telle que sa suppression entraîne une détérioration des performances (pouvoir de discrimination en classement ou la qualité de prédiction en régression) du système d'apprentissage.
Sélection de variables
Procédure de recherche
On ne connaît pas le nombre optimal de variables à sélectionner.
dépendra de la taille et de la qualité de la base d’apprentissage (la quantité et la qualité d’information disponible) et de la règle de décision utilisée (le modèle).
Pour un ensemble de variables il existe combinaisons de variables possibles.
(où 2 représente deux choix : sélectionner ou ne pas sélectionner une variable).
La recherche d'un sous-ensemble de variables parmi engendre un nombre de combinaison égal à :
m
n 2
n! 1
n m
!
"
# $
% = n!
(n & m)! m!
m n
m
Université Paris 13/Younès Bennani Reconnaissance des Formes 11
Une alternative consiste à utiliser une méthode de recherche de type Branch & Bound.
Cette méthode de recherche permet de restreindre la recherche et donne le sous-ensemble optimal de variables, sous l'hypothèse de monotocité du critère de sélection .
Le critère est dit monotone si :
où est l'ensemble contenant k variables sélectionnées.
X
1! X
2! K ! X
m" J X ( )
1# J X ( )
2# K # J X ( )
mJ (X)
X
kSélection de variables
Problème :
la plupart des critères d'évaluation
ne sont pas monotonesrecours à des méthodes sous-optimales :
- Sequential Forward Selection (SFS)
- Sequential Backward Selection (SBS)
- Bidirectional Selection (BS)
Université Paris 13/Younès Bennani Reconnaissance des Formes 13
Sequential Forward Selection (SFS)
Soit l’ensemble des variables,
Au départ l'ensemble des variables sélectionnées est vide.
à chaque étape k :
- on sélectionne la variable qui optimise le critère d'évaluation
X
x
iJ X ( )
kJ X ( )
k=
xmax
i!
(
X"Xk"1) J X (
k"1# { } x
i)
liste ordonnée des variables selon leur importance
Sélection de variables
Sequential Backward Selection (SBS)
On part de l'ensemble complet des variables et on procède par élimination :
à chaque étape :
- la variable la moins importante selon le critère d'évaluation est éliminée
X
x
iJ X ( )
kliste ordonnée des variables selon leur importance : Les variables les plus pertinentes sont alors les variables qui se trouvent dans les dernières positions de la liste.
J X ( )
k= max
xi!Xk+1
J X (
k+1" { } x
i)
Université Paris 13/Younès Bennani Reconnaissance des Formes 15
Bidirectional Selection (BS)
La procédure BS effectue sa recherche dans les deux directions (Forward et Backward) d'une manière concurrentielle.
La procédure s'arrête dans deux cas :
(1) quand une des deux directions a trouvé le meilleur sous- ensemble de variables avant d'atteindre le milieu de l'espace de recherche
(2) quand les deux directions arrivent au milieu.
Il est clair que les ensembles de variables sélectionnées trouvés respectivement par SFS et par SBS ne sont pas égaux à cause de leurs différents principes de sélection.
cette méthode réduit le temps de recherche puisque la recherche s'effectue dans les deux directions et s'arrête dès qu'il y a une solution quelle que soit la direction.
Sélection de variables
x
1, x
2, x
3, x
4{ }
x
1, x
2, x
3{ }
x
1, x
3, x
4{ }
x
2, x
3, x
4{ }
x
1, x
2, x
4{ }
x
1, x
2{ }
x
1, x
4{ }
x
2, x
3{ }
x
1, x
3{ }
x
2, x
4{ }
x
3, x
4{ }
x
1{ }
x
3{ }
x
4{ }
x
2{ } { }
Backward selection
Forward selection
Université Paris 13/Younès Bennani Reconnaissance des Formes 17
Critères d'arrêt
Le nombre optimal de variables n’est pas connu a priori, l’utilisation d’une règle pour contrôler la sélection-élimination de variables permet d’arrêter la recherche lorsque aucune variable n’est plus suffisamment informative.
Le critère d'arrêt est souvent défini comme une combinaison de la procédure de recherche et du critère d'évaluation.
Une heuristique, souvent utilisée, consiste à calculer pour les différents sous-ensembles de variables sélectionnées une estimation de l’erreur de généralisation par validation croisée.
Le sous-ensemble de variables sélectionnées est celui qui minimise cette erreur de généralisation.
Sélection de variables
Régression linéaire
ƒ
p(x) = a
i.x
ii=1 p
!
D = { ( x
1, y
1) , ( x
2, y
2) , K , ( x
k, y
k) , K , ( x
N,y
N) }
S
p=
N!1p!2y
k! ƒ
p( x
k)
2k=1 N
"
Régression linéaire avec p variables :
Mesures d ’évaluation :
C
p=
!12y
k" ƒ
p(x
k)
2k=1 N
# + 2 p " N
y ! ƒ
p( x)
Hocking R.R. (1976)
« The analysis and selection of variables in linear regression » Biometrics 32:1-49
Mallows L.C. (1973)
« Some comments on Cp » Technometrics 15:661-675
Université Paris 13/Younès Bennani Reconnaissance des Formes 19
Classement
!
Wilks( X
p) = W
pW
p+ B
pMesure de séparation des classes :
Matrice de covariance intra-classes :
W
p=
i=1 c
!
Ni1( x
k" µ
i) ( x
k" µ
i)
txk#Ci
Ni
!
B
p=
i=1 c
! ( µ " µ
i) ( µ " µ
i)
tMatrice de covariance inter-classes :
Sélection de variables
Classement
MI( a, b) = P(a,b)log P(a, b) P(a) P(b)
!
"
# $
a,b
%
&
Mesure d ’information (information mutuelle) :
Où a et b sont 2 variables discrètes avec des densités de probabilité P(a) et P(b)
MI(a,b) = mesure la réduction de l’incertitude sur b lorsque a est connu.
a et b sont statistiquement indépendants P(a,b)=P(a).P(b) MI(a,b)=0
Plus a et b sont dépendants plus MI(a,b) augmente.
Densité jointe
Université Paris 13/Younès Bennani Reconnaissance des Formes 21
MI x (
p, X
p!1) = MI x (
p, x
j)
xj
#
"Xp!1 Battiti R. (1994)« Using mutual information for selecting features in supervised neural net learning » IEEE Trans. On Neural Networks, 5(4):537-550.
La variable à sélectionner doit donner le plus d ’information possible mais ne doit pas être redondante par rapport à celle déjà sélectionnées.
Trouver la variable la plus informative par rapport à y et la moins corrélée par rapport aux autres revient à maximiser :
MI x (
p, y ) ! " MI x (
p,X
p!1)
0.5<ß<1
Sélection de variables
Exemple : Iris de Fisher
- Number of Instances: 150 (50 in each of three classes)
- Number of Attributes: 4 numeric, predictive attributes and the class - Attribute Information:
1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class:
-- Iris Setosa -- Iris Versicolour -- Iris Virginica
Features selection:
(1 0 0 1) : (sepal length, petal width) => 93%
(1 0 1 0) : (sepal length, petal length) => 93%
(1 1 0 0) : (sepal length, sepal width) => 60%
-3 -2 -1 0 1 2 3
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
Projection ACP
Université Paris 13/Younès Bennani Reconnaissance des Formes 23
Analyse en Composante Principale (ACP)
Proposée par HOTELLING en 1933.
- La plus ancienne des méthodes de l’analyse des données.
- Technique puissante pour explorer la structure des données.
Principe :
obtenir une représentation approchée du nuage des N individus dans un sous-espace de faible dimension.
résumer au mieux un tableau de données représenté par une matrice X à N ligne et p colonnes.
Par exemple, on cherche à établir des projections orthogonales du nuage de points sur un plan, les plus représentatives possibles :
!
"
p# "
2Université Paris 13/Younès Bennani Reconnaissance des Formes 24
Extraction de caractéristiques
Analyse en Composante Principale (ACP)
5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa
…
6.0,2.2,4.0,1.0,Iris-versicolor 6.1,2.9,4.7,1.4,Iris-versicolor 5.6,2.9,3.6,1.3,Iris-versicolor 6.7,3.1,4.4,1.4,Iris-versicolor 5.6,3.0,4.5,1.5,Iris-versicolor 5.8,2.7,4.1,1.0,Iris-versicolor 6.2,2.2,4.5,1.5,Iris-versicolor
…
6.0,3.0,4.8,1.8,Iris-virginica 6.9,3.1,5.4,2.1,Iris-virginica 6.7,3.1,5.6,2.4,Iris-virginica 6.9,3.1,5.1,2.3,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 6.8,3.2,5.9,2.3,Iris-virginica 6.7,3.3,5.7,2.5,Iris-virginica 6.7,3.0,5.2,2.3,Iris-virginica 6.3,2.5,5.0,1.9,Iris-virginica 6.5,3.0,5.2,2.0,Iris-virginica 6.2,3.4,5.4,2.3,Iris-virginica 5.9,3.0,5.1,1.8,Iris-virginica
A C P
" 4 # " 2
-3 -2 -1 0 1 2 3
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
Iris de Fisher
Université Paris 13/Younès Bennani Reconnaissance des Formes 25
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-1.5 -1 -0.5 0 0.5 1
-1.23,-1.56,-1.75,-0.28,0.60,2.22,0.85,0.21,-0.20,0.89,1.08,4.20,2.89,7.75,4.59,3.15,5.12,3.32,1.20,0.24,-0.56,2 -0.69,2.43,0.61,2.08,2.30,3.25,5.52,4.55,2.97,2.22,2.81,1.61,1.24,1.89,1.88,-1.34,0.83,1.41,1.78,0.60,2.42,1 -0.12,-0.94,1.29,2.59,2.42,3.55,4.94,3.25,1.90,2.07,0.51,1.45,2.50,0.12,1.41,2.78,0.64,0.62,-0.01,-0.79,-0.12,0 0.86,0.29,2.19,-0.02,1.13,2.51,2.37,5.45,5.45,4.84,4.65,4.05,2.58,1.40,1.24,1.41,1.07,-1.43,2.84,-1.18,1.12,1 1.16,0.37,0.40,-0.59,2.66,1.00,2.69,4.06,5.34,3.53,4.82,4.79,4.30,1.84,1.73,0.21,-0.18,0.13,-0.21,-0.80,-0.68,1 -0.00,0.77,1.32,0.29,-1.28,0.84,1.60,1.55,2.93,4.76,5.55,4.30,4.89,2.81,2.37,3.68,-0.98,0.69,0.91,-1.80,0.39,2 0.87,1.07,-0.65,1.46,0.84,2.70,3.67,2.94,3.81,5.20,8.16,3.29,4.24,2.43,0.40,1.60,0.72,0.66,0.05,-0.24,0.67,1 -0.22,-0.91,-1.18,0.35,-1.92,-1.59,1.91,0.75,1.72,2.02,3.63,3.91,2.73,4.29,4.89,2.04,1.13,-0.66,-1.33,0.41,-0.75,2 -1.11,-1.14,-0.89,0.00,0.53,0.44,0.24,2.15,1.64,1.75,3.92,5.68,3.39,4.24,3.81,4.56,3.18,1.51,2.90,0.14,-0.12,2 -0.75,1.10,-1.90,1.43,0.47,0.40,0.86,3.51,2.62,4.50,6.83,6.94,0.75,3.23,1.08,-0.25,0.73,-0.41,-1.50,0.46,1.47,2 0.14,-1.18,1.42,2.28,3.10,3.15,3.49,4.54,1.40,3.41,3.40,2.83,0.06,0.60,3.61,2.08,-0.83,0.55,-0.55,-0.43,-1.05,0
….
1.32,-0.40,-0.69,4.17,3.66,4.00,5.24,3.88,2.17,1.82,3.65,1.01,1.82,1.13,-0.07,0.26,0.50,1.38,1.25,-1.34,0.53,0 -0.93,2.48,1.20,2.97,2.91,3.57,3.68,4.19,3.22,3.53,2.46,2.17,0.77,0.52,2.42,-0.89,0.51,-0.39,0.82,0.14,-0.63,1 -1.06,0.59,1.01,3.33,2.05,3.20,4.70,4.21,4.73,2.22,2.67,2.79,2.05,-1.53,-1.54,0.37,-0.09,1.04,-0.08,-0.27,0.47,1 1.86,0.37,-0.35,0.74,0.84,0.21,1.97,1.52,1.85,2.39,3.92,3.76,3.27,1.61,3.08,2.78,1.58,1.68,2.61,-0.91,-0.27,2 -0.51,-0.48,0.35,-1.67,0.26,2.45,-0.09,2.03,0.79,1.42,1.13,2.52,2.06,4.50,4.28,4.66,3.30,0.38,0.75,1.76,0.37,0 1.16,-1.19,-2.26,0.63,0.32,1.51,2.11,2.58,1.03,2.01,4.04,4.55,5.65,2.74,3.12,2.67,2.01,4.12,-0.81,0.07,-0.96,2 -0.09,2.30,-0.43,0.36,0.11,-1.20,1.47,2.25,3.50,2.14,6.68,5.45,2.22,2.79,2.61,1.87,0.48,1.98,1.64,1.32,0.71,2 -1.43,-0.46,-0.52,1.45,-0.00,1.35,1.39,0.81,0.03,1.39,2.55,2.42,3.07,5.46,6.29,6.50,4.60,3.77,1.62,1.01,-1.86,0
A C P
!
" 21 # " 2
Waveform de Breiman
Extraction de caractéristiques
Analyse en Composante Principale (ACP)
!
xi=
(
x1i,xi2, ... ... ...,xip)
!
µ= 1 N
x1k
k=1 N
"
x2k
k=1 N
"
...
...
...
xkp
k=1 N
"
#
$
%
%
%
%
%
%
%
% %
% %
&
' ( ( ( ( ( ( ( ( ( ( (
Soit de l’ensemble d’observations
(population de N individus à p caractères).
Individu
Moyenne Centre de gravité
La dispersion des valeurs d’une variable autour de sa moyenne se mesure par sa variance :
var(xj)=
[ ]
"j 2=N1 (xk j#µj)2k=1 N
$
!
xj= x1j x2 j
...
...
...
xNj
"
#
$ $
$
$
$
$
$
%
&
' ' ' ' ' ' ' Caractère/variable
!
D={x1,x2, ...,xN}
!
"p
Écart-type Standard deviation
!
DN"p= x1
1 x1
2 ... ... x1
p
x12 x22 ... ... x2p
: : : : :
: : xi
j : :
x1N xN2 ... ... xNp
#
$
% %
%
%
%
%
&
' ( ( ( ( ( (
Population Données La valeur prise par
la variable j sur l’individu i
Université Paris 13/Younès Bennani Reconnaissance des Formes 27
Analyse en Composante Principale (ACP)
Pour étudier l’influence mutuelle entre deux variables et On introduit la covariance :
!
x
j!
x
i!
cov(xi,xj)= 1
N (xki"µi)(x
k j"µj)
k=1 N
#
!
r(xi,xj)=cov(xi,xj)
"i"j
Une covariance positive signifie que et ont tendance (en moyenne) à évoluer dans le même sens.
Une covariance négative signifie une évolution en sens contraire.
La corrélation de et , si aucune n’est constante, dont le Signe est celui de la covariance est définie par :
!
x
j!
x
i!
x
j!
x
iExtraction de caractéristiques
ACP centrées : ACP-C
Si les variables d’origine sont très hétérogènes du point de vue de leurs moyennes, on transforme la matrice :
!
=N1
" (
XtX)
On défit la matrice de covariance par :!
D=
{
x1,x2, ...,xN}
!
D=
{
x1,x2, ...,xN}
"X={
x1#µ,x2#µ, ...,xN#µ}
p"p=
var(x1) cov(x1,x2) ... ... cov(x1,xp) cov(x2,x1) var(x2) ... ... cov(x2,xp)
: : cov(xi,xj) : :
: : : : :
cov(x1,xp) ... ... ... var(xp)
#
$
%
%
%
%
%
%
&
' ( ( ( ( ( (
)
! est une matrice (pxp) symétrique définie positive.
Université Paris 13/Younès Bennani Reconnaissance des Formes 29
Théorème :
L’espace étant muni du produit scalaire
et de la norme associée, il existe une base orthonormée de vecteurs propres de associés aux
valeurs propres positives ordonnées en ordre décroissant
!
"p
!
v,w = viwi
i=1 p
"
!
.
!
u1,u2, ...,up
( )
!
"
!
"1#"2#...#"p
!
"p#p=
"1 0 ... ... 0
0 "2 ... ... 0
: : "i : :
: : : : :
0 ... ... ... "p
$
%
&
&
&
&
&
&
'
( ) ) ) ) ) )
!
"=U#U$1
!
p"p=
var(x1) cov(x1,x2) ... ... cov(x1,xp) cov(x2,x1) var(x2) ... ... cov(x2,xp)
: : cov(xi,xj) : :
: : : : :
cov(x1,xp) ... ... ... var(xp)
#
$
%
%
%
%
%
%
&
' ( ( ( ( ( (
)
!
Up"p=
u1,1 u1,2 ... ... u1,p u2,1 u2,2 ... ... u2,p
: : ui,j : :
: : : : :
up,1 ... ... ... up,p
#
$
%
%
%
%
%
%
&
' ( ( ( ( ( ( diagonalisation
Université Paris 13/Younès Bennani Reconnaissance des Formes 30
Extraction de caractéristiques
ACP-C
On appelle axes principaux d’inertie, les p vecteurs propres de . Le premier axe principal est donc le vecteur propre correspondant à la plus grande valeur propre de .
L’inertie expliquée par cet axe est .
Le sous-espace à p dimensions qui explique la plus grande inertie contient les p vecteurs propres de .
L’inertie expliquée par ce sous-espace est égale à :
L’image euclidienne du nuage de points obtenue par projection dans Un sous-espace de dim=k est appelée « image euclidienne des individus Associée à l’approximation d’ordre k des produits scalaires »
!
"
!
"
!
"
1!
u1
!
"
1!
u1,u2, ...,up
( )
!
"
!
"i i=1
p
# Axes principaux
perte d'inertie= "2i
i=k+1 p
#
Université Paris 13/Younès Bennani Reconnaissance des Formes 31
ACP-C
Composantes principales
Calcul des coordonnées des points sur les axes principaux : Les composantes principales sont obtenues par :
!
ck =Fk(xi)= uk,xi = uk,j xij
j=1 p
"
kème Composante principale
Facteur principal de rang k associé à xi
Les composantes principales peuvent être considérées comme de nouvelles variables, combinaisons linéaires des variables initiales, non corrélées entre elles et de variance maximale.
Extraction de caractéristiques
ACP-C
Pour interpréter la relation qui existe entre les variables initiales et
les axes factoriels, nous définissons le coefficient de corrélation suivant :
!
r(uk,xj)=
1
N Fk(xi)
(
xij"µj)
i=1 N
#
$j %k N
r(uk,xj) n’est autre que le coefficient de corrélation entre les Fk(xi)
d’inertie !k et de variance
!k /N, et les xij de variance
"j.
axe1 axe2
xj r(u2,xj )
r(u1,xj )
axe1 axe2
x1 x2 x3 x7 x8
x4 x5 La 1ère composante principale est très corrélée positivement avec les variables 1, 2 et 3, anticorrélée avec les variables 4 et 5 et non corrélée avec 6,7 et 8.
Cercle des corrélations
Université Paris 13/Younès Bennani Reconnaissance des Formes 33
On suppose que les variables que les variables d’origine, non seulement hétérogènes quant à leur moyenne, mais également quant à leur dispersion et quant à leur nature (unités de mesures).
On ramène donc chaque variable à un cadre commun de comparabilité : il faut que les variables soient de variance unité et de moyenne nulle.
On transforme la matrice des données :
!
D=
{
x1,x2, ...,xN}
!
D=
{
x1,x2, ...,xN}
"X= x1#µ$ , x2#µ
$ , ...,xN #µ
$
% &
'
( )
* Les données sont centrées et réduites.
Extraction de caractéristiques
ACP normées
On défit la matrice de correlation par :
!
Rp"p=
1 r(x1,x2) ... ... r(x1,xp)
r(x2,x1) 1 ... ... r(x2,xp)
: : r(xi,xj) : :
: : : : :
r(x1,xp) ... ... ... 1
#
$
%
%
%
%
%
%
&
' ( ( ( ( ( (
R est une matrice (pxp) symétrique définie positive.
Elle est donc diagonalisable et de valeurs propres réelles positives ou nulles.
L’ACP normées consiste à diagonaliser R au lieu de !.
Université Paris 13/Younès Bennani Reconnaissance des Formes 35
ACP-N
L’interprétation des axes se fait par l’intermédiaire de l’étude des corrélations entre la composante principale définissant cet axe et les variables du tableau de données initial :
!
r(ck,xj)= "kukj
c1 c2
xj r(c2,xj )
r(c1,xj )
Extraction de caractéristiques
Analyse Discriminante Linéaire
Consiste à rechercher de nouvelles variables (les variables discriminantes) Correspondant à des directions de qui séparent le mieux possible en projection les k classes d’observations.
!
"p
axe1
axe2
x2
x1
Université Paris 13/Younès Bennani Reconnaissance des Formes 37
Soit de l’ensemble d’observations réparties en k classes .
Déterminer un sous-espace de optimal tel que les données Projetées sur ce sous-espace soient séparées au mieux.
Extraction de caractéristiques :
!
µi= 1 ci xj
xj"ci
#
!
D={x1,x2, ...,xN}
!
"p
!
c1,c2, ...,ck
{ }
!
"p
!
µ =
N1 ci µii=1 k
"
!
"i= 1
ci
(
xj#µi)
xj$ci
% (
xj#µi)
t!
"T = 1
N
(
xi#µ)
i=1 N
$ (
xi#µ)
t!
"W = 1
i=1 ci k
#
"i!
"B= 1
ci
(
µi#µ)
i=1 k
$ (
µi#µ)
t!
"T="W+"B
Pour chaque classe on calcule : Moyenne
Matrice de covariance
Moyenne totale
Matrice de covariance totale
Matrice de covariance inter-classes Matrice de covariance intra-classes
Extraction de caractéristiques
Analyse Discriminante Linéaire
La projection de sur un sous espace de direction est donnée par :
Les matrices de covariance des projections sont :
Le but de l’analyse discriminante est de chercher une matrice telle que soit « grand » et soit « petit ».
!
" ˆ T=Ut "TU
" ˆ W =Ut "WU
" ˆ B=Ut "BU
!
xi
!
U
!
F x
( )
i =Utxi!
U
!
F x
( )
i!
" ˆ B
!
" ˆ W
Université Paris 13/Younès Bennani Reconnaissance des Formes 39
Analyse Discriminante Linéaire
Pour cela on peut optimiser, par exemple, les critères suivants :
!
J
1( ) U = Tr $ % & ( ) " ˆ
W #1" ˆ
B' ( )
J
2( ) U = Tr [ " ˆ
W+ " ˆ
B] = Tr [ ] " ˆ
TJ
3( ) U =
" ˆ
T" ˆ
WJ
4( ) U = Tr
" ˆ
B[ ]
Tr [ ] " ˆ
WExtraction de caractéristiques
Analyse Discriminante Linéaire
Théorème :
Les k meilleures axes discriminants non corrélés sont les k vecteurs propres de relatifs aux k plus grandes valeurs propres.
La valeur propre est appelée « pouvoir discriminant » de l’axe discriminant (vecteur propre associé).
Les projections des points sur les axes discriminants sont obtenues par :!
"i
!
" ˆ W
( )
#1" ˆ B$
% & '
( )
!
ui
Fk(xi)= uk,xi = uk,j xij
j=1 p
"
Facteur discriminant de rang k associé à x
!
xi
Université Paris 13/Younès Bennani Reconnaissance des Formes 41
Classement d’individus supplémentaires :
Affecter une classe à une observation qui n’a pas servi à l’apprentissage.
Nous décidons d’attribuer l’individu à la classe qui est telle que :
!
cj
!
yi=F(xi)
!
xi
!
d(yi,cj)=min
l=1...k$ % &
(
yi"µ ˆ l)
t( )
# ˆ W "1(
yi"µ ˆ l)
' ( )Extraction de caractéristiques
Analyse Discriminante Linéaire et ACP
Analyse Discriminante Analyse en Composantes Principales