• Aucun résultat trouvé

des Formes

N/A
N/A
Protected

Academic year: 2022

Partager "des Formes"

Copied!
21
0
0

Texte intégral

(1)

Université Paris 13/Younès Bennani Reconnaissance des Formes 1

des Formes

5

Younès BENNANI

(2)

Université Paris 13/Younès Bennani Reconnaissance des Formes 3

caractéristiques

Système

X= x1 x2

x3

x4

!

"

#

# #

$

%

&

&

&

x1

x3

!

"

#

# #

$

%

&

&

&

X X

Système

X= x1

x2

x3

x4

!

"

#

# #

$

%

&

&

&

!

ƒ1( )xi i=1...4

ƒ2( )xi i=1...4

"

#

$

$ $

%

&

' ' '

Sélection

Extraction

Sélection de variables

«!Feature selection!»

Classificateur

X= x1 x2

x3

x4

!

"

#

# #

$

%

&

&

&

xx x

x x

x x x x

x oo

o

o oo o

o o

o o

Classificateur

xx x x x

x x x x

x o

o o o ooo

o o

o o

Sélection de variables

X= x1 x2

x3

x4

!

"

#

# #

$

%

&

&

&

x1

x3

!

"

#

# #

$

%

&

&

&

X X

(3)

Université Paris 13/Younès Bennani Reconnaissance des Formes 5

«!Feature selection!»

Régression

X= x1

x2

x3

x4

!

"

#

# #

$

%

&

&

&

Régression

Sélection de variables

X= x1

x2

x3

x4

!

"

#

# #

$

%

&

&

&

x1

x3

!

"

#

# #

$

%

&

&

&

X X

Sélection de variables

CAKMAKOV D. & BENNANI Y. (2002)

“Feature Selection for Pattern Recognition", ISBN 9989-943-02-8, Editions Informa.

BENNANI Y. (2001)

“Systèmes d’Apprentissage Connexionnistes", Numéro spécial de la“Revue d’Intelligence Artificielle”, 15(3)!:4/2001, Editions Hermès.

(4)

Université Paris 13/Younès Bennani Reconnaissance des Formes 7

Définition :

La sélection de variables est un procédé permettant de choisir un sous-ensemble optimal de variables pertinentes, à partir d'un ensemble de variables, selon un certain critère de performance.

A partir de cette définition, on peut se poser trois questions essentielles :

Q1 : Comment mesurer la pertinence des variables ?

Q2 : Comment former le sous-ensemble optimal ?

Q3 : Quel critère d'optimalité utiliser ?

Sélection de variables

La réponse à

Q1 consiste à trouver une mesure de

pertinence ou un

critère d'évaluation permettant de

quantifier l'importance d'une variable ou d'un ensemble de variables .

Q2 évoque le problème du choix de la procédure de recherche ou de constitution du sous-ensemble optimal

des variables pertinentes.

Q3 demande la définition d'un critère d'arrêt de la

recherche. (généralement déterminé à travers une combinaison particulière entre la mesure de pertinence et la procédure de recherche)

J ( X)

(5)

Université Paris 13/Younès Bennani Reconnaissance des Formes 9

Critère d'évaluation

Dans le cas d’un problème de

classement, on teste, par

exemple, la

qualité de discrimination du système en

présence ou en absence d’une variable.

Par contre, pour un problème de régression, on teste plutôt la qualité de prédiction par rapport aux autres variables.

Définition [Bennani, 2001] :

Une variable pertinente est une variable telle que sa suppression entraîne une détérioration des performances (pouvoir de discrimination en classement ou la qualité de prédiction en régression) du système d'apprentissage.

Sélection de variables

Procédure de recherche

On ne connaît pas le nombre optimal de variables à sélectionner.

dépendra de la taille et de la qualité de la base d’apprentissage (la quantité et la qualité d’information disponible) et de la règle de décision utilisée (le modèle).

Pour un ensemble de variables il existe combinaisons de variables possibles.

(où 2 représente deux choix : sélectionner ou ne pas sélectionner une variable).

La recherche d'un sous-ensemble de variables parmi engendre un nombre de combinaison égal à :

m

n 2

n

! 1

n m

!

"

# $

% = n!

(n & m)! m!

m n

m

(6)

Université Paris 13/Younès Bennani Reconnaissance des Formes 11

Une alternative consiste à utiliser une méthode de recherche de type Branch & Bound.

Cette méthode de recherche permet de restreindre la recherche et donne le sous-ensemble optimal de variables, sous l'hypothèse de monotocité du critère de sélection .

Le critère est dit monotone si :

où est l'ensemble contenant k variables sélectionnées.

X

1

! X

2

! K ! X

m

" J X ( )

1

# J X ( )

2

# K # J X ( )

m

J (X)

X

k

Sélection de variables

Problème :

la plupart des critères d'évaluation

ne sont pas monotones

recours à des méthodes sous-optimales :

- Sequential Forward Selection (SFS)

- Sequential Backward Selection (SBS)

- Bidirectional Selection (BS)

(7)

Université Paris 13/Younès Bennani Reconnaissance des Formes 13

Sequential Forward Selection (SFS)

Soit l’ensemble des variables,

Au départ l'ensemble des variables sélectionnées est vide.

à chaque étape k :

- on sélectionne la variable qui optimise le critère d'évaluation

X

x

i

J X ( )

k

J X ( )

k

=

x

max

i!

(

X"Xk"1

) J X (

k"1

# { } x

i

)

liste ordonnée des variables selon leur importance

Sélection de variables

Sequential Backward Selection (SBS)

On part de l'ensemble complet des variables et on procède par élimination :

à chaque étape :

- la variable la moins importante selon le critère d'évaluation est éliminée

X

x

i

J X ( )

k

liste ordonnée des variables selon leur importance : Les variables les plus pertinentes sont alors les variables qui se trouvent dans les dernières positions de la liste.

J X ( )

k

= max

xi!Xk+1

J X (

k+1

" { } x

i

)

(8)

Université Paris 13/Younès Bennani Reconnaissance des Formes 15

Bidirectional Selection (BS)

La procédure BS effectue sa recherche dans les deux directions (Forward et Backward) d'une manière concurrentielle.

La procédure s'arrête dans deux cas :

(1) quand une des deux directions a trouvé le meilleur sous- ensemble de variables avant d'atteindre le milieu de l'espace de recherche

(2) quand les deux directions arrivent au milieu.

Il est clair que les ensembles de variables sélectionnées trouvés respectivement par SFS et par SBS ne sont pas égaux à cause de leurs différents principes de sélection.

cette méthode réduit le temps de recherche puisque la recherche s'effectue dans les deux directions et s'arrête dès qu'il y a une solution quelle que soit la direction.

Sélection de variables

x

1

, x

2

, x

3

, x

4

{ }

x

1

, x

2

, x

3

{ }

x

1

, x

3

, x

4

{ }

x

2

, x

3

, x

4

{ }

x

1

, x

2

, x

4

{ }

x

1

, x

2

{ }

x

1

, x

4

{ }

x

2

, x

3

{ }

x

1

, x

3

{ }

x

2

, x

4

{ }

x

3

, x

4

{ }

x

1

{ }

x

3

{ }

x

4

{ }

x

2

{ } { }

Backward selection

Forward selection

(9)

Université Paris 13/Younès Bennani Reconnaissance des Formes 17

Critères d'arrêt

Le nombre optimal de variables n’est pas connu a priori, l’utilisation d’une règle pour contrôler la sélection-élimination de variables permet d’arrêter la recherche lorsque aucune variable n’est plus suffisamment informative.

Le critère d'arrêt est souvent défini comme une combinaison de la procédure de recherche et du critère d'évaluation.

Une heuristique, souvent utilisée, consiste à calculer pour les différents sous-ensembles de variables sélectionnées une estimation de l’erreur de généralisation par validation croisée.

Le sous-ensemble de variables sélectionnées est celui qui minimise cette erreur de généralisation.

Sélection de variables

Régression linéaire

ƒ

p

(x) = a

i

.x

i

i=1 p

!

D = { ( x

1

, y

1

) , ( x

2

, y

2

) , K , ( x

k

, y

k

) , K , ( x

N

,y

N

) }

S

p

=

N!1p!2

y

k

! ƒ

p

( x

k

)

2

k=1 N

"

Régression linéaire avec p variables :

Mesures d ’évaluation :

C

p

=

!12

y

k

" ƒ

p

(x

k

)

2

k=1 N

# + 2 p " N

y ! ƒ

p

( x)

Hocking R.R. (1976)

« The analysis and selection of variables in linear regression » Biometrics 32:1-49

Mallows L.C. (1973)

« Some comments on Cp » Technometrics 15:661-675

(10)

Université Paris 13/Younès Bennani Reconnaissance des Formes 19

Classement

!

Wilks

( X

p

) = W

p

W

p

+ B

p

Mesure de séparation des classes :

Matrice de covariance intra-classes :

W

p

=

i=1 c

!

Ni1

( x

k

" µ

i

) ( x

k

" µ

i

)

t

xk#Ci

Ni

!

B

p

=

i=1 c

! ( µ " µ

i

) ( µ " µ

i

)

t

Matrice de covariance inter-classes :

Sélection de variables

Classement

MI( a, b) = P(a,b)log P(a, b) P(a) P(b)

!

"

# $

a,b

%

&

Mesure d ’information (information mutuelle) :

Où a et b sont 2 variables discrètes avec des densités de probabilité P(a) et P(b)

MI(a,b) = mesure la réduction de l’incertitude sur b lorsque a est connu.

a et b sont statistiquement indépendants P(a,b)=P(a).P(b) MI(a,b)=0

Plus a et b sont dépendants plus MI(a,b) augmente.

Densité jointe

(11)

Université Paris 13/Younès Bennani Reconnaissance des Formes 21

MI x (

p

, X

p!1

) = MI x (

p

, x

j

)

xj

#

"Xp!1 Battiti R. (1994)

« Using mutual information for selecting features in supervised neural net learning » IEEE Trans. On Neural Networks, 5(4):537-550.

La variable à sélectionner doit donner le plus d ’information possible mais ne doit pas être redondante par rapport à celle déjà sélectionnées.

Trouver la variable la plus informative par rapport à y et la moins corrélée par rapport aux autres revient à maximiser :

MI x (

p

, y ) ! " MI x (

p

,X

p!1

)

0.5<ß<1

Sélection de variables

Exemple : Iris de Fisher

- Number of Instances: 150 (50 in each of three classes)

- Number of Attributes: 4 numeric, predictive attributes and the class - Attribute Information:

1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class:

-- Iris Setosa -- Iris Versicolour -- Iris Virginica

Features selection:

(1 0 0 1) : (sepal length, petal width) => 93%

(1 0 1 0) : (sepal length, petal length) => 93%

(1 1 0 0) : (sepal length, sepal width) => 60%

-3 -2 -1 0 1 2 3

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Projection ACP

(12)

Université Paris 13/Younès Bennani Reconnaissance des Formes 23

Analyse en Composante Principale (ACP)

Proposée par HOTELLING en 1933.

- La plus ancienne des méthodes de l’analyse des données.

- Technique puissante pour explorer la structure des données.

Principe :

obtenir une représentation approchée du nuage des N individus dans un sous-espace de faible dimension.

résumer au mieux un tableau de données représenté par une matrice X à N ligne et p colonnes.

Par exemple, on cherche à établir des projections orthogonales du nuage de points sur un plan, les plus représentatives possibles :

!

"

p

# "

2

Université Paris 13/Younès Bennani Reconnaissance des Formes 24

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa

6.0,2.2,4.0,1.0,Iris-versicolor 6.1,2.9,4.7,1.4,Iris-versicolor 5.6,2.9,3.6,1.3,Iris-versicolor 6.7,3.1,4.4,1.4,Iris-versicolor 5.6,3.0,4.5,1.5,Iris-versicolor 5.8,2.7,4.1,1.0,Iris-versicolor 6.2,2.2,4.5,1.5,Iris-versicolor

6.0,3.0,4.8,1.8,Iris-virginica 6.9,3.1,5.4,2.1,Iris-virginica 6.7,3.1,5.6,2.4,Iris-virginica 6.9,3.1,5.1,2.3,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 6.8,3.2,5.9,2.3,Iris-virginica 6.7,3.3,5.7,2.5,Iris-virginica 6.7,3.0,5.2,2.3,Iris-virginica 6.3,2.5,5.0,1.9,Iris-virginica 6.5,3.0,5.2,2.0,Iris-virginica 6.2,3.4,5.4,2.3,Iris-virginica 5.9,3.0,5.1,1.8,Iris-virginica

A C P

" 4 # " 2

-3 -2 -1 0 1 2 3

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Iris de Fisher

(13)

Université Paris 13/Younès Bennani Reconnaissance des Formes 25

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

-1.5 -1 -0.5 0 0.5 1

-1.23,-1.56,-1.75,-0.28,0.60,2.22,0.85,0.21,-0.20,0.89,1.08,4.20,2.89,7.75,4.59,3.15,5.12,3.32,1.20,0.24,-0.56,2 -0.69,2.43,0.61,2.08,2.30,3.25,5.52,4.55,2.97,2.22,2.81,1.61,1.24,1.89,1.88,-1.34,0.83,1.41,1.78,0.60,2.42,1 -0.12,-0.94,1.29,2.59,2.42,3.55,4.94,3.25,1.90,2.07,0.51,1.45,2.50,0.12,1.41,2.78,0.64,0.62,-0.01,-0.79,-0.12,0 0.86,0.29,2.19,-0.02,1.13,2.51,2.37,5.45,5.45,4.84,4.65,4.05,2.58,1.40,1.24,1.41,1.07,-1.43,2.84,-1.18,1.12,1 1.16,0.37,0.40,-0.59,2.66,1.00,2.69,4.06,5.34,3.53,4.82,4.79,4.30,1.84,1.73,0.21,-0.18,0.13,-0.21,-0.80,-0.68,1 -0.00,0.77,1.32,0.29,-1.28,0.84,1.60,1.55,2.93,4.76,5.55,4.30,4.89,2.81,2.37,3.68,-0.98,0.69,0.91,-1.80,0.39,2 0.87,1.07,-0.65,1.46,0.84,2.70,3.67,2.94,3.81,5.20,8.16,3.29,4.24,2.43,0.40,1.60,0.72,0.66,0.05,-0.24,0.67,1 -0.22,-0.91,-1.18,0.35,-1.92,-1.59,1.91,0.75,1.72,2.02,3.63,3.91,2.73,4.29,4.89,2.04,1.13,-0.66,-1.33,0.41,-0.75,2 -1.11,-1.14,-0.89,0.00,0.53,0.44,0.24,2.15,1.64,1.75,3.92,5.68,3.39,4.24,3.81,4.56,3.18,1.51,2.90,0.14,-0.12,2 -0.75,1.10,-1.90,1.43,0.47,0.40,0.86,3.51,2.62,4.50,6.83,6.94,0.75,3.23,1.08,-0.25,0.73,-0.41,-1.50,0.46,1.47,2 0.14,-1.18,1.42,2.28,3.10,3.15,3.49,4.54,1.40,3.41,3.40,2.83,0.06,0.60,3.61,2.08,-0.83,0.55,-0.55,-0.43,-1.05,0

….

1.32,-0.40,-0.69,4.17,3.66,4.00,5.24,3.88,2.17,1.82,3.65,1.01,1.82,1.13,-0.07,0.26,0.50,1.38,1.25,-1.34,0.53,0 -0.93,2.48,1.20,2.97,2.91,3.57,3.68,4.19,3.22,3.53,2.46,2.17,0.77,0.52,2.42,-0.89,0.51,-0.39,0.82,0.14,-0.63,1 -1.06,0.59,1.01,3.33,2.05,3.20,4.70,4.21,4.73,2.22,2.67,2.79,2.05,-1.53,-1.54,0.37,-0.09,1.04,-0.08,-0.27,0.47,1 1.86,0.37,-0.35,0.74,0.84,0.21,1.97,1.52,1.85,2.39,3.92,3.76,3.27,1.61,3.08,2.78,1.58,1.68,2.61,-0.91,-0.27,2 -0.51,-0.48,0.35,-1.67,0.26,2.45,-0.09,2.03,0.79,1.42,1.13,2.52,2.06,4.50,4.28,4.66,3.30,0.38,0.75,1.76,0.37,0 1.16,-1.19,-2.26,0.63,0.32,1.51,2.11,2.58,1.03,2.01,4.04,4.55,5.65,2.74,3.12,2.67,2.01,4.12,-0.81,0.07,-0.96,2 -0.09,2.30,-0.43,0.36,0.11,-1.20,1.47,2.25,3.50,2.14,6.68,5.45,2.22,2.79,2.61,1.87,0.48,1.98,1.64,1.32,0.71,2 -1.43,-0.46,-0.52,1.45,-0.00,1.35,1.39,0.81,0.03,1.39,2.55,2.42,3.07,5.46,6.29,6.50,4.60,3.77,1.62,1.01,-1.86,0

A C P

!

" 21 # " 2

Waveform de Breiman

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

!

xi=

(

x1i,xi2, ... ... ...,xip

)

!

µ= 1 N

x1k

k=1 N

"

x2k

k=1 N

"

...

...

...

xkp

k=1 N

"

#

$

%

%

%

%

%

%

%

% %

% %

&

' ( ( ( ( ( ( ( ( ( ( (

Soit de l’ensemble d’observations

(population de N individus à p caractères).

Individu

Moyenne Centre de gravité

La dispersion des valeurs d’une variable autour de sa moyenne se mesure par sa variance :

var(xj)=

[ ]

"j 2=N1 (xk j#µj)2

k=1 N

$

!

xj= x1j x2 j

...

...

...

xNj

"

#

$ $

$

$

$

$

$

%

&

' ' ' ' ' ' ' Caractère/variable

!

D={x1,x2, ...,xN}

!

"p

Écart-type Standard deviation

!

DN"p= x1

1 x1

2 ... ... x1

p

x12 x22 ... ... x2p

: : : : :

: : xi

j : :

x1N xN2 ... ... xNp

#

$

% %

%

%

%

%

&

' ( ( ( ( ( (

Population Données La valeur prise par

la variable j sur l’individu i

(14)

Université Paris 13/Younès Bennani Reconnaissance des Formes 27

Analyse en Composante Principale (ACP)

Pour étudier l’influence mutuelle entre deux variables et On introduit la covariance :

!

x

j

!

x

i

!

cov(xi,xj)= 1

N (xkii)(x

k jj)

k=1 N

#

!

r(xi,xj)=cov(xi,xj)

"i"j

Une covariance positive signifie que et ont tendance (en moyenne) à évoluer dans le même sens.

Une covariance négative signifie une évolution en sens contraire.

La corrélation de et , si aucune n’est constante, dont le Signe est celui de la covariance est définie par :

!

x

j

!

x

i

!

x

j

!

x

i

Extraction de caractéristiques

ACP centrées : ACP-C

Si les variables d’origine sont très hétérogènes du point de vue de leurs moyennes, on transforme la matrice :

!

=N1

" (

XtX

)

On défit la matrice de covariance par :!

D=

{

x1,x2, ...,xN

}

!

D=

{

x1,x2, ...,xN

}

"X=

{

x1#µ,x2#µ, ...,xN

}

p"p=

var(x1) cov(x1,x2) ... ... cov(x1,xp) cov(x2,x1) var(x2) ... ... cov(x2,xp)

: : cov(xi,xj) : :

: : : : :

cov(x1,xp) ... ... ... var(xp)

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( (

)

! est une matrice (pxp) symétrique définie positive.

(15)

Université Paris 13/Younès Bennani Reconnaissance des Formes 29

Théorème :

L’espace étant muni du produit scalaire

et de la norme associée, il existe une base orthonormée de vecteurs propres de associés aux

valeurs propres positives ordonnées en ordre décroissant

!

"p

!

v,w = viwi

i=1 p

"

!

.

!

u1,u2, ...,up

( )

!

"

!

"1#"2#...#"p

!

"p#p=

"1 0 ... ... 0

0 "2 ... ... 0

: : "i : :

: : : : :

0 ... ... ... "p

$

%

&

&

&

&

&

&

'

( ) ) ) ) ) )

!

"=U#U$1

!

p"p=

var(x1) cov(x1,x2) ... ... cov(x1,xp) cov(x2,x1) var(x2) ... ... cov(x2,xp)

: : cov(xi,xj) : :

: : : : :

cov(x1,xp) ... ... ... var(xp)

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( (

)

!

Up"p=

u1,1 u1,2 ... ... u1,p u2,1 u2,2 ... ... u2,p

: : ui,j : :

: : : : :

up,1 ... ... ... up,p

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( ( diagonalisation

Université Paris 13/Younès Bennani Reconnaissance des Formes 30

Extraction de caractéristiques

ACP-C

On appelle axes principaux d’inertie, les p vecteurs propres de . Le premier axe principal est donc le vecteur propre correspondant à la plus grande valeur propre de .

L’inertie expliquée par cet axe est .

Le sous-espace à p dimensions qui explique la plus grande inertie contient les p vecteurs propres de .

L’inertie expliquée par ce sous-espace est égale à :

L’image euclidienne du nuage de points obtenue par projection dans Un sous-espace de dim=k est appelée « image euclidienne des individus Associée à l’approximation d’ordre k des produits scalaires »

!

"

!

"

!

"

1

!

u1

!

"

1

!

u1,u2, ...,up

( )

!

"

!

"i i=1

p

# Axes principaux

perte d'inertie= "2i

i=k+1 p

#

(16)

Université Paris 13/Younès Bennani Reconnaissance des Formes 31

ACP-C

Composantes principales

Calcul des coordonnées des points sur les axes principaux : Les composantes principales sont obtenues par :

!

ck =Fk(xi)= uk,xi = uk,j xij

j=1 p

"

kème Composante principale

Facteur principal de rang k associé à xi

Les composantes principales peuvent être considérées comme de nouvelles variables, combinaisons linéaires des variables initiales, non corrélées entre elles et de variance maximale.

Extraction de caractéristiques

ACP-C

Pour interpréter la relation qui existe entre les variables initiales et

les axes factoriels, nous définissons le coefficient de corrélation suivant :

!

r(uk,xj)=

1

N Fk(xi)

(

xijj

)

i=1 N

#

$j %k N

r(uk,xj) n’est autre que le coefficient de corrélation entre les Fk(xi)

d’inertie !k et de variance

!k /N, et les xij de variance

"j.

axe1 axe2

xj r(u2,xj )

r(u1,xj )

axe1 axe2

x1 x2 x3 x7 x8

x4 x5 La 1ère composante principale est très corrélée positivement avec les variables 1, 2 et 3, anticorrélée avec les variables 4 et 5 et non corrélée avec 6,7 et 8.

Cercle des corrélations

(17)

Université Paris 13/Younès Bennani Reconnaissance des Formes 33

On suppose que les variables que les variables d’origine, non seulement hétérogènes quant à leur moyenne, mais également quant à leur dispersion et quant à leur nature (unités de mesures).

On ramène donc chaque variable à un cadre commun de comparabilité : il faut que les variables soient de variance unité et de moyenne nulle.

On transforme la matrice des données :

!

D=

{

x1,x2, ...,xN

}

!

D=

{

x1,x2, ...,xN

}

"X= x1#µ

$ , x2

$ , ...,xN

$

% &

'

( )

* Les données sont centrées et réduites.

Extraction de caractéristiques

ACP normées

On défit la matrice de correlation par :

!

Rp"p=

1 r(x1,x2) ... ... r(x1,xp)

r(x2,x1) 1 ... ... r(x2,xp)

: : r(xi,xj) : :

: : : : :

r(x1,xp) ... ... ... 1

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( (

R est une matrice (pxp) symétrique définie positive.

Elle est donc diagonalisable et de valeurs propres réelles positives ou nulles.

L’ACP normées consiste à diagonaliser R au lieu de !.

(18)

Université Paris 13/Younès Bennani Reconnaissance des Formes 35

ACP-N

L’interprétation des axes se fait par l’intermédiaire de l’étude des corrélations entre la composante principale définissant cet axe et les variables du tableau de données initial :

!

r(ck,xj)= "kukj

c1 c2

xj r(c2,xj )

r(c1,xj )

Extraction de caractéristiques

Analyse Discriminante Linéaire

Consiste à rechercher de nouvelles variables (les variables discriminantes) Correspondant à des directions de qui séparent le mieux possible en projection les k classes d’observations.

!

"p

axe1

axe2

x2

x1

(19)

Université Paris 13/Younès Bennani Reconnaissance des Formes 37

Soit de l’ensemble d’observations réparties en k classes .

Déterminer un sous-espace de optimal tel que les données Projetées sur ce sous-espace soient séparées au mieux.

Extraction de caractéristiques :

!

µi= 1 ci xj

xj"ci

#

!

D={x1,x2, ...,xN}

!

"p

!

c1,c2, ...,ck

{ }

!

"p

!

µ =

N1 ci µi

i=1 k

"

!

"i= 1

ci

(

xji

)

xj$ci

% (

xj#µi

)

t

!

"T = 1

N

(

xi

)

i=1 N

$ (

xi#µ

)

t

!

"W = 1

i=1 ci k

#

"i

!

"B= 1

ci

(

µi

)

i=1 k

$ (

µi#µ

)

t

!

"T="W+"B

Pour chaque classe on calcule : Moyenne

Matrice de covariance

Moyenne totale

Matrice de covariance totale

Matrice de covariance inter-classes Matrice de covariance intra-classes

Extraction de caractéristiques

Analyse Discriminante Linéaire

La projection de sur un sous espace de direction est donnée par :

Les matrices de covariance des projections sont :

Le but de l’analyse discriminante est de chercher une matrice telle que soit « grand » et soit « petit ».

!

" ˆ T=Ut "TU

" ˆ W =Ut "WU

" ˆ B=Ut "BU

!

xi

!

U

!

F x

( )

i =Utxi

!

U

!

F x

( )

i

!

" ˆ B

!

" ˆ W

(20)

Université Paris 13/Younès Bennani Reconnaissance des Formes 39

Analyse Discriminante Linéaire

Pour cela on peut optimiser, par exemple, les critères suivants :

!

J

1

( ) U = Tr $ % & ( ) " ˆ

W #1

" ˆ

B

' ( )

J

2

( ) U = Tr [ " ˆ

W

+ " ˆ

B

] = Tr [ ] " ˆ

T

J

3

( ) U =

" ˆ

T

" ˆ

W

J

4

( ) U = Tr

" ˆ

B

[ ]

Tr [ ] " ˆ

W

Extraction de caractéristiques

Analyse Discriminante Linéaire

Théorème :

Les k meilleures axes discriminants non corrélés sont les k vecteurs propres de relatifs aux k plus grandes valeurs propres.

La valeur propre est appelée « pouvoir discriminant » de l’axe discriminant (vecteur propre associé).

Les projections des points sur les axes discriminants sont obtenues par :!

"i

!

" ˆ W

( )

#1" ˆ B

$

% & '

( )

!

ui

Fk(xi)= uk,xi = uk,j xij

j=1 p

"

Facteur discriminant de rang k associé à x

!

xi

(21)

Université Paris 13/Younès Bennani Reconnaissance des Formes 41

Classement d’individus supplémentaires :

Affecter une classe à une observation qui n’a pas servi à l’apprentissage.

Nous décidons d’attribuer l’individu à la classe qui est telle que :

!

cj

!

yi=F(xi)

!

xi

!

d(yi,cj)=min

l=1...k$ % &

(

yi"µ ˆ l

)

t

( )

# ˆ W "1

(

yi"µ ˆ l

)

' ( )

Extraction de caractéristiques

Analyse Discriminante Linéaire et ACP

Analyse Discriminante Analyse en Composantes Principales

Références

Documents relatifs

Pour les variables d’écart, ce principe peut se formuler ainsi : le coût réduit d’une variable d’écart hors-base indique le changement dans l’objectif apporté par

• Modéliser le trafic routier c’est tenter de prédire des données quantifiées comme la vitesse des véhicules, la densité de trafic, le flux de voitures etc.. • Pour cela

On a donc φ(x,t) dt = χ(x,t) dx ou encore φ(x,t) = χ(x,t) v(x,t) Comme le flux et la vitesse peuvent s’obtenir par comptage, par exemple grâce à des câbles posés au sol, cette

On considère une expérience aléatoire et on notera Ω l’univers des possibles (supposé fini)I. Indicateurs d’une combinaison linéaire de variables

Ces mesures d’association sont utilisées pour construire des algorithmes de sélection de variables hétérogènes, dans le cadre d’un.. problème de discrimination ou de

Dans la section 2, nous introduisons brièvement les modèles loglinéaires pour variables qualitatives ; une attention spéciale est portée sur les modèles graphiques qui

Pour engendrer un tableau de réponse en (0,1), nous reprenons, en termes généraux, ce qui a été fait au §2. En fait, l'analyse portera exclusivement sur le tableau de BURT, qui

Mots clés : Modèle de régression linéaire, sélection bayésienne de variables, loi a priori de Zellner, lois a priori compatibles, modèles hiérarchiques, échantillonneur de