des Formes

(1)

Université Paris 13/Younès Bennani Reconnaissance des Formes 1

des Formes

5

Younès BENNANI

(2)

caractéristiques

Système

X= x₁ x2

x3

x4

!

"

#

# #

$

%

&

x1

x3

!

"

#

# #

$

%

&

X X

Système

X= x1

x2

x3

x₄

!

"

#

# #

$

%

&

!

ƒ1( )xi i=1...4

ƒ2( )xi i=1...4

"

#

$

$ $

%

&

' ' '

Sélection

Extraction

Sélection de variables

«!Feature selection!»

Classificateur

X= x₁ x2

x3

x4

!

"

#

# #

$

%

&

xx x

x x

x x x x

x oo

o

o oo o

o o

Classificateur

xx x x x

x x x x

x o

o o o ooo

o o

Sélection de variables

X= x₁ x2

x3

x4

!

"

#

# #

$

%

&

x1

x3

!

"

#

# #

$

%

&

X X

(3)

«!Feature selection!»

Régression

X= x1

x2

x3

x4

!

"

#

# #

$

%

&

Régression

Sélection de variables

X= x1

x2

x3

x4

!

"

#

# #

$

%

&

x1

x3

!

"

#

# #

$

%

&

X X

Sélection de variables

CAKMAKOV D. & BENNANI Y. (2002)

“Feature Selection for Pattern Recognition", ISBN 9989-943-02-8, Editions Informa.

BENNANI Y. (2001)

“Systèmes d’Apprentissage Connexionnistes", Numéro spécial de la“Revue d’Intelligence Artificielle”, 15(3)!:4/2001, Editions Hermès.

(4)

Définition :

La sélection de variables est un procédé permettant de choisir un sous-ensemble optimal de variables pertinentes, à partir d'un ensemble de variables, selon un certain critère de performance.

A partir de cette définition, on peut se poser trois questions essentielles :

Q1 : Comment mesurer la pertinence des variables ?

Q2 : Comment former le sous-ensemble optimal ?

Q3 : Quel critère d'optimalité utiliser ?

Sélection de variables

La réponse à

Q1 consiste à trouver une mesure de

pertinence ou un

critère d'évaluation permettant de

quantifier l'importance d'une variable ou d'un ensemble de variables .

Q2 évoque le problème du choix de la procédure de recherche ou de constitution du sous-ensemble optimal

des variables pertinentes.

Q3 demande la définition d'un critère d'arrêt de la

recherche. (généralement déterminé à travers une combinaison particulière entre la mesure de pertinence et la procédure de recherche)

J ( X)

(5)

Critère d'évaluation

Dans le cas d’un problème de

classement, on teste, par

exemple, la

qualité de discrimination du système en

présence ou en absence d’une variable.

Par contre, pour un problème de régression, on teste plutôt la qualité de prédiction par rapport aux autres variables.

Définition [Bennani, 2001] :

Une variable pertinente est une variable telle que sa suppression entraîne une détérioration des performances (pouvoir de discrimination en classement ou la qualité de prédiction en régression) du système d'apprentissage.

Sélection de variables

Procédure de recherche

On ne connaît pas le nombre optimal de variables à sélectionner.

dépendra de la taille et de la qualité de la base d’apprentissage (la quantité et la qualité d’information disponible) et de la règle de décision utilisée (le modèle).

Pour un ensemble de variables il existe combinaisons de variables possibles.

(où 2 représente deux choix : sélectionner ou ne pas sélectionner une variable).

La recherche d'un sous-ensemble de variables parmi engendre un nombre de combinaison égal à :

m

n 2

ⁿ

! 1

n m

!

"

# $

% = n!

(n & m)! m!

m ⁿ

m

(6)

Une alternative consiste à utiliser une méthode de recherche de type Branch & Bound.

Cette méthode de recherche permet de restreindre la recherche et donne le sous-ensemble optimal de variables, sous l'hypothèse de monotocité du critère de sélection .

Le critère est dit monotone si :

où est l'ensemble contenant k variables sélectionnées.

X

₁

! X

₂

! K ! X

_m

" J X ( )

₁

^# ^{J X} ( )

2

^# K # J X ( )

_m

J (X)

X

_k

Sélection de variables

Problème :

la plupart des critères d'évaluation

ne sont pas monotones

recours à des méthodes sous-optimales :

- Sequential Forward Selection (SFS)

- Sequential Backward Selection (SBS)

- Bidirectional Selection (BS)

(7)

Sequential Forward Selection (SFS)

Soit l’ensemble des variables,

Au départ l'ensemble des variables sélectionnées est vide.

à chaque étape k :

- on sélectionne la variable qui optimise le critère d'évaluation

X

x

_i

J X ( )

_k

J X ( )

_k

⁼

_x

^max

i!

(

X"X_k_"1

) J X (

_k_"1

# { } x

_i

)

liste ordonnée des variables selon leur importance

Sélection de variables

Sequential Backward Selection (SBS)

On part de l'ensemble complet des variables et on procède par élimination :

à chaque étape :

- la variable la moins importante selon le critère d'évaluation est éliminée

X

x

_i

J X ( )

_k

liste ordonnée des variables selon leur importance : Les variables les plus pertinentes sont alors les variables qui se trouvent dans les dernières positions de la liste.

J X ( )

_k

⁼ ^max

xi!Xk+1

J X (

_k₊₁

" { } x

_i

)

(8)

Bidirectional Selection (BS)

La procédure BS effectue sa recherche dans les deux directions (Forward et Backward) d'une manière concurrentielle.

La procédure s'arrête dans deux cas :

(1) quand une des deux directions a trouvé le meilleur sous- ensemble de variables avant d'atteindre le milieu de l'espace de recherche

(2) quand les deux directions arrivent au milieu.

Il est clair que les ensembles de variables sélectionnées trouvés respectivement par SFS et par SBS ne sont pas égaux à cause de leurs différents principes de sélection.

cette méthode réduit le temps de recherche puisque la recherche s'effectue dans les deux directions et s'arrête dès qu'il y a une solution quelle que soit la direction.

Sélection de variables

x

{ }

x

₁

{ }

x

₃

{ }

x

₄

{ }

x

₂

{ } { }

Backward selection

Forward selection

(9)

Critères d'arrêt

Le nombre optimal de variables n’est pas connu a priori, l’utilisation d’une règle pour contrôler la sélection-élimination de variables permet d’arrêter la recherche lorsque aucune variable n’est plus suffisamment informative.

Le critère d'arrêt est souvent défini comme une combinaison de la procédure de recherche et du critère d'évaluation.

Une heuristique, souvent utilisée, consiste à calculer pour les différents sous-ensembles de variables sélectionnées une estimation de l’erreur de généralisation par validation croisée.

Le sous-ensemble de variables sélectionnées est celui qui minimise cette erreur de généralisation.

Sélection de variables

Régression linéaire

ƒ

_p

(x) = a

_i

.x

_i

i=1 p

!

D = { ( x

¹

, y

¹

) ^, ( ^x

²

^, ^y

²

) ^, ^K ^, ( ^x

^k

^, ^y

^k

) ^, ^K ^, ( ^x

^N

^,y

^N

) }

S

_p

=

_N_!¹_p_!2

y

^k

! ƒ

p

( x

^k

)

²

k=1 N

"

Régression linéaire avec p variables :

Mesures d ’évaluation :

C

_p

=

_!¹²

y

^k

" ƒ

_p

(x

^k

)

²

k=1 N

# ⁺ ² ^p ^" ^N

y ! ƒ

_p

( x)

Hocking R.R. (1976)

« The analysis and selection of variables in linear regression » Biometrics 32:1-49

Mallows L.C. (1973)

« Some comments on Cp » Technometrics 15:661-675

(10)

Classement

!

B

_p

=

i=1 c

! ⁽ ^µ ^" ^µ

ⁱ

⁾ ⁽ ^µ ^" ^µ

ⁱ

⁾

^t

Matrice de covariance inter-classes :

Sélection de variables

Classement

MI( a, b) = P(a,b)log P(a, b) P(a) P(b)

!

"

# $

a,b

%

&

Mesure d ’information (information mutuelle) :

Où a et b sont 2 variables discrètes avec des densités de probabilité P(a) et P(b)

MI(a,b) = mesure la réduction de l’incertitude sur b lorsque a est connu.

a et b sont statistiquement indépendants P(a,b)=P(a).P(b) MI(a,b)=0

Plus a et b sont dépendants plus MI(a,b) augmente.

Densité jointe

(11)

MI x (

_p

, X

_p!1

) ⁼ ^{MI x} (

^p

^, ^x

^j

)

x_j

#

"X_p!1 Battiti R. (1994)

« Using mutual information for selecting features in supervised neural net learning » IEEE Trans. On Neural Networks, 5(4):537-550.

La variable à sélectionner doit donner le plus d ’information possible mais ne doit pas être redondante par rapport à celle déjà sélectionnées.

Trouver la variable la plus informative par rapport à y et la moins corrélée par rapport aux autres revient à maximiser :

MI x (

_p

, y ) ^! ^" ^{MI x} (

^p

^,X

^p!1

)

0.5<ß<1

Sélection de variables

Exemple : Iris de Fisher

- Number of Instances: 150 (50 in each of three classes)

- Number of Attributes: 4 numeric, predictive attributes and the class - Attribute Information:

1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class:

-- Iris Setosa -- Iris Versicolour -- Iris Virginica

Features selection:

(1 0 0 1) : (sepal length, petal width) => 93%

(1 0 1 0) : (sepal length, petal length) => 93%

(1 1 0 0) : (sepal length, sepal width) => 60%

-3 -2 -1 0 1 2 3

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Projection ACP

(12)

Analyse en Composante Principale (ACP)

Proposée par HOTELLING en 1933.

- La plus ancienne des méthodes de l’analyse des données.

- Technique puissante pour explorer la structure des données.

Principe :

obtenir une représentation approchée du nuage des N individus dans un sous-espace de faible dimension.

résumer au mieux un tableau de données représenté par une matrice X à N ligne et p colonnes.

Par exemple, on cherche à établir des projections orthogonales du nuage de points sur un plan, les plus représentatives possibles :

!

"

^p

# "

²

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa

…

6.0,2.2,4.0,1.0,Iris-versicolor 6.1,2.9,4.7,1.4,Iris-versicolor 5.6,2.9,3.6,1.3,Iris-versicolor 6.7,3.1,4.4,1.4,Iris-versicolor 5.6,3.0,4.5,1.5,Iris-versicolor 5.8,2.7,4.1,1.0,Iris-versicolor 6.2,2.2,4.5,1.5,Iris-versicolor

…

6.0,3.0,4.8,1.8,Iris-virginica 6.9,3.1,5.4,2.1,Iris-virginica 6.7,3.1,5.6,2.4,Iris-virginica 6.9,3.1,5.1,2.3,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 6.8,3.2,5.9,2.3,Iris-virginica 6.7,3.3,5.7,2.5,Iris-virginica 6.7,3.0,5.2,2.3,Iris-virginica 6.3,2.5,5.0,1.9,Iris-virginica 6.5,3.0,5.2,2.0,Iris-virginica 6.2,3.4,5.4,2.3,Iris-virginica 5.9,3.0,5.1,1.8,Iris-virginica

A C P

" ⁴ # " ²

-3 -2 -1 0 1 2 3

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Iris de Fisher

(13)

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

-1.5 -1 -0.5 0 0.5 1

-1.23,-1.56,-1.75,-0.28,0.60,2.22,0.85,0.21,-0.20,0.89,1.08,4.20,2.89,7.75,4.59,3.15,5.12,3.32,1.20,0.24,-0.56,2 -0.69,2.43,0.61,2.08,2.30,3.25,5.52,4.55,2.97,2.22,2.81,1.61,1.24,1.89,1.88,-1.34,0.83,1.41,1.78,0.60,2.42,1 -0.12,-0.94,1.29,2.59,2.42,3.55,4.94,3.25,1.90,2.07,0.51,1.45,2.50,0.12,1.41,2.78,0.64,0.62,-0.01,-0.79,-0.12,0 0.86,0.29,2.19,-0.02,1.13,2.51,2.37,5.45,5.45,4.84,4.65,4.05,2.58,1.40,1.24,1.41,1.07,-1.43,2.84,-1.18,1.12,1 1.16,0.37,0.40,-0.59,2.66,1.00,2.69,4.06,5.34,3.53,4.82,4.79,4.30,1.84,1.73,0.21,-0.18,0.13,-0.21,-0.80,-0.68,1 -0.00,0.77,1.32,0.29,-1.28,0.84,1.60,1.55,2.93,4.76,5.55,4.30,4.89,2.81,2.37,3.68,-0.98,0.69,0.91,-1.80,0.39,2 0.87,1.07,-0.65,1.46,0.84,2.70,3.67,2.94,3.81,5.20,8.16,3.29,4.24,2.43,0.40,1.60,0.72,0.66,0.05,-0.24,0.67,1 -0.22,-0.91,-1.18,0.35,-1.92,-1.59,1.91,0.75,1.72,2.02,3.63,3.91,2.73,4.29,4.89,2.04,1.13,-0.66,-1.33,0.41,-0.75,2 -1.11,-1.14,-0.89,0.00,0.53,0.44,0.24,2.15,1.64,1.75,3.92,5.68,3.39,4.24,3.81,4.56,3.18,1.51,2.90,0.14,-0.12,2 -0.75,1.10,-1.90,1.43,0.47,0.40,0.86,3.51,2.62,4.50,6.83,6.94,0.75,3.23,1.08,-0.25,0.73,-0.41,-1.50,0.46,1.47,2 0.14,-1.18,1.42,2.28,3.10,3.15,3.49,4.54,1.40,3.41,3.40,2.83,0.06,0.60,3.61,2.08,-0.83,0.55,-0.55,-0.43,-1.05,0

….

1.32,-0.40,-0.69,4.17,3.66,4.00,5.24,3.88,2.17,1.82,3.65,1.01,1.82,1.13,-0.07,0.26,0.50,1.38,1.25,-1.34,0.53,0 -0.93,2.48,1.20,2.97,2.91,3.57,3.68,4.19,3.22,3.53,2.46,2.17,0.77,0.52,2.42,-0.89,0.51,-0.39,0.82,0.14,-0.63,1 -1.06,0.59,1.01,3.33,2.05,3.20,4.70,4.21,4.73,2.22,2.67,2.79,2.05,-1.53,-1.54,0.37,-0.09,1.04,-0.08,-0.27,0.47,1 1.86,0.37,-0.35,0.74,0.84,0.21,1.97,1.52,1.85,2.39,3.92,3.76,3.27,1.61,3.08,2.78,1.58,1.68,2.61,-0.91,-0.27,2 -0.51,-0.48,0.35,-1.67,0.26,2.45,-0.09,2.03,0.79,1.42,1.13,2.52,2.06,4.50,4.28,4.66,3.30,0.38,0.75,1.76,0.37,0 1.16,-1.19,-2.26,0.63,0.32,1.51,2.11,2.58,1.03,2.01,4.04,4.55,5.65,2.74,3.12,2.67,2.01,4.12,-0.81,0.07,-0.96,2 -0.09,2.30,-0.43,0.36,0.11,-1.20,1.47,2.25,3.50,2.14,6.68,5.45,2.22,2.79,2.61,1.87,0.48,1.98,1.64,1.32,0.71,2 -1.43,-0.46,-0.52,1.45,-0.00,1.35,1.39,0.81,0.03,1.39,2.55,2.42,3.07,5.46,6.29,6.50,4.60,3.77,1.62,1.01,-1.86,0

A C P

!

" ²¹ # " ²

Waveform de Breiman

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

!

x_i=

(

x¹_i,x_i², ... ... ...,x_i^p

)

!

µ= 1 N

x¹_k

k=1 N

"

x²_k

k=1 N

"

...

x_k^p

k=1 N

"

#

$

%

% %

&

' ( ( ( ( ( ( ( ( ( ( (

Soit de l’ensemble d’observations

(population de N individus à p caractères).

Individu

Moyenne Centre de gravité

La dispersion des valeurs d’une variable autour de sa moyenne se mesure par sa variance :

var(x^j)=

[ ]

"^j ²⁼_N¹ ^(xk j#µ^j)²

k=1 N

$

!

x^j= x₁^j x2 j

...

x_N^j

"

#

$ $

$

%

&

' ' ' ' ' ' ' Caractère/variable

!

D={x₁,x₂, ...,x_N}

!

"^p

Écart-type Standard deviation

!

D_N"p= x1

1 x1

2 ... ... x1

p

x¹₂ x₂² ... ... x₂^p

: : : : :

: : xi

j : :

x¹_N x_N² ... ... x_N^p

#

$

% %

%

&

' ( ( ( ( ( (

Population Données La valeur prise par

la variable j sur l’individu i

(14)

Analyse en Composante Principale (ACP)

Pour étudier l’influence mutuelle entre deux variables et On introduit la covariance :

!

x

^j

!

x

ⁱ

!

cov(xⁱ,x^j)= 1

N (x_kⁱ"µⁱ)(x

k j"µ^j)

k=1 N

#

!

r(xⁱ,x^j)=cov(xⁱ,x^j)

"ⁱ"^j

Une covariance positive signifie que et ont tendance (en moyenne) à évoluer dans le même sens.

Une covariance négative signifie une évolution en sens contraire.

La corrélation de et , si aucune n’est constante, dont le Signe est celui de la covariance est définie par :

!

x

^j

!

x

ⁱ

!

x

^j

!

x

ⁱ

Extraction de caractéristiques

ACP centrées : ACP-C

Si les variables d’origine sont très hétérogènes du point de vue de leurs moyennes, on transforme la matrice :

!

=_N¹

" (

^X^t^X

)

On défit la matrice de covariance par :!

D=

{

x₁,x₂, ...,x_N

}

!

D=

{

x₁,x₂, ...,x_N

}

^"^X⁼

{

^x1#µ,x₂#µ, ...,x_N#µ

}

p"p=

var(x¹) cov(x¹,x²) ... ... cov(x¹,x^p) cov(x²,x¹) var(x²) ... ... cov(x²,x^p)

: : cov(xⁱ,x^j) : :

: : : : :

cov(x¹,x^p) ... ... ... var(x^p)

#

$

%

&

' ( ( ( ( ( (

)

! est une matrice (pxp) symétrique définie positive.

(15)

Théorème :

L’espace étant muni du produit scalaire

et de la norme associée, il existe une base orthonormée de vecteurs propres de associés aux

valeurs propres positives ordonnées en ordre décroissant

!

"^p

!

v,w = v_iw_i

i=1 p

"

!

.

!

u₁,u₂, ...,u_p

( )

!

"

!

"₁#"₂#...#"_p

!

"p#p=

"1 0 ... ... 0

0 "2 ... ... 0

: : "i : :

: : : : :

0 ... ... ... "p

$

%

&

'

( ) ) ) ) ) )

!

"=U#U^$1

!

p"p=

var(x¹) cov(x¹,x²) ... ... cov(x¹,x^p) cov(x²,x¹) var(x²) ... ... cov(x²,x^p)

: : cov(xⁱ,x^j) : :

: : : : :

cov(x¹,x^p) ... ... ... var(x^p)

#

$

%

&

' ( ( ( ( ( (

)

!

U_p"p=

u_1,1 u_1,2 ... ... u_1,p u_2,1 u_2,2 ... ... u_2,p

: : u_i,j : :

: : : : :

u_p,1 ... ... ... u_p,p

#

$

%

&

' ( ( ( ( ( ( diagonalisation

Extraction de caractéristiques

ACP-C

On appelle axes principaux d’inertie, les p vecteurs propres de . Le premier axe principal est donc le vecteur propre correspondant à la plus grande valeur propre de .

L’inertie expliquée par cet axe est .

Le sous-espace à p dimensions qui explique la plus grande inertie contient les p vecteurs propres de .

L’inertie expliquée par ce sous-espace est égale à :

L’image euclidienne du nuage de points obtenue par projection dans Un sous-espace de dim=k est appelée « image euclidienne des individus Associée à l’approximation d’ordre k des produits scalaires »

!

"

!

"

!

"

₁

!

u₁

!

"

1

!

u₁,u₂, ...,u_p

( )

!

"

!

"i i=1

p

# Axes principaux

perte d'inertie= "²_i

i=k+1 p

#

(16)

ACP-C

Composantes principales

Calcul des coordonnées des points sur les axes principaux : Les composantes principales sont obtenues par :

!

c^k =F_k(x_i)= u_k,x_i = u_k,_j x_i^j

j=1 p

"

k^ème Composante principale

Facteur principal de rang k associé à x_i

Les composantes principales peuvent être considérées comme de nouvelles variables, combinaisons linéaires des variables initiales, non corrélées entre elles et de variance maximale.

Extraction de caractéristiques

ACP-C

Pour interpréter la relation qui existe entre les variables initiales et

les axes factoriels, nous définissons le coefficient de corrélation suivant :

!

r(u_k,x^j)=

1

N F_k(x_i)

(

x_i^j"µj

)

i=1 N

#

$_j %_k N

r(u_k,x^j) n’est autre que le coefficient de corrélation entre les F_k(x_i)

d’inertie !_k et de variance

!_k /N, et les x_i^j de variance

"j.

axe₁ axe₂

x^j r(u₂,x^j )

r(u₁,x^j )

axe₁ axe₂

x¹ x² x³ x⁷ x⁸

x⁴ x⁵ La 1^ère composante principale est très corrélée positivement avec les variables 1, 2 et 3, anticorrélée avec les variables 4 et 5 et non corrélée avec 6,7 et 8.

Cercle des corrélations

(17)

On suppose que les variables que les variables d’origine, non seulement hétérogènes quant à leur moyenne, mais également quant à leur dispersion et quant à leur nature (unités de mesures).

On ramène donc chaque variable à un cadre commun de comparabilité : il faut que les variables soient de variance unité et de moyenne nulle.

On transforme la matrice des données :

!

D=

{

x₁,x₂, ...,x_N

}

!

D=

{

x₁,x₂, ...,x_N

}

^"^X⁼ ^x¹^#^µ

$ , x₂#µ

$ , ...,x_N #µ

$

% &

'

( )

* Les données sont centrées et réduites.

Extraction de caractéristiques

ACP normées

On défit la matrice de correlation par :

!

R_p"p=

1 r(x¹,x²) ... ... r(x¹,x^p)

r(x²,x¹) 1 ... ... r(x²,x^p)

: : r(xⁱ,x^j) : :

: : : : :

r(x¹,x^p) ... ... ... 1

#

$

%

&

' ( ( ( ( ( (

R est une matrice (pxp) symétrique définie positive.

Elle est donc diagonalisable et de valeurs propres réelles positives ou nulles.

L’ACP normées consiste à diagonaliser R au lieu de !.

(18)

!

D={x₁,x₂, ...,x_N}

!

"^p

!

c1,c2, ...,ck

{ }

)

xj$ci

% (

^x^j^#^µⁱ

)

^t

!

"_T = 1

N

(

x_i#µ

)

i=1 N

$ ⁽

^xⁱ^#^µ

⁾

^t

!

"W = ¹

i=1 ci k

#

^"ⁱ

!

"_B= ¹

ci

(

µ_i#µ

)

i=1 k

$ (

^µⁱ^#^µ

)

^t

!

"T="W+"B

Pour chaque classe on calcule : Moyenne

Matrice de covariance

Moyenne totale

Matrice de covariance totale

Matrice de covariance inter-classes Matrice de covariance intra-classes

Extraction de caractéristiques

Analyse Discriminante Linéaire

La projection de sur un sous espace de direction est donnée par :

Les matrices de covariance des projections sont :

Le but de l’analyse discriminante est de chercher une matrice telle que soit « grand » et soit « petit ».

!

" ˆ _T=U^t "_TU

" ˆ _W =U^t "_WU

" ˆ _B=U^t "_BU

!

x_i

!

U

!

F x

( )

_i ⁼^U^t^xi

!

U

!

F x

( )

_i

!

" ˆ B

!

" ˆ W

(20)

Analyse Discriminante Linéaire

Pour cela on peut optimiser, par exemple, les critères suivants :

!

J

₁

( ) U ⁼ ^Tr ^$ _% & ( ) ^" ^ˆ

^W ^#1

^" ^ˆ

^B

' ( )

J

₂

( ) U ⁼ ^Tr [ ^" ^ˆ

^W

⁺ ^" ^ˆ

^B

] ⁼ ^Tr [ ] ^" ^ˆ

!

cj

!

y_i=F(x_i)

!

xi

!

d(y_i,c_j)=min

l=1...k^$% &

(

y_i"µ ˆ l

)

^t

( )

^#^ˆW ^"1

⁽

^yⁱ^"^µ^ˆ^l

⁾

' ( )

Extraction de caractéristiques

Analyse Discriminante Linéaire et ACP

Analyse Discriminante Analyse en Composantes Principales

des Formes

des Formes

5

caractéristiques

Système

Système

Sélection de variables

«!Feature selection!»

Classificateur

Classificateur

«!Feature selection!»

Régression

Régression

Sélection de variables

Sélection de variables

La réponse à

pertinence ou un

quantifier l'importance d'une variable ou d'un ensemble de variables .

des variables pertinentes.

recherche. (généralement déterminé à travers une combinaison particulière entre la mesure de pertinence et la procédure de recherche)

J ( X)

Dans le cas d’un problème de

exemple, la

présence ou en absence d’une variable.

Par contre, pour un problème de régression, on teste plutôt la qualité de prédiction par rapport aux autres variables.

Sélection de variables

On ne connaît pas le nombre optimal de variables à sélectionner.

dépendra de la taille et de la qualité de la base d’apprentissage (la quantité et la qualité d’information disponible) et de la règle de décision utilisée (le modèle).

Pour un ensemble de variables il existe combinaisons de variables possibles.

La recherche d'un sous-ensemble de variables parmi engendre un nombre de combinaison égal à :

m

n 2

! 1

n m

!

"

# $

% = n!

(n & m)! m!

m n

m

Une alternative consiste à utiliser une méthode de recherche de type Branch & Bound.

Cette méthode de recherche permet de restreindre la recherche et donne le sous-ensemble optimal de variables, sous l'hypothèse de monotocité du critère de sélection .

Le critère est dit monotone si :

où est l'ensemble contenant k variables sélectionnées.

X

! X

! K ! X

" J X ( )

# J X ( )

# K # J X ( )

J (X)

X

Sélection de variables

Problème :

la plupart des critères d'évaluation

recours à des méthodes sous-optimales :

- Sequential Forward Selection (SFS)

- Sequential Backward Selection (SBS)

- Bidirectional Selection (BS)

X

x

J X ( )

J X ( )

=

max

(

) J X (

# { } x

)

Sélection de variables

X

x

J X ( )

J X ( )

= max

J X (

" { } x

)

Sélection de variables

m ⁿ

^# ^{J X} ( )

^# K # J X ( )

⁼

^max

⁼ ^max

) ^, ( ^x

^, ^y

) ^, ^K ^, ( ^x

^, ^y

) ^, ^K ^, ( ^x

^,y