Reconnaissance Statistique des Formes

(1)

Université Paris 13/Younès Bennani Reconnaissance des Formes 1

Reconnaissance Statistique des Formes

7

Younès BENNANI

Réduction des dimensions

(2)

Nombre d'individus Classification

Sélection Pondération

Nombre de descripteurs Extraction

Sélection Pondération

Réduction des dimensions : deux problèmes duaux

Descripteurs Descripteurs

IndividusIndividus

Pourquoi la réduction des dimensions ?

Diff

Diffé érents rents objectifs objectifs Visualiser

comprendre la problématique

Expliquer

identifier les facteurs pertinents

Stocker

réduire l'espace nécessaire

Utiliser

réduire les temps de traitement

(3)

Sélection vs Extraction

Système

X= x1

x₂ x3

x4

!

"

#

# #

$

%

&

x₁ x3

!

"

#

# #

$

%

&

X X

Système

X= x₁ x2

x3

x4

!

"

#

# #

$

%

&

!

ƒ1( )xi i=1...4

ƒ2( )x_i i=1...4

"

#

$

%

&

' ' '

Sélection

Extraction

Sélection de variables

«!Feature selection!»

Classificateur

X= x1

x2

x3

x₄

!

"

#

# #

$

%

&

xx x

x x

x x x x

x oo

o

o oo o

o o

Classificateur

xx x x x

x x x x

x o

o o o ooo

o o

Sélection de variables

X= x1

x2

x3

x₄

!

"

#

# #

$

%

&

x1

x₃

!

"

#

# #

$

%

&

X X

(4)

Régression

X= x₁ x2

x3

x4

!

"

#

# #

$

%

&

Régression

Sélection de variables

X= x₁ x2

x3

x4

!

"

#

# #

$

%

&

x1

x3

!

"

#

# #

$

%

&

X X

«!Feature selection!»

Sélection de variables

CAKMAKOV D. & BENNANI Y. (2002)

“Feature Selection for Pattern Recognition", ISBN 9989-943-02-8, Editions Informa.

BENNANI Y. (2001)

“Systèmes d’Apprentissage Connexionnistes", Numéro spécial de la“Revue d’Intelligence Artificielle”, 15(3)!:4/2001, Editions Hermès.

(5)

Définition :

La sélection de variables est un procédé permettant de choisir un sous-ensemble optimal de variables pertinentes, à partir d'un ensemble de variables, selon un certain critère de performance.

A partir de cette définition, on peut se poser trois questions essentielles :

Q1 : Comment mesurer la pertinence des variables ?

Q2 : Comment former le sous-ensemble optimal ?

Q3 : Quel critère d'optimalité utiliser ?

Sélection de variables

La réponse à

Q1 consiste à trouver une mesure de

pertinence ou un

critère d'évaluation permettant de

quantifier l'importance d'une variable ou d'un ensemble de variables .

Q2 évoque le problème du choix de la procédure de recherche ou de constitution du sous-ensemble optimal

des variables pertinentes.

Q3 demande la définition d'un critère d'arrêt de la

recherche. (généralement déterminé à travers une combinaison particulière entre la mesure de pertinence et la procédure de recherche)

J (X )

(6)

Critère d'évaluation

Dans le cas d’un problème de

classement, on teste, par

exemple, la

qualité de discrimination du système en

présence ou en absence d’une variable.

Par contre, pour un problème de régression, on teste plutôt la qualité de prédiction par rapport aux autres variables.

Définition [Bennani, 2001] :

Une variable pertinente est une variable telle que sa suppression entraîne une détérioration des performances (pouvoir de discrimination en classement ou la qualité de prédiction en régression) du système d'apprentissage.

Sélection de variables

Procédure de recherche

On ne connaît pas le nombre optimal de variables à sélectionner.

dépendra de la taille et de la qualité de la base d’apprentissage (la quantité et la qualité d’information disponible) et de la règle de décision utilisée (le modèle).

Pour un ensemble de variables il existe combinaisons de variables possibles.

(où 2 représente deux choix : sélectionner ou ne pas sélectionner une variable).

La recherche d'un sous-ensemble de variables parmi engendre un nombre de combinaison égal à :

m

n 2

ⁿ

! 1

n m

!

"

# $

% = n!

(n & m)! m!

m n

m

(7)

Une alternative consiste à utiliser une

méthode de recherche de

type Branch & Bound.

Cette méthode de recherche permet de restreindre la recherche et donne le sous-ensemble optimal de variables, sous l'hypothèse de monotocité du critère de sélection .

Le critère est dit monotone si :

où est l'ensemble contenant k variables sélectionnées.

X

₁

! X

₂

! K ! X

_m

" J X ( )

₁

^# ^{J X} ( )

2

^# K # J X ( )

_m

J(X)

X

_k

Sélection de variables

Problème :

la plupart des critères d'évaluation

ne sont pas monotones

recours à des méthodes sous-optimales :

- Sequential Forward Selection (SFS)

- Sequential Backward Selection (SBS)

- Bidirectional Selection (BS)

(8)

Sequential Forward Selection (SFS)

Soit l’ensemble des variables,

Au départ l'ensemble des variables sélectionnées est vide.

à chaque étape k :

- on sélectionne la variable qui optimise le critère d'évaluation

X

x

_i

J X ( )

_k

J X ( )

_k

⁼

_x

^max

i!

(

X"X_k_"1

) J X (

_k"₁

# { } x

_i

)

liste ordonnée des variables selon leur importance

Sélection de variables

Sequential Backward Selection (SBS)

On part de l'ensemble complet des variables et on procède par élimination :

à chaque étape :

- la variable la moins importante selon le critère d'évaluation est éliminée

X

x

_i

J X ( )

_k

liste ordonnée des variables selon leur importance : Les variables les plus pertinentes sont alors les variables qui se trouvent dans les dernières positions de la liste.

J X ( )

_k

⁼ ^max

xi!Xk+1

J X (

_k₊₁

" { } x

_i

)

(9)

Bidirectional Selection (BS)

La procédure BS effectue sa recherche dans les deux directions (Forward et Backward) d'une manière concurrentielle.

La procédure s'arrête dans deux cas :

(1) quand une des deux directions a trouvé le meilleur sous- ensemble de variables avant d'atteindre le milieu de l'espace de recherche

(2) quand les deux directions arrivent au milieu.

Il est clair que les ensembles de variables sélectionnées trouvés respectivement par SFS et par SBS ne sont pas égaux à cause de leurs différents principes de sélection.

cette méthode réduit le temps de recherche puisque la recherche s'effectue dans les deux directions et s'arrête dès qu'il y a une solution quelle que soit la direction.

Sélection de variables

x

₁

, x

₂

, x

₃

, x

₄

{ }

x

₁

, x

₂

, x

₃

{ }

x

₁

, x

₃

, x

₄

{ }

x

₂

, x

₃

, x

₄

{ }

x

₁

, x

₂

, x

₄

{ }

x

₁

, x

₂

{ }

x

₁

, x

₄

{ }

x

₂

, x

₃

{ }

x

₁

, x

₃

{ }

x

₂

, x

₄

{ }

x

₃

, x

₄

{ }

x

₁

{ }

x

₃

{ }

x

₄

{ }

x

₂

{ } { }

Backward selection

Forward selection

(10)

Critères d'arrêt

Le nombre optimal de variables n’est pas connu a priori, l’utilisation d’une règle pour contrôler la sélection-élimination de variables permet d’arrêter la recherche lorsque aucune variable n’est plus suffisamment informative.

Le critère d'arrêt est souvent défini comme une combinaison de la procédure de recherche et du critère d'évaluation.

Une heuristique, souvent utilisée, consiste à calculer pour les différents sous-ensembles de variables sélectionnées une estimation de l’erreur de généralisation par validation croisée.

Le sous-ensemble de variables sélectionnées est celui qui minimise cette erreur de généralisation.

Sélection de variables

Régression linéaire

ƒ

p

(x ) = a

_i

.x

_i

i=1 p

!

D = { ( x

¹

, y

¹

) ^, ( ^x

²

^, ^y

²

) ^, ^K ^, ( ^x

^k

^, ^y

^k

) ^, ^K ^, ( ^x

^N

^,y

^N

) }

S

_p

=

_N_!¹_p_!2

y

^k

! ƒ

_p

(x

^k

)

²

k=1 N

"

Régression linéaire avec p variables :

Mesures d ’évaluation :

C

_p

=

_!¹²

y

^k

" ƒ

_p

( x

^k

)

²

k=1 N

# ⁺ ² ^p ^" ^N

y ! ƒ

_p

( x)

Hocking R.R. (1976)

« The analysis and selection of variables in linear regression » Biometrics 32:1-49

Mallows L.C. (1973)

« Some comments on Cp » Technometrics 15:661-675

(11)

Classement

!

_Wilks

( X

_p

) = W

_p

W

_p

+ B

_p

Mesure de séparation des classes :

Matrice de covariance intra-classes :

W

_p

=

i=1 c

!

_Ni¹

( ^x

^k

^" ^µ

ⁱ

) ( ^x

^k

^" ^µ

ⁱ

)

^t

x^k#Ci

N_i

!

B

_p

=

i=1 c

! ⁽ ^µ ^" ^µ

ⁱ

⁾ ⁽ ^µ ^" ^µ

ⁱ

⁾

^t

Matrice de covariance inter-classes :

Sélection de variables

Classement

MI( a, b) = P (a, b)log P (a, b) P(a) P(b )

!

"

# $

a,b

%

&

Mesure d ’information (information mutuelle) :

Où a et b sont 2 variables discrètes avec des densités de probabilité P(a) et P(b)

MI(a,b) = mesure la réduction de l’incertitude sur b lorsque a est connu.

a et b sont statistiquement indépendants P(a,b)=P(a).P(b) MI(a,b)=0

Plus a et b sont dépendants plus MI(a,b) augmente.

Densité jointe

(12)

Classement

MI x (

_p

, X

_p!1

) ⁼ ^{MI x} (

^p

^, ^x

^j

)

x_j

#

"X_p!1 Battiti R. (1994)

« Using mutual information for selecting features in supervised neural net learning » IEEE Trans. On Neural Networks, 5(4):537-550.

La variable à sélectionner doit donner le plus d’information possible mais ne doit pas être redondante par rapport à celle déjà sélectionnées.

Trouver la variable la plus informative par rapport à y et la moins corrélée par rapport aux autres revient à maximiser :

MI x (

_p

, y ) ^! ^" ^{MI x} (

^p

^,X

^p!1

)

0.5<ß<1

Sélection de variables

Exemple : Iris de Fisher

- Number of Instances: 150 (50 in each of three classes)

- Number of Attributes: 4 numeric, predictive attributes and the class - Attribute Information:

1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class:

-- Iris Setosa -- Iris Versicolour -- Iris Virginica

Features selection:

(1 0 0 1) : (sepal length, petal width) => 93%

(1 0 1 0) : (sepal length, petal length) => 93%

(1 1 0 0) : (sepal length, sepal width) => 60%

-3 -2 -1 0 1 2 3

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Projection ACP

(13)

Extraction de caractéristiques

Deux grandes familles de méthodes :

• Méthodes linéaires

• Analyse en Composantes Principales (ACP)

• Analyse Discriminante Linéaire (ADL)

• Multi-Dimensional Scaling (MDS)

• …

• Méthodes non-linéaires

• Isometric feature mapping (Isomap)

• Locally Linear Embedding (LLE)

• Kernel PCA

• Segmentation spectrale (spectral clustering)

• Methodes supervisées (S-Isomap)

• …

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

Principale Components Analysis (PCA)

Proposée par HOTELLING en 1933.

- La plus ancienne des méthodes de l’analyse des données.

- Technique puissante pour explorer la structure des données.

Principe :

obtenir une représentation approchée du nuage des N individus dans un sous-espace de faible dimension.

résumer au mieux un tableau de données représenté par une matrice X à N ligne et p colonnes.

Par exemple, on cherche à établir des projections orthogonales du nuage de points sur un plan, les plus représentatives possibles :

"

^p

# "

²

(14)

Analyse en Composante Principale (ACP)

5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa

…

6.0,2.2,4.0,1.0,Iris-versicolor 6.1,2.9,4.7,1.4,Iris-versicolor 5.6,2.9,3.6,1.3,Iris-versicolor 6.7,3.1,4.4,1.4,Iris-versicolor 5.6,3.0,4.5,1.5,Iris-versicolor 5.8,2.7,4.1,1.0,Iris-versicolor 6.2,2.2,4.5,1.5,Iris-versicolor

…

6.0,3.0,4.8,1.8,Iris-virginica 6.9,3.1,5.4,2.1,Iris-virginica 6.7,3.1,5.6,2.4,Iris-virginica 6.9,3.1,5.1,2.3,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 6.8,3.2,5.9,2.3,Iris-virginica 6.7,3.3,5.7,2.5,Iris-virginica 6.7,3.0,5.2,2.3,Iris-virginica 6.3,2.5,5.0,1.9,Iris-virginica 6.5,3.0,5.2,2.0,Iris-virginica 6.2,3.4,5.4,2.3,Iris-virginica 5.9,3.0,5.1,1.8,Iris-virginica

A C P

!

" ⁴ # " ²

-3 -2 -1 0 1 2 3

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Iris de Fisher

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

-1.5 -1 -0.5 0 0.5 1

-1.23,-1.56,-1.75,-0.28,0.60,2.22,0.85,0.21,-0.20,0.89,1.08,4.20,2.89,7.75,4.59,3.15,5.12,3.32,1.20,0.24,-0.56,2 -0.69,2.43,0.61,2.08,2.30,3.25,5.52,4.55,2.97,2.22,2.81,1.61,1.24,1.89,1.88,-1.34,0.83,1.41,1.78,0.60,2.42,1 -0.12,-0.94,1.29,2.59,2.42,3.55,4.94,3.25,1.90,2.07,0.51,1.45,2.50,0.12,1.41,2.78,0.64,0.62,-0.01,-0.79,-0.12,0 0.86,0.29,2.19,-0.02,1.13,2.51,2.37,5.45,5.45,4.84,4.65,4.05,2.58,1.40,1.24,1.41,1.07,-1.43,2.84,-1.18,1.12,1 1.16,0.37,0.40,-0.59,2.66,1.00,2.69,4.06,5.34,3.53,4.82,4.79,4.30,1.84,1.73,0.21,-0.18,0.13,-0.21,-0.80,-0.68,1 -0.00,0.77,1.32,0.29,-1.28,0.84,1.60,1.55,2.93,4.76,5.55,4.30,4.89,2.81,2.37,3.68,-0.98,0.69,0.91,-1.80,0.39,2 0.87,1.07,-0.65,1.46,0.84,2.70,3.67,2.94,3.81,5.20,8.16,3.29,4.24,2.43,0.40,1.60,0.72,0.66,0.05,-0.24,0.67,1 -0.22,-0.91,-1.18,0.35,-1.92,-1.59,1.91,0.75,1.72,2.02,3.63,3.91,2.73,4.29,4.89,2.04,1.13,-0.66,-1.33,0.41,-0.75,2 -1.11,-1.14,-0.89,0.00,0.53,0.44,0.24,2.15,1.64,1.75,3.92,5.68,3.39,4.24,3.81,4.56,3.18,1.51,2.90,0.14,-0.12,2 -0.75,1.10,-1.90,1.43,0.47,0.40,0.86,3.51,2.62,4.50,6.83,6.94,0.75,3.23,1.08,-0.25,0.73,-0.41,-1.50,0.46,1.47,2 0.14,-1.18,1.42,2.28,3.10,3.15,3.49,4.54,1.40,3.41,3.40,2.83,0.06,0.60,3.61,2.08,-0.83,0.55,-0.55,-0.43,-1.05,0

….

1.32,-0.40,-0.69,4.17,3.66,4.00,5.24,3.88,2.17,1.82,3.65,1.01,1.82,1.13,-0.07,0.26,0.50,1.38,1.25,-1.34,0.53,0 -0.93,2.48,1.20,2.97,2.91,3.57,3.68,4.19,3.22,3.53,2.46,2.17,0.77,0.52,2.42,-0.89,0.51,-0.39,0.82,0.14,-0.63,1 -1.06,0.59,1.01,3.33,2.05,3.20,4.70,4.21,4.73,2.22,2.67,2.79,2.05,-1.53,-1.54,0.37,-0.09,1.04,-0.08,-0.27,0.47,1 1.86,0.37,-0.35,0.74,0.84,0.21,1.97,1.52,1.85,2.39,3.92,3.76,3.27,1.61,3.08,2.78,1.58,1.68,2.61,-0.91,-0.27,2 -0.51,-0.48,0.35,-1.67,0.26,2.45,-0.09,2.03,0.79,1.42,1.13,2.52,2.06,4.50,4.28,4.66,3.30,0.38,0.75,1.76,0.37,0 1.16,-1.19,-2.26,0.63,0.32,1.51,2.11,2.58,1.03,2.01,4.04,4.55,5.65,2.74,3.12,2.67,2.01,4.12,-0.81,0.07,-0.96,2 -0.09,2.30,-0.43,0.36,0.11,-1.20,1.47,2.25,3.50,2.14,6.68,5.45,2.22,2.79,2.61,1.87,0.48,1.98,1.64,1.32,0.71,2 -1.43,-0.46,-0.52,1.45,-0.00,1.35,1.39,0.81,0.03,1.39,2.55,2.42,3.07,5.46,6.29,6.50,4.60,3.77,1.62,1.01,-1.86,0

A C P

!

" ²¹ # " ²

Waveform de Breiman

(15)

Analyse en Composante Principale (ACP)

!

xⁿ= x

1 n,x

2

n, ... ... ...,x

d

(

n

)

Soit de l’ensemble d’observations

(population de N individus à d caractères).

Individu

!

X=

{

x¹,x², ...,x^N

}

!

"^d

!

X_N"d= x1

1 x2

1 ... ... xd

1

x₁² x₂² ... ... x_d²

: : : : :

: : xk

n : :

x₁^N x₂^N ... ... x_d^N

#

$

%

&

' ( ( ( ( ( (

Population Données La valeur prise par

la variable k sur l’individu n

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

(16)

Analyse en Composante Principale (ACP)

!

µ=1 N

x₁^k

k=1 N

"

x2 k k=1

N

"

...

xd k k=1

N

"

#

$

%

% %

%

% %

&

' ( ( ( ( ( ( ( ( ( ( ( Moyenne

Centre de gravité

La dispersion des valeurs d’une variable autour de sa moyenne se mesure par sa variance :

!

var(xj)=

[ ]

"j ²⁼_N¹ ^(x^k^j^#^µ^j⁾² k=1

N

$

Écart-type Standard deviation

!

X_N"d =

x₁¹ x¹₂ ... ... x¹_d x₁² x₂² ... ... x_d²

: : : : :

: : x_kⁿ : :

x₁^N x₂^N ... ... x_d^N

#

$

%

&

' ( ( ( ( ( (

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

Pour étudier l’influence mutuelle entre deux variables et On introduit la covariance :

!

x

_j

!

x

_i

!

cov(xi,xj)= 1

N (x_i^k"µi)(x^k_j"µj)

k=1 N

#

!

r(xi,xj)=cov(xi,xj)

"i"j

Une covariance positive signifie que et ont tendance (en moyenne) à évoluer dans le même sens.

Une covariance négative signifie une évolution en sens contraire.

La corrélation de et , si aucune n’est constante, dont le Signe est celui de la covariance est définie par :

!

x

_j

!

x

i

!

x

j

!

x

i

(17)

ACP centrées : ACP-C

Si les variables d’origine sont très hétérogènes du point de vue de leurs moyennes, on transforme la matrice :

!

= ¹_N

" (

^X^ˆ^T^X^ˆ

)

On défit la matrice de covariance par :

!

X=

{

x¹,x², ...,x^N

}

^"^{X =}^ˆ

{

^x¹ ^#^µ,^x²^#^{µ, ...,}^x^N ^#^µ

}

!

d"d=

var(x1) cov(x1,x2) ... ... cov(x1,xd) cov(x2,x1) var(x2) ... ... cov(x2,xd)

: : cov(xi,xj) : :

: : : : :

cov(x1,xd) ... ... ... var(xd)

#

$

%

&

' ( ( ( ( ( (

)

! est une matrice (dxd) symétrique définie positive.

Elle est donc diagonalisable et de valeurs propres réelles positives ou nulles.

Extraction de caractéristiques

ACP-C

Théorème :

L’espace étant muni du produit scalaire

et de la norme associée, il existe une base orthonormée de vecteurs propres de associés aux

valeurs propres positives ordonnées en ordre décroissant

!

"^d

!

v,w = viwi i=1

d

"

!

.

!

u¹,u², ...,u^d

( )

!

"

!

"₁#"₂#...#"_d

!

"_d#d=

"1 0 ... ... 0

0 "2 ... ... 0

: : "_i : :

: : : : :

0 ... ... ... "d

$

%

&

'

( ) ) ) ) ) )

!

"=U#U^$1

U_d"d=

u₁¹ u₁² ... ... u₁^d u₂¹ u₂² ... ... u₂^d : : u_n^k : :

: : : : :

u¹_d u_d² ... ... u_d^d

#

$

%

&

' ( ( ( ( ( ( diagonalisation

!

d"d=

var(x1) cov(x1,x2) ... ... cov(x1,xd) cov(x2,x1) var(x2) ... ... cov(x2,xd)

: : cov(xi,xj) : :

: : : : :

cov(x1,xd) ... ... ... var(xd)

#

$

%

&

' ( ( ( ( ( (

)

(18)

ACP-C

- On appelle axes principaux d’inertie, les p vecteurs propres de . - Le premier axe principal est donc le vecteur propre correspondant à la plus grande valeur propre de .

- L’inertie expliquée par cet axe est .

- Le sous-espace à d dimensions qui explique la plus grande inertie contient les d vecteurs propres de .

- L’inertie expliquée par ce sous-espace est égale à :

L’image euclidienne du nuage de points obtenue par projection dans Un sous-espace de dim=M est appelée « image euclidienne des individus associée à l’approximation d’ordre M des produits scalaires »

!

"

!

"

!

"

₁

!

u¹

!

"

1

!

u¹,u², ...,u^d

( )

!

"

!

"i i=1

d

# Axes principaux

!

perte d'inertie= "²_i

i=M+1 d

#

Extraction de caractéristiques

ACP-C

Composantes principales

Calcul des coordonnées des points sur les axes principaux : Les composantes principales sont obtenues par :

!

c^k=F_k(xⁱ)= u^k,xⁱ = u^k_j xⁱ_j

j=1 d

"

k^ème Composante principale

Facteur principal de rang k associé à xⁱ

Les composantes principales peuvent être considérées comme de nouvelles variables, combinaisons linéaires des variables initiales, non corrélées entre elles et de variance maximale.

(19)

ACP-C

Comment choisir le nombre de Composantes principales ?

Le Scree-test de Cattell :

On calcule les différences premières :

Puis les différences secondes :

On retient alors les valeurs propres telles que :

!

"1

!

"₂

!

"3

!

"₁#"₂=$₁

!

"₂#"₃=$₂

!

"_k#"_k₊₁=$_k

!

"₁#"₂=$₁

!

"₂#"₃=$₂

!

"_m#"_m+1=$_m

!

"1,"2L,"k,"k+1

!

"₁,"₂_L,"_k_f0

Extraction de caractéristiques

ACP-C

Pour interpréter la relation qui existe entre les variables initiales et

les axes factoriels, nous définissons le coefficient de corrélation suivant :

!

r(u^k,x_j)=

1

N F_k(xⁱ)

(

xⁱ_j"µj

)

i=1 N

#

$_j %_k

r(u^k,x_j) n’est autre que le coefficient de corrélation entre les F_k(xⁱ) de variance

!_k , et les x_jⁱ de variance

"_j².

axe₁ axe₂

x^j r(u₂,x^j )

r(u₁,x^j )

axe₁ axe₂

x¹ x² x³ x⁷ x⁸

x⁴ x⁵ La 1^ère composante principale est très corrélée positivement avec les variables 1, 2 et 3, anticorrélée avec les variables 4 et 5 et non corrélée avec 6,7 et 8.

Cercle des corrélations

(20)

ACP normées : ACP-N

On suppose que les variables que les variables d’origine, non seulement hétérogènes quant à leur moyenne, mais également quant à leur dispersion et quant à leur nature (unités de mesures).

On ramène donc chaque variable à un cadre commun de comparabilité : il faut que les variables soient de variance unité et de moyenne nulle.

On transforme la matrice des données :

!

X=

{

x¹,x², ...,x^N

}

!

X=

{

x¹,x², ...,x^N

}

^"^{X =}^˜ ^%^&^x¹_$^#^µ^,^x²_$^#^µ^{, ...,}^x^N_$^#^µ

'

( )

* Les données sont centrées et réduites.

Extraction de caractéristiques

ACP normées

On défit la matrice de correlation par :

!

R_d_"d =

1 r(x1, x2) ... ... r(x1, xp)

r(x2, x1) 1 ... ... r(x2, xp)

: : r(xi, xj) : :

: : : : :

r(x1, xp) ... ... ... 1

#

$

%

&

' ( ( ( ( ( (

R est une matrice (dxd) symétrique définie positive.

Elle est donc diagonalisable et de valeurs propres réelles positives ou nulles.

L’ACP normées consiste à diagonaliser R au lieu de !.

(21)

ACP-N

L’interprétation des axes se fait par l’intermédiaire de l’étude des corrélations entre la composante principale définissant cet axe et les variables du tableau de données initial :

!

r(c^k,x_j)= "ku^k_j

c¹ c²

x_j r(c²,x_j )

r(c¹,x_j )

Extraction de caractéristiques

Analyse Discriminante Linéaire

Consiste à rechercher de nouvelles variables (les variables discriminantes) Correspondant à des directions de qui séparent le mieux possible en projection les k classes d’observations.

!

"^d

axe1

axe2

x₂

x₁

(22)

Analyse Discriminante Linéaire

Soit de l’ensemble d’observations réparties en k classes .

Déterminer un sous-espace de optimal tel que les données Projetées sur ce sous-espace soient séparées au mieux.

Extraction de caractéristiques :

!

µ_i= 1 c_i x^j

x^j"ci ci

#

!

X={x¹,x², ...,x^N}

!

"^d

!

c₁,c₂, ...,c_k

{ }

!

µ =

_N¹ ^ci µ_i

i=1 k

"

!

"_i= 1

c_i

(

x^j#µ_i

)

x^j$ci ci

% (

^x^j ^#^µⁱ

)

^T

!

"T = 1

N

(

xⁱ #µ

)

i=1 N

$ (

^xⁱ^#^µ

)

^T

!

"_W = _ci

i=1 k

#

^"ⁱ

!

"_B= c_i

(

µ_i#µ

)

i=1 k

$ (

^µⁱ^#^µ

)

^T

!

"T="W +"B

Pour chaque classe on calcule : Moyenne

Matrice de covariance

Moyenne totale

Matrice de covariance totale

Matrice de covariance inter-classes Matrice de covariance intra-classes

!

"^d

Extraction de caractéristiques

Analyse Discriminante Linéaire

La projection de sur un sous espace de direction est donnée par :

Les matrices de covariance des projections sont :

Le but de l’analyse discriminante est de chercher une matrice telle que soit « grand » et soit « petit ».

!

" ˆ _T=U^t "_TU

" ˆ W=U^t "WU

" ˆ B =U^t "BU

!

xⁱ

!

U

!

F x

( )

ⁱ ⁼^U^T^xⁱ

!

U

!

F x

( )

ⁱ

!

" ˆ _B

!

" ˆ W

(23)

Analyse Discriminante Linéaire

Pour cela on peut optimiser, par exemple, les critères suivants :

!

J

₁

( ) U ⁼ ^Tr ^$ _% & ( ) ^" ^ˆ

^W ^#1

^" ^ˆ

^B

' ( )

J

₂

( ) U ⁼ ^Tr [ ^" ^ˆ

^W

⁺ ^" ^ˆ

^B

] ⁼ ^Tr [ ] ^" ^ˆ

^T

J

₃

( ) U ⁼

" ˆ

_T

" ˆ

_W

J

₄

( ) U ⁼ ^Tr

" ˆ

B

[ ]

Tr [ ] " ˆ

_W

Extraction de caractéristiques

Analyse Discriminante Linéaire

Théorème :

Les k meilleures axes discriminants non corrélés sont les k vecteurs propres de relatifs aux k plus grandes valeurs propres.

La valeur propre est appelée « pouvoir discriminant » de l’axe discriminant (vecteur propre associé).

Les projections des points sur les axes discriminants sont obtenues par :^!

"i

!

"_W

( )

^#1^"B

( )

!

uⁱ

F_k(xⁱ)= u^k,xⁱ = u^k_j xⁱ_j

j=1 d

"

Facteur discriminant de rang k associé à xⁱ

!

xⁱ

(24)

Analyse Discriminante Linéaire

Classement d’individus supplémentaires :

Affecter une classe à une observation qui n’a pas servi à l’apprentissage.

Nous décidons d’attribuer l’individu à la classe qui est telle que :

!

cj

!

y_i=F(xⁱ)

!

xⁱ

!

d(y_i,c_j)=min

l=1...k^$_%&

(

y_i"µ ˆ l

)

^T

( )

^#^ˆW ^"1

⁽

^yⁱ^"^µ^ˆ^l

⁾

' ( )

Extraction de caractéristiques

Analyse Discriminante Linéaire et ACP

(25)

Analyse Discriminante Linéaire et ACP

Analyse Discriminante Analyse en Composantes Principales

Extraction de caractéristiques

Analyse Discriminante Linéaire et ACP

(26)

Université Paris 13/Younès Bennani Reconnaissance des Formes 51 Dans de nombreux cas :

- on connaît les distances entre les points d'un ensemble de données - on cherche à obtenir une représentation en faible dimension de ces points.

La méthode de positionnement multidimensionnel (MDS) permet de construire cette représentation.

Exemple :

obtenir la carte d'un pays en partant de la connaissance des distances entre chaque paire de villes.

L'algorithme MDS est basé sur une recherche de valeurs propres

MDS permet de construire une configuration de m points dans R^d à partir des distances entre N objets.

On observe donc N(N-1)/2 distances. Il est toujours possible de générer un positionnement de N points en N dimensions qui respecte exactement les distances fournies.

MDS calcule une approximation en dimension d < N.

Multi-Dimensional Scaling (MDS)

Moyennes des distances carrées par rangées :

Formule de Torgerson (distance carrée vers produit scalaire) :

Calcul des vecteurs et valeurs propres de la matrice .

La ième coordonnée réduite de l’exemple j est :

!

µ_i= 1 N d_ij²

j

"

!

p_ij ="1

2 d_ij²"µ_i"µ_j+ µ_i

i

$

#

% & '

( )

!

v_j

!

"_jv_ij

!

"_j

!

P

(27)

- Isomap, comme MDS, part de la connaissance de la matrice des distances entre les paires de points.

- Le but : trouver une variété (non linéaire) contenant les données.

- On exploite le fait que pour des points proches, la distance

euclidienne est une bonne approximation de la distance géodésique sur la variété.

- On construit un graphe reliant chaque point à ses k plus proches voisins.

- Les longueurs des géodésiques sont alors estimées en cherchant la longueur du plus court chemin entre deux points dans le graphe.

- On peut alors appliquer MDS aux distances obtenues afin d'obtenir un positionnement des points dans un espace de dimension réduite.

dimensions

ISOmetric feature MAPping (ISOMAP)

Méthodes non linéaires de réduction des dimensions

ISOmetric feature MAPping (ISOMAP)

Petite distance Euclidienne

Grande distance géodésique

(28)

dimensions

ISOmetric feature MAPping (ISOMAP)

Distance Euclidienne

Distance géodésique

Méthodes non linéaires de réduction des dimensions

ISOmetric feature MAPping (ISOMAP)

Les points de l’échantillon, de dimension 3, (figure du milieu) sont situés sur la variété représentée à gauche.

On cherche une représentation en deux dimension (à droite) qui préserve la topologie (le voisinage de chaque point).

la variété Données Projection

(29)

dimensions

ISOmetric feature MAPping (ISOMAP)

code Matlab : www-lipn.univ-paris13.fr/~bennani/mi2eid0708rdf.html

Méthodes non linéaires de réduction des dimensions

Locally Linear Embedding (LLE)

- LLE (ou plongement localement

linéaire) a été présenté en même temps qu'ISOMAP et aborde le même

problème par une voie différente.

- Chaque point est ici caractérisé par sa reconstruction à partir de ses plus proches voisins.

- LLE construit une projection vers un

espace linéaire de faible dimension

préservant le voisinage.