• Aucun résultat trouvé

Reconnaissance Statistique des Formes

N/A
N/A
Protected

Academic year: 2022

Partager "Reconnaissance Statistique des Formes"

Copied!
31
0
0

Texte intégral

(1)

Université Paris 13/Younès Bennani Reconnaissance des Formes 1

Reconnaissance Statistique des Formes

7

Younès BENNANI

Réduction des dimensions

(2)

Université Paris 13/Younès Bennani Reconnaissance des Formes 3

Nombre d'individus Classification

Sélection Pondération

Nombre de descripteurs Extraction

Sélection Pondération

Réduction des dimensions : deux problèmes duaux

Descripteurs Descripteurs

IndividusIndividus

Pourquoi la réduction des dimensions ?

Diff

Diffé érents rents objectifs objectifs Visualiser

comprendre la problématique

Expliquer

identifier les facteurs pertinents

Stocker

réduire l'espace nécessaire

Utiliser

réduire les temps de traitement

(3)

Université Paris 13/Younès Bennani Reconnaissance des Formes 5

Sélection vs Extraction

Système

X= x1

x2 x3

x4

!

"

#

# #

$

%

&

&

&

x1 x3

!

"

#

# #

$

%

&

&

&

X X

Système

X= x1 x2

x3

x4

!

"

#

# #

$

%

&

&

&

!

ƒ1( )xi i=1...4

ƒ2( )xi i=1...4

"

#

$

$

$

%

&

' ' '

Sélection

Extraction

Sélection de variables

«!Feature selection!»

Classificateur

X= x1

x2

x3

x4

!

"

#

# #

$

%

&

&

&

xx x

x x

x x x x

x oo

o

o oo o

o o

o o

Classificateur

xx x x x

x x x x

x o

o o o ooo

o o

o o

Sélection de variables

X= x1

x2

x3

x4

!

"

#

# #

$

%

&

&

&

x1

x3

!

"

#

# #

$

%

&

&

&

X X

(4)

Université Paris 13/Younès Bennani Reconnaissance des Formes 7

Régression

X= x1 x2

x3

x4

!

"

#

# #

$

%

&

&

&

Régression

Sélection de variables

X= x1 x2

x3

x4

!

"

#

# #

$

%

&

&

&

x1

x3

!

"

#

# #

$

%

&

&

&

X X

«!Feature selection!»

Sélection de variables

CAKMAKOV D. & BENNANI Y. (2002)

“Feature Selection for Pattern Recognition", ISBN 9989-943-02-8, Editions Informa.

BENNANI Y. (2001)

“Systèmes d’Apprentissage Connexionnistes", Numéro spécial de la“Revue d’Intelligence Artificielle”, 15(3)!:4/2001, Editions Hermès.

(5)

Université Paris 13/Younès Bennani Reconnaissance des Formes 9

Définition :

La sélection de variables est un procédé permettant de choisir un sous-ensemble optimal de variables pertinentes, à partir d'un ensemble de variables, selon un certain critère de performance.

A partir de cette définition, on peut se poser trois questions essentielles :

Q1 : Comment mesurer la pertinence des variables ?

Q2 : Comment former le sous-ensemble optimal ?

Q3 : Quel critère d'optimalité utiliser ?

Sélection de variables

La réponse à

Q1 consiste à trouver une mesure de

pertinence ou un

critère d'évaluation permettant de

quantifier l'importance d'une variable ou d'un ensemble de variables .

Q2 évoque le problème du choix de la procédure de recherche ou de constitution du sous-ensemble optimal

des variables pertinentes.

Q3 demande la définition d'un critère d'arrêt de la

recherche. (généralement déterminé à travers une combinaison particulière entre la mesure de pertinence et la procédure de recherche)

J (X )

(6)

Université Paris 13/Younès Bennani Reconnaissance des Formes 11

Critère d'évaluation

Dans le cas d’un problème de

classement, on teste, par

exemple, la

qualité de discrimination du système en

présence ou en absence d’une variable.

Par contre, pour un problème de régression, on teste plutôt la qualité de prédiction par rapport aux autres variables.

Définition [Bennani, 2001] :

Une variable pertinente est une variable telle que sa suppression entraîne une détérioration des performances (pouvoir de discrimination en classement ou la qualité de prédiction en régression) du système d'apprentissage.

Sélection de variables

Procédure de recherche

On ne connaît pas le nombre optimal de variables à sélectionner.

dépendra de la taille et de la qualité de la base d’apprentissage (la quantité et la qualité d’information disponible) et de la règle de décision utilisée (le modèle).

Pour un ensemble de variables il existe combinaisons de variables possibles.

(où 2 représente deux choix : sélectionner ou ne pas sélectionner une variable).

La recherche d'un sous-ensemble de variables parmi engendre un nombre de combinaison égal à :

m

n 2

n

! 1

n m

!

"

# $

% = n!

(n & m)! m!

m n

m

(7)

Université Paris 13/Younès Bennani Reconnaissance des Formes 13

Une alternative consiste à utiliser une

méthode de recherche de

type Branch & Bound.

Cette méthode de recherche permet de restreindre la recherche et donne le sous-ensemble optimal de variables, sous l'hypothèse de monotocité du critère de sélection .

Le critère est dit monotone si :

où est l'ensemble contenant k variables sélectionnées.

X

1

! X

2

! K ! X

m

" J X ( )

1

# J X ( )

2

# K # J X ( )

m

J(X)

X

k

Sélection de variables

Problème :

la plupart des critères d'évaluation

ne sont pas monotones

recours à des méthodes sous-optimales :

- Sequential Forward Selection (SFS)

- Sequential Backward Selection (SBS)

- Bidirectional Selection (BS)

(8)

Université Paris 13/Younès Bennani Reconnaissance des Formes 15

Sequential Forward Selection (SFS)

Soit l’ensemble des variables,

Au départ l'ensemble des variables sélectionnées est vide.

à chaque étape k :

- on sélectionne la variable qui optimise le critère d'évaluation

X

x

i

J X ( )

k

J X ( )

k

=

x

max

i!

(

X"Xk"1

) J X (

k"1

# { } x

i

)

liste ordonnée des variables selon leur importance

Sélection de variables

Sequential Backward Selection (SBS)

On part de l'ensemble complet des variables et on procède par élimination :

à chaque étape :

- la variable la moins importante selon le critère d'évaluation est éliminée

X

x

i

J X ( )

k

liste ordonnée des variables selon leur importance : Les variables les plus pertinentes sont alors les variables qui se trouvent dans les dernières positions de la liste.

J X ( )

k

= max

xi!Xk+1

J X (

k+1

" { } x

i

)

(9)

Université Paris 13/Younès Bennani Reconnaissance des Formes 17

Bidirectional Selection (BS)

La procédure BS effectue sa recherche dans les deux directions (Forward et Backward) d'une manière concurrentielle.

La procédure s'arrête dans deux cas :

(1) quand une des deux directions a trouvé le meilleur sous- ensemble de variables avant d'atteindre le milieu de l'espace de recherche

(2) quand les deux directions arrivent au milieu.

Il est clair que les ensembles de variables sélectionnées trouvés respectivement par SFS et par SBS ne sont pas égaux à cause de leurs différents principes de sélection.

cette méthode réduit le temps de recherche puisque la recherche s'effectue dans les deux directions et s'arrête dès qu'il y a une solution quelle que soit la direction.

Sélection de variables

x

1

, x

2

, x

3

, x

4

{ }

x

1

, x

2

, x

3

{ }

x

1

, x

3

, x

4

{ }

x

2

, x

3

, x

4

{ }

x

1

, x

2

, x

4

{ }

x

1

, x

2

{ }

x

1

, x

4

{ }

x

2

, x

3

{ }

x

1

, x

3

{ }

x

2

, x

4

{ }

x

3

, x

4

{ }

x

1

{ }

x

3

{ }

x

4

{ }

x

2

{ } { }

Backward selection

Forward selection

(10)

Université Paris 13/Younès Bennani Reconnaissance des Formes 19

Critères d'arrêt

Le nombre optimal de variables n’est pas connu a priori, l’utilisation d’une règle pour contrôler la sélection-élimination de variables permet d’arrêter la recherche lorsque aucune variable n’est plus suffisamment informative.

Le critère d'arrêt est souvent défini comme une combinaison de la procédure de recherche et du critère d'évaluation.

Une heuristique, souvent utilisée, consiste à calculer pour les différents sous-ensembles de variables sélectionnées une estimation de l’erreur de généralisation par validation croisée.

Le sous-ensemble de variables sélectionnées est celui qui minimise cette erreur de généralisation.

Sélection de variables

Régression linéaire

ƒ

p

(x ) = a

i

.x

i

i=1 p

!

D = { ( x

1

, y

1

) , ( x

2

, y

2

) , K , ( x

k

, y

k

) , K , ( x

N

,y

N

) }

S

p

=

N!1p!2

y

k

! ƒ

p

(x

k

)

2

k=1 N

"

Régression linéaire avec p variables :

Mesures d ’évaluation :

C

p

=

!12

y

k

" ƒ

p

( x

k

)

2

k=1 N

# + 2 p " N

y ! ƒ

p

( x)

Hocking R.R. (1976)

« The analysis and selection of variables in linear regression » Biometrics 32:1-49

Mallows L.C. (1973)

« Some comments on Cp » Technometrics 15:661-675

(11)

Université Paris 13/Younès Bennani Reconnaissance des Formes 21

Classement

!

Wilks

( X

p

) = W

p

W

p

+ B

p

Mesure de séparation des classes :

Matrice de covariance intra-classes :

W

p

=

i=1 c

!

Ni1

( x

k

" µ

i

) ( x

k

" µ

i

)

t

xk#Ci

Ni

!

B

p

=

i=1 c

! ( µ " µ

i

) ( µ " µ

i

)

t

Matrice de covariance inter-classes :

Sélection de variables

Classement

MI( a, b) = P (a, b)log P (a, b) P(a) P(b )

!

"

# $

a,b

%

&

Mesure d ’information (information mutuelle) :

Où a et b sont 2 variables discrètes avec des densités de probabilité P(a) et P(b)

MI(a,b) = mesure la réduction de l’incertitude sur b lorsque a est connu.

a et b sont statistiquement indépendants P(a,b)=P(a).P(b) MI(a,b)=0

Plus a et b sont dépendants plus MI(a,b) augmente.

Densité jointe

(12)

Université Paris 13/Younès Bennani Reconnaissance des Formes 23

Classement

MI x (

p

, X

p!1

) = MI x (

p

, x

j

)

xj

#

"Xp!1 Battiti R. (1994)

« Using mutual information for selecting features in supervised neural net learning » IEEE Trans. On Neural Networks, 5(4):537-550.

La variable à sélectionner doit donner le plus d’information possible mais ne doit pas être redondante par rapport à celle déjà sélectionnées.

Trouver la variable la plus informative par rapport à y et la moins corrélée par rapport aux autres revient à maximiser :

MI x (

p

, y ) ! " MI x (

p

,X

p!1

)

0.5<ß<1

Sélection de variables

Exemple : Iris de Fisher

- Number of Instances: 150 (50 in each of three classes)

- Number of Attributes: 4 numeric, predictive attributes and the class - Attribute Information:

1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class:

-- Iris Setosa -- Iris Versicolour -- Iris Virginica

Features selection:

(1 0 0 1) : (sepal length, petal width) => 93%

(1 0 1 0) : (sepal length, petal length) => 93%

(1 1 0 0) : (sepal length, sepal width) => 60%

-3 -2 -1 0 1 2 3

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Projection ACP

(13)

Université Paris 13/Younès Bennani Reconnaissance des Formes 25

Extraction de caractéristiques

Deux grandes familles de méthodes :

• Méthodes linéaires

• Analyse en Composantes Principales (ACP)

• Analyse Discriminante Linéaire (ADL)

• Multi-Dimensional Scaling (MDS)

• …

• Méthodes non-linéaires

• Isometric feature mapping (Isomap)

• Locally Linear Embedding (LLE)

• Kernel PCA

• Segmentation spectrale (spectral clustering)

• Methodes supervisées (S-Isomap)

• …

Université Paris 13/Younès Bennani Reconnaissance des Formes 26

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

Principale Components Analysis (PCA)

Proposée par HOTELLING en 1933.

- La plus ancienne des méthodes de l’analyse des données.

- Technique puissante pour explorer la structure des données.

Principe :

obtenir une représentation approchée du nuage des N individus dans un sous-espace de faible dimension.

résumer au mieux un tableau de données représenté par une matrice X à N ligne et p colonnes.

Par exemple, on cherche à établir des projections orthogonales du nuage de points sur un plan, les plus représentatives possibles :

"

p

# "

2

(14)

Université Paris 13/Younès Bennani Reconnaissance des Formes 27

Analyse en Composante Principale (ACP)

5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa

6.0,2.2,4.0,1.0,Iris-versicolor 6.1,2.9,4.7,1.4,Iris-versicolor 5.6,2.9,3.6,1.3,Iris-versicolor 6.7,3.1,4.4,1.4,Iris-versicolor 5.6,3.0,4.5,1.5,Iris-versicolor 5.8,2.7,4.1,1.0,Iris-versicolor 6.2,2.2,4.5,1.5,Iris-versicolor

6.0,3.0,4.8,1.8,Iris-virginica 6.9,3.1,5.4,2.1,Iris-virginica 6.7,3.1,5.6,2.4,Iris-virginica 6.9,3.1,5.1,2.3,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 6.8,3.2,5.9,2.3,Iris-virginica 6.7,3.3,5.7,2.5,Iris-virginica 6.7,3.0,5.2,2.3,Iris-virginica 6.3,2.5,5.0,1.9,Iris-virginica 6.5,3.0,5.2,2.0,Iris-virginica 6.2,3.4,5.4,2.3,Iris-virginica 5.9,3.0,5.1,1.8,Iris-virginica

A C P

!

" 4 # " 2

-3 -2 -1 0 1 2 3

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Iris de Fisher

Université Paris 13/Younès Bennani Reconnaissance des Formes 28

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

-1.5 -1 -0.5 0 0.5 1

-1.23,-1.56,-1.75,-0.28,0.60,2.22,0.85,0.21,-0.20,0.89,1.08,4.20,2.89,7.75,4.59,3.15,5.12,3.32,1.20,0.24,-0.56,2 -0.69,2.43,0.61,2.08,2.30,3.25,5.52,4.55,2.97,2.22,2.81,1.61,1.24,1.89,1.88,-1.34,0.83,1.41,1.78,0.60,2.42,1 -0.12,-0.94,1.29,2.59,2.42,3.55,4.94,3.25,1.90,2.07,0.51,1.45,2.50,0.12,1.41,2.78,0.64,0.62,-0.01,-0.79,-0.12,0 0.86,0.29,2.19,-0.02,1.13,2.51,2.37,5.45,5.45,4.84,4.65,4.05,2.58,1.40,1.24,1.41,1.07,-1.43,2.84,-1.18,1.12,1 1.16,0.37,0.40,-0.59,2.66,1.00,2.69,4.06,5.34,3.53,4.82,4.79,4.30,1.84,1.73,0.21,-0.18,0.13,-0.21,-0.80,-0.68,1 -0.00,0.77,1.32,0.29,-1.28,0.84,1.60,1.55,2.93,4.76,5.55,4.30,4.89,2.81,2.37,3.68,-0.98,0.69,0.91,-1.80,0.39,2 0.87,1.07,-0.65,1.46,0.84,2.70,3.67,2.94,3.81,5.20,8.16,3.29,4.24,2.43,0.40,1.60,0.72,0.66,0.05,-0.24,0.67,1 -0.22,-0.91,-1.18,0.35,-1.92,-1.59,1.91,0.75,1.72,2.02,3.63,3.91,2.73,4.29,4.89,2.04,1.13,-0.66,-1.33,0.41,-0.75,2 -1.11,-1.14,-0.89,0.00,0.53,0.44,0.24,2.15,1.64,1.75,3.92,5.68,3.39,4.24,3.81,4.56,3.18,1.51,2.90,0.14,-0.12,2 -0.75,1.10,-1.90,1.43,0.47,0.40,0.86,3.51,2.62,4.50,6.83,6.94,0.75,3.23,1.08,-0.25,0.73,-0.41,-1.50,0.46,1.47,2 0.14,-1.18,1.42,2.28,3.10,3.15,3.49,4.54,1.40,3.41,3.40,2.83,0.06,0.60,3.61,2.08,-0.83,0.55,-0.55,-0.43,-1.05,0

….

1.32,-0.40,-0.69,4.17,3.66,4.00,5.24,3.88,2.17,1.82,3.65,1.01,1.82,1.13,-0.07,0.26,0.50,1.38,1.25,-1.34,0.53,0 -0.93,2.48,1.20,2.97,2.91,3.57,3.68,4.19,3.22,3.53,2.46,2.17,0.77,0.52,2.42,-0.89,0.51,-0.39,0.82,0.14,-0.63,1 -1.06,0.59,1.01,3.33,2.05,3.20,4.70,4.21,4.73,2.22,2.67,2.79,2.05,-1.53,-1.54,0.37,-0.09,1.04,-0.08,-0.27,0.47,1 1.86,0.37,-0.35,0.74,0.84,0.21,1.97,1.52,1.85,2.39,3.92,3.76,3.27,1.61,3.08,2.78,1.58,1.68,2.61,-0.91,-0.27,2 -0.51,-0.48,0.35,-1.67,0.26,2.45,-0.09,2.03,0.79,1.42,1.13,2.52,2.06,4.50,4.28,4.66,3.30,0.38,0.75,1.76,0.37,0 1.16,-1.19,-2.26,0.63,0.32,1.51,2.11,2.58,1.03,2.01,4.04,4.55,5.65,2.74,3.12,2.67,2.01,4.12,-0.81,0.07,-0.96,2 -0.09,2.30,-0.43,0.36,0.11,-1.20,1.47,2.25,3.50,2.14,6.68,5.45,2.22,2.79,2.61,1.87,0.48,1.98,1.64,1.32,0.71,2 -1.43,-0.46,-0.52,1.45,-0.00,1.35,1.39,0.81,0.03,1.39,2.55,2.42,3.07,5.46,6.29,6.50,4.60,3.77,1.62,1.01,-1.86,0

A C P

!

" 21 # " 2

Waveform de Breiman

(15)

Université Paris 13/Younès Bennani Reconnaissance des Formes 29

Analyse en Composante Principale (ACP)

!

xn= x

1 n,x

2

n, ... ... ...,x

d

(

n

)

Soit de l’ensemble d’observations

(population de N individus à d caractères).

Individu

!

X=

{

x1,x2, ...,xN

}

!

"d

!

XN"d= x1

1 x2

1 ... ... xd

1

x12 x22 ... ... xd2

: : : : :

: : xk

n : :

x1N x2N ... ... xdN

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( (

Population Données La valeur prise par

la variable k sur l’individu n

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

(16)

Université Paris 13/Younès Bennani Reconnaissance des Formes 31

Analyse en Composante Principale (ACP)

!

µ=1 N

x1k

k=1 N

"

x2 k k=1

N

"

...

...

...

xd k k=1

N

"

#

$

%

%

% %

%

%

%

%

%

% %

&

' ( ( ( ( ( ( ( ( ( ( ( Moyenne

Centre de gravité

La dispersion des valeurs d’une variable autour de sa moyenne se mesure par sa variance :

!

var(xj)=

[ ]

"j 2=N1 (xkj#µj)2 k=1

N

$

Écart-type Standard deviation

!

XN"d =

x11 x12 ... ... x1d x12 x22 ... ... xd2

: : : : :

: : xkn : :

x1N x2N ... ... xdN

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( (

Extraction de caractéristiques

Analyse en Composante Principale (ACP)

Pour étudier l’influence mutuelle entre deux variables et On introduit la covariance :

!

x

j

!

x

i

!

cov(xi,xj)= 1

N (xiki)(xkjj)

k=1 N

#

!

r(xi,xj)=cov(xi,xj)

"i"j

Une covariance positive signifie que et ont tendance (en moyenne) à évoluer dans le même sens.

Une covariance négative signifie une évolution en sens contraire.

La corrélation de et , si aucune n’est constante, dont le Signe est celui de la covariance est définie par :

!

x

j

!

x

i

!

x

j

!

x

i

(17)

Université Paris 13/Younès Bennani Reconnaissance des Formes 33

ACP centrées : ACP-C

Si les variables d’origine sont très hétérogènes du point de vue de leurs moyennes, on transforme la matrice :

!

= 1N

" (

X ˆ TX ˆ

)

On défit la matrice de covariance par :

!

X=

{

x1,x2, ...,xN

}

"X =ˆ

{

x1 #µ,x2#µ, ...,xN #µ

}

!

d"d=

var(x1) cov(x1,x2) ... ... cov(x1,xd) cov(x2,x1) var(x2) ... ... cov(x2,xd)

: : cov(xi,xj) : :

: : : : :

cov(x1,xd) ... ... ... var(xd)

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( (

)

! est une matrice (dxd) symétrique définie positive.

Elle est donc diagonalisable et de valeurs propres réelles positives ou nulles.

Extraction de caractéristiques

ACP-C

Théorème :

L’espace étant muni du produit scalaire

et de la norme associée, il existe une base orthonormée de vecteurs propres de associés aux

valeurs propres positives ordonnées en ordre décroissant

!

"d

!

v,w = viwi i=1

d

"

!

.

!

u1,u2, ...,ud

( )

!

"

!

"1#"2#...#"d

!

"d#d=

"1 0 ... ... 0

0 "2 ... ... 0

: : "i : :

: : : : :

0 ... ... ... "d

$

%

&

&

&

&

&

&

'

( ) ) ) ) ) )

!

"=U#U$1

Ud"d=

u11 u12 ... ... u1d u21 u22 ... ... u2d : : unk : :

: : : : :

u1d ud2 ... ... udd

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( ( diagonalisation

!

d"d=

var(x1) cov(x1,x2) ... ... cov(x1,xd) cov(x2,x1) var(x2) ... ... cov(x2,xd)

: : cov(xi,xj) : :

: : : : :

cov(x1,xd) ... ... ... var(xd)

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( (

)

(18)

Université Paris 13/Younès Bennani Reconnaissance des Formes 35

ACP-C

- On appelle axes principaux d’inertie, les p vecteurs propres de . - Le premier axe principal est donc le vecteur propre correspondant à la plus grande valeur propre de .

- L’inertie expliquée par cet axe est .

- Le sous-espace à d dimensions qui explique la plus grande inertie contient les d vecteurs propres de .

- L’inertie expliquée par ce sous-espace est égale à :

L’image euclidienne du nuage de points obtenue par projection dans Un sous-espace de dim=M est appelée « image euclidienne des individus associée à l’approximation d’ordre M des produits scalaires »

!

"

!

"

!

"

1

!

u1

!

"

1

!

u1,u2, ...,ud

( )

!

"

!

"i i=1

d

# Axes principaux

!

perte d'inertie= "2i

i=M+1 d

#

Extraction de caractéristiques

ACP-C

Composantes principales

Calcul des coordonnées des points sur les axes principaux : Les composantes principales sont obtenues par :

!

ck=Fk(xi)= uk,xi = ukj xij

j=1 d

"

kème Composante principale

Facteur principal de rang k associé à xi

Les composantes principales peuvent être considérées comme de nouvelles variables, combinaisons linéaires des variables initiales, non corrélées entre elles et de variance maximale.

(19)

Université Paris 13/Younès Bennani Reconnaissance des Formes 37

ACP-C

Comment choisir le nombre de Composantes principales ?

Le Scree-test de Cattell :

On calcule les différences premières :

Puis les différences secondes :

On retient alors les valeurs propres telles que :

!

"1

!

"2

!

"3

!

"1#"2=$1

!

"2#"3=$2

!

"k#"k+1=$k

!

"1#"2=$1

!

"2#"3=$2

!

"m#"m+1=$m

!

"1,"2L,"k,"k+1

!

"1,"2L,"kf0

Extraction de caractéristiques

ACP-C

Pour interpréter la relation qui existe entre les variables initiales et

les axes factoriels, nous définissons le coefficient de corrélation suivant :

!

r(uk,xj)=

1

N Fk(xi)

(

xijj

)

i=1 N

#

$j %k

r(uk,xj) n’est autre que le coefficient de corrélation entre les Fk(xi) de variance

!k , et les xji de variance

"j2.

axe1 axe2

xj r(u2,xj )

r(u1,xj )

axe1 axe2

x1 x2 x3 x7 x8

x4 x5 La 1ère composante principale est très corrélée positivement avec les variables 1, 2 et 3, anticorrélée avec les variables 4 et 5 et non corrélée avec 6,7 et 8.

Cercle des corrélations

(20)

Université Paris 13/Younès Bennani Reconnaissance des Formes 39

ACP normées : ACP-N

On suppose que les variables que les variables d’origine, non seulement hétérogènes quant à leur moyenne, mais également quant à leur dispersion et quant à leur nature (unités de mesures).

On ramène donc chaque variable à un cadre commun de comparabilité : il faut que les variables soient de variance unité et de moyenne nulle.

On transforme la matrice des données :

!

X=

{

x1,x2, ...,xN

}

!

X=

{

x1,x2, ...,xN

}

"X =˜ % & x1$#µ,x2$#µ, ...,xN$#µ

'

( )

* Les données sont centrées et réduites.

Extraction de caractéristiques

ACP normées

On défit la matrice de correlation par :

!

Rd"d =

1 r(x1, x2) ... ... r(x1, xp)

r(x2, x1) 1 ... ... r(x2, xp)

: : r(xi, xj) : :

: : : : :

r(x1, xp) ... ... ... 1

#

$

%

%

%

%

%

%

&

' ( ( ( ( ( (

R est une matrice (dxd) symétrique définie positive.

Elle est donc diagonalisable et de valeurs propres réelles positives ou nulles.

L’ACP normées consiste à diagonaliser R au lieu de !.

(21)

Université Paris 13/Younès Bennani Reconnaissance des Formes 41

ACP-N

L’interprétation des axes se fait par l’intermédiaire de l’étude des corrélations entre la composante principale définissant cet axe et les variables du tableau de données initial :

!

r(ck,xj)= "kukj

c1 c2

xj r(c2,xj )

r(c1,xj )

Extraction de caractéristiques

Analyse Discriminante Linéaire

Consiste à rechercher de nouvelles variables (les variables discriminantes) Correspondant à des directions de qui séparent le mieux possible en projection les k classes d’observations.

!

"d

axe1

axe2

x2

x1

(22)

Université Paris 13/Younès Bennani Reconnaissance des Formes 43

Analyse Discriminante Linéaire

Soit de l’ensemble d’observations réparties en k classes .

Déterminer un sous-espace de optimal tel que les données Projetées sur ce sous-espace soient séparées au mieux.

Extraction de caractéristiques :

!

µi= 1 ci xj

xj"ci ci

#

!

X={x1,x2, ...,xN}

!

"d

!

c1,c2, ...,ck

{ }

!

µ =

N1 ci µi

i=1 k

"

!

"i= 1

ci

(

xji

)

xj$ci ci

% (

xj #µi

)

T

!

"T = 1

N

(

xi

)

i=1 N

$ (

xi#µ

)

T

!

"W = ci

i=1 k

#

"i

!

"B= ci

(

µi

)

i=1 k

$ (

µi#µ

)

T

!

"T="W +"B

Pour chaque classe on calcule : Moyenne

Matrice de covariance

Moyenne totale

Matrice de covariance totale

Matrice de covariance inter-classes Matrice de covariance intra-classes

!

"d

Extraction de caractéristiques

Analyse Discriminante Linéaire

La projection de sur un sous espace de direction est donnée par :

Les matrices de covariance des projections sont :

Le but de l’analyse discriminante est de chercher une matrice telle que soit « grand » et soit « petit ».

!

" ˆ T=Ut "TU

" ˆ W=Ut "WU

" ˆ B =Ut "BU

!

xi

!

U

!

F x

( )

i =UTxi

!

U

!

F x

( )

i

!

" ˆ B

!

" ˆ W

(23)

Université Paris 13/Younès Bennani Reconnaissance des Formes 45

Analyse Discriminante Linéaire

Pour cela on peut optimiser, par exemple, les critères suivants :

!

J

1

( ) U = Tr $ % & ( ) " ˆ

W #1

" ˆ

B

' ( )

J

2

( ) U = Tr [ " ˆ

W

+ " ˆ

B

] = Tr [ ] " ˆ

T

J

3

( ) U =

" ˆ

T

" ˆ

W

J

4

( ) U = Tr

" ˆ

B

[ ]

Tr [ ] " ˆ

W

Extraction de caractéristiques

Analyse Discriminante Linéaire

Théorème :

Les k meilleures axes discriminants non corrélés sont les k vecteurs propres de relatifs aux k plus grandes valeurs propres.

La valeur propre est appelée « pouvoir discriminant » de l’axe discriminant (vecteur propre associé).

Les projections des points sur les axes discriminants sont obtenues par :!

"i

!

"W

( )

#1"B

( )

!

ui

Fk(xi)= uk,xi = ukj xij

j=1 d

"

Facteur discriminant de rang k associé à xi

!

xi

(24)

Université Paris 13/Younès Bennani Reconnaissance des Formes 47

Analyse Discriminante Linéaire

Classement d’individus supplémentaires :

Affecter une classe à une observation qui n’a pas servi à l’apprentissage.

Nous décidons d’attribuer l’individu à la classe qui est telle que :

!

cj

!

yi=F(xi)

!

xi

!

d(yi,cj)=min

l=1...k$ % &

(

yi"µ ˆ l

)

T

( )

# ˆ W "1

(

yi"µ ˆ l

)

' ( )

Extraction de caractéristiques

Analyse Discriminante Linéaire et ACP

(25)

Université Paris 13/Younès Bennani Reconnaissance des Formes 49

Analyse Discriminante Linéaire et ACP

Analyse Discriminante Analyse en Composantes Principales

Extraction de caractéristiques

Analyse Discriminante Linéaire et ACP

(26)

Université Paris 13/Younès Bennani Reconnaissance des Formes 51 Dans de nombreux cas :

- on connaît les distances entre les points d'un ensemble de données - on cherche à obtenir une représentation en faible dimension de ces points.

La méthode de positionnement multidimensionnel (MDS) permet de construire cette représentation.

Exemple :

obtenir la carte d'un pays en partant de la connaissance des distances entre chaque paire de villes.

L'algorithme MDS est basé sur une recherche de valeurs propres

MDS permet de construire une configuration de m points dans Rd à partir des distances entre N objets.

On observe donc N(N-1)/2 distances. Il est toujours possible de générer un positionnement de N points en N dimensions qui respecte exactement les distances fournies.

MDS calcule une approximation en dimension d < N.

Multi-Dimensional Scaling (MDS)

Moyennes des distances carrées par rangées :

Formule de Torgerson (distance carrée vers produit scalaire) :

Calcul des vecteurs et valeurs propres de la matrice .

La ième coordonnée réduite de l’exemple j est :

!

µi= 1 N dij2

j

"

!

pij ="1

2 dij2ij+ µi

i

$

#

% & '

( )

!

vj

!

"jvij

!

"j

!

P

(27)

Université Paris 13/Younès Bennani Reconnaissance des Formes 53

- Isomap, comme MDS, part de la connaissance de la matrice des distances entre les paires de points.

- Le but : trouver une variété (non linéaire) contenant les données.

- On exploite le fait que pour des points proches, la distance

euclidienne est une bonne approximation de la distance géodésique sur la variété.

- On construit un graphe reliant chaque point à ses k plus proches voisins.

- Les longueurs des géodésiques sont alors estimées en cherchant la longueur du plus court chemin entre deux points dans le graphe.

- On peut alors appliquer MDS aux distances obtenues afin d'obtenir un positionnement des points dans un espace de dimension réduite.

dimensions

ISOmetric feature MAPping (ISOMAP)

Méthodes non linéaires de réduction des dimensions

ISOmetric feature MAPping (ISOMAP)

Petite distance Euclidienne

Grande distance géodésique

(28)

Université Paris 13/Younès Bennani Reconnaissance des Formes 55

dimensions

ISOmetric feature MAPping (ISOMAP)

Distance Euclidienne

Distance géodésique

Méthodes non linéaires de réduction des dimensions

ISOmetric feature MAPping (ISOMAP)

Les points de l’échantillon, de dimension 3, (figure du milieu) sont situés sur la variété représentée à gauche.

On cherche une représentation en deux dimension (à droite) qui préserve la topologie (le voisinage de chaque point).

la variété Données Projection

(29)

Université Paris 13/Younès Bennani Reconnaissance des Formes 57

dimensions

ISOmetric feature MAPping (ISOMAP)

code Matlab : www-lipn.univ-paris13.fr/~bennani/mi2eid0708rdf.html

Méthodes non linéaires de réduction des dimensions

Locally Linear Embedding (LLE)

- LLE (ou plongement localement

linéaire) a été présenté en même temps qu'ISOMAP et aborde le même

problème par une voie différente.

- Chaque point est ici caractérisé par sa reconstruction à partir de ses plus proches voisins.

- LLE construit une projection vers un

espace linéaire de faible dimension

préservant le voisinage.

Références

Documents relatifs

Terminale STG Exercices sur le chapitre 11

Il faut savoir que : AMet BM col sig que M décrit la

Supposons que la lettre G soit mise au centre de gra- vité du triangle et la lettre O au centre du cercle circon- scrit. Enfin plaçons la lettre H au point de concours

Enfin on peut l'appliquer à la recherche des relations entre les distances mutuelles de cinq points situés d'une manière quelconque dans un plan, de six points situés d'une

ou un pont et nous permet de connaître un chemin entre deux structures. Parmi tous les liens possibles entre deux groupes nous ne conserverons que celui ayant la

Si donc nous conser- vons les mêmes lettres pour indiquer les points trans- formés, nous aurons entre les distances d'un nombre quelconque de points pris sur une droite ou sur un

Deux cercles tangents ayant leurs axiaux sur une tan- gente à la sphère et deux cercles orthogonaux ayant leurs axiaux conjugués, la recherche des points com- muns à trois cônes

Remarque. — On peut changer à la fois le sens de tous les segments AX/. La direction de leur résultante reste la même. Nous pouvons donc prendre A L / = — //, ce qui, quel que soit