Younès BENNANI

(1)

Université Paris 13/Younès Bennani Traitement Informatique des Données 1

ILOG 3

Traitement

Informatique des Données

Younès BENNANI

Plan du cours

• Reconnaissances des Formes

• Méthodes statistiques

• Méthodes paramétriques

• Méthodes non-paramétriques

• Classification automatique

• Extraction et sélection de traits

• Méthodes structurelles

• Structures de chaîne

• Extraction de primitives

• Méthodes syntaxiques

• Grammaires et automates

• Arbres et graphes

• Méthodes Factorielles

• Analyse en Composantes Principales

• Analyse des correspondances

• Analyse Discriminante

• Modèles Connexionnistes

• Modèles supervisés

• Modèles non-supervisés

• Modèles Hybrides

(2)

Reconnaissance Statistique des Formes

Partie I

1 Younès BENNANI

• Keinosuke Fukunaga

« Statistical Pattern Recognition »

Acacemic Press

Computer Science and Scientific Computing

• M. Friedman & A. Kandel

« Introduction to Pattern Recognition »

World Scientific

Machine Perception & Artificial Intelligence, Vol. 32.

• A. & Y. Belaïd

« Reconnaissance des Formes »

Inter Editions

Informatique & Intelligence Artificielle

Bibliographie (RdF)

(3)

A

RdF Statistique et Structurelle

a b d c

e

f g h

=[x

¹

, x

²

, …, x

ⁿ

]

= b b b h h h a a

=[x

¹

, x

²

, …, x

ⁿ

]

= 0000000 …1100111000...

X

RdF Structurelle RdF Statistique

Méthodes syntaxiques - Grammaires et automates - Arbres et graphes

Méthodes statistiques

- Méthodes paramétriques+ non-paramétriques - Extraction et sélection de traits

- Classification automatique

A

Codage numérique des formes

t x(t)

t1 t2 t3 tn-1 tn

X =

x

₁

x

₂

M

x

_n

!

"

#

# #

$

%

&

=

x t ( )

₁

x t ( )

₂

M x t ( )

_n

!

"

#

# #

$

%

&

X =

x

₁

x

₂

M

x

_n

!

"

#

# #

$

%

&

= x ( ) 1 x ( ) 2 M

x n ( )

!

"

#

$

%

&

Pixel #1

Pixel #n

(4)

Formes et variabilité

Représentation numérique

Un exemple : Chernoff faces of the speaker data

(5)

Classification : «!Clustering!»

Espace des formes

regroupement

C 3

C 4

C 2

C 1

Espace des « clusters »

Classement

Espace des formes

identification

Espace de d écision

C 1

C 2

C 3

C 4

(6)

Système de RdF

Codage Prétraitement Analyse Décision

Apprentissage

fréquenc e(Hz)

Monde Physique Espace des Formes

Analogique --> Numérique Espace de Représentation Microphone

Caméra

Sélection de l'info. nécessaire Elimination du bruit Suppression de la redondance

Calcul de paramètres Espace des Paramètres

Modélisation Espace des Noms

Reconnaissance

Calcul de distance ou de probabilité

Système de RdF

g(X, W)

:. ^g

+1

-1

+1 -1

Professeur

X = x

₁

x

₂

M

x

_n

!

"

#

# #

$

%

&

W=

w1

w2

M wn

!

"

#

# #

$

%

&

(7)

Système de RdF

Classificateur :.

X =

x

₁

x

₂

M

x

_n

!

"

#

$

%

&

Max P C ( _i / X )

ou Min d X, ( C _i )

Espace des formes Espace des décisions

Linear Discriminant Functions

x x x

x x

x x x x

x

o o o

o o

o o o

X

_i

C

₂

C

₁

g(x)=0 g(x)> 0) g(x)< 0

Définir des fonctions permettant de séparer des classes représentées par leurs échantillons.

g(x)=W.X

^t

=w

1

x

1

+w

2

x

2

+ … +w

n

x

n

+w

n+1

g( x) = W.X

^t

> 0 si x !C

₁

< 0 si x ! C

₂

"

#

$

% $

(8)

Linear Discriminant Functions

Soit M le nombre de classes : C

1

, C

2

, . . . , C

M

1 classe contre le reste :

Il existe M fonctions de discrimination :

g

_k

(x) = W

_k

.X

^t

k = {1, 2, . . . , M}

x x x x x x

x x

o o o

o o

o o o o o

o l l

l l l

g

_j

(x)=0 l

C

_i

C

_j

g

_k

( x) = W

_k

. X

^t

> 0 si x !C

_k

k =1 K M

< 0 sinon

"

#

$

% $

Linear Discriminant Functions

Classes séparables 2 à 2 :

Il existe M(M-1)/2 fonctions de discrimination : g

_ij

(x) = W

_ij

.X

^t

si x ! C

_i

alors g

_ij

(x) > 0 " j!i

et g

_ij

(x) = - g

_ji

(x)

Cas particulier :

g

_ij

(x) = g

_i

(x) - g

_j

(x) = (W

_i

- W

_j

).X

^t

= W

_ij

.X

^t

x x x x x x

x x

o o o

o o

o o o o o

o l l l l

C

_i

(9)

Méthodes paramétriques

Bayes Classifier

N observations D = { X

¹

, X

²

,...,X

^N

} dans #

ⁿ

réparties en M classes {C

1

,C

2

,..., C

M

}, on cherche à estimer la probabilité d'appartenance a posteriori

de X à chacune des c classes.

P(C

i

) : probabilité a priori d'appartenance à la classe C

i

.

P(X/C

i

) : la densité de probabilité conditionnelle dans la classe C

i

.

x x x

x x

x x x x

x

o o o

o o o o

o o

l l l l

l

l l

l l l

l

X

i

C

i

Méthodes paramétriques

Bayes Classifier

Supposons que soient connues P(C

i

) et P(X/C

i

), pour tout i variant de 1 à M, et supposons que l'on veuille identifier la classe d'un objet inconnu X :

La règle de Bayes consiste à déterminer la probabilité d'appartenance a posteriori de X à chacune des M classes :

P(C _i / X ) = P(X / C _i )P(C _i ) P( X / C _i )P(C _i )

i =1 M

!

Probabilité a priori d’appartenance à la classe Ci Densité de probabilité conditionnelle dans la classe Ci

Probabilité a posteriori d’appartenance de X à la classe Ci

(10)

Méthodes paramétriques

Bayes Classifier

L'objet X sera affecté à la classe pour laquelle P(C

i

/X) sera maximum.

Une autre formulation du problème sera de calculer les fonctions discriminantes g

_i

(X) :

g _i ( X ) = P ( X / C _i )P (C _i )

La règle de décision sera alors d'affecter X à la classe C

i

correspondant à g

_i

(X) maximum.

Bayes Classifier

Hypothèse de Multi-normalité

$ ( µ i , % i ) pour la classe C

i

µ

i

est le vecteur moyenne

%

ⁱ

est la matrice de covariance

µ

i

= µ

1

= 1

N X

₁^k

k=1 N

!

µ

2

= 1 N X

₂^k

k=1 N

!

M µ

n

= 1

N X

_n^k

k=1 N

!

"

#

$

%

&

' ' ' ' ' '

!

i

=

var( X

₁

) cov( X

₁

, X

₂

) L L cov( X

₁

, X

_n

) var( X

₂

)

M M M M M

M M M

cov(X

_n

, X

₁

) L L var( X

_n

)

"

#

$

$ $

%

&

' '

' ' var( X

_i

) = !

²

(X

_i

) = 1 N (X

_i^k

k=1 N

" ^# ^µ

ⁱ

⁾

²

1

N k

k

(11)

Bayes Classifier

Hypothèse de Multi-normalité

x x x

x x

x x x x

x

o o o

o o o o

o o

l l l l

l

l l

l l l

l

"

₁

#

₁

"

2

#

₂

"

₃

#

₃

Bayes Classifier

Hypothèse de Multi-normalité

P( X / C _i ) = 1 (2 ! )

n 2 " _i

1 2

e ^#

1 2 (X #µ _i ) ^t " _i ^#1 (X # µ _i )

$

% & '

( )

La fonction de densité multi-normale a pour expression :

(12)

Bayes Classifier

Hypothèse de Multi-normalité

La fonction de décision est :

g _i ( X ) = ! 1

2 ( X ! µ _i ) ^t " _i ^!1 ( X ! µ _i ) ! n

2 ln 2# [ ] ! 1

2 ln [ ] " _i ⁺ ^ln ^[ ^P(C ⁱ ⁾ ^]

si l'on prend le logarithme népérien :

g _i (X ) = ln P(X / C [ _i ) ] ⁺ ^{ln P(C} [ ⁱ ⁾ ]

g _i ( X ) = P ( X / C _i )P (C _i )

Bayes Classifier

Hypothèse de Multi-normalité

(13)

Bayes Classifier

Hypothèse de Multi-normalité et d’équi-covariance

La fonction de décision est :

g _i ( X ) = ! 1

2 ( X ! µ _i ) ^t " ^!1 ( X ! µ _i ) + ln [ P(C _i ) ] P(X / C _i ) !"( µ _i , #)

les classes ont une même matrice de covariance :

Bayes Classifier

Hypothèse de Multi-normalité, d’équi-covariance et d’équi-probabilité

g _i ( X ) = ! 1

2 ( X ! µ _i ) ^t " ^!1 ( X ! µ _i )

En faisant l'hypothèse supplémentaire d'égalité d'appartenance à priori aux classes, la fonction de décision devient :

On retrouve la distance de Mahalanobis :

d mahalanobis

2 ( X,µ _i ) = ( X ! µ _i ) ^t " ^!1 ( X ! µ _i )

P(C _i ) = P( C _j ) ! i, j

(14)

Exercice

µ ₁ = 1 0

!

"

# $

% , µ ₂ = 0

1 !

"

# $

% , µ ₃ = 2

2 !

"

# $

%

On considère dans l’espace 2-D un problème à 3 classes :

- Donner les expressions des fonctions de décision - Donner les expressions des frontières entre les 3 classes - Donner une représentation graphique

P C ( ) ₁ ⁼ ^{P C} ( ) 2 ⁼ ¹

4 , P C ( ) ₃ ⁼ ¹

2 = = 1 0

0 2

!

"

# $

%

& 2

& 1 ^, & 3 ⁼ ^! _" ^# ^{1 0} _{0 1} ^$ _%

Exercice (corrigé)

La fonction de décision pour C

¹

:

! ₁ = ! ₂ = 2, 1

2 ln ! ₁ = 1

2 ln ! ₂ = 1 2 ln 2

! ₃ = 1, 1

2 ln ! ₃ = 0

! ₁ ^"1 = ! ₂ ^"1 = 1 0

0 ¹

2 #

$

% &

'

( , ! ₃ ^"1 = 1 0

0 1

#

$

% &

'

g

₁

(X) = ! 1 2

x

₁

x

₂

"

#

$ %

& ! 1 0

"

# $ %

&

' ( )

* + ,

t

1 0

0 1/ 2

"

# $ %

&

x

₁

x

₂

"

#

$ %

& ! 1 0

"

# $ %

&

' ( )

* + , ! 1

2 ln(2) + ln 1 4

"

# %

&

= ! 1

2 ( x

1

! 1 x

2

) ^" ¹ _{0 1/ 2} ⁰

#

$ %

&

x

1

!1 x

₂

"

#

$ %

& ! 1

2 ln(2) + ln 1 4

"

# %

&

1 1 5

(15)

Les fonctions de décision :

g

₂

(X) = ! 1 2 x

₁²

+ 1

2 ( x

₂

! 1 )

²

"

#

$

% ! 5 2 ln(2) g

3

( X) = ! 1

2 [ ( x

1

! 2 )

²

⁺ ( ^x

2

! 2 )

²

] ^! ^ln(2)

g

₁

( X) = ! 1

2 ( x

₁

!1 )

²

+ 1 2 x

₂²

"

#

$

% ! 5 2 ln(2)

Les frontières entre les 3 classes :

entre C

1

et C

2

g

₁₂

( X) = g

₁

( X) ! g

₂

( X )

= x

₁

! x

₂

2 ! 1

4 = 0

entre C

1

et C

3

entre C

2

et C

3

g

₁₃

( X) = g

₁

( X) ! g

₃

(X)

= x

₂²

4 ! 2x

₂

! x

₁

+ 7 ! 3ln(2)

2 = 0

g

₂₃

( X) = g

₂

(X ) ! g

₃

(X )

= x

1 2

4 ! 2 x

₁

! x

₂

+ 7 ! 3ln(2)

2 = 0

Représentation graphique

-2 -1 0 1 2 3 4 5 6 7 8

-6 -4 -2 0 2 4 6 8

µ

1

µ

2

µ

3

g

₁₂

( X)

g

13

( X)

g

₂₃

( X)