Traitement Numérique des Données

(1)

Digital Data Processing – Traitement Numérique des Données 1 © Y. Bennani

Digital Data Processing

Traitement Numérique des Données

Younès BENNANI Full Professor

Master of Science in Informatics

Specialities

Data Mining, Analytics, and Knowledge Discovery (EID

²

) Programming Tools and Safety (PLS)

1 •  Théorie statistique de la décision Bayesienne

•  Classificateurs génératifs

•  Approches paramétriques

•  Quadratic normal density based classifiers

•  Linear normal density based classifiers

•  Naïve-Bayes (aussi non paramétrique)

•  Approches non paramétriques

•  Parzen classifier

•  Naïve-Bayes (aussi paramétrique)

(2)

Bibliographie

•  Bennani, Y., Apprentissage connexionniste, Editions Hermès Science (370 p.). ISBN: 2-7462-1337-0.

•  Bishop, C.M., Neural networks for pattern recognition, Clarendon Press, 1995.

•  Devroye,L.,Gyorfi,L.,and Lugosi,G., A probabilistic theory of pattern recognition,Springer,1996.

•  Duda, R.O., Hart, P.E., and Stork, D.G. Pattern Classification, 2d Edition Wiley, New York, 2001.

• Fukunaga, K., Introduction to statistical pattern recognition, second edition, Academic Press, 1990.

•  Gose,E.,Johnson baugh,R.,and Jost,S.,Pattern Recognition and Image Analysis,Prentice-Hall,1996.

•  Hastie, T., Tibishirani, R., Friedman, J., The Elements of Statistical Learning, Springer, Berlin, 2001.

•  Kohonen,T.,Self-organizing maps,Springer Series in Information Sciences,Volume30,Berlin,1995.

•  McLachlan, G.J., Discriminant Analysis and Statistical Pattern Recognition, Wiley , 1992.

•  Ripley, B.D., Pattern Recognition and Neural Networks, Cambridge University Press, 1996.

•  Schalkoff, R., Pattern recognition: Statistical, structural and neural approaches, Wiley, 1992.

•  Schurmann, J. Pattern classification, a unified view of statistical and neural approaches, Wiley, 1996.

•  Theodoridis, S. and Koutroumbas, K. Pattern Recognition, Academic Press, New York, 1999.

•  Van der Heijden F., Duin R.P.W., De Ridder D. and Tax D.M.J., Classification, parameter estimation and state estimation - an engineering approach using Matlab, John Wiley & Sons, 424 pages, ISBN 0470090138, 2004.

•  Vapnik, V.N., Statistical Learning Theory, Wiley, New York, 1998.

Travaux Pratiques (salles machines)

Scikit-learn

Machine Learning in Python

http://scikit-learn.org/stable/index.html

(3)

Support de cours

Espace Pédagogique Interactif

lipn.univ-paris13.fr/~bennani/enseignements

Traitement Numérique des Données (TND) Mot de passe : epi-m2-info-tnd

Introduction

(4)

Big Data : des données tous azimuts …

Une explosion exponentielle de la quantité de

données

(5)

Plus de données non structurées

(6)

Evolution des données massives …

Une croissance estimée à 44% par an jusqu’en 2020, aidée par le

prochain boum des objets connectés.

Les quantités d’informations générées par les outils numériques donnent le vertige.

« l'humanité a créé plus d'informations au cours des deux

dernières années que pendant toute son histoire »

(7)

Un ordre de grandeur …

Byte

B Kilobyte

KB 1000 Bytes

Megabyte MB 1000 KB

Gigabyte GB 1000 MB

Terabyte TB 1000 GB

Petabyte PB 1000 TB

Exabyte EB 1000 PB

Zettabyte ZB 1000 EB

Yottabyte YB 1000 ZB Unité

de mesure de base

1 B

1 page de texte 30 KB

1 pièce de musique

5 MB 1 vidéo

de 2h 1 GB

1 pile de DVD comme un immeuble de 55 étages 1 PB

Informations générées en 2003

5 EB

Informations générées en 2011

1,8 ZB

Capacité de stockage du Datacenter

de la NSA (92 000 m², 2013)

1 YB 6 million

de livres 1 TB

Le « Big Data » d’aujourd’hui

= le « Small Data » de demain …

V olume V élocité V ariété V éracité V aleur V ie

Comment définir le phénomène Big Data :

3 V ou plus ?

(8)

Donnée - Information - Connaissance

Des mesures de température relevées chaque jour dans une station météo, ce sont des données.

Une courbe donnant l’évolution dans le temps de la température moyenne dans un lieu, c’est une information.

Le fait que la température sur Terre augmente en fonction de l’activité humaine, c’est une connaissance.

Ces trois notions sont très proches les unes des autres.

• Une donnée est une description élémentaire, typiquement numérique pour nous, d’une réalité. C’est par exemple une observation ou une mesure.

• À partir de données collectées, de l’information est obtenue en organisant ces données, en les structurant pour en dégager du sens.

• En comprenant le sens de l’information, nous aboutissons à des connaissances, c’est-à-dire à des « faits » considérés comme vrais dans l’univers, et à des « lois » de cet univers.

Données - Data

(9)

A

Représentation des données

a b d c

e f

g h

=[x

¹

, x

²

, …, x

ⁿ

]

= b b b h h h a a

=[x

¹

, x

²

, …, x

ⁿ

]

= 0000000 …1100111000...

x

Représentation Structurelle Représentation Numérique

Méthodes syntaxiques - Grammaires et automates - Arbres et graphes

Méthodes statistiques

- Méthodes paramétriques+ non-paramétriques - Extraction et sélection de traits

- Classification automatique

A

Codage numérique des formes

t x(t)

t

1

t

2

t

3

t

n-1

t

n

€

x = x ₁ x 2

M x _n

"

#

$

%

&

' ' ' '

= x t ( ) ₁

x t ( ) 2

M x t ( ) _n

"

#

$

$ $

%

&

' ' ' ' '

€

x = x ₁ x ₂ M

x _n

"

#

$

%

&

' ' ' '

= x ( ) 1 x ( ) 2 M

x n ( )

"

#

$

$ $

%

&

' ' ' ' '

Pixel #1

Pixel #n

(10)

Digital Data Processing – Traitement Numérique des Données 19 © Y. Bennani Représentation

numérique

Un exemple : Chernoff faces of the speaker data

Classification (automatique) :

« Clustering »

Espace des formes

regroupement

ω 3

ω 4

ω 2

ω ¹

Espace des « clusters »

(11)

Classement Discrimination

Espace des formes

identification

Es p ac e d e d éc is ion

ω 1

ω 2

ω ³

ω 4

?

Classement/Discrimination

*

(12)

Chaîne de traitement

Codage Prétraitement Analyse Décision

Apprentissage Monde Physique

Espace des Formes

Analogique --> Numérique Espace de Représentation Microphone

Caméra

Sélection de l'info. nécessaire Elimination du bruit Suppression de la redondance

Calcul de paramètres Espace des Paramètres

Modélisation Espace des Noms Reconnaissance Calcul de distance ou

de probabilité

Classement/Discrimination

Approches génératives

(13)

Classement / Discrimination

Classement : apprendre une fonction (règle) de décision à partir d’un ensemble d ’ exemples étiquetés.

M classes : ω

_j

, j=1, …, M, (+ classe de rejet : ω

_rej

)

Base d’apprentissage : {x

_i

, y

_i

} / x

_i

∈ R

ⁿ

et y

_i

=classe(x

_i

), i=1, …, N Fonction de décision : S(x)

Comment apprendre S(x) à partir des exemples {x

_i

, y

_i

} ?

•  Approches génératives

•  Approches discriminantes

Apprentissage et décision

S(x, W) :.

+1

-1

+1 -1

Professeur

€

x = x

1

x

2

M x

n

"

#

$

$ $

$

%

&

' ' ' '

W =

w

1

w

2

M w

n

!

"

#

# #

$

%

&

(14)

Décision

Classificateur :.

€

x = x

1

x

2

M x

n

"

#

$ $

%

&

' ' ' '

€

Argmax

ω

i

P ( ω i / x )

ou Argmin

ω

i

d x, ( ω i )

Espace des observations Espace des décisions

Théorie de la Décision statistique : fondement

Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux de Thomas Bayes (1763) et retrouvé ensuite indépendamment par le mathématicien français Laplace (1774) .

En théorie des probabilités, le théorème de Bayes énonce des probabilités conditionnelles : étant donné deux événements A et B, le théorème de Bayes permet de déterminer la probabilité de A sachant B, si l’on connaît les probabilités : P(A) ; P(B) ; P(B/A).

Pour aboutir au théorème de Bayes, on part d’une des définitions de la probabilité conditionnelle :

P ( A | B ) P ( B ) = P ( A ∩ B ) = P ( B | A ) P ( A )

en notant P ( A ∩ B ) la probabilité que A et B aient tous les deux lieu. En divisant de part et d’autre par P(B), on obtient :

P ( A | B ) = P ( B | A ) P ( A ) soit le théorème de Bayes.

(15)

Théorie de la Décision statistique : fondement

Théorème de Bayes :

posteriori = vraisemblance x priori / évidence

€

P( ω i / x) = P (x /ω i )P(ω i ) P (x)

P(x) = P(x / ω j )P ( ω j )

j=1 M

∑

Probabilité a priori d’appartenance à la classe ωi

Densité de probabilité conditionnelle dans la classe ωi

Probabilité a posteriori d’appartenance de x à la classe ωi

(16)

Bayes Classifier

Hypothèse de Multi-normalité

Cas de 2 classes

€

P(A / x) ≥ P(B / x) → x ∈ A, sinon x ∈ B

Bayes :

€

P(x / A)P(A)

P( x) ≥ P(x /B)P(B)

P(x) → x ∈ A, sinon x ∈ B P(x / A)P(A) ≥ P( x / B)P(B) → x ∈ A, sinon x ∈ B S(x) = P(x / A)P(A) − P(x /B)P(B)

€

S(x) = P(x / A)P( A) − P(x / B)P(B) ≥ 0 → x ∈ A, sinon x ∈ B

Classe(x) = Argmax P(x /ω )P(ω ) M classes :

MAP : Maximum A Posterior

(17)

Erreur de classement

€

Si S(x) ≥ 0 alors x ∈ A, Si S(x) < 0 alors x ∈ B

€

ε = P(S(x) < 0, x ∈ A) + P(S( x) ≥ 0,x ∈ B)

ε = P(S(x) < 0 / x ∈ A)P(A) + P(S(x) ≥ 0 / x ∈ B)P(B)

€

ε = P( A) f

_A

(x)dx

S(x)<0

∫

ε

A

1 4 4 2 4 4 3

+ P(B) f

_B

(x)dx

S(x)≥0

∫

ε

B

1 4 4 2 4 4 3

€ f

A

(x)

€ f

B

(x)

L’erreur de classement est :

: Fonctions de densité de probabilité de A et B

Règle de décision de Bayes : Règle optimale

€

Si S(x) ≥ 0 alors x ∈ A, Si S(x) < 0 alors x ∈ B

€

ε = P(A) f

_A

(x)dx

S(x)<0

∫

ε

A

1 4 4 2 4 4 3

+ P(B) f

_B

(x)dx

S(x)≥0

∫

ε

B

1 4 4 2 4 4 3

Déterminer la fonction de décision optimale minimisant :

€

ε = P(A) f

_A

( x)dx

S(x)<0

∫ ⁺ ^P(B) ^f

^B

⁽ ^x)dx

S(x)≥0

∫ ⁺ ^P(B) ^f

^B

^(x)dx

S(x)<0

∫ ⁻ ^P(B) ^f

^B

^(x)dx

S(x)<0

∫

€

P(B)

(18)

La règle optimale est la règle de décision de Bayes :

€

ε = P(B) + [ P( A) f

_A

(x) − P(B) f

_B

(x) ] ^dx

S(x)<0

∫

est minimum si

€

P(A) f

_A

(x) − P(B) f

_B

(x)

[ ] ^< ^0, ^{sur R}

B

,S(x) < 0

€

S

^*

(x) = P(A) f

_A

( x) − P(B) f

_B

(x)

Règle de décision de Bayes : Règle optimale

Règle de Bayes :

€

S( x) = P(x / A)P(A) − P( x / B)P(B) = 0

€

P(x / A)P(A) = P(x / B)P(B)

log [ P(x / A)P(A) ] ⁼ ^log [ ^P(x ^/ ^B)P(B) ]

R( x) = log ( P( x / A) ) ⁻ ^log ( ^P(x ^/ ^B) ) ⁺ ^log ^# ^P(A) _P(B)

$ % &

' (

P( x / ω

i

) = 1

2π

ⁿ

det ( ) Σ _ω

_i

^exp ⁻ 1

2 ( x − µ ω

i

)

^T

^Σ ^ω

⁻¹ⁱ

( ^x ⁻ ^µ ^ω

ⁱ

)

&

' ( )

* +

Distribution normale :

Discrimination quadratique

Quadratic Discriminant Classifier (QDC)

=Bayes+Distribution normale

(19)

ℵ (µ _i , Σ _i ) pour la classe ω

i

µ

i

est le vecteur moyenne

Σ

i

est la matrice de covariance

€

µ

i

= µ

i

[1] = 1

N x

_k

[1]

k=1 N

∑

µ

i

[2] = 1 N x

_k

[2]

k=1 N

∑

M µ

i

[n] = 1

N x

_k

[n]

k=1 N

∑

#

$

%

% %

&

' ( ( ( ( ( ( ( ( (

€

Σ

i

=

var(x[1]) cov( x[1], x[2]) L L cov(x[1],x[n]) var(x[2])

M M M M M

M M M

cov(x[n],x[1]) L L var(x[n])

#

$

% %

%

% %

%

&

' ( ( ( ( ( (

€

var(x[i]) =σ

²

(x[i]) = 1 N (x

_k

[i]

k=1 N

∑ ⁻ ^µ ^[i])

²

€

cov(x[i],x[ j]) = 1 N (x

_k

[i]

k=1 N

∑ ^−µ[i])(x

^k

^[ ^j]− ^µ[ ^j])

€

x

_i

= x

_i

[1]

x

_i

[2]

M x

_i

[n]

"

#

$

%

&

' ' ' '

Discrimination quadratique

Quadratic Discriminant Classifier (QDC)

=Bayes+Distribution normale

Σ

Discrimination quadratique

Quadratic Discriminant Classifier (QDC)

=Bayes+Distribution normale

(20)

Discrimination quadratique

Quadratic Discriminant Classifier (QDC)

=Bayes+Distribution normale

x x x

x x

x x x x

x

o o o

o o o o

o o

l l l l

l

l l

l l l

l

µ

₁

Σ

1

µ

2

Σ

2

µ

₃

Σ

3

Discrimination quadratique

Quadratic Discriminant Classifier (QDC)

=Bayes+Distribution normale

(21)

La fonction de densité multi-normale a pour expression :

€

P(x / ω

i

) = 1

2 π

ⁿ

det ( ) Σ _ω

_i

^exp ⁻ 1

2 ( x − µ ω

i

)

^T

^Σ ^ω

⁻¹ⁱ

( ^x ⁻ ^µ ^ω

ⁱ

)

&

' ( )

* +

€

log ( P(x / ω

i

) ) ⁼ ⁻ ¹ ₂ ( ^x ⁻ ^µ ω

i

)

^T

^Σ ^ω

⁻¹ⁱ

( ^x ⁻ ^µ ^ω

ⁱ

) ⁻ ^log ^& _' ⁽ ² ^π

ⁿ

^det ( ) ^Σ ^ω

ⁱ

⁾ _* ⁺

Cas 2 classes A et B, l ’ expression quadratique :

€

R(x) = − 1

2 ( x − µ

A

)

^T

^Σ

A

−1

( x − µ

A

) ⁺ ¹ ₂ ( ^x ⁻ ^µ

B

)

^T

^Σ

B

−1

( x − µ

B

) ⁺ ^const

cont = log ( P(A) / P(B) ) ⁺ ¹ ₂ ^{log det} ( ( ) ^Σ

B

^/det ( ) ^Σ

A

)

Discrimination quadratique

Quadratic Discriminant Classifier (QDC)

=Bayes+Distribution normale

QDC suppose que les distributions des classes sont normales.

Dans le cas contraire, les frontières de décision ne pas optimales.

€

Classe(x) = Argmax

ω

i

P(x /ω

i

)P(ω

i

)

€

Classe(x) = Argmax

ω

i

− 1

2 ( x − µ _ω

_i

)

^T

^Σ ^ω

⁻¹ⁱ

( ^x ⁻ ^µ ^ω

ⁱ

) ⁻ ^{log 2π} ^& _' ⁽

ⁿ

^det ( ) ^Σ ^ω

ⁱ

⁾ _* ⁺ ⁺ ^log(P(ω

ⁱ

⁾⁾

, - .

/ 0 1

Discrimination quadratique

Quadratic Discriminant Classifier (QDC)

=Bayes+Distribution normale

(22)

€

Σ = Σ

_A

= Σ

_B

€

R(x) = ( µ

A

− µ

B

)

^T

^Σ

⁻¹

^x ⁺ ^const

const = − 1

2 µ

^T_A

Σ

⁻¹

µ

A

+ 1

2 µ

^T_B

Σ

⁻¹

µ

B

+ log ( P(A) / P(B) )

L’expression linéaire :

Discrimination linéaire

Linear Discriminant Classifier (LDC)

=Bayes+Distribution normale équi-covariance

Hypothèse :

€

Classe(x) = Argmax

ω

i

− 1

2 ( x − µ ω

i

)

^T

^Σ

⁻¹

( ^x ⁻ ^µ ^ω

ⁱ

) ⁻ ^{log 2} ( ^π

ⁿ

^det ^{( )} ^Σ ) ⁺ ^log(P( ^ω

ⁱ

⁾⁾

&

' (

) * +

€

Σ = Σ _ω

_i

i = 1, K ,M P(ω

i

) = P (ω

j

) i, j = 1, K ,M

Mahalanobis Classifier

Hypothèse de Multi-normalité, d ’ équi-covariance et d ’ équi-probabilité

On retrouve la distance de Mahalanobis :

d mahalanobis

2 ( x, µ _ω

_i

) = (x − µ _ω

_i

) ^T Σ ⁻¹ ( x − µ _ω

_i

)

€

Classe(x) = Argmax

ω

i

− 1

2 ( x − µ ω

i

)

^T

^Σ

⁻¹

( ^x ⁻ ^µ ^ω

ⁱ

)

% &

'

( )

*

(23)

€

Σ = Σ

_A

= Σ

_B

= I

€

R(x) = ( µ

A

− µ

B

)

^T

^Σ

⁻¹

^x ⁺ ^const

Nearest Mean Classifier :

Nearest Mean Classifier (NMC)

Hypothèse :

€

R(x) = ( µ

_A

− µ

_B

)

^T

^x ⁻ ( ^µ

A

− µ

_B

)

^T

( ^µ

A

+ µ

_B

) ^/2

Naïve Bayes Classifier (NBC)

Le modèle probabiliste pour ce classifieur est le modèle conditionnel :

€

P(ω

k

/ x

₁

, K , x

_n

) = P(ω

k

)P( x

₁

, K , x

_n

/ω

k

) P(x

₁

, K , x

_n

)

€

P( ω

_k

, x

₁

, K , x

_n

) = P( ω

_k

)P( x

₁

, K , x

_n

/ ω

_k

)

= P( ω

_k

)P( x

₁

/ ω

_k

)P(x

₂

,K, x

_n

/ ω

_k

, x

₁

)

= P( ω

k

)P( x

₁

/ ω

k

)P(x

₂

/ ω

k

, x

₁

)P(x

₃

,K, x

_n

/ ω

k

, x

₁

, x

₂

)

= P( ω

_k

)P( x

₁

/ ω

_k

)P(x

₂

/ ω

_k

, x

₁

)P(x

₃

/ ω

_k

, x

₁

, x

₂

)P( x

₄

, K , x

_n

/ ω

_k

, x

₁

, x

₂

, x

₃

)

= P( ω

_k

)P( x

₁

/ ω

_k

)P(x

₂

/ ω

_k

, x

₁

)P(x

₃

/ ω

_k

, x

₁

, x

₂

) K P(x

_n

/ ω

_k

, x

₁

, x

₂

, x

₃

,K, x

_n−1

) L’hypothèse naïve : les sont indépendantes :

€

x

i

P(x

_i

/ ω

k

, x

_j

) = P( x

_i

/ ω

k

)

X = (x

₁

, K , x

_n

) ∈ ℜ

ⁿ

P( ω

_k

/ X ) = P(X / ω

k

)P( ω

k

)

P(X)

(24)

€

P(ω

k

, x

₁

, K , x

_n

) = P(ω

k

)P( x

₁

/ω

k

)P(x

₂

/ω

k

) K P(x

_n

/ω

k

)

= P( ω

k

) P(x

_i

/ ω

k

)

i=1 n

∏

Naïve Bayes Classifier (NBC)

Par conséquent :

€

P( ω

k

/ x

₁

, K , x

_n

) =

P(ω

_k

) P(x

_i

/ω

_k

)

i=1 n

∏

P(x

₁

, K , x

_n

)

Classe X ( ) ⁼ ^Argmax

ωk

P ( ) ω

k

^{P x} (

i

/ω

k

)

i=1 n

" ∏

# $

% &

'

€

P(x / A) = P(x

_i

/ A)

i=1 nA

∏

P(x / B) = P( x

_i

/B)

i=1 nB

∏

Naïve Bayes Classifier :

Naïve Bayes Classifier (NBC)

Hypothèse :

classe(x) = Argmax

ω

k

P( ω

k

) P(x

_i

/ ω

k

)

i=1 n

$ ∏

% &

' ( )

€

S( x) = P(A) f _A ( x) − P(B) f _B ( x)

(25)

Naïve Bayes Classifier (NBC)

Exemples

d’apprentissage

x

1

=

N (nez qui coule)

x

2

=

T (tousser)

x

3

=

R (la peau rougie)

x

4

=

F (a de la fièvre)

ω

k Classe

X¹ + + + _ malade

X² + + _ _ malade

X³ _ _ + + malade

X⁴ + _ _ _ sain

X⁵ _ _ _ _ Sain

X⁶ + _ + _ ?

P(malade) = 3

5 et P(sain)= 2 5 P(N = +/malade)= 2

3 et P(N = −/ malade) = 1 3 P(N = +/sain) = 1

2 et P(N = −/sain)= 1 2

P(T = +/ malade) = 2

3 et P(T = −/ malade) = 1 3 P(T = +/ sain)= 0 et P(T =− /sain) =1

P(R = +/malade)= 2

3 et P(R= −/malade) = 1 3 P(R = +/sain) = 0 et P(R= −/ sain)=1

P(F = +/malade) = 1

3 et P(F = −/malade)= 2 3 P(F = +/sain)= 0 et P(F = −/sain) =1

Classe X

( )

⁶ ⁼^Argmax{malade,sain}

P malade

( )

^{P x}

(

i/malade

)

=P malade

( ) (

^P(N= +/malade)×P(T=−/malade)×P(R= +/malade)×P(F=−/malade)

)

i=1 4

∏

P sain

( )

^{P x}

(

i/sain

)

⁼^{P sain}

( ) (

^P(N^{= +}^/sain)×P(T⁼^−/^sain)×^P(R^{= +/}^sain)×^P(F⁼⁻^/sain)

)

i=1 4

∏

$

%

&

'

&

(

)

&

*

&

3 5

2 3

1 3

2 5

1

2 1 1

2 3

0

⇒ X

⁶

∈ malade

€

P(x /ω

k

) = 1

n

_k

K

_h

x − x

_i

h

$

% & ' ( )

xi∈

ω

k

∑

Parzen Classifier

Estimation de la densité : Parzen Classifier :

€

S(x) = P(A) f

_A

(x) − P(B) f

_B

(x) classe(x) = Argmax

ω

k

P(x /ω

k

)P(ω

k

)

où K est un noyau (kernel en anglais) et h un paramètre nommé fenêtre, qui régit le degré de lissage de l'estimation.

Bien souvent, K est choisi comme étant la densité d'une fonction gaussienne standard (espérance nulle et variance unitaire) :

Six courbes en cloche gaussiennes (rouge) et leur somme (bleu). L'estimateur à noyau de la

densité f(x) est en fait la moyenne (on divise par le nombre de courbes en cloche, 6). La

variance des normales est posée à 0,5. Notons enfin que plus il y a d'observations dans le

voisinage d'un point, plus sa densité est élevée.

(26)

Parzen Classifier

Execrcice

µ ₁ = 1 0

!

"

# $

% , µ ₂ = 0

1 !

"

# $

% , µ ₃ = 2

2 !

"

# $

%

On considère dans l’espace 2-D un problème à 3 classes :

- Donner les expressions des fonctions de décision - Donner les expressions des frontières entre les 3 classes - Donner une représentation graphique €

P ( ) ω 1 ⁼ ^P ( ) ^ω 2 ⁼ ¹

4 , P ( ) ω 3 ⁼ ¹

2 €

Σ 1 = Σ 2 = 1 0 0 2

#

$ % &

' ( , Σ 3 = 1 0 0 1

#

$ % &

' (

(27)

La fonction de décision pour ω

1

:

€

Σ 1 = Σ 2 = 2, 1

2 ln Σ 1 = 1

2 ln Σ 2 = 1 2 ln2 Σ 3 =1, 1

2 ln Σ 3 = 0 Σ 1

−1 = Σ 2

−1 = 1 0 0 ¹

2 $

% & ' ( ) , Σ 3

−1 = 1 0 0 1

$

% & ' ( )

€

R

₁

(x) = − 1 2

x[1]

x[2]

#

$ % &

' ( − 1 0

#

$ % &

' ( )

* + ,

- .

t

1 0

0 1/2

#

$ % &

' ( x[1]

x[2]

#

$ % &

' ( − 1 0

#

$ % &

' ( )

* + ,

- . − 1

2 log(2) + log 1 4

#

$ % &

' (

= − 1

2 ( x[1] − 1 x[2] ) ^# ¹ _{0 1/2} ⁰

$ % &

' ( x[1]− 1 x[2]

#

$ % &

' ( − 1

2 log(2) + log 1 4

#

$ % &

' (

= − 1

2 ⁾ _* ₊ ( x[1] −1 )

²

⁺ ¹ ₂ ( ^x[2] )

²

^, _- _. ⁻ ⁵ ₂ ^log(2)

Les fonctions de décision :

€

R

₂

( x) = − 1 2 x

₁²

+ 1

2 ( x

₂

−1 )

²

#

$ % &

' ( − 5 2 log(2)

€

R

₃

(x) = − 1

2 [ ( x

₁

− 2 )

²

⁺ ( ^x

2

− 2 )

²

] ⁻ ^log(2)

€

R

₁

(x) = − 1

2 ( x

₁

− 1 )

²

⁺ ¹ ₂ ^x

2

#

2

$ %

&

' ( − 5 2 log(2)

Les frontières entre les 3 classes :

entre ω

1

et ω

2

€

R

₁₂

( x) = R

₁

( x) − R

₂

(x)

= x

₁

− x

₂

2 − 1

4 = 0

entre ω

1

et ω

3

entre ω

2

et ω

3

€

R

₁₃

(x) = R

₁

(x) − R

₃

( x)

= x

₂²

4 − 2x

₂

− x

₁

+ 7 − 3log(2)

2 = 0

R

₂₃

(x) = R

₂

( x) − R

₃

(x)

= x

₁²

4 − 2x

₁

− x

₂

+ 7 − 3log(2)

2 = 0

€

x[1]= x

1

x[2]= x

2 On pose :

(28)

Représentation graphique

-2 -1 0 1 2 3 4 5 6 7 8

-6 -4 -2 0 2 4 6 8

µ

1

µ

2

µ

3

€

R

₁₂

( x)

€

R

₁₃

( x)

€

R

₂₃

(x)

Traitement Numérique des Données

Digital Data Processing