Théorème de Bayes

(1)

Quelques approches pour rendre calculable P(Y/X)

Ricco RAKOTOMALALA

(2)

Théorème de Bayes

Probabilité conditionnelle

( ) ( ) ( )

( ) ( )

∑

=

= ℵ

×

=

= ℵ

×

= =

ℵ

= ℵ

×

= = ℵ

=

K

k

k k

k

y Y

P y

Y P

y Y

P y

Y P

P

y Y

P y

Y y P

Y P

1

/ / / /

Estimer la probabilité conditionnelle

Déterminer la conclusion = déterminer le max.

( )

(

k

) (

k

)

k k

k k k

y Y

P y

Y P y

y Y

P y

= ℵ

×

=

⇔

ℵ

=

/ max

arg

/ max

arg

*

Comment estimer P(X/Y=y

_k

)

Probabilité a priori

(3)

Modèle bayesien naïf (I)

Modèle d’indépendance conditionnelle

Hypothèse d’indépendance conditionnelle ∏

=

ℵ

^J

j

k j

k

P X Y y

y Y P

1

) /

( )

/ (

Les descripteurs sont deux à deux indépendants conditionnellement aux valeurs prises par Y

Pour un descripteurs X discret quelconque,

la probabilité conditionnelle pour qu’elle

( )

) /

( P X x

^l

Y y

^k

y Y x X

P = = = = ∧ =

la probabilité conditionnelle pour qu’elle

prenne la valeur x_l s’écrit

( / ) ( )

k k l

k

l

Y y P Y y

x X

P = = = =

Et son estimation (profil ligne)

( ) { }

{ }

k kl

k

k l

n n

y Y

x y X

Y x X P

=

= Ω

∈

=

∧

= Ω

= ∈

=

= # , ( )

) ( )

( , / #

ˆ ω ω

ω ω

ω

n n n

y

x X

Y

k kl

k

l

Σ

\

(4)

Modèle bayesien naïf (II)

Exemple

NB Maladie

Maladie Somme Indépendance conditionnelle

Maladie Marié Etud.Sup

Présent Non Oui

Absent Non Non

Absent Oui Oui

Présent Non Oui

Absent Non Non

Absent Oui Non

Présent Non Oui

Absent Oui Non

Présent Oui Non

Estimation directe

1 1 ) 1 ,

/

ˆ(Maladie = Absent Marié = oui Etu = oui = = P

1 0 ) 0 ,

/ Présent

ˆ(Maladie = Marié = oui Etu = oui = = P

Si Etu = oui et Marié = oui Alors Maladie = Absent (+) Calcul sans hypothèses restrictives, (-) effectifs indigents

Maladie Somme Abse nt 50.00%

Présent 50.00%

Total 100.00%

NB Maladie Marié

Maladie Non Oui Total

Abse nt 40.00% 60.00% 100.00%

Présent 80.00% 20.00% 100.00%

Total 60.00% 40.00% 100.00%

NB Maladie Etud.Sup

Maladie Non Oui Total

Abse nt 80.00% 20.00% 100.00%

Présent 20.00% 80.00% 100.00%

Total 50.00% 50.00% 100.00%

Indépendance conditionnelle

06 . 0

2 . 0 6 . 0 5 . 0

.) /

ˆ( .) /

ˆ( ) ˆ(

) ,

/ ˆ(

=

×

=

×

=

×

=

Abs M

oui Etu

P Abs M

oui Marié

P Absent

Maladie P

oui Etu

oui Marié

Absent Maladie

P

08 . 0

8 . 0 2 . 0 5 . 0

.) /

ˆ( .) /

ˆ( ) ˆ(

) ,

/ ˆ(

=

×

=

×

=

×

=

Abs M

oui Etu

P Abs M

oui Marié

P présent

Maladie P

oui Etu

oui Marié

présent Maladie

P

Si Etu = oui et Marié = oui Alors Maladie = Présent

(5)

Modèle bayesien naïf (III)

Avantages et inconvénients

>> Simplicité, rapidité de calcul (pas de risque de « plantage », cf. la régression logistique ou l’ADL)

>> C’est un modèle linéaire (prouvé sur descripteurs binaires)

∑

=

× ^J

j

L j

K

1 Probabilités à estimer contre ∏

=

× ^J

j

L j

K

1 pour le modèle bayesien complet

>> Incrémentalité (table des probas conditionnelles à maintenir)

>> Robustesse (performant même si hypothèse non-respectée)

>> Pas de sélection (mise en évidence) des variables pertinentes

>> Nombre de règles égal au nombre de combinaisons de descripteurs

(dans la pratique, les règles ne sont pas formées, nous conservons les probas conditionnelles que nous appliquons pour chaque individu à classer pas d’interprétation des résultats)

Traitement des variables continues Discrétisation (supervisée)

Hypothèse de distribution, pour chaque descripteur f(X/Y) = loi normale

(6)

Analyse discriminante non-paramétrique

Estimations locales des probabilités

6 7 8 9 10

Définir un voisinage autour du point « o » à classer et estimer localement les probabilités.

Principe : Ne pas faire d’hypothèses sur les distributions

0 1 2 3 4 5 6

0 2 4 6 8 10 12 14

>> Principal problème à résoudre : comment définir le voisinage ?

>> La distance utilisée joue un rôle important !

(7)

Méthode des plus proches voisins (I)

Paramètre : K_N, nombre d’observations autour du point à classer (voisinage)

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10 12 14

K_N= 3

n K

n y

K y

K K

V Y

N

k k

N k

N N

Σ

∉

∈ ) (

\

[ ]

( )

n K

n y K P

y Y P

N k

k N

k =

ℵ

= ℵ

) ˆ (

/ ) ˆ (

ω ω

« Rappel » des y_k dans le voisinage

n

Taille (relative) du voisinage

Simplification de l’écriture (

si échantillon extrait aléatoirement

)

[ ] [ ] [ ]

[ ]

( )

N k N

N k

k N

k

k k

k

K y K

n K

n y K

n n

P

y Y

y P Y

P y

Y P

=

×

=

ℵ

=

× ℵ

=

= ℵ

= ˆ ( )

/ ) ˆ (

) ˆ ( ˆ /

ω ω ω

Proportion de Yk dans le voisinage du point à classer

(8)

Méthode des plus proches voisins (II)

Avantages et inconvénients

>> Simplicité, pas d’apprentissage d’un modèle (lazy learning)

>> Incrémentalité (garder à disposition les individus de la base)

>> Bonnes performances en général

>> Err(1-ppv) < 2 x Err(Modèle bayesien idéal)

>> Paramétrage difficile (choix de la taille du voisinage)

>> Impossibilité d’interprétation d’un classement proposé

>> Nécessité de garder sous la main la base de données

>> Lenteur en classement (passage en revue de tous les individus de la base)

>> Sensibilité à la dimensionnalité (et aux variables non pertinentes)

>> Traitement des variables discrètes (codage 0/1 ou axes factoriels)

>> Choix de la distance pèse sur les résultats

>> Attention aux problèmes d’échelle si distance euclidienne utilisée

>> Pondérer l’influence des observations selon leur éloignement dans le voisinage

(9)

Bibliographie

E.DIDAY, L. LEMAIRE, J.POUGET, F. TESTU – « Éléments d’analyse de données », DUNOD, 1982.

L. LEBART, A. MORINEAU, M. PIRON – « Statistique exploratoire multidimensionnelle », DUNOD, 2000 (3ème édition).

G. CELEUX, J.P. NAKACHE, « Analyse discriminante sur variables qualitatives », POLYTECHNICA, 1994.

Et les incontournables, FUKUNAGA, DUDA & HART, etc.