L’inférence

2.2 Réseaux bayésiens

          

Y∈enfants(X)

^Y U∈enfants(Z)r{X}

              

4. Le symboleδ^j_i a la signification suivante :

  1 6 1 6 1 6 1 6 1 6 1 6 1 10 1 10 1 10 1 10 1 10 1 2  

3

2.2 Réseaux bayésiens

2.2.2 L’inférence

L’inférence consiste à calculer la probabilitéa posteriori d’une (ou plusieurs) variable(s) du réseau

conditionnellement aux variables observées : P(X

| O = o) où O ⊂ X est l’ensemble des variables

observées. L’inférence a été prouvée comme étant NP-difficile dans le cas général [Cooper, 1990].

Plusieurs algorithmes permettent en théorie de calculer cette probabilité de manière exacte.

2.2.2.1 Algorithmes d’inférence

Propagation de messages [Pearl, 1988] Cette première méthode de propagation de messages

n’est valable que pour les réseaux bayésiens ayant comme graphe une arborescence. Cette particularité

permet de déduire qu’il existe une unique chaîne entre deux sommets de ce graphe.

Soit O l’ensemble des variables observées. A partir d’un sommet X, nous pouvons définir deux

ensembles de sommetsP

etE

tels queP

regroupe les sommets deOdont la chaîne versX passe

2.2. Réseaux bayésiens 25

par un parent de X et E

regroupe les sommets de O dont la chaîne vers X passe par un enfant de

X etO=P

∪E

. Il est possible de montrer que

P(X |O=o)∝λ(X)·π(X) (2.1)

avec λ(X)∝P(E

|X) et π(X)∝P(X|P

).

Il s’agit ensuite de calculer des messagesλet π pour chaque variable selon un ordre topologique :

- Les messages λ

Pour chaque enfantY deX :

λ

(X =x) =

P(Y =y|X=x)·λ(Y =y) (2.2)

Le calcul deλpour la variableX s’obtient à l’aide la fonction suivante :

λ(X =x) =

δ

siX est instanciée àx

(X ∈O)

1 siX est une feuille

λ

(X =x) sinon.

(2.3)

oùδ

est le symbole de Kronecker

.

- Les messages π

Pour l’unique parent Z de X :

π

(Z =z) =π(Z =z)

λ

(Z =z) (2.4)

π(X=x) =

δ

siX est instanciée

à x

(X∈O)

P(X) siX est une racine

P(X =x|Z =z)·π

(Z =z) sinon.

(2.5)

dans ce cas sa complexité en temps estO(nd

) et en espaceO(nd) avecn=|X|,d= max

D

Cette propagation peut également s’effectuer dans les polyarbres

.

Clique-tree propagation [Lauritzen and Spiegelhalter, 1988, Jensen et al., 1990] La

mé-thode est applicable pour toute structure de graphe sans circuit contrairement à la mémé-thode de

propa-gation de messages précédente. L’idée est de fusionner les variables pour se ramener à un arbre. Elle

est divisée en quatre étapes qui sont :

1. Moralisation du graphe (section1.3.1 page 11)

2. Triangulation du graphe moral (section 1.3.3 page 12)

3. Construction d’une décomposition arborescente (section1.4 page 14)

4. Inférence dans la décomposition arborescente en utilisant la propagation de messages précédente

Les clusters de la décomposition arborescente deviennent les variables. L’envoi des messages (les

potentiels) dans la décomposition arborescente, permet d’effectuer l’inférence dans n’importe quel

réseau bayésien. Les potentiels vont être mis à jour, il sera ensuite possible d’en déduire les lois

marginales pour les variables du réseau d’origine.

Cette méthode a une complexité, en temps et en mémoire, exponentielle en la largeur d’arbre.

D’autres méthodes exactes existent, loop cutset conditionning [Pearl, 1988], ainsi que des méthodes

approchées basées sur l’échantillonnage avec les méthodes MCMC (pour Markov Chain Monte Carlo)

conditionnellement aux variables observées : _P(X

avec λ(X)∝_P(E

|X) et π(X)∝_P(X|P

^si^X ^{est instanciée}

2.2.2.2 Requêtes possibles sur la loi de _P(X)

loi_P(X) :

La vraisemblance des observations (PR) Calculer la probabilité _P(O = o) ayant observé les

Les probabilités marginales (MAR) Calculer la probabilitéa posteriori _P(X

∈X_rO.

U⊆X_rO de probabilité_P(U=u|O=o) maximum.

X_rOde probabilité _P(U=u|O=o) maximum.

) =_P(X

notée_P(e

o∈ D à partir de l’état e∈E notées_P(o|e).

– un vecteur d’initialisation Π :E→[0,1] indiquant les probabilités initiales_P(e).

– T = ⁰.95 0.05

0.95 _0.05