• Aucun résultat trouvé

Partie I Un formalisme graphique 11

1.5 Inférence dans un réseau hybride

Si les variables discrètes sont bien adaptées à la représentation d’un raisonnement basé sur

une information symbolique (présence ou absence d’un symptôme, résultat positif ou négatif d’un

test, présence ou absence d’une pathologie...) il est parfois nécessaire d’intégrer une information

portant sur des variables continues. Avant de décider que le patient présente une hypertension

artérielle, le médecin accède à la mesure des pressions artérielles qui est une information

quan-titative représentable par une variable continue. Dans le cas général le réseau bayésien peut être

composé à la fois de variables discrètes et de variables continues. Nous parlons alors de réseau

hybride.

1.5.1 Observations continues

Il existe un cas particulier de réseau hybride que nous rencontrons souvent lors de la

modé-lisation d’un raisonnement humain, c’est le cas où les variables continues ne sont situées que sur

des nœuds « feuilles » c’est à dire n’ayant aucun fils. Les variables continues n’ont alors que des

parents discrets et la connaissance a priori associée à ce type de nœuds est un ensemble de loi

continues f

P a

(x) représentant les densités de probabilité de la variableX pour chacune des

va-leurs de ses parentsP a. Dans le cas d’une variable continue, la notationP(X =x|P a) =f

P a

(x)

désignera un ensemble de densités de probabilité. L’introduction d’une evidence e

X

sur un tel

nœud consiste à insérer une observation du type «X=x». L’inférence revient alors à calculer :

P(P a|e

X

) =αP(X=x|P a)P(P a) (1.56)

où α= 1/P(e

X

) est le coefficient de normalisation.

Une astuce permettant, dans ce cas particulier, d’exploiter tel quel l’algorithme d’inférence

pour les réseaux discrets est d’utiliser un nœud discret X

i

, à un seul état, pour chaque variable

continue, et de considérer les loisP(e

Xi

|P a

i

) comme lois conditionnelles associés à ces variables.

Remarquons que, comme dans le cas des evidences incertaines (voir section 1.2.2), seules les

1.5. Inférence dans un réseau hybride

A

X

1

B

X

2

Figure 1.13 – Cas particulier d’un réseau où les nœuds continusX

i

se trouvent sur des feuilles.

Les nœuds carrés sont associés à des variables discrètes.

valeurs relatives def

P a

(x)pour les différentes valeurs deP ainfluent sur la probabilitéa posteriori

P(P a|X=x).

1.5.2 Cas plus général

Nous considérons ici un modèle constitué de variables discrètes et continues gaussiennes avec

comme contrainte qu’une variable discrète n’ait pas de parents continus. La distribution jointe

d’un tel réseau hybride est un mélange de gaussiennes multivariées (à chaque configuration des

variables discrètes correspond une distribution gaussienne). Les potentiels de cliques pourront

donc être représentés par un ensemble de formes canoniques (g(i), h(i), K(i)). Nous désignons

dans cette section à l’aide des lettres i, j des valeurs de variables discrètes alors que les valeurs

de variables continues seront représentées par les lettres x, y.

La principale difficulté du cas hybride est que la forme gaussienne n’est pas close vis à vis

de l’addition (la somme de deux gaussiennes ne peut pas se réduire à une seule gaussienne).

L’addition étant utilisée au moment de l’opération de marginalisation, nous pouvons distinguer

deux cas de figures concernant la marginalisation d’un potentiel hybride, la marginalisation

« forte » et la marginalisation « faible ».

Marginalisation forte

Dans le cas de l’intégration de variables continues, le calcul est exact et la marginalisation

est dite forte. C’est l’opérationR

y

φ(i, x, y) décrite à la section (1.4.2) répétée pour chacune des

formes canoniques du potentiel (chaque valeur de i).

Le second cas de marginalisation forte est celui de la somme de potentiels P

j

φ(i, j, x)dont

les paramètres h(i, j) et K(i, j) ne dépendent pas de la variable j (les distributions à sommer

ont la même moyenne et la même variance). Le résultat φ(i, x) peut être représenté de manière

exacte avec un nombre plus petit de formes canoniques.

g(i) = logX

j

expg(i, j)

h(i) = h(i, j)

Marginalisation faible

Si dans la somme P

j

φ(i, j, x), les paramètres h(i, j) etK(i, j) des distributions à sommer

ne sont pas indépendants des valeurs dej, le résultat est une somme de gaussiennes qu’il n’est

pas possible de représenter autrement de manière exacte. C’est à dire que pour une valeur de i

donnée, le potentielφ(i, x) =P

j

φ(i, j, x)est une distribution multimodale. Si l’on ne s’intéresse

qu’à l’espérance et à la variance de la distribution résultante, il est possible d’assimiler celle-ci à

une gaussienne unique, résultat de la « fusion » des différentes gaussiennes de la somme. Cette

opération s’appelle marginalisation « faible ». La marginalisation faible se fait en repassant à la

forme moment (la forme classique) de la gaussienne (p

ij

, µ

ij

ij

).

p

i

= X

j

p

ij

µ

i

= X

j

p

ij

p

i

µ

ij

Σ

i

= X

j

p

ij

p

i

Σ

ij

+ (µ

ij

−µ

i

)(µ

ij

−µ

i

)

T

Racine forte

La marginalisation forte d’un potentiel hybride est possible à condition de sommer dans

l’ordre les dimensions continues puis les variables discrètes. Ceci a pour conséquence sur le passage

de messages de nous obliger à organiser les nœuds de la chaine de façon à ce que la marginalisation

des variables continues se face avant celle des variables discrètes lors de la collecte (remontée)

desevidences. Cette répartition asymétrique des variables en fonction de leur nature (discrète ou

continue) est décrite par le concept de racine forte [Lauritzen, 1992]. L’arbre de jonction est dit

avoir une racine forte si, lorsque l’on parcourt une branche en partant de la racine, les potentiels

sont « de plus en plus continus », plus précisément, si, pour deux cliques adjacentes C

1

et C

2

,

C

1

étant plus proche de la racine, soit C

2

ne contient pas de nouvelles variables discrètes soit le

séparateur entre C

1

etC

2

est purement discret.

Lors de la phase retour (distribution des evidences), il est nécéssaire d’utiliser la

marginali-sation faible. Cependant, il peut être montré [Lauritzen, 1992] que tant que la marginalisation

de la phase collecte se fait de façon forte il n’y a pas de perte d’informations au sens où après

inférence :

– les potentiels sont localement cohérents car le potentiel d’un séparateur est le même quelque

soit la clique adjacente à partir de laquelle celui-ci est cohérent,

– le calcule de la moyenne et de variance d’une variable réalisé par marginalisation faible sur

l’une des clique est exacte,

– la loi jointe obtenue en faisant le produit des potentiels de cliques divisé par les potentiels

des séparateur est exacte

Q

i

φ

Ci

Q

j

φ

Sj

.

Un arbre de jonction avec racine forte peut être obtenu simplement en imposant lors de sa

construction d’éliminer les variables continues avant les variables discrètes.