Partie I Un formalisme graphique 11
1.5 Inférence dans un réseau hybride
Si les variables discrètes sont bien adaptées à la représentation d’un raisonnement basé sur
une information symbolique (présence ou absence d’un symptôme, résultat positif ou négatif d’un
test, présence ou absence d’une pathologie...) il est parfois nécessaire d’intégrer une information
portant sur des variables continues. Avant de décider que le patient présente une hypertension
artérielle, le médecin accède à la mesure des pressions artérielles qui est une information
quan-titative représentable par une variable continue. Dans le cas général le réseau bayésien peut être
composé à la fois de variables discrètes et de variables continues. Nous parlons alors de réseau
hybride.
1.5.1 Observations continues
Il existe un cas particulier de réseau hybride que nous rencontrons souvent lors de la
modé-lisation d’un raisonnement humain, c’est le cas où les variables continues ne sont situées que sur
des nœuds « feuilles » c’est à dire n’ayant aucun fils. Les variables continues n’ont alors que des
parents discrets et la connaissance a priori associée à ce type de nœuds est un ensemble de loi
continues f
P a(x) représentant les densités de probabilité de la variableX pour chacune des
va-leurs de ses parentsP a. Dans le cas d’une variable continue, la notationP(X =x|P a) =f
P a(x)
désignera un ensemble de densités de probabilité. L’introduction d’une evidence e
Xsur un tel
nœud consiste à insérer une observation du type «X=x». L’inférence revient alors à calculer :
P(P a|e
X) =αP(X=x|P a)P(P a) (1.56)
où α= 1/P(e
X) est le coefficient de normalisation.
Une astuce permettant, dans ce cas particulier, d’exploiter tel quel l’algorithme d’inférence
pour les réseaux discrets est d’utiliser un nœud discret X
i, à un seul état, pour chaque variable
continue, et de considérer les loisP(e
Xi|P a
i) comme lois conditionnelles associés à ces variables.
Remarquons que, comme dans le cas des evidences incertaines (voir section 1.2.2), seules les
1.5. Inférence dans un réseau hybride
A
X
1B
X
2Figure 1.13 – Cas particulier d’un réseau où les nœuds continusX
ise trouvent sur des feuilles.
Les nœuds carrés sont associés à des variables discrètes.
valeurs relatives def
P a(x)pour les différentes valeurs deP ainfluent sur la probabilitéa posteriori
P(P a|X=x).
1.5.2 Cas plus général
Nous considérons ici un modèle constitué de variables discrètes et continues gaussiennes avec
comme contrainte qu’une variable discrète n’ait pas de parents continus. La distribution jointe
d’un tel réseau hybride est un mélange de gaussiennes multivariées (à chaque configuration des
variables discrètes correspond une distribution gaussienne). Les potentiels de cliques pourront
donc être représentés par un ensemble de formes canoniques (g(i), h(i), K(i)). Nous désignons
dans cette section à l’aide des lettres i, j des valeurs de variables discrètes alors que les valeurs
de variables continues seront représentées par les lettres x, y.
La principale difficulté du cas hybride est que la forme gaussienne n’est pas close vis à vis
de l’addition (la somme de deux gaussiennes ne peut pas se réduire à une seule gaussienne).
L’addition étant utilisée au moment de l’opération de marginalisation, nous pouvons distinguer
deux cas de figures concernant la marginalisation d’un potentiel hybride, la marginalisation
« forte » et la marginalisation « faible ».
Marginalisation forte
Dans le cas de l’intégration de variables continues, le calcul est exact et la marginalisation
est dite forte. C’est l’opérationR
y
φ(i, x, y) décrite à la section (1.4.2) répétée pour chacune des
formes canoniques du potentiel (chaque valeur de i).
Le second cas de marginalisation forte est celui de la somme de potentiels P
j
φ(i, j, x)dont
les paramètres h(i, j) et K(i, j) ne dépendent pas de la variable j (les distributions à sommer
ont la même moyenne et la même variance). Le résultat φ(i, x) peut être représenté de manière
exacte avec un nombre plus petit de formes canoniques.
g(i) = logX
j
expg(i, j)
h(i) = h(i, j)
Marginalisation faible
Si dans la somme P
j
φ(i, j, x), les paramètres h(i, j) etK(i, j) des distributions à sommer
ne sont pas indépendants des valeurs dej, le résultat est une somme de gaussiennes qu’il n’est
pas possible de représenter autrement de manière exacte. C’est à dire que pour une valeur de i
donnée, le potentielφ(i, x) =P
j
φ(i, j, x)est une distribution multimodale. Si l’on ne s’intéresse
qu’à l’espérance et à la variance de la distribution résultante, il est possible d’assimiler celle-ci à
une gaussienne unique, résultat de la « fusion » des différentes gaussiennes de la somme. Cette
opération s’appelle marginalisation « faible ». La marginalisation faible se fait en repassant à la
forme moment (la forme classique) de la gaussienne (p
ij, µ
ij,Σ
ij).
p
i= X
jp
ijµ
i= X
jp
ijp
iµ
ijΣ
i= X
jp
ijp
iΣ
ij+ (µ
ij−µ
i)(µ
ij−µ
i)
TRacine forte
La marginalisation forte d’un potentiel hybride est possible à condition de sommer dans
l’ordre les dimensions continues puis les variables discrètes. Ceci a pour conséquence sur le passage
de messages de nous obliger à organiser les nœuds de la chaine de façon à ce que la marginalisation
des variables continues se face avant celle des variables discrètes lors de la collecte (remontée)
desevidences. Cette répartition asymétrique des variables en fonction de leur nature (discrète ou
continue) est décrite par le concept de racine forte [Lauritzen, 1992]. L’arbre de jonction est dit
avoir une racine forte si, lorsque l’on parcourt une branche en partant de la racine, les potentiels
sont « de plus en plus continus », plus précisément, si, pour deux cliques adjacentes C
1et C
2,
C
1étant plus proche de la racine, soit C
2ne contient pas de nouvelles variables discrètes soit le
séparateur entre C
1etC
2est purement discret.
Lors de la phase retour (distribution des evidences), il est nécéssaire d’utiliser la
marginali-sation faible. Cependant, il peut être montré [Lauritzen, 1992] que tant que la marginalisation
de la phase collecte se fait de façon forte il n’y a pas de perte d’informations au sens où après
inférence :
– les potentiels sont localement cohérents car le potentiel d’un séparateur est le même quelque
soit la clique adjacente à partir de laquelle celui-ci est cohérent,
– le calcule de la moyenne et de variance d’une variable réalisé par marginalisation faible sur
l’une des clique est exacte,
– la loi jointe obtenue en faisant le produit des potentiels de cliques divisé par les potentiels
des séparateur est exacte
Q
i
φ
CiQ
j
φ
Sj.
Un arbre de jonction avec racine forte peut être obtenu simplement en imposant lors de sa
construction d’éliminer les variables continues avant les variables discrètes.
Dans le document
Modélisation stochastique pour le raisonnement médical et ses applications à la télémédecine
(Page 58-61)