Partie I Un formalisme graphique 11
1.2 Inférence bayésienne
X
1X
2X
3X
1X
2X
3Cette structure est la représentation graphique de la factorisation :
P(X
1, X
2, X
3) =P(X
1)P(X
2|X
1)P(X
3|X
1)
Nous pouvons voir ici queX
2etX
3sont conditionnellement indépendantes relativement à
X
1puisque :
P(X
2, X
3|X
1) =P(X
1)P(X
2|X
1)P(X
3|X
1)P(X
1)
= P(X
2|X
1)P(X
3|X
1)
En revanche, lorsqueX
1n’est pas observée, l’information peut circuler entreX
2etX
3. C’est
le cas de deux évènements pouvant partager une même cause. Pour reprendre l’exemple du
virus de la grippe, prenons les trois variables suivantes : V la présence ou non du virus,
T
1etT
2les résultats de deux tests différents de présence du virus. Ne connaissant pas la
valeur deV, le fait queT
1soit positif vient renforcer la probabilité queT
2soit positif aussi.
Alors que connaissant la valeur de V, la probabilité sur T
2ne dépend plus du résultat de
T
1mais simplement de la sensibilité et de la spécificité du test T
2.1.2 Inférence bayésienne
Le terme inférence désigne de manière générale la production d’informations nouvelles à partir
d’informations existantes. L’inférence en logique consiste à conclure à la vérité d’une proposition
en partant de prémisses. Les prémisses sont des connaissances a priori sous la forme de
propo-sitions tenues pour vraies. De la même façon, l’inférence bayésienne est une démarche inductive
mais travaillant cette fois sur des connaissances prenant la forme de mesures de probabilités.
Elle consiste à calculer la probabilité d’une hypothèse à partir de connaissancesa priori données
sous la forme de mesures de probabilité. Dans le raisonnement bayésien, la mesure de probabilité
n’est pas interprétée comme la limite à l’infini d’un calcul de fréquence mais comme la traduction
numérique d’une connaissance. Elle mesure un degré de certitude dans la vérité d’une hypothèse.
L’inférence bayésienne repose sur l’utilisation stricte des règles de combinaison des probabilités.
1.2.1 Un exemple simple
L’application de la règle de Bayes est le cas le plus simple d’inférence bayésienne. Prenons
l’exemple d’un test médical. Notons T la variable donnant le résultat du test (positif ou négatif)
etM la variable représentant l’état de la personne (malade ou non malade). Le test est caractérisé
par sa sensibilité (Se) et sa spécificité (Sp). La sensibilité nous donne la probabilité que le test
soit positif sachant que la personne est malade :
M
T
Figure1.2 – Représentation graphique de la relation entre la variableM (malade ou non malade)
et la variableT (test positif ou négatif) dans le cas d’un test médical.
La spécificité à l’inverse nous donne la probabilité que le test soit négatif lorsque la personne
n’est pas malade :
Sp=P( ¯T|M¯)
La relation entreM etT est représentée graphiquement par la figure 1.2.
La règle de Bayes nous permet de calculer la probabilitéP(M|T)que la personne soit malade
sachant que le test est positif.
P(M|T) = P(T|M)P(M)
P(T) (1.12)
= P(T|M) P(M)
P(T|M)P(M) +P(T|M¯)(1−P(M)) (1.13)
= Se P(M)
Se P(M) + (1−Sp)(1−P(M)) (1.14)
La probabilitéP(M)est la probabilitéa priori que la personne soit malade. Elle est par exemple
donnée par la prévalence de la maladie dans la population à laquelle appartient la personne.
Dans [Meyeret al., 2009] les auteurs montrent l’importance et l’intérêt de la probabilité a
priori dans le raisonnement bayésien au travers de l’exemple du diagnostic d’une sérologie positive
pour le VIH, d’une part, chez une femme de 75 ans sans antécédents et, d’autre part, chez un
toxicomane de 27 ans. Le test a les caractéristiques suivantes :Se= 0.97etSp= 0.98.
– Dans le cas d’une la femme âgée la prévalence de la maladie est P(M) = 1/500000, le
calcule donne dans ce cas, P(M|T) = 0.00097.
– Dans le cas d’un toxicomane avec une prévalence P(M) = 1/10, nous obtenonsP(M|T) =
0.982.
L’inférence bayésienne nous permet ici de fusionner l’information donnée par les caractéristiques
du test avec celle donnée par la prévalence de la maladie. L’observation « test positif » est
prise en compte pour calculer a posteriori, c’est à dire après observation du résultat du test, la
probabilité que la personne soit malade. Cet exemple nous apprend que dans le cas de la femme
âgée la spécificité du test n’est pas suffisante pour conclure à la présence de la maladie lorsque
le test est positif.
1.2.2 Evidences
Dans le cadre des réseaux bayésiens, il est courant d’utiliser le terme anglais evidence pour
désigner une observation faite sur une variable. Il faut considérer l’evidencecomme un évènement.
Dans l’exemple précédent, la variableT est une variable aléatoire binaire désignant les deux issues
1.2. Inférence bayésienne
possibles du test. L’evidence e
Test la lecture du résultat du test. C’est un évènement qui apporte
une nouvelle connaissance sur la valeur de T.
Une evidence n’est pas nécessairement certaine. Il se peut par exemple que la lecture du
résultat du test dépende d’une échelle de couleurs et qu’il y ait une incertitude sur la lecture
même de ce résultat. Pearl [Pearl, 1988] utilise le terme d’evidence « virtuelle » pour décrire le
cas où la collecte de l’evidence repose sur une interprétation extérieure, difficile à expliciter. Le
raisonnement résultant dans la production de l’evidence restant caché, il est nécessaire de faire
l’hypothèse d’une relation uniquement locale entre l’evidence et la variable sur laquelle elle porte.
Celle-ci ne doit pas dépendre d’evidences précédentes où d’informations a priori déjà prises en
compte dans le modèle. Dans l’exemple de l’interprétation d’une échelle de couleur pour un test
médical, cela signifie par exemple que la prévalence de la maladie P(M) ne doit pas être prise
en compte lors de l’évaluation de l’evidence e
T.
L’écriture de l’evidence peut se faire de manière générale sous la forme de probabilités
condi-tionnelles, iciP(e
T|T =negatif)etP(e
T|T =positif), quantifiant le degré de certitude attribué
à chacune des valeurs de la variable observée. Selon l’hypothèse de dépendance locale nous avons
P(e
T|T, M) =P(e
T|T).
Remarquons que seules les valeurs relatives attribuées aux différentes hypothèses interviennent
au moment de l’inférence. L’evidence est définie à une constante multiplicative près, au sens ou
l’information apportée par P(e
T|T)etαP(e
T|T) est la même. Sur l’exemple précédent le calcul
de la probabilitéa posteriori P(M|e
T)est le suivant :
P(M|e
T) =
P
TP(e
T, T, M)
P(e
T)
=
P
TP(e
T|T, M)P(T|M)P(M)
P(e
T)
=
P
TP(e
T|T)P(T|M)P(M)
P
M,TP(e
T|T)P(T|M)P(M)
=
P
TαP(e
T|T)P(T|M)P(M)
P
M,TαP(e
T|T)P(T|M)P(M)
Etant donné que P
M
P(M|e
T) = 1, le dénominateur P(e
T) est souvent considéré comme une
constante de normalisation. Nous reverrons que la valeur P(e
T) nous donne une mesure de la
probabilité de l’evidence sachant le modèle.
L’inférence peut s’écrire dans le cas général à partir de la loi jointe en utilisant l’opération
de marginalisation (1.2). Etant donné un ensemble de variables {X
1, . . . , X
N}et une evidence e
portant sur la variableX
e∈ {X
1, . . . , X
N} :
P(X
i|e) =
P
Xj,j6=i
P(e|X
e)P(X
1, . . . , X
N)
P(e)
L’inconvénient d’utiliser la loi jointe est que celle-ci grandit exponentiellement avec le nombre
de variables puisque qu’elle énumère toutes les combinaisons de valeurs possibles. Ainsi la loi
jointe de N variables binaires est une table de 2
Nvaleurs. Le réseau bayésien nous donne une
représentation factorisée (1.11), donc plus compacte, qu’il est intéressant d’exploiter.
X
Y
Z
Figure1.3 – Une simple chaine
Dans le document
Modélisation stochastique pour le raisonnement médical et ses applications à la télémédecine
(Page 43-46)