• Aucun résultat trouvé

Partie I Un formalisme graphique 11

1.2 Inférence bayésienne

X

1

X

2

X

3

X

1

X

2

X

3

Cette structure est la représentation graphique de la factorisation :

P(X

1

, X

2

, X

3

) =P(X

1

)P(X

2

|X

1

)P(X

3

|X

1

)

Nous pouvons voir ici queX

2

etX

3

sont conditionnellement indépendantes relativement à

X

1

puisque :

P(X

2

, X

3

|X

1) =

P(X

1)

P(X

2

|X

1

)P(X

3

|X

1)

P(X

1

)

= P(X

2

|X

1

)P(X

3

|X

1

)

En revanche, lorsqueX

1

n’est pas observée, l’information peut circuler entreX

2

etX

3

. C’est

le cas de deux évènements pouvant partager une même cause. Pour reprendre l’exemple du

virus de la grippe, prenons les trois variables suivantes : V la présence ou non du virus,

T

1

etT

2

les résultats de deux tests différents de présence du virus. Ne connaissant pas la

valeur deV, le fait queT

1

soit positif vient renforcer la probabilité queT

2

soit positif aussi.

Alors que connaissant la valeur de V, la probabilité sur T

2

ne dépend plus du résultat de

T

1

mais simplement de la sensibilité et de la spécificité du test T

2.

1.2 Inférence bayésienne

Le terme inférence désigne de manière générale la production d’informations nouvelles à partir

d’informations existantes. L’inférence en logique consiste à conclure à la vérité d’une proposition

en partant de prémisses. Les prémisses sont des connaissances a priori sous la forme de

propo-sitions tenues pour vraies. De la même façon, l’inférence bayésienne est une démarche inductive

mais travaillant cette fois sur des connaissances prenant la forme de mesures de probabilités.

Elle consiste à calculer la probabilité d’une hypothèse à partir de connaissancesa priori données

sous la forme de mesures de probabilité. Dans le raisonnement bayésien, la mesure de probabilité

n’est pas interprétée comme la limite à l’infini d’un calcul de fréquence mais comme la traduction

numérique d’une connaissance. Elle mesure un degré de certitude dans la vérité d’une hypothèse.

L’inférence bayésienne repose sur l’utilisation stricte des règles de combinaison des probabilités.

1.2.1 Un exemple simple

L’application de la règle de Bayes est le cas le plus simple d’inférence bayésienne. Prenons

l’exemple d’un test médical. Notons T la variable donnant le résultat du test (positif ou négatif)

etM la variable représentant l’état de la personne (malade ou non malade). Le test est caractérisé

par sa sensibilité (Se) et sa spécificité (Sp). La sensibilité nous donne la probabilité que le test

soit positif sachant que la personne est malade :

M

T

Figure1.2 – Représentation graphique de la relation entre la variableM (malade ou non malade)

et la variableT (test positif ou négatif) dans le cas d’un test médical.

La spécificité à l’inverse nous donne la probabilité que le test soit négatif lorsque la personne

n’est pas malade :

Sp=P( ¯T|M¯)

La relation entreM etT est représentée graphiquement par la figure 1.2.

La règle de Bayes nous permet de calculer la probabilitéP(M|T)que la personne soit malade

sachant que le test est positif.

P(M|T) = P(T|M)P(M)

P(T) (1.12)

= P(T|M) P(M)

P(T|M)P(M) +P(T|M¯)(1−P(M)) (1.13)

= Se P(M)

Se P(M) + (1−Sp)(1−P(M)) (1.14)

La probabilitéP(M)est la probabilitéa priori que la personne soit malade. Elle est par exemple

donnée par la prévalence de la maladie dans la population à laquelle appartient la personne.

Dans [Meyeret al., 2009] les auteurs montrent l’importance et l’intérêt de la probabilité a

priori dans le raisonnement bayésien au travers de l’exemple du diagnostic d’une sérologie positive

pour le VIH, d’une part, chez une femme de 75 ans sans antécédents et, d’autre part, chez un

toxicomane de 27 ans. Le test a les caractéristiques suivantes :Se= 0.97etSp= 0.98.

– Dans le cas d’une la femme âgée la prévalence de la maladie est P(M) = 1/500000, le

calcule donne dans ce cas, P(M|T) = 0.00097.

– Dans le cas d’un toxicomane avec une prévalence P(M) = 1/10, nous obtenonsP(M|T) =

0.982.

L’inférence bayésienne nous permet ici de fusionner l’information donnée par les caractéristiques

du test avec celle donnée par la prévalence de la maladie. L’observation « test positif » est

prise en compte pour calculer a posteriori, c’est à dire après observation du résultat du test, la

probabilité que la personne soit malade. Cet exemple nous apprend que dans le cas de la femme

âgée la spécificité du test n’est pas suffisante pour conclure à la présence de la maladie lorsque

le test est positif.

1.2.2 Evidences

Dans le cadre des réseaux bayésiens, il est courant d’utiliser le terme anglais evidence pour

désigner une observation faite sur une variable. Il faut considérer l’evidencecomme un évènement.

Dans l’exemple précédent, la variableT est une variable aléatoire binaire désignant les deux issues

1.2. Inférence bayésienne

possibles du test. L’evidence e

T

est la lecture du résultat du test. C’est un évènement qui apporte

une nouvelle connaissance sur la valeur de T.

Une evidence n’est pas nécessairement certaine. Il se peut par exemple que la lecture du

résultat du test dépende d’une échelle de couleurs et qu’il y ait une incertitude sur la lecture

même de ce résultat. Pearl [Pearl, 1988] utilise le terme d’evidence « virtuelle » pour décrire le

cas où la collecte de l’evidence repose sur une interprétation extérieure, difficile à expliciter. Le

raisonnement résultant dans la production de l’evidence restant caché, il est nécessaire de faire

l’hypothèse d’une relation uniquement locale entre l’evidence et la variable sur laquelle elle porte.

Celle-ci ne doit pas dépendre d’evidences précédentes où d’informations a priori déjà prises en

compte dans le modèle. Dans l’exemple de l’interprétation d’une échelle de couleur pour un test

médical, cela signifie par exemple que la prévalence de la maladie P(M) ne doit pas être prise

en compte lors de l’évaluation de l’evidence e

T

.

L’écriture de l’evidence peut se faire de manière générale sous la forme de probabilités

condi-tionnelles, iciP(e

T

|T =negatif)etP(e

T

|T =positif), quantifiant le degré de certitude attribué

à chacune des valeurs de la variable observée. Selon l’hypothèse de dépendance locale nous avons

P(e

T

|T, M) =P(e

T

|T).

Remarquons que seules les valeurs relatives attribuées aux différentes hypothèses interviennent

au moment de l’inférence. L’evidence est définie à une constante multiplicative près, au sens ou

l’information apportée par P(e

T

|T)etαP(e

T

|T) est la même. Sur l’exemple précédent le calcul

de la probabilitéa posteriori P(M|e

T

)est le suivant :

P(M|e

T

) =

P

T

P(e

T

, T, M)

P(e

T

)

=

P

T

P(e

T

|T, M)P(T|M)P(M)

P(e

T

)

=

P

T

P(e

T

|T)P(T|M)P(M)

P

M,T

P(e

T

|T)P(T|M)P(M)

=

P

T

αP(e

T

|T)P(T|M)P(M)

P

M,T

αP(e

T

|T)P(T|M)P(M)

Etant donné que P

M

P(M|e

T

) = 1, le dénominateur P(e

T

) est souvent considéré comme une

constante de normalisation. Nous reverrons que la valeur P(e

T

) nous donne une mesure de la

probabilité de l’evidence sachant le modèle.

L’inférence peut s’écrire dans le cas général à partir de la loi jointe en utilisant l’opération

de marginalisation (1.2). Etant donné un ensemble de variables {X

1

, . . . , X

N

}et une evidence e

portant sur la variableX

e

∈ {X

1

, . . . , X

N

} :

P(X

i

|e) =

P

Xj,j6=i

P(e|X

e

)P(X

1

, . . . , X

N

)

P(e)

L’inconvénient d’utiliser la loi jointe est que celle-ci grandit exponentiellement avec le nombre

de variables puisque qu’elle énumère toutes les combinaisons de valeurs possibles. Ainsi la loi

jointe de N variables binaires est une table de 2

N

valeurs. Le réseau bayésien nous donne une

représentation factorisée (1.11), donc plus compacte, qu’il est intéressant d’exploiter.

X

Y

Z

Figure1.3 – Une simple chaine