• Aucun résultat trouvé

Utilisations des r´eseaux bay´esiens

Ainsi que nous l’avons annonc´e plus haut (dans la sous-section 1.1.1), les r´eseaux bay´esiens permettent de r´eviser les probabilit´es attribu´ees `a des ´etats du monde dans un contexte d’incertitude. Cela, toutefois, n’est possible que parce qu’ils constituent des repr´esentations particuli`erement ´economiques de distributions de probabilit´es. Dans ces conditions, nous ´elucidons ce dernier point avant d’expliquer comment s’actualisent les probabilit´es dans un r´eseau bay´esien.

1.1.4.1 D´efinitions ´economiques de distributions de probabilit´es Les r´eseaux bay´esiens comme d´efinitions de distributions de proba- bilit´es. Un r´eseau bay´esien non interpr´et´e permet en premier lieu de d´efinir la distribution de probabilit´es qui le compose. Pour le comprendre, il nous faut pr´esenter d’abord un r´esultat ´el´ementaire du calcul des probabilit´es : Proposition 1.2 (R`egle de la chaˆıne) Pour tout ensemble de variables al´eatoires V = (V1, V2, . . . , Vn), toute distribution de probabilit´es p sur V

et toute valeur (v1, v2, . . . , vn) de (V1, V2, . . . , Vn),

p(v1, v2, . . . , vn) = p(v1).Qni=2p(vi|v1, . . . , vi−1).

Consid´erons maintenant un ordre strict < et une distribution de probabilit´es p sur V = {V1, V2, . . . , Vn}. Pour tout 1 < i < n, on note pmi un ensemble

de parents markoviens de Vi pour p et <. D’apr`es la d´efinition 1.1 des pa-

rents markoviens d’une variable, l’´egalit´e ´enonc´ee par la r`egle de la chaˆıne se simplifie alors en : p(v1, v2, . . . , vn) = n Y i=1 p(vi|pmi). (1.1)

De l’´equation (1.1) il d´ecoule qu’une distribution de probabilit´es p sur un ensemble de variables V = {V1, V2, . . . , Vn} est compl`etement d´efinie par :

1. un ordre strict < sur V ;

2. pour chaque variable Vi de V, un ensemble de parents markoviens PMi

3. les probabilit´es conditionnelles p(vi|pmi) pour 1 ≤ i ≤ n, vi ∈ V al(Vi)

et pmi ∈ V al(PMi).

Rappelons, maintenant, qu’un graphe G qui repr´esente p donne, pour chaque variable Vi de V, un ensemble de parents markoviens de Vi pour p et

tout ordre strict compatible avec G. Plus pr´ecis´ement, les parents graphiques dans G d’une variable de V sont un ensemble de parents markoviens de cette variable pour p et tout ordre strict sur V compatible avec G. Il en d´ecoule qu’une distribution de probabilit´es p sur V = {V1, V2, . . . , Vn} est

compl`etement d´efinie par :

1. un graphe orient´e acyclique G qui repr´esente p ;

2. l’ensemble de probabilit´es conditionnelles PC = {p(vi|pai) pour

1 ≤ i ≤ n, vi ∈ V al(Vi) et pai ∈ V al(PAi)}.13

Dans ces conditions, d’une part le r´eseau bay´esien (G, p) est compl`etement d´efini par G et PC, et d’autre part (G, p) ainsi d´efini constitue lui-mˆeme une d´efinition de p – au sens o`u il permet de sp´ecifier p(v) pour toute valeur v de V.

Caract`ere ´economique de la d´efinition. La d´efinition d’une distri- bution de probabilit´es p par un r´eseau bay´esien (G, p) selon les modalit´es que nous venons d’indiquer est int´eressante dans la mesure o`u elle est par- ticuli`erement ´economique. En effet, si l’ensemble V sur lequel est d´efini (G, p) est {V1, V2, . . . , Vn}, alors l’ensemble de probabilit´es conditionnelles

PC compte Pni=1(kV al(Vi)k.kV al(PA(Vi))k) ´el´ements. En tenant compte

de la contrainte exprim´ee par la proposition 1.6 ´enonc´ee dans l’appendice, il faut, pour sp´ecifier compl`etement PC,Pni=1[(kV al(Vi)k−1).kV al(PA(Vi))k]

param`etres. En d’autres termes, Pni=1[(kV al(Vi)k − 1).kV al(PA(Vi))k] pa-

ram`etres sont n´ecessaires pour d´efinir p une fois qu’on a G. De l’autre cˆot´e, sans (G, p) mais toujours en tenant compte de la contrainte exprim´ee par la proposition 1.6, il faut Qni=1kV al(Vi)k − 1 param`etres pour d´efinir la

mˆeme distribution p. Or Qni=1kV al(Vi)k − 1 est strictement sup´erieur `a

Pn

i=1[(kV al(Vi)k−1).kPA(Vi)k] d`es qu’il existe un couple de variables (Vi, Vj)

qui ne sont pas adjacentes dans le graphe repr´esentant p qu’on consid`ere. A titre d’illustration, que nous reprenons `a Williamson14, une distribution

de probabilit´es p sur un ensemble {V1, V2, V3, V4, V5} de variables al´eatoires

binaires est d´efinie par 25− 1 = 31 param`etres, mais le fait de connaˆıtre le

graphe G :

13

Rappelons que nous notons PAi l’ensemble des parents graphiques de la variable Vi. 14

1.1. Pr´esentation des r´eseaux bay´esiens 29 V1 ✟✟✟✟ ✯ V2 ❍❍ ❍❍❥ V3 ✟✟✟✟ ✯ ❍❍ ❍❍❥ V4 ✲ V5

qui repr´esente p permet de d´efinir p au moyen de 1 + 2 + 2 + 4 + 2 = 11 param`etres seulement. Williamson montre que dans le cas g´en´eral une distribution de probabilit´es p repr´esent´ee par un graphe orient´e acyclique sur n variables dont chacune a au plus k parents et K valeurs peut ˆetre d´efinie par au plus n.Kk.(K −1) param`etres. La fonction qui `a n associe le nombre de

param`etres n´ecessaires `a la sp´ecification de p est alors lin´eaire. Sans graphe repr´esentant p, cette mˆeme distribution de probabilit´es est d´efinie par un nombre de param`etres de l’ordre de Kn; la fonction qui `a n associe le nombre

de param`etres n´ecessaires `a la sp´ecification de p est alors exponentielle. Un r´eseau bay´esien (G, p) d´efini par G et par l’ensemble de proba- bilit´es conditionnelles PC constitue donc une d´efinition remarquablement ´economique de p. Selon la proposition 1.1, toute distribution de proba- bilit´es est repr´esent´ee par au moins un graphe orient´e acyclique. Il en d´ecoule que toute distribution de probabilit´es peut ˆetre d´efinie selon les voies ´economiques que nous venons de d´ecrire. Dans tous ces cas, l’int´erˆet qu’il y a intrins`equement `a disposer d’une d´efinition ´economique pour une distribu- tion de probabilit´es donn´ee se double de l’int´erˆet extrins`eque correspondant `a la possibilit´e de fonder sur cette d´efinition des m´ethodes efficaces d’actua- lisation des probabilit´es.

1.1.4.2 Actualisation des probabilit´es dans un r´eseau bay´esien En vue de comprendre montrer que les r´eseaux bay´esiens constituent des outils pour l’actualisation des probabilit´es, nous commen¸cons ici par prendre un exemple. Soit {A, B} un ensemble de deux variables binaires et supposons que la distribution des probabilit´es p sur {A, B} est d´efinie par :

p(a1, b1) = 16 p(a1, b2) = 121

p(a2, b1) = 163 p(a2, b2) = 169

Supposons encore qu’on apprend que B prend la valeur b215. Une question qui

se pose alors est la suivante : quelle probabilit´e doit-on accorder `a l’´ev´enement

15

Du point de vue de l’interpr´etation de cette situation, deux sc´enarios sont envisa- geables : soit p mesure des degr´es de croyance subjectifs et apprendre que B prend la

que A prend la valeur a1(resp. prend la valeur a2) ? De fa¸con plus g´en´erale, le

probl`eme est le suivant : comment se modifie une distribution de probabilit´es p sur un ensemble de variables V `a la lumi`ere de l’information I selon laquelle un sous-ensemble W de V prend la valeur w ?

Nous connaissons une r´eponse au probl`eme que nous venons de pr´esenter : la probabilit´e p′

est la probabilit´e conditionnelle p( |w), o`u p est la distribu- tion de probabilit´es physique initialement connue et w l’information obtenue `a prendre en compte. Dans l’exemple que nous avons propos´e, on obtient ainsi pour a1 : p′ (a1) = p(a1|b2) = p(a1, b2) p(b2) = p(a1, b2) p(a1, b2) + p(a2, b2) = 1 12 1 12 + 9 16 = 4 31. On calculerait de fa¸con similaire les probabilit´es des autres valeurs des sous- ensembles de {A, B}.

Ce mode de calcul, toutefois, est peu pratiquable. Plus pr´ecis´ement : quand les situations envisag´ees se complexifient, il devient rapidement impos- sible d’actualiser les probabilit´es selon les voies que nous avons emprunt´ees pour calculer p′

(a1). Si, en revanche, on connaˆıt un graphe qui repr´esente

la distribution de probabilit´es initiale, les choses deviennent plus faciles – et, surtout, effectivement traitables. En effet, ´etant donn´e un graphe G qui repr´esente une distribution de probabilit´es sur V, la valeur d’une variable A de V varie avec les seules variations des valeurs de ses parents directs dans G. Il en d´ecoule que disposer d’un graphe qui repr´esente ´economiquement p (et donc p′

) autorise `a simplifier les calculs d’actualisation de probabilit´es selon les voies indiqu´ees par l’´equation 1.1. En outre, cette repr´esentation autorise une simplification des op´erations alg´ebriques d’actualisation des probabilit´es.16 Au total, les r´eseaux bay´esiens constituent non seulement

des d´efinitions ´economiques de distributions de probabilit´es, mais encore des outils d’actualisation des distributions de probabilit´es dont ils sont des d´efinitions. L’actualisation des probabilit´es qu’ils autorisent repose toujours sur la conditionalisation bay´esienne ; nous y voyons une des raisons pour lesquelles on parle de r´eseaux bay´esiens.

Ainsi que nous l’avons indiqu´e plus haut, l’apparition des r´eseaux bay´esiens est ins´eparable de leur utilisation `a des fins d’actualisation des probabilit´es. Plus pr´ecis´ement maintenant, Pearl a d´evelopp´e tr`es tˆot17 un

valeur b2est une information nouvelle sur le monde, soit p est une distribution de probabi-

lit´es g´en´eriques objective pour une classe d’individus et apprendre que B prend la valeur b2 est une information qui r´esulte de la focalisation sur un des individus de cette classe.

16

Sur ce point voir Lauritzen et Spiegelhalter (1988) p. 165.

17

1.1. Pr´esentation des r´eseaux bay´esiens 31

algorithme d’actualisation des probabilit´es dans les graphes bay´esiens qui sont des arbres – c’est-`a-dire qui sont tels que pour toute variable du graphe sauf une (appel´ee racine), il existe exactement une fl`eche qui pointe vers elle. A partir de ce travail fondateur, le probl`eme de l’actualisation automatique des probabilit´es a ´et´e r´esolu pour des classes de graphes de plus en plus vastes. Une solution pour le cas g´en´eral est pr´esent´ee dans Lauritzen et Spiegelhalter (1988).

Les utilisations des r´eseaux bay´esiens que nous venons de pr´esenter reposent toutes deux sur ceci que connaˆıtre un graphe orient´e acyclique repr´esentant une distribution de probabilit´es r´eduit consid´erablement le nombre de param`etres n´ecessaires `a la d´efinition de cette distribution. Ainsi que nous l’avons expliqu´e d´ej`a dans la sous-section 1.1.1, la composante gra- phique des r´eseaux bay´esiens est essentielle `a ce point. En vue de compl´eter notre r´eponse `a la question de savoir `a quoi servent les r´eseaux bay´esiens, il convient donc de discuter plus pr´ecis´ement le statut des graphes qui com- posent les r´eseaux bay´esiens.