• Aucun résultat trouvé

11.2 Approximation d’un score avec des bases incomplètes

11.2.2 Méthode d’évaluation générique de score

11.2.2.3 Exemple avec le score BD

Fonction de scores avec données

incomplètes

"Les règles des probabilités sont en défaut lorsqu’elles proposent, pour trouver l’enjeu, de multiplier la somme espérée par la probabilité du cas qui doit faire gagner cette somme." Jean le Rond d’Alembert (1717-1783)

Sommaire

11.1 Adapter les scores pour les bases incomplètes . . . . 130

Utilisation des exemples complets. . . . 130

Utilisation des exemples disponibles . . . . 130

Utilisation des méthodes de remplacement . . . . 130

11.2 Approximation d’un score avec des bases incomplètes . . . . 131

11.2.1 L’approximation de Cheeseman et Stutz . . . . 131

Approximation de Laplace de Cheeseman et Stutz . . 131

Approximation BIC-MAP de Cheeseman et Stutz . . . 131

11.2.2 Méthode d’évaluation générique de score . . . . 132

11.2.2.1 La méthode. . . . 132

11.2.2.2 Exemple avec le score BIC . . . . 132

11.1 Adaptation des scores pour des bases incomplètes

SoitV= {X1,· · · , Xn}un ensemble des variables aléatoires,Dcune base demtirages

deVindépendants et identiquement distribués.

Supposons par ailleurs que l’on ne possède alors qu’une version incomplète Dde la baseDc, celle-ci peut se décomposer en

D= [[Xl

i]]16i6n 16l6m

= [O, H]

ouOest l’ensemble des variablesXl

i observées etHl’ensemble des variablesXl

i cachées. Ici nous voudrions évaluer le score bayésien qui est défini parBD(G, D) = P(G, D) =

P(G)P(D|G) à partir de bases d’exemples incomplètes. En présence de données

incom-plètes, nous avons

P(Dl|G) = P(Ol|G) =

Hl

P(Ol, Hl|G)

pour le l-ième exemple de la base. En considérant que les exemples de la base D sont i.i.d, nous obtenons

P(D|G, Θ) = m

l=1 

Hl P(Ol, Hl|G, Θ) (11.1)

Le nombre de terme de l’équation 11.1 croît exponentiellement avec le nombre de va-riables non observées. La complexité de l’évaluation de cette probabilité est donc expo-nentielle par rapport au nombre de valeurs manquantes dans la base d’exemples. En pratique, ceci n’est donc pas utilisable, on va donc devoir avoir recours à une méthode d’approximation.

Utilisation des exemples complets :

Une première approximation de cette intégrale serait donc de dire qu’elle ne doit pas être éloignée de celle de l’équation7.6évaluée seulement sur les exemples complets de la base. Cette approximation n’est seulement justifiée que quand le pourcentage de données incomplètes est faible.

Utilisation des exemples disponibles :

Une seconde approximation simple de l’équation 11.1 serait de dire qu’il s’agit de n’utiliser que les exemples disponibles pour calculer chaque terme. En pratique, cela re-vient donc à utiliser une équation identique à celle de l’équation 7.6, mais où les Ni jk seront évalués sur la base d’exemples incomplète de la manière suivante : pour calcu-ler les Ni jk, les exemples de la base où Xi et Pa(Xi) sont complètement observés sont conservés pour effectuer le comptage.

Utilisation des méthodes de remplacement :

De manière analogue, il est aisé d’imaginer d’effectuer un remplacement par la va-leur médiane ou le mode (et non moyenne dans le cas discret) et de faire le comptage ensuite. Nous nous apercevons alors immédiatement que cette méthode va fortement biaiser les résultats de comptage en faveur de cette valeur.

Bien sur une méthode de substitution plus avancée peut être utilisée également. Dans ce cas, le biais sera moins important (penser aux méthodes hot deck imputation ou d’imputation par régression).

11.2. APPROXIMATION DUN SCORE AVEC DES BASES INCOMPLÈTES 131

11.2 Approximation d’un score avec des bases incomplètes

11.2.1 L’approximation de Cheeseman et Stutz

Cette méthode d’approximation a été introduite parCheeseman & Stutz (1996). Elle consiste en l’utilisation d’une complétionDcde la base incomplèteD. Il est alors toujours possible d’écrire l’équation suivante.

P(D|G) = P(Dc|G) P(D|G) P(Dc|G) (11.2) puis, il vient P(D|G) = P(Dc|G) R P(D, Θ|G) R P(Dc, Θ|G)dΘ (11.3)

Il reste alors à évaluer l’intégraleRP(D, Θ|G). Celle-ci peut alors être approchée par une méthode de maximum a posteriori.

Approximation de Laplace de Cheeseman et Stutz :

En utilisant la formule7.16, nous pouvons donner l’approximation suivante pour la formule de Cheeseman et Stutz.

ln(P(D|G)) ≃ln(P(Dc|G)) −ln(P(Dc\MAP|G)) + 1

2ln(|A |)

+ln(P(D[MAP|G)) −1

2ln(|A|) (11.4) Les valeursθMAPetA sont évaluées sur la base d’exemples complèteDctandis que les valeursθMAPetAsont évaluées sur la base d’exemples incomplèteD

Approximation BIC-MAP de la formule de Cheeseman et Stutz :

Considérons la base Dc qui est une complétion deD telle que les statistiques suffi-santes N

i jk deDc sont égales aux statistiques suffisantes Ni jk deDcalculées par maxi-mum a posteriori. Soient Φb les paramètres naturels évalués par maximum a posteriori surDalors d’après la formule7.21, nous avons

lnP(D|G) ≃ lnP(Dc|G) −lnP(Dc|G, bΦ) + dim(G|Dc)

2 ln N

+lnP(D|G, bΦ) − dim(G|D)

2 ln N (11.5)

Dans ce cas, Geiger & Heckerman (1996) ont montré que dim(G|D) = dim(G|D). De plus, comme les statistiques essentielles des deux bases d’exemples sont égales nous avonsΦb =Φb donc

lnP(D|G) ≃ lnP(Dc|G) −lnP(Dc|G, bΦ) +lnP(D|G, bΦ) (11.6)

Cette méthode permet donc d’évaluerP(D|G)à partir d’une complétion de la base de cas de manière simple : il suffit juste de s’assurer que les statistiques essentielles de la base incomplète soient conservées dans la base complète.

11.2.2 Méthode d’évaluation générique de score à partir d’une base d’exemples incomplète

Pour nos expérimentations, nous utiliserons des scores du type

lnP(D|G) ≃ BIC(B, D) =lnP(D|G,Θ\MAP) − 1

2Dim(B)log N (11.7)

Il reste cependant à voir comment calculer le termeP(D|G,Θ\MAP)lorsque la baseDest incomplète. Donnons à présent une méthode générique permettant de calculer un score à partir d’une base d’exemples incomplète.

11.2.2.1 La méthode

Nous avons vu comment évaluer les paramètres d’un réseau bayésien à partir d’une base d’exemples incomplète en section5. Nous allons maintenant voir comment faire de même pour un critère de score.

Soit S(M|Dc)une fonction de score pour un modèle M en fonction d’une base com-plèteDc. Alors, il est possible de considérer le score de ce même modèle avec une base de données incomplèteD.

QS(M|D) = EH∼P(H)(S(M|O, H)) (11.8)

Or, nous n’avons pas accès à la loiP(H). Il faut donc l’approcher à partir d’un modèle de représentation deD.

Supposons, à présent, la donnée d’un modèle M0 supposé générateur deD, alors il est possible de faire l’approximation suivante

QS(M|D) ≈QS(M:M0|D) = EH∼P(H|M0)(S(M|O, H))

c’est-à-dire

QS(M:M0|D) =

H

S(M|O, H)P(H|M0) (11.9)

Or, maintenant, nous avons accès àP(H|M0)puisqueM0est fixé.

Cette méthode nous permet, à partir d’une fonction de score S(M|Dc)quelconque, de créer une fonction de score QS(M : M0|D) qui donne un résultat (approché car un modèle est rarement exact) sur des bases d’exemples incomplètes. Dans les chapitres suivantes, la base d’exemples sera implicite et la notation simplifiée enQS(M: M0).

Par ailleurs, ce score possède la particularité de conserver les propriétés de décom-posabilité (linéarité de l’espérance) et de score équivalence du scoreS.

Le grand avantage de cette méthode est qu’elle s’incorpore parfaitement bien dans un algorithme EM pour lequel l’évaluation du score est de plus en plus fine au fur et à mesure que le modèle est précis.

Regardons à présent comment se décline le scoreBICrappelé en équation11.7pour une base d’exemples incomplète.

11.2.2.2 Exemple avec le scoreBIC

Il est possible d’adapter le score de l’équation11.7aux bases d’exemples incomplètes comme décrit dans la section11.2.2.1, ce qui donne

QBIC(B:B0|O, H) = EH∼P(H|G0,θ0) BIC(B, O, H)P(H|G0, θ0)

11.2. APPROXIMATION DUN SCORE AVEC DES BASES INCOMPLÈTES 133 Or le score BIC est décomposable donc le score QBIC également (le score local bic est défini dans l’équation7.20).

QBIC(B: B0|O, H) = EH∼P(H|G0,θ0)

n

i=1

bic(Xi, Pa(Xi), O, H)P(H|G0, θ0)

Par la linéarité de l’espérance, nous obtennons

QBIC(B :B0|O, H) = n

i=1 qbic(Xi, Pa(Xi):G0, θ0|O, H) avec qbici (Xi, Pa(Xi):G0, θ0|O, H) = EH∼P(H|G0,θ0)  bic(Xi, Pa(Xi), O, H)P(H|G0, θ0)

En utilisant les propriétés de l’espérance on trouve donc

qbici (Xi, Pa(Xi):G0, θ0|D) = EH∼P(H|G0,θ0) h log P D|Pa(Xi)∪{Xi}| <Xi, Pa(Xi) >,θMVX\ i|Pa(Xi)  −Dim(Xi, Pa(Xi)) 2 log N i qbici (Xi, Pa(Xi):G0, θ0|D) =

Xi

Pa(Xi) EH∼P(H|G0,θ0)  NXi,Pa(Xi) ·log( \θXMV i|Pa(Xi)) −Dim(Xi, Pa(Xi)) 2 log N (11.11)

Nous avons ici l’expression locale du score BIC adaptée aux bases d’exemples incom-plètes.

En pratique, si l’on utilise un algorithme EM, il est possible de profiter des boucles pour mettre à jour les statistiques essentielles NX

i,Pa(Xi)= EH∼P(H|G0,θ0)[NXi,Pa(Xi)].

11.2.2.3 Exemple avec le scoreBD

Le score BD est défini par l’équation 7.9 et donne P(D|G0). Nous voulons prendre l’espérance du score bayésien pour construire une version de ce score à partir de bases incomplètes.

Q(G : G0) = EH∼P(H|O,G0) 

P(H, O, G)

(11.12)

Ce qui est défini par

Q(G : G0) =

H

P(H|O, G0)P(H, O, G) (11.13)

oùP(H, O, G)est donné par la formule7.6page78et oùP(H|O, G0)peut être approché par évalué parP(H|G0, θMV), avecθMV les paramètres obtenus par maximum de vrai-semblance pour la structureG0 et la base d’exemples incomplèteO. Typiquement, cette évaluation est faite grâce à l’algorithme EM paramétrique de la page57.

Nous obtenons donc l’approximation du score bayésien à partir d’une base d’exemples incomplète de l’équation11.14.

Q(G : G0) =

H

P(H|G0[0 MV)P(H, O, G) (11.14)

Observons maintenant comment utiliser cette méthode de calcul de score pour mettre en oeuvre une méthode d’identification de structure de réseaux bayésiens à partir d’une base de cas incomplète.

Documents relatifs