• Aucun résultat trouvé

Les interprétations causales des réseaux bayésiens

Une représentation par les réseaux bayésiens causau

5.2 Les réseaux bayésiens causau

5.2.2 Les interprétations causales des réseaux bayésiens

Le formalisme des réseaux bayésiens est d’une grande efficacité lorsque les liens entre variables peuvent être interprétés comme des rapports causaux auxquels ont peut prêter, si l’on se réfère aux théories dites interventionnistes de la causalité6

, une certaine invariance aux changements interve- nant dans leur environnement. On parle alors de réseaux bayésiens causaux (RBC). L’interprétation causale rend les relations de dépendance et d’indépendance conditionnelle plus faciles à appréhen- der, utiliser et tester. En particulier, une modification de la relation existante entre deux variables n’affecte un RBC que localement, alors qu’elle remet entièrement en question une représentation fondée sur la seule association probabiliste, telle que celle que nous venons d’exposer (c’est-à-dire

6. Sur les théories de la causalité fondées sur l’intervention ou sur le concept voisin de manipulation, voir Wood- ward (2008). Pour un exemple de théorie alternative, mais à notre avis moins expressive, de la causalité, voir Shafer (1996).

que la connaissance de la loi jointe d’avant le changement n’apporte rien à celle d’après). De ce fait, les RBC sont des instruments performants d’analyse et d’évaluation des actions.

5.2.2.1 La causalité comme réponse d’un système stochastique à une intervention Une première approche des RBC consiste précisément à caractériser la causalité comme la propriété d’une représentation qui reste stable lorsque des changements sont imposés à son objet7

. Le changement consiste ici à rompre les liens entre une variable et ses parents, et à lui affecter une valeur fixe. La condition de stabilité est que les relations de dépendance déterminant les autres variables ne soient pas affectées.

Définition 5.8. On appelle intervention sur une variable Xi une modification du système X qui

consiste à rompre les relations de dépendance entre Xi et ses parents et à lui affecter une valeur

constante xi qui soit élément du support de P8.

Une telle intervention est notée do(Xi = xi) pour la distinguer de l’événement (Xi = xi)9.

Son principe peut être étendu aux interventions sur un sous-ensemble de variables repérées par l’ensemble d’indices I.

Considérons ainsi une distribution de probabilités P sur le système X, notons PxI la distribution

correspondant à l’intervention do(XI = xI) sur un sous-ensemble de variables10 et P∗ l’ensemble

de toutes les distributions PxI ainsi obtenues pour tous les sous-ensembles de variables (y compris

P , qui correspond au sous-ensemble vide).

Définition 5.9. On dit qu’un graphe D est un réseau bayésien causal compatible avec P∗ si les

trois conditions suivantes sont vérifiées pour toute distribution PxI de P

:

1. PxI est Markov relativement à D ;

2. PxI(xi) = 1 pour tout i ∈ I, dès lors que Xi= xi est compatible avec XI = xI ;

3. PxI(xi|xpa(i)) = P (xi|xpa(i)) pour tout i /∈ I, dès lors que Xpa(i)= xpa(i)est compatible avec

XI = xI.

7. Cette approche, qui constitue la première formalisation historique des RBC, est exposée en détail par Spirtes, Glymour and Scheines (1993).

8. Cette dernière condition est fréquemment omise dans la littérature sur les RBC. Or elle est cruciale : si xia une

probabilité nulle de se réaliser avant l’intervention, alors la dérivation de la distribution de probabilités postérieure à l’intervention à partir de P , telle que la décrit la définition suivante, est impossible. Cette dérivation est en effet l’équivalent d’une révision de P après observation de l’événement (Xi= xi)selon la règle de Bayes, qui ne peut être

appliquée si l’événement en question a une probabilité a priori nulle.

9. Dans de nombreuses disciplines scientifiques, l’intervention est un outil d’inférence essentiel, souvent indisso- ciable de l’observation, par exemple lorsqu’elle consiste à affecter une valeur à une variable de contrôle (voir Rothman, Greenberg et Lash (2008) pour les applications épidémiologiques). Or le langage probabiliste classique ne contient aucun terme approprié pour l’intervention. En particulier, la révision bayésienne s’appuie sur un conditionnement par des événements observés, et n’offre pas de possibilité de prise en compte d’événements provoqués par une inter- vention. L’opérateur do(Xi= xi), parfois aussi noté (XI= ˆxI), crée cette possibilité. L’écriture do(Xi= xi)est due

à Goldzmidt et Pearl (1992).

Figure5.2.3 – Graphes modifiés par une intervention sur XR

La distribution observée à l’issue de l’intervention doit être conforme à l’intervention pour les variables directement affectées (point 2), présenter les mêmes dépendances qu’auparavant pour toutes les autres (point 3), et de ce fait, admettre la factorisation (5.2.2) (point 1). Cette dernière se ramène à : PxI(x1, . . . , xn) =      Q

i /∈IP (xi|xPa(i)) si xiest compatible avec xI∀i ∈ I

0 sinon

(5.2.3) Notons que si D représente PxI, il n’est en revanche pas minimal puisque tout sous-graphe de

D où les arcs entre une composante de XI et ses parents auraient été supprimées continuerait à

représenter PxI.

Cette définition nous permet de distinguer le premier diagramme de la figure 5.2.2 de ses trois congénères. Considérons en effet l’intervention sur XRqui consisterait à imposer à l’usine un niveau

de rejets ρ. Dans la distribution de probabilités qu’elle engendrerait sur les variables XR, XI, XM

et XC, cette dernière (seule) aurait une distribution marginale inchangée, alors que les relations

de dépendance que l’on observerait entre XI et XRd’une part, entre XM et (XR, XC) seraient les

mêmes que précédemment. Des quatre diagrammes modifiés, le seul qui serait représentatif de la nouvelle distribution serait le premier (voir figure 5.2.3).

Définition 5.10. Soient XI et XJ les vecteurs correspondants à deux sous-ensembles disjoints de

variables. On appelle effet causal de XI sur XJ, que l’on note PXI(XJ), la fonction qui attribue

à chaque valeur xI de XI la distribution de probabilités PxI(xJ) sur l’ensemble des valeurs xJ de

XJ.

5.2.2.2 La causalité comme propriété fondamentale de la Nature

Une seconde approche s’appuie sur la représentation explicite de relations causales entre va- riables, qui est commune dans la plupart des disciplines scientifiques ou techniques (de la géologie

Figure 5.2.4 – Réseau bayésien causal

à l’économétrie) où l’on cherche à rendre compte des valeurs observées d’un « système » et à pré- voir ses évolutions, notamment en réponse à des interventions extérieures (Woodward, 2003). Ces modèles causaux peuvent s’écrire sous une forme fonctionnelle générale :

Xi= fi(Xpa(i), Yi) (5.2.4)

où Xpa(i) représente un ensemble des variables identifiées comme causes observables de Xi, Yi est

un terme d’erreur agrégeant toutes les causes de Xi qui sont extérieures à X et inobservables, et fi

est la fonction, également appelée mécanisme, de détermination de Xi.

Les modèles à équations structurelles linéaires, par exemple, sont un cas particulier de modèles causaux :

Xi=

X

k∈P a(i)

αikXk+ Yi (5.2.5)

Le signe d’égalité dans (5.2.4) et (5.2.5) est remplacé par certains auteurs par un signe d’assi- gnation (:=) pour souligner le caractère causal des équations, et plus spécifiquement le fait que la valeur du terme de gauche est déterminée par celle du terme de droite quel que soit le mécanisme selon lequel cette dernière a été déterminée.

Le système X des sections précédentes est ici constitué de l’ensemble des variables endogènes Xi,

et son caractère aléatoire résulte de l’action de variables stochastiques exogènes Yidans les équations

(5.2.4). En reliant chaque élément de Xpa(i) à la variable Xi correspondante dans chacune de ces

équations et en omettant les variables exogènes, on associe un diagramme D au modèle causal. La figure 5.2.4 représente un tel diagramme dans un cas où notre problème précédent aurait été décrit par un ensemble de relations du même type que (5.2.4).

fi et de la distribution jointe PY des variables Yi :

M =< D, f, PY >

Le modèle est dit semi-markovien lorsque D est acyclique. Les Xisont alors déterminés de façon

univoque par les Yi(autrement dit la loi jointe P est entièrement déterminée par la distribution des

erreurs PY). Le modèle est dit markovien lorsqu’en outre, les termes d’erreur sont mutuellement

indépendants.

Théorème 5.11. Tout modèle markovien engendre une distribution (unique) P qui est Markov relativement à son diagramme D.

Démonstration. La distribution marginale de chaque Xi est bien définie en tant que mesure-image

de PYi par fi. Il suffit alors de procéder par récurrence en supposant la condition de Markov vérifiée

à l’ordre i − 1 (i ≥ 2) et en observant qu’elle découle, pour Xi, de l’indépendance entre Yi et

(Y1, ..., Yi−1).

L’indépendance des termes d’erreur, condition critique du théorème, est à rapprocher de l’ab- sence de cause commune latente (c’est-à-dire extérieure au système). Pour clarifier la relation entre ces deux hypothèses, nous devons introduire le principe dit de cause commune, formulé par Hans Reichenbach (Reichenbach, 1956).

Conjecture 5.12. Principe de cause commune : Soient X1et X2deux variables telles que P (X1, X2) 6=

P (X1).P (X2). Alors il existe une variable vectorielle X et un graphe D de X tels que X1et X2sont

des composantes de X, d est Markov par rapport à P et au moins l’une des conditions suivantes est remplie :

• 1 ∈ De(2) • 2 ∈ De(1)

• X a une composante X3 telle que 1, 2 ∈ De(3)

où De(i) est l’ensemble des descendants de Xi dans D.

Le principe proclame donc qu’il ne peut y avoir de corrélation en l’absence d’un rapport de cause à effet : si deux variables sont corrélées, alors soit l’une est une cause de l’autre, soit elles ont une cause commune. Si l’on admet ce principe, alors l’indépendance mutuelle des termes d’erreur Yi découle de l’hypothèse selon laquelle, parmi toutes les causes inobservables des Xi, aucune n’est

commune à deux variables ou plus. L’indépendance des termes d’erreur n’implique pas, en retour, l’absence de cause commune latente, puisque, comme nous l’avons vu en introduisant la condition de fidélité, les relations de dépendance vis-à-vis de cette cause peuvent se compenser.

Notons aussi que la condition de Markov n’implique, pour sa part, ni l’indépendance mutuelle des termes d’erreur, ni l’absence de cause commune extérieure. À titre d’exemple, l’existence d’une cause commune latente à une variable et l’un de ses parents conduit à une corrélation des deux termes d’erreur, mais n’entraîne pas de violation de la condition de Markov.

La logique des interventions et la mesure des effets causaux exposés à la section précédente peuvent être reproduits pour les modèles markoviens. Dans un modèle markovien, une intervention du type do(Xi = xi) consiste à remplacer la fonction fi par la constante xi. On peut facilement

constater que les trois conditions de la définition d’un réseau bayésien causal donnée à la section précédente sont vérifiées, et donc que le diagramme de tout modèle markovien est un RBC.

Inversement, on peut montrer que toute distribution de probabilités représentée par un réseau bayésien D peut être engendrée par un modèle markovien ayant D pour diagramme.

5.2.2.3 Quelques remarques sur les présupposés des deux approches Soubassements philosophiques

Les deux approches des RBC se rattachent à deux courants philosophiques distincts et même opposés.

La première suppose l’existence de relations probabilistes entre variables aléatoires, et construit une interprétation causale de ces relations. Elle se conforme ainsi à la doctrine empiriste, pour laquelle seules les grandeurs observables sont pertinentes pour la connaissance scientifique : alors que les corrélations entre événements sont des caractéristiques mesurables de la Nature, leur mise en relation causale est un artifice de l’esprit humain11.

Dans l’approche « probabiliste », le lien entre causalité et interventions n’est pas seulement épistémique, mais ontologique. Le rapport causal est celui que l’on constate entre une variable que l’on modifie par intervention et une autre sur laquelle on mesure l’effet de cette intervention. Sans intervention, la notion même de causalité n’existerait pas. En cela, l’approche probabiliste constitue (ou, tout au moins, est compatible avec) une version radicale de la vision interventionniste.

À l’inverse, l’approche « fonctionnelle » des RBC stipule l’existence de relations causales préa- lablement à toute notion probabiliste. Les probabilités ne sont même introduites que pour pallier l’absence de certaines variables explicatives dans des relations qui seraient entièrement détermi- nistes si toutes les causes pouvaient être observées. Cette approche est donc en ligne avec la vision laplacienne d’un monde déterministe où les probabilités ne reflètent que notre ignorance des lois de la Nature.

De même, le rôle des interventions dans cette approche est seulement d’ordre épistémique. Les relations causales sont des données de la Nature qui nous sont cachées, et que les interventions nous

permettent de révéler. La condition d’autonomie

Dans un cas comme dans l’autre, la définition des RBC s’appuie sur une hypothèse que nous n’avons pas encore discutée : que la structure de dépendances entre variables reste inchangée à la suite d’une intervention (à l’exception, bien sûr, des dépendances qui sont directement supprimées par l’intervention). Ceci suppose que le système représenté par un RBC soit constitué d’un ensemble de mécanismes stables et autonomes (les relations de chaque variable avec ses parents), de sorte que la modification de l’un de ces mécanismes n’affecte pas les autres. C’est à cette condition, que l’on appelle indifféremment modularité ou autonomie, que l’influence d’événements induits du type do(Xi = xi) sur une variable Xj peut être assimilée à celle d’événements observés du type

(Xi= xi).

La notion d’autonomie trouve ses sources dans les travaux de Frisch et Haavelmo relatifs à l’es- timation des modèles à équations structurelles12 : dans un système de relations structurelles, tout

coefficient d’une relation peut être changé de façon institutionnelle sans entraîner de modification dans une autre relation. Contrairement aux autres systèmes de relations, dont la validité est limi- tée aux situations observées, les systèmes de relations structurelles peuvent être extrapolées aux situations où une ou plusieurs variables viendraient à évoluer d’une façon nouvelle. Elles se prêtent donc au raisonnement contrefactuel.

L’hypothèse d’autonomie s’applique donc à un système constitué d’éléments suffisamment dis- joints pour pouvoir être considérés séparément les uns des autres, et suffisamment cohérents pour être gouvernés par des mécanismes invariants. Elle suppose que toutes les relations entre deux va- riables Xiet Xjsoient explicitées dans le modèle, ce qui n’est pas garanti par la condition de Markov

mais découle, dans le cas de l’approche fonctionnelle, de l’indépendance mutuelle des termes d’er- reur. L’hypothèse d’autonomie institue alors un critère de qualité de la spécification d’un modèle causal.

Il faut enfin noter que l’autonomie est une approximation, puisque rien ne permet de s’assurer que deux mécanismes en apparence autonomes ne sont pas liés par une variable latente. La validité pratique de l’hypothèse d’autonomie peut donc toujours prêter à débat. En économie, la célèbre critique de Lucas a été fondamentalement dirigée contre les hypothèses implicites d’autonomie acceptées dans le modèle d’une courbe de Phillips (relation entre inflation et niveau d’activité), et plus généralement dans les modèles à équations structurelles. Pour Lucas et les autres tenants des anticipations rationnelles, les anticipations des agents économiques constituaient la variable latente créant une liaison entre inflation et activité (Lucas, 1976).

L’interprétation causale de la condition de Markov

Comme nous l’avons vu, les relations déterministes 5.2.4 d’un modèle fonctionnel, associés à des termes d’erreur mutuellement indépendants, engendrent un ensemble de relations d’indépendance conditionnelle et une décomposition de la loi jointe identiques à ceux d’un réseau bayésien, quels que soient les paramètres du modèle (fonctions fi et distribution PY). L’indépendance de Xi par

rapport à son prédécesseur Xj conditionnellement à ses parents Xpa(i) dans un RBC trouve son

équivalent dans l’indépendance inconditionnelle entre Yi et Xj pour i > j (elle-même impliquée

par l’indépendance entre Yi et (Y1, ..., Yj)) dans un modèle fonctionnel. Les questions relatives à

l’indépendance conditionnelle entre grandeurs observables reviennent ainsi à des interrogations sur l’existence d’une cause commune inobservable (sous réserve d’acceptation du principe de la cause commune).

Il y a cependant deux grands avantages à construire un RBC à partir d’un modèle causal plutôt qu’une distribution de probabilités.

Le premier est qu’une fois les relations de dépendance entre variables spécifiées, les modèles causaux sont beaucoup plus économes en termes d’observations. Pour établir qu’un réseau bayésien est causal, il n’est plus nécessaire, comme dans l’approche précédente, d’observer et de tester les distributions de probabilités associées à toutes les interventions possibles sur les variables du sys- tème, mais simplement de s’assurer que les variables exogènes sont mutuellement indépendantes. La connaissance de la loi jointe ne passe plus par celle de n distributions conditionnelles (de chaque Xi par rapport à ses prédécesseurs), mais inconditionnelles (des Yi). Les effets d’une intervention

peuvent être évalués a priori, par le biais des relations de dépendance entre la variable sur laquelle on agit et les autres, et il n’est pas nécessaire d’estimer la distribution de probabilités résultante a posteriori.

Le second grand avantage des modèles causaux est qu’ils permettent d’élargir considérablement la notion d’intervention, puisque l’on peut considérer comme telle toute modification d’une fonction fi en gi, c’est-à-dire tout aménagement par un agent extérieur de la relation entre une variable et

ses causes. Cet élargissement s’avère crucial d’une part pour étudier les problèmes d’intervention avec les outils de la théorie de la décision, et de l’autre pour considérer à l’intérieur d’un même cadre d’analyse les démarches déterministe et probabiliste de prise en compte du risque.

5.2.3

Le choix d’un réseau bayésien

5.2.3.1 Principes généraux

Le problème de choix d’une structure causale pour rendre compte d’une situation donnée n’est qu’un cas particulier de celui du choix d’un modèle. Deux critères sont généralement jugés pertinents pour orienter ce choix : l’adéquation des modèles proposés à l’information dont on dispose, mesurée

par leur vraisemblance, et leur simplicité, souvent mesurée par le nombre de paramètres qui sont à estimer à partir de l’information disponible.

Dans la plupart des analyses formelles du problème, l’information considérée consiste en une série d’observations des grandeurs endogènes, que le modèle est censé reproduire ou prévoir. Toute autre connaissance pertinente est supposée neutre à l’égard des différents modèles en présence, et laissée à l’arrière-plan. La vraisemblance conduit alors à préférer les modèles qui accordent la plus grande probabilité a priori aux observations disponibles. Ce faisant, elle favorise les spécifications les plus détaillées, puisque la probabilité d’un ensemble d’observations peut toujours être accrue en augmentant le nombre de paramètres libres du modèle13

. Ceci engendre un risque d’excès d’ajuste- ment (overfitting), où, à force de se rapprocher des observations, le modèle estimé finit par s’éloigner du processus qui les a engendrés14

.

Le principe d’induction dit du rasoir d’Occam apporte une réponse pragmatique à cette question en demandant que l’on pondère la recherche de vraisemblance par une préférence pour la simplicité. L’hypothèse, ici, est que la simplicité élargit la portée d’un modèle en limitant la possibilité qu’il soit calibré de façon ad hoc pour rendre comte des observations existantes. C’est donc par une double appréciation de la vraisemblance et de la simplicité d’un modèle que l’on juge de sa plausibilité.

Si ces deux notions sont communes à une grande variété de méthodes de sélection de mo- dèles, la façon de les mesurer et de les combiner au sein d’une règle de choix synthétique est, en revanche, propre à chaque méthode. Gilboa et Schmeidler (2010) ont récemment proposé un traitement axiomatique du problème d’un décideur qui doit choisir une théorie à l’intérieur d’un ensemble de possibles en s’appuyant sur une base d’observations. Ils obtiennent une représentation de ses préférences pour les théories par une fonction qui est la somme d’une log-vraisemblance et d’une probabilité a priori. Ce dernier terme peut, par hypothèse, refléter la préférence du décideur pour la simplicité. La représentation de Gilboa et Schmeidler généralise un certain nombre de règles de choix existantes.

Dans le cas des réseaux bayésiens, nous considérons un n−uple de variables (X1, ..., Xn) pour

lequel on dispose d’un ensemble d’observations e. Le problème peut être séparé en deux compo- santes : celui du choix de la structure D et, à structure donnée, celui du choix du vecteur de paramètres θ = (θ1, ..., θn) qui détermine la loi jointe P . Chaque θi représente ici un paramétrage

de la distribution de probabilités conditionnelles P (Xi | XP a(i)), dont l’estimation à partir d’un

13. À l’extrême, un modèle disposant d’autant de paramètres libres qu’il y a d’observations peut avoir une vrai- semblance égale à un.

14. Dans le cas d’un RBC fonctionnel, à titre d’exemple, une estimation parfaite des mécanismes fidoit préserver

une différence entre valeurs observées et valeurs estimées de Xi; ces écarts mesurent les réalisations de la variable

échantillon d’observations ne pose pas de difficulté15 : θi=  θijk  j=1,...,|χi|;,k=1,...,|χP a(i)| θijk = P (Xi= xj| XP a(i) = xk)

Un recherche extensive consiste à parcourir l’ensemble des structures possibles et retenir celle pour laquelle cette estimation produit les résultats les plus satisfaisants16. Nous en exposons les

principes pour l’approche dite classique ci-dessous. Il faut noter, cependant, que cette recherche