• Aucun résultat trouvé

Dans la premi`ere section de ce chapitre, nous avons expliqu´e dans quel contexte th´eorique les r´eseaux bay´esiens apparaissent, nous les avons d´efinis, et nous avons pr´esent´e leurs principales propri´et´es formelles. Dans la suite, nous avons concentr´e notre attention sur l’interpr´etation causale des r´eseaux bay´esiens, et plus pr´ecis´ement sur les hypoth`eses corr´elatives de la notion de r´eseau bay´esien causal.

La deuxi`eme section a fait apparaˆıtre d’abord que, seules parmi ces hy- poth`eses, l’hypoth`ese d’acyclicit´e et la condition de Markov causale ont des implications relativement `a la causalit´e elle-mˆeme, et ensuite que ces hy- poth`eses se pr´esentent comme plausibles.

Ces deux r´esultats ont ´et´e remis en cause dans la troisi`eme et derni`ere section. D’abord nous avons pr´esent´e des contre-exemples `a la troisi`eme com- posante de l’hypoth`ese de repr´esentation et `a la condition de Markov causale. Ensuite, nous avons montr´e que ces contre-exemples n’en sont qu’`a la condi- tion de s’en tenir au mode naturel de repr´esentation de la causalit´e directe par

1.4. Conclusion 73

un graphe acyclique orient´e. Autrement dit, nous avons montr´e que les deux hypoth`eses en question n’ont d’implications relatives `a la causalit´e elle-mˆeme que si l’on adopte ce mode de repr´esentation. Positivement, nous avons d´efini des artifices permettant de toujours repr´esenter la causalit´e directe sur un en- semble de variables au moyen d’un graphe bay´esien. Finalement, nous avons montr´e que ces artifices ne peuvent pas toujours ˆetre effectivement utilis´es. Plus pr´ecis´ement, nous avons fait apparaˆıtre que le statut des hypoth`eses et, avec lui, la r´eponse `a la question de la possibilit´e d’utiliser effectivement les artifices d´efinis varient selon le contexte th´eorique dans lequel on utilise les r´eseaux bay´esiens causaux. Ils peuvent ˆetre utilis´es quand le graphe causal, connu, est un guide dans la construction d’un graphe bay´esien ; ils ne peuvent pas l’ˆetre quand le graphe causal est pr´ecis´ement ce que vise l’inf´erence.

Ainsi qu’il doit ˆetre clair `a ce point de notre travail, c’est le second type d’utilisations qui nous int´eresse dans cette premi`ere partie. Pour ce qui concerne ces utilisations, les r´esultats ´etablis dans le chapitre qui s’ach`eve nous permettent d’en venir aux questions qui nous int´eressent. Ainsi, ils nous permettent d’en venir `a la question des modalit´es de l’inf´erence aux causes quand elle est fond´ee sur les r´eseaux bay´esiens causaux. Nous avons vu que cette question se pose d’abord du point de vue de l’analyse conceptuelle, ou plus pr´ecis´ement du point de vue du rapport entre l’´epist´emologie et l’analyse conceptuelle. La question est alors celle du rapport entre le crit`ere de causa- lit´e que v´ehiculent les r´eseaux bay´esiens causaux et les th´eories probabilistes de la causalit´e. Elle est trait´ee dans le prochain chapitre.

Appendice 75

Appendice

D´efinitions en th´eorie des graphes et en th´eorie des probabilit´es

Notions de th´eorie des graphes

Graphes

D´efinition 1.11 (Graphe) Un graphe G est un couple (V, L) o`u V est un ensemble de variables et L un ensemble de paires (ordonn´ees ou non) d’´el´ements de V.

Terminologie. Soit G = (V, L). On dit que :

– les ´el´ements de V sont les sommets ou noeuds de G ; – les ´el´ements de L sont les liens de V ;

– G est un graphe sur V ;

– deux ´el´ements A et B de V sont adjacents dans G si la paire (A, B) ou la paire (B, A) – qu’elles soient ou non ordonn´ees – appartiennent `a L ;

– une suite d’´el´ements de V est un chemin de G si chaque variable qui apparaˆıt dans la suite est adjacente dans G `a son successeur dans la suite s’il existe.

Graphes orient´es

Liens orient´es. Un lien est orient´e s’il est une paire ordonn´ee ; il est alors repr´esent´e par une fl`eche. Dans le cas contraire, il est non orient´e et repr´esent´e par un simple trait, aussi appel´e arˆete.

Graphes orient´es. Un graphe dont tous les liens sont orient´es est lui- mˆeme orient´e ; un chemin tel que chaque variable A qui y figure constitue avec son successeur B, s’il existe, un lien orient´e (A, B) est lui-mˆeme orient´e.63

Graphes orient´es cycliques et acycliques. Un chemin orient´e est un cycle quand le premier ´el´ement du premier lien et le second ´el´ement du dernier lien qui le constituent sont identiques. Un graphe orient´e est acyclique quand il ne comporte pas de cycle.

63

Remarquons que, sous ces d´efinitions, il existe des chemins non orient´es de graphes orient´es. Un exemple simple est le chemin (A, B, C) du graphe orient´e A ✲B ✛ C .

Terminologie. On utilise g´en´eralement la terminologie de la parent´e pour d´esigner les relations entre les variables d’un graphe acyclique orient´e. En particulier :

– l’ensemble des parents d’une variable A de V , not´e PA(A), est l’en- semble des variables de V dont part une fl`eche qui pointe vers A. Un parent d’une variable a cette variable pour enfant ;

– l’ensemble des ancˆetres d’une variable A de V est l’ensemble des va- riables de V dont part un chemin orient´e qui pointe vers A. Un ancˆetre d’une variable a cette variable pour descendant.

Notions de th´eorie des probabilit´es

Dans toute cette section, V = {V1, V2, . . . Vn} est un ensemble de variables

al´eatoires discr`etes susceptibles de prendre chacune un nombre fini de valeurs.

Distribution de probabilit´es

Valeur d’un ensemble de variables. Une valeur de V est une conjonc- tion de la forme « V1 prend la valeur v1 et V2 prend la valeur v2 et . . . et

Vn prend la valeur vn ». On note (v1, v2, . . . , vn) une telle conjonction64 et

V al(V) l’ensemble des valeurs de V.

D´efinition 1.12 (Distribution de probabilit´es) Une distribution de probabilit´es p sur V est une fonction de l’ensemble des valeurs de V dans l’intervalle r´eel [0 ; 1] telle que Pv∈V al(V)p(v) = 1.

Distribution de probabilit´es marginale

Compatibilit´e. Une valeur v de V est compatible avec une valeur w d’un sous-ensemble W deV si v et w co¨ıncident pour toutes les variables de W. On note CompV(w) l’ensemble des valeurs de V compatibles avec w.

D´efinition 1.13 (Distribution de probabilit´es marginale) Pour tout sous-ensemble W de V, la distribution de probabilit´es marginale sur W est la fonction qW de l’ensemble des valeurs de W dans l’intervalle r´eel [0 ; 1]

telle que : pour toute valeur w de W, q(w) =Pv∈[V al(V)∩CompV(w)]p(v).

64

Cette notation, quoique usuelle, est trompeuse : en reprenant la notation tradition- nelle pour la notion de suite, elle laisse penser que l’ordre des vi importe – ce qui n’est

Appendice 77

Extension de p. La fonction qui `a toute valeur w d’un sous-ensemble W de V associe q(w) est une extension de p.

Pour cette raison traditionnellement not´ee ´egalement « p ». De sa d´efinition, il d´ecoule en particulier :

Proposition 1.5 Pour toute distribution de probabilit´es p sur un ensemble de variables V et toute variable V de V, Pv∈V al(V )p(v) = 1.

Distribution de probabilit´es conditionnelles

D´efinition 1.14 (Distribution de probabilit´es conditionnelles) Une distribution de probabilit´es conditionnelles induite par la distribution de probabilit´es p sur V est une fonction r de l’ensemble des paires de valeurs de sous-ensembles de V dans l’intervalle r´eel [0 ; 1] qui `a tout couple (t, u) de T × U ⊆ V × V associe r(t|u) tel que :

1. r(t|u).p(u) = p(t, u) ; 2. Pt∈V al(T)r(t|u) = 1.

Univocit´e. r(t|u) est d´etermin´ee univoquement par p si et seulement si p(u) 6= 0.

Extension de p. r peut ˆetre consid´er´ee comme une extension de p, et est donc elle aussi traditionnellement not´ee « p ».

De sa d´efinition, il d´ecoule :

Proposition 1.6 Pour toute distribution de probabilit´es p sur un ensemble de variables V, toute distribution de probabilit´es conditionnelles induite par p, toute variable V de V, tout sous-ensemble W de V et toute valeur w de W, Pv∈V al(V )p(v|w) = 1.

Ind´ependances probabilistes

D´efinition 1.15 (Ind´ependance probabiliste relative) Etant donn´es trois sous-ensembles X, Y et Z d’un ensemble V de variables et une distribution de probabilit´es sur V,

X et Y sont ind´ependants relativement `a Z pour p si pour tout triplet (x, y, z) de valeurs de X, Y et Z respectivement, on a p(x|y, z) = p(x|z).

Convention. Dans le cas o`u deux ensembles de variables X et Y sont ind´ependants relativement `a un ensemble de variables Z qui est un singleton {Z}, on pourra dire que X et Y sont ind´ependants relativement `a {Z}.

Propri´et´e. La relation d’ind´ependance probabiliste est sym´etrique : Si X ∐ Y|Z, alors Y ⊔ X|Z.

Parents markoviens

Dans cette sous-section, Vi est une variable de V, p une distribution de

probabilit´es sur V et < un ordre strict sur V.

D´efinition 1.16 (Parents markoviens) Un ensemble PMi de parents

markoviens de Vi pour p et < dans V est sous-ensemble de V minimal parmi

ceux qui ont les propri´et´es suivantes :

– tous les ´el´ements de PMi sont des pr´ed´ecesseurs de Vi pour < ;

– Vi est ind´ependant pour p de V \ PMi relativement `a PMi.

Reformulation. Un ensemble PMi de parents markoviens de Vi pour p et

< est un sous-ensemble de {V1, . . . , Vi−1} tel que :

1. pour toute valeur pmi de PMi et toute valeur (v1, . . . , vi−1) de

(Vi, . . . , Vi−1) compatible avec pmi, p(vi|pmi) = p(vi|v1, . . . , vi−1) ;

2. aucun sous-ensemble propre de PMi ne satisfait la condition

Chapitre 2

R´eseaux bay´esiens causaux et

th´eories probabilistes de la

causalit´e

Maintenant que nous avons pr´esent´e les r´eseaux bay´esiens causaux, nous pouvons en venir aux m´ethodes d’inf´erence aux causes g´en´eriques qu’ils fondent. Dans le chapitre qui commence, la question est abord´ee du point de l’analyse conceptuelle. Elle est alors celle de la caract´erisation de la causalit´e qui sous-tend la d´efinition des r´eseaux bay´esiens causaux. Plus pr´ecis´ement, il s’agit pour nous ici de comparer le crit`ere de causalit´e qui est `a l’oeuvre dans les m´ethodes d’inf´erence causale fond´ees sur les r´eseaux bay´esiens, avec les th´eories probabilistes de la causalit´e relativement auxquelles notre travail se comprend.

Cette comparaison prend place dans le projet g´en´eral d’exploration des corr´elats ´epist´emologiques des th´eories probabilistes de la causalit´e. Elle se justifie par ailleurs de mani`ere sp´ecifique. En effet, ainsi que nous l’avons indiqu´e d´ej`a et que nous le montrerons bientˆot, nos meilleures th´eories pro- babilistes de la causalit´e sont circulaires – au sens o`u la notion de cause apparaˆıt dans l’analysans de l’expression « A cause B ». On se demande bien, alors, comment les r´eseaux bay´esiens permettent d’inf´erer des causes `a partir de donn´ees de nature probabiliste.

Le chapitre qui commence se d´eroule en trois temps. Dans la premi`ere section, nous mettons au jour et analysons la caract´erisation de la causalit´e qui est `a l’oeuvre dans l’inf´erence aux causes fond´ee sur les r´eseaux bay´esiens. Cette caract´erisation est d´esign´ee dans la suite au moyen de l’expression « caract´erisation RB ». Dans la deuxi`eme section, nous pr´esentons les th´eories probabilistes de la causalit´e. Enfin, la troisi`eme section est consacr´ee `a la comparaison elle-mˆeme des caract´erisations probabilistes de la causalit´e.