• Aucun résultat trouvé

Ramsey, von Neumann/Morgenstern, Savage.

C- Décision et incertitude : la théorie de Savage.

1. P(B) 0 for every B,

2. If , ,

3. P(S)=1 »4.

La question que nous pouvons nous poser est celle-ci : pourquoi cette opération – passage du qualitatif au quantitatif – est-elle nécessaire ? Cette opération est rendue nécessaire pour produire une véritable mesure, car comme nous l’avons déjà vu chez Ramsey et N/M, la                                                                                                                

1 Savage (1954), p 70-82.

2 Nous ne rentrerons pas dans cette démonstration qui va des pages 43 à 46. Seulement, il faut noter que l’utilisation des

probabilités conditionnelles est nécessaire dans le cadre de la théorie de Savage et du bayésianisme en général pour rendre compte de l’évolution et de la mise à jour des probabilités subjectives par rapport aux événements (bayesian updating). Sans cette opération, il serait impossible de rendre compte de la dynamique des croyances du sujet. Et, il est dans l’essence même de la croyance de se transformer et d’évoluer, de changer, c’est ce qu’a bien vu toute une part de la philosophie occidentale, à commencer par Platon, voir République, V et VI, et plus généralement Pascal Engel,“Les croyances”, in D. Kambouchner (Ed.) Notions de philosophie, Paris, Gallimard, 1995, tome II, 1-101. Les croyances sont aussi ce qui constitue une bonne partie du tissu de nos « états » intellectuels à propos du monde en général. Il est donc nécessaire d’avoir un outil qui permette de les formaliser. Mais la question de savoir si les probabilités sont un outil pertinent reste centrale dans le débat contemporain comme en témoignent les travaux de Stalnaker (1970), Lewis (1976), et Lepage/Morgan (2011). Voir aussi, pour une vue d’ensemble à la fois générale et précise : Hacking (2004), Gilboa et Al. (2004) ; Oaksford/Chater (2007) et, pour une étude profonde en français, du « style » bayésien, voir Granger (1988).

3 Les axiomes de de Finetti ont donné lieu à bon nombre d’articles et d’analyses, mentionnons les plus pertinents : M.C.

Galavotti (1989) et (1991) ; Fishburn (1986) ; Suppes (1994) ; le livre de Gilboa (2009) contient une très bonne analyse de la théorie de l’utilité et des axiomes de de Finetti.

4 Savage (1954), p 33.

≤*

B ⊆ C

théorie de l’utilité est une théorie de la mesure1, or, sans quantification il n’y a pas de mesure

possible2.

Parmi les auteurs que nous avons étudiés jusqu’à maintenant, Savage est celui qui est allé le plus loin dans l’explicitation mathématique des conditions de possibilité de la mesure. Aussi allons-nous essayer de le suivre d’assez près dans son cheminement. Quelles sont les conditions mathématiques nécessaires et suffisantes pour passer d’une probabilité qualitative à une mesure de probabilité quantitative ?

Pour parvenir à déterminer ces éléments il nous faut faire deux choses. D’une part, expliciter les conditions de possibilité d’une mesure en général, ce que Savage ne fait pas ou seulement bien trop allusivement3, et qui nous seront utiles justement pour comprendre avec quels outils formels Savage construit sa démonstration, d’autre part, il faut revenir à la définition que donne l’auteur du concept d’événement : un événement B est un sous-ensemble de l’ensemble universel S4. Pour qu’une mesure soit possible, c’est-à-dire pour que puisse être exprimée en terme de probabilité quantitative nous allons devoir construire une algèbre booléenne à partir d’une collection ( ) de sous-ensembles (A, B) de S5. C’est ici que va entrer en ligne de compte la question de savoir si S est infini ou non. Si S est fini, une algèbre booléenne devra satisfaire les conditions suivantes :

, (S est un élément de la collection),                                                                                                                

1 La « déduction » du théorème de la représentation et de son unicité font tous deux appels à des séries d’opérations

mathématiques, dont les étapes se rapprochent d’assez près de ce que nous avons vu plus en détail chez N/M. Pour une approche plus exhaustive de ces problématiques, voir Suppes/Zinnes (1963) ; Krantz/Luce/Suppes/Tversky (1989), Vol II ; et, Dickes/Tournois/Flieller/Kop (1994), p 15-60.

2 Voir, Carnap (1960), qui explore ce problème dans la deuxième partie de son ouvrage, et qui applique une méthode assez

proche de celle que nous avons vu chez Ramsey et N/M – et qui sera aussi celle de Savage – aux concepts de temps et de longueur, p 78 à 86. La discussion que propose Carnap aux pages 62-69 est très importante concernant les fondements de la physique et des sciences de la mesure en général, et il est très intéressant de la lire en parallèle avec les considérations méthodologiques et épistémologiques de N/M (1944), p 20-25. Concernant le problème général de la mesure, nous renvoyons à la profonde analyse de Granger (1988), p 256-258.

3 Par exemple aux pages 40-43.

4 Ce qui signifie que pour un nombre n d’événements, l’ensemble des sous-ensembles de S est égal à . Détail important

puisque c’est sur ce nombre cardinal que sera calculée la probabilité de l’événement de référence. Sur la nécessité de construire une mesure d’après un ensemble, voir Granger (1988), p 257.

5 Ici, nous sortons un peu de la théorie de Savage proprement dite en présentant les prérequis mathématiques généraux de la

théorie de la mesure. Nous nous inspirons dans tout ce qui va suivre des travaux de Fishburn (1970), p 129-134, et (1973), p 68-76, (1986) ; Kreps (1988), p 115-126, l’exposé de cet auteur est un des plus pédagogiques qui soit ; Suppes (1994) ; enfin les références majeures pour les problèmes de théorie de la mesure et de déduction du théorème de la représentation sont Suppes/Zinnes (1963) ; et Krantz/Luce/Suppes/Tversky (1971), Vol I et II. Savage fait quelques remarques « en passant » sur ces problèmes aux pages 40-43. Comme nous le remarquions plus haut, les éléments de théorie de la mesure exposés ici doivent être lus en parallèle avec Carnap (1960).

≤*

Coll A

1) S∈CollA

, (clôture par complémentation : si un événement A appartient à la collection, alors son complément aussi),

, (si deux événements appartiennent à la collection, alors leur réunion est aussi un élément de la collection),

Enfin, deux conditions pour une partition finie de S : qui est un élément de , où = 1,…, n, on a :

(clôture sous réunions finies : toutes les réunions de sont dans ).

(clôture sous intersections finies : toutes les intersections de

sont dans ).

Par contre, pour une partition infinie dénombrable de S qui est un élément de , où = 1, 2, 3…etc. Nous parlons alors d’une σ-algèbre avec deux conditions supplémentaires :

(clôture sous réunions dénombrables).

(clôture sous intersections dénombrables).

Savage va utiliser une partition infinie1 dénombrable, pour laquelle la mesure de probabilité doit être σ-additive, c’est-à-dire que :

(ce qui signifie que, pour des parties de deux à deux disjointes, la mesure de la réunion des est égale à la somme des mesures des parties

de ).

                                                                                                               

1 Pour une très bonne analyse des problèmes liés à l’utilisation des partitions finies voir, Kraft/Pratt/Seidenberg (1959) ;

Fisher (1986), p 337 ; Kreps (1988), p 119 ; si S est fini, la mesure peut ne pas être unique, voir Gilboa (2009), p 111. C’est que montre un exemple de de Finetti, repris par Kraft/Pratt/Seidenberg (1959) avec un ensemble S divisé en 5 sous-ensembles, l’exemple est analysé par Kreps (1988), p 119.

2) si A∈CollA alors AC∈CollA

3) si A, B∈CollA alors A∪ B∈CollA

Ai CollA

i

4)

in=1

A

i

∈CollA

A

i

CollA

5)

in=1

A

i

∈CollA

A

i

CollA

Ai CollA

i

6)

i=1

A

i

∈CollA

7)

i=1

A

i

∈CollA

8) P(

i=1

A

i

)=∑

i=1

P(A

i

)

CollA

A

i

A

i

Avec ces éléments mathématiques à l’esprit, revenons au texte de Savage, et au problème qu’il va analyser maintenant et qu’il exprime comme suit :

« If S carries a probability measure P and a qualitative probability such that for every B, C, if and only if then P (strictly) agrees with . If implies

then P almost agrees with »1.

La question est donc de savoir par quels moyens mathématiques nous pouvons formaliser l’incertitude du sujet quant à la réalisation d’un événement quelconque, c’est-à-dire attribuer à ma croyance une mesure quantitative située dans l’intervalle [0,1]. C’est la fonction de probabilité elle-même qui va permettre la mise en rapport de P et .

Nous allons ici étudier la démonstration de Kreps (1988)2 que nous comparerons à celle de Savage. La démonstration de Kreps est moins générale mais beaucoup plus claire et concise que celle de Savage, et elle conduit absolument aux mêmes conclusions. Le but étant de découvrir : «…conditions under which there is a probability measure that agrees, either strictly or almost whith a given qualitative probability »3. Afin de parvenir à ce but les deux auteurs vont utiliser des partitions sur un ensemble de référence donné. Il s’agit en fait d’utiliser ce que Fishburn (1986)4 nomme l’« axiome de partition 1 », et l’« axiome de

partition 2 ».

L’idée générale de la méthode choisie par Savage est la suivante : préférant l’axiome 1, il utilise un événement B comme ensemble de référence dans lequel il s’agira de mettre en correspondance deux partitions presque uniformes5 et . Et c’est justement dans la mise en

correspondance de ces deux partitions presque uniformes au moyen d’une transformation affine donnée que sera rendue possible le passage de à P. En fait il faut imaginer et                                                                                                                

1 Savage (1954), p 34. L’auteur remarque aussi que si P s’accorde strictement avec alors la connaissance de P implique

celle de . Mais des cas tératologiques peuvent se présenter où bien que .

2 Elle se situe aux pages 120-125. 3 Savage (1972), ibid.

4 p 341. Il y en fait trois axiomes et le troisième correspond à P6 chez Savage.

5 Ces partitions, qui sont des collections de sous-ensembles de B, c’est-à-dire des algèbres booléennes de B, ont pour

caractéristiques principales que l’union de r éléments n’est pas plus probable que l’union de r+1 éléments. Les « tranches » de la partition peuvent donc être de tailles différentes. Rappelons que nous travaillons ici dans le cadre de partitions infinies dénombrables, dont les propriétés ont été définies plus haut.

≤*

P(B)≤ P(C) B≤*C

≤*

B≤*C P(B)≤ P(C)

≤*

≤*

Bi Cj

≤*

Bi Cj ≤ * ≤ * P(B)= P(C) B<*C

comme des sortes de règles graduées – dont les graduations peuvent ne pas être égales – et où chaque élément est la réunion de a ou a + 1 élément des . L’existence de ces deux partitions permet à Savage de conclure qu’il existe une et une seule mesure P qui s’accorde presque avec . C’est-à-dire que, pour tout et tout , et P unique tel que

définit plus haut, il existe tel que . Autrement dit il existe un nombre réel

qui permet d’exprimer P(C) en fonction de P(B). C’est cette mise en relation de deux ensembles qui va permettre d’établir la mesure en tant que telle1.

De son côté, Kreps utilise l’axiome de partition 2, c’est-à-dire une partition uniforme sur S en sous ensembles, c’est le choix que font aussi de Finetti (1937), Koopman (1940) et (1941). Il s’agit donc de partitionner S en événements égaux. La partition a la forme suivante :

2

. Elle a les propriétés suivantes3 :

1) . Les éléments de la partition sont disjoints et indépendants.

2) pour tous les et les . Aucun événement n’est subjectivement plus probable qu’un autre.

3) . La partition est close pour les réunions dénombrables, autrement dit la

réunion des A est équivalente à S.

Il convient à présent de se demander quelle probabilité peut être assignée à chaque « tranche » pour représenter , et nous trouvons que pour tout et tout :

                                                                                                               

1 Voir Granger (1988), p 256-259.

2 représente l’ensemble de tous les sous-ensembles de S, autrement dit, l’ensemble de toutes les possibilités, représente

une ou plusieurs séries d’événements issus de l’ensemble des sous-ensembles de S. Autrement dit, nous pouvons nous imaginer ces éléments comme les séquences possibles de piles ou faces qui résulteraient de lancés d’une pièce non biaisée. L’exemple de la pièce est de Savage (1954) p 33, qui l’élabore un peu plus, il est repris par Kreps (1988) dans son exposition p 120.

3 Nous allons utiliser le même symbole que Kreps : qui a pour fonction de représenter une préférence stricte en termes de

probabilité qualitative : A B si le sujet pense que A est strictement plus probable que B. Le fait que Kreps n’utilise pas le

même symbole que Savage ne change rien à la portée de la démonstration.

Cj Bi

≤*

ρ, 0≤ρ≤1 B ⊆ C C⊆ B P(C)=ρP(B) ρ 2n 2n A1n

, A

2n

,..., A

2n n

A

jn

∩A

kn

=∅

A

jn

*A

kn j k

A

in

=S

i=1 2n

2n

p

A

nj

*

j n 2n n 2n n  *  *

Si nous prenons maintenant un événement B, nous pouvons utiliser notre partition comme une règle graduée (cette fois de façon régulière, pas comme chez Savage) pour découvrir la probabilité de B. Nous procédons ainsi : pour un événement B et pour tout de

il y a un plus petit que tel que :

Comme est directement relié à , est fonction de , on peut l’exprimer ainsi : . Dans ce cas, la probabilité de B, doit pouvoir être située dans l’intervalle :

Nous arrivons ainsi à « coincer » la probabilité de B de façon de plus en plus fine selon que tend vers l’infini. Autrement dit plus la partition est fine – plus le nombre de « tranches » est élevé – et plus nous nous rapprochons de P(B), soit :

C’est exactement le résultat auquel parvient Savage, page 36, mais avec une hypothèse plus forte (axiome de partition 1) et une démonstration plus longue. Le rôle dévolu par Savage aux deux partitions et est ici dévolu à et à qui constituent les unités de mesure de la partition. Dans l’approche de Kreps, comme dans celle de Savage, plus la partition est fine, et plus nous pouvons avoir une mesure précise. Les pourraient être pensées comme les graduations d’une règle que l’on pourrait affiner autant que l’on veut. D’autre part, cette procédure garantit qu’il existe une probabilité unique pour représenter .

p(Ajn

)= 1

2

n n Anj k n

A

nj

*B

j=1 k

k n n

k(n)

(k(n)−1)

2

n

≤ P(B)≤ k(n)2

n n P(B)=

lim

n→∞

k(n)

2

n Bi Cj n

2

n Anj ≥*

Cependant, comme nous l’avons vu plus haut, il peut exister un cas tératologique où : bien que , ce qui signifie que dans certains cas1 ne peut être représenté

par P. Il convient donc d’introduire deux clauses supplémentaires afin de s’assurer que ce cas ne puisse se présenter, ces deux clauses permettent de déduire un accord strict entre P et .

1) La relation doit être « fine », c’est-à-dire que lorsque l’ensemble universel S peut être partitionné en événements , tels que pour tous les

membres de la partition .

2) La relation doit être « tight », c’est-à-dire que si il existe un D tel que .

De ces deux clauses, mathématiquement développée et élaborées, Savage peut déduire les propriétés suivantes concernant la relation de probabilité qualitative : « If is both fine and tight, the only probability measure that almost agrees with strictly agrees with it, and there exist partitions of S into arbitrary many equivalent events »2.

Voilà qui clôt l’analyse consacrée par Savage à la question du passage du qualitatif au quantitatif : nous disposons maintenant d’une mesure de probabilité P unique pour décrire la relation qualitative et subjective . Nous disposons donc maintenant d’un outil pour mesurer de façon aussi précise que possible l’intensité des croyances du sujet sur une échelle qui peut être graduée de façon aussi fine que l’on veut, échelle située dans l’intervalle fermé [0,1]. Par ailleurs ces considérations permettent aussi à Savage, via le concept de partition, d’introduire son sixième axiome.

Axiome 6

« If , and f is any consequence ; then there exists a partition of S such that, if g or h is so modified on any one element of the partition as to take the value f at every s there, other values

                                                                                                               

1 Voir, Savage (1954), p 36-37. En fait il y a deux cas où la probabilité qualitative ne peut être représentée par une mesure

quantitative, ils sont exposés de façon brillante par Kreps (1988), auquel nous renvoyons, p 122-123 ; voir aussi Fishburn (1986), p 341. 2 Savage (1954), p 38. P(B)= P(C) B<*C <* <* <* ∅<*B C1, C2,..., Cn Cj≤*B ≤* B*≥C B*≥ C ∪ D*≥ C ≤ * ≤ * ≤ * g< h

being undisturbed ; then the modified g remains less than h, or g remains less than the modified

h, as the case may require »1.

Il s’agit d’un axiome de continuité, qui comme chez Ramsey, et N/M, repose sur une propriété archimédienne2, pour plus de clarté, nous allons le formaliser comme suit : pour tout acte g et h F, tels que h > g, et pour toute conséquence f F, il existe une partition finie de S telle que pour tout A sur la partition :

Notons tout d’abord que la partition sur S doit être finie, ce qui n’était pas le cas dans le développement sur les probabilités subjectives. Comme le fait remarquer Gilboa (2009)3,

l’axiome 6 et l’axiome 7 sont des clauses techniques qui n’ont pas une très grande portée normative4. Elles sont donc certes intéressantes à étudier du point de vue des mathématiques

de la décision, mais moins intéressantes du point de vue qui est le nôtre et qui concerne surtout les prétentions normatives de la TUA.

Toutefois quelques remarques s’imposent. Tout d’abord, comme nous l’avons vu chez N/M, plus que chez Ramsey peut-être, l’axiome de continuité sert à garantir qu’aucune conséquence ne puisse être indéfiniment désirable ou indésirable en elle-même. Il y a donc ici un aspect nettement limitatif5. La propriété archimédienne, qui chez N/M était reliée à la                                                                                                                

1 Avant d’introduire P6, Savage avait eu l’idée d’introduire un axiome P6’, moins général qui stipulait que si B < C il existe

une partition de S dans laquelle la réunion de chaque élément de S avec B est moins probable que la réunion de chaque élément de S avec C. Il s’agit d’une forme d’axiome de monotonicité par rapport aux partitions. Pour une bonne explication voir Fishburn (1970), p 194. Cet axiome, bien que suffisant dans le cadre de la théorie des probabilités que Savage vient de développer, ne l’est plus lorsque nous faisons intervenir le concept d’utilité sur les conséquences. Il faut donc un axiome plus général, ce sera P6.

2 Pour cette propriété, voir Ramsey (1926), p 171. En fait il s’agit ici de trouver un h’ ou un g’ assez proche de h et g de telle

sorte que les préférences initiales ne soit pas modifiées, si on remplace par exemple, h par h’.

3 Page 103, voir aussi Shafer (1986), p 468.

4 Avis qu’il faut toutefois modérer quand on sait la portée descriptive de l’axiome de continuité chez N/M. La façon dont

Savage présente sa propre clause de continuité masque un peu son aspect descriptif, mais ce qui était vrai chez N/M, et chez Ramsey, l’est aussi chez Savage.

5 Voir, Fishburn (1970), p 194 ; Kreps (1988), p 131-132, encore une fois soulignons la pertinence pédagogique de

l’exposition de cet auteur ; enfin Gilboa (2009), p 103-104 donne une excellente analyse de P6 en le mettant en rapport avec les éléments de théorie de la mesure que nous venons d’étudier.

∈ ∈

[h'(s)= f pour s ∈A, h'(s)= h(s) pour s ∈Ac] implique h' > g

distribution de probabilité, est ici liée à la taille de la partition1. Ce qui signifie que pour une

partition suffisamment fine, une conséquence f (favorable ou non) peut être intégrée parmi les conséquences possibles d’un acte h sans que les préférences par exemple entre h et g ne soient modifiées. Autrement dit, pour chaque partie d’une partition de S (aussi fine que l’on veut), si nous modifions h en le rendant identique à f (h’) sur la partie en question, cette partie sera tellement petite – en termes de probabilités – que la préférence originelle sur les actes ne sera pas modifiée. Il en ira de même pour les actes g et g’2. Nous remarquons aussi que bien que

les façons de construire et d’introduire la clause de continuité ne soient pas identiques chez Ramsey, N/M et Savage, l’intuition qui sous-tend ces axiomes est proche dans les trois cas.

L’axiome 7 et le problème de l’utilité

Le concept d’utilité est l’objet du cinquième chapitre, la notion d’utilité proprement dite est introduite dans la troisième partie qui porte sur l’ordonnancement des préférences entre des paris3 :

« A utility is a function U associating real numbers with consequences in such a way that if , and ; then , if and only if . Writing for , the condition takes the form . Similarly it is convenient to understand, that, for an act f, »4.

L’utilité est donc d’abord définie pour les paris5, c’est-à-dire des actes aux conséquences finies6. Dans ce cadre-là ce sont les probabilités attachées à chaque conséquence                                                                                                                

1 Remarquons que du point de vue de la structure, les clauses de continuité de N/M sont différentes de celles de Savage en ce

sens qu’elles font intervenir trois alternatives, alors que chez Savage il s’agit de faire jouer entre eux deux actes, leurs modifications sur une partition, et une conséquence.

2 P6 est aussi par là même introduit pour assurer l’existence d’un ordre à valeurs réelles préservant les probabilités.

3 Voir, Savage (1954), p 73. Comme la démarche de notre auteur est très proche de celle de N/M, nous n’insisterons pas

beaucoup sur cette partie. Remarquons toutefois que dans Savage, la notion de loterie, à partir de laquelle était calculée l’utilité chez N/M, est remplacée par le concept de pari qui permet d’introduire les probabilités subjectives. Sur le concept de pari, voir Granger (1967), p 69-72, et Hacking (2004), p 127 et p 178.

4 Savage (1954), p 73. Le symbole représente un pari aux conséquences finies, et sont les probabilités, et les

conséquences.

5 La définition mathématique du pari se trouve p 71.

6 Les conséquences des actes doivent être finies pour que l’utilité le soit aussi.

f =

ρ

i

f

i g =

σ

i

g

i f ≤ g

ρ

i

U( f

i

)

σ

j

U(g

j

)

U[

f

]

∑ U( fρ

i i

)

U[f ]≤U[g ]

U[ f ]= E(U[ f ])

singulière qui vont déterminer les préférences. Nous sommes donc très proches de la solution N/M. Il s’agit pour Savage de déduire une équivalence entre l’utilité espérée U(f) et la mesure de probabilité . C’est ce que formalise le théorème 1 : pour qu’il existe une fonction d’utilité de F (ensemble des actes1) dans il faut que soit équivalent à U[ ] U[ ]2.

La valeur d’un pari est calculée grâce à la formule qui donne l’utilité attendue de