• Aucun résultat trouvé

2 Les méthodes d’estimation

2.4 L’approche fréquentielle et Bayesienne des probabilités

Historiquement, il n’y a pas eu et il n’y a toujours pas une seule manière de voir les probabi-lités. On distingue en effet deux approches : l’approche Bayesienne et l’approche Fréquentielle. Cette constatation, quelque peu déroutante, est bien résumée par Efron [10] : Basically, there’s only one way of doing physics, but there seems to be at least two ways to do statistics, and they don’t always give the same answers.

La distinction de ces deux approches est apparue à la fin du 19ème siècle. Avant cette date, il semblerait qu’un certain flou ait subsisté et que la signification des probabilités dépendaient du praticien. Toutefois, d’après Sivia [11, p.9], il semblerait que ce soit la vision Bayesienne qui ait prévalu avec notamment Bernoulli, Bayes et Laplace.

2.4.1 Approche bayesienne des probabilités

L’approche Bayesienne consiste à voir dans les probabilités la mesure d’un niveau de confiance, un niveau de plausibilité ou de vraisemblance (voir [12, p.11], [11, p.8] et [3, p.437]). Elle ap-parait la première fois12 dans un essai de Thomas Bayes, publié en 1763 après sa mort [7, p.98]. Cependant, il ne s’agit là que d’un problème faisant appel aux statistiques Bayesienne [13, p.3] et non de la formulation du théorème de Bayes que l’on doit, elle, en partie à Laplace [7, p.102].

Le théorème de Bayes [11, 12, 14, 15] est le fondement des probabilités qui portent son nom. Le développement pour l’obtenir est techniquement simple, mais il semblerait que son interprétation ait amorcé un débat qui dure depuis 2 siècles et qui n’est pas terminé. Le théorème de Bayes s’obtient en partir de la règle du produit ou règle des probabilités conditionnelles. Soit deux événements A et B, cette règle affirme que la probabilité que A et B soient vrais p(A, B) est égale à la probabilité que A soit vrai sachant que B est vrai p(A|B), multiplié par la probabilité que B soit vrai p(B) :

p(A, B) = p(A|B) × p(B) (1.31)

Une particularité du terme de gauche est d’être symétrique. En effet, dire que A et B sont

12. D’après certains auteurs, il se pourrait très bien que ce que l’on appelle aujourd’hui « approche Baye-sienne » soit assez différent de ce que pratiqua Thomas Bayes dans son essai.

vrais est équivalent à dire que B et A sont vrais. Cela permet d’écrire la relation précédente en inversant A et B :

p(A, B) = p(B, A) = p(B|A) × p(A) (1.32)

En égalant les deux expressions ci-dessus, on obtient le théorème de Bayes, parfois appelé théorème de probabilité des causes :

p(A|B) × p(B) = p(B|A) × p(A) (1.33)

En l’état, l’intérêt de la relation n’est pas évident. Il apparaît lorsque l’on remplace les événe-ments A et B par des termes plus explicites, par exemple « cause » et « effet », ou « observables Y » et « paramètres β » :

p(β = ˙β|Y = Y) = p(Y = Y|β = ˙β) × p(β = ˙β)

p(Y = Y) (1.34)

Avec ici Y , β deux variables aléatoires continues et ˙β, Y des réalisations particulières de ces deux variables aléatoires. Ecrite plus succinctement, l’expression précédente devient :

p( ˙β|Y) = p(Y| ˙β) × p( ˙β)

p(Y) (1.35)

L’intérêt de cette relation est de relier la quantité qui nous intéresse, p( ˙β|Y), à des quantités que l’on peut calculer plus facilement. Par ailleurs, chaque terme de l’expression possède un nom et une signification particulière [11, p.6] :

p( ˙β|Y) : La probabilité a posteriori décrit notre niveau de connaissance sur les paramètres à la lumière des observations ou plus généralement sur les causes qui ont provoqué les observations.

p(Y| ˙β) : La fonction de vraisemblance est la « probabilité » de voir apparaître les ob-servations pour une valeur donnée des paramètres. C’est cette fonction que l’on exploite avec l’estimateur du maximum de vraisemblance (§2.5 p25).

p( ˙β) : La probabilité a priori (ou probabilité marginale) sur les paramètres ˙β (les vraies

valeurs, les valeurs exactes) décrit notre niveau de connaissance avant l’expérience. Le théorème de Bayes requiert de la part de l’utilisateur de spécifier une distribution a priori de la solution.

p(Y) : La probabilité a priori (probabilité marginale) des observations est la probabilité de les obtenir en prenant en compte toutes les causes possibles (ici toutes les valeurs de β possibles). Dans certains cas, on peut utiliser la loi des probabilités totales pour calculer ce terme.

Pour calculer la densité marginale p(Y), on peut utiliser le principe de marginalisation ([11, p.6] et [12, p.8]) qui s’apparente ici à déterminer la densité de probabilité des observations Y en prenant en compte toutes les causes possibles (toutes les valeurs possibles de ˙β) et leur probabilité d’apparition :

p(Y) =Z p(Y, ˙β) d ˙β =Z p(Y| ˙β) p( ˙β) d ˙β (1.36)

Le théorème de Bayes décrit et porte en lui même un processus itératif à l’image du fonc-tionnement de notre cerveau13. A partir d’une connaissance a priori, d’une idée, d’un préjugé, on réalise de nouvelles observations qui viennent mettre à jour nos connaissances [6, p.134]. Dit autrement, on peut concevoir les probabilités Bayesienne comme un moyen de quantifier et de traiter l’information :

probabilité a priori =⇒ observations =⇒ probabilité a posteriori

Un des points central sur lequel les probabilités Bayesienne et ses partisans ont eu a se justifier, est le choix de la probabilité a priori des paramètres, c’est à dire sur la définition du terme p(β). Un des problèmes courant est de savoir quelle distribution utiliser pour modéliser notre ignorance totale sur le résultat14 ou pour matérialiser notre volonté de ne pas influencer le résultat avec une quelconque information a priori. Comme le choix de la distribution apparaît parfois comme étant subjectif, les probabilités Bayesienne sont parfois qualifiées (à tort, disent ses défenseurs [11, p.124]) de « subjectives ».

Le principe d’indifférence ou de raison insuffisante est souvent invoqué pour justifier l’utili-sation d’une densité de probabilité a priori uniforme sur des paramètres inconnus. Cependant, ce n’est pas toujours celle qui est adaptée15 pour modéliser notre état d’ignorance16 ou notre volonté de ne pas vouloir orienter la solution.

Un des problèmes avec ces probabilités a priori sur les paramètres est la propriété d’in-variance par changement de variable que l’on perd souvent avec l’approche Bayesienne. La propriété d’invariance est intéressante puisqu’elle permet de reparamétriser librement le pro-blème sans changer la solution finale. Imaginons un propro-blème où on cherche à estimer un paramètre x. Faute d’information a priori, nous choisissons d’utiliser une densité de probabilité uniforme pour p(x). Mais si on paramétrise maintenant le problème en posant y = 1/x. Quel

13. Pour l’anecdote, voir [6, p.135] pour une interprétation Bayesienne des événements à propos de l’accident de la centrale nucléaire de Three Mile Island en 1979.

14. La question est centrale et qualifiée ironiquement de « the search of the holy grail » dans [13, p.5]. 15. Par exemple, lorsque l’on souhaite estimer la moyenne et la variance d’une loi normale à partir d’obser-vations, il est préférable, semble-t-il, d’utiliser comme densité a priori pour la moyenne µ une densité uniforme, et d’utiliser pour l’écart-type σ une densité uniforme sur log(σ) [11, p.108].

16. Voir à ce sujet les densités de Jeffreys ou « Jeffreys prior » dont l’objectif est de fournir un moyen de déterminer les densités non-informatives.

est la densité a priori à utiliser pour y ? En l’absence d’information, on est tenté d’utiliser une densité uniforme pour p(y). Cependant, dans ce cas, les deux densités de probabilités p(x) et p(y) ne correspondent plus. Or aucune des paramétrisations n’est a priori plus légitime que l’autre. Cependant, la probabilité a priori n’a en général qu’un effet marginal sur la solution. En effet, dès que le nombre d’observables est relativement important, la sensibilité à la densité de probabilité a priori diminue.

Dans certaines situations17, on souhaite spécifier une probabilité informative sur certains paramètres car on dispose d’information a priori. Prenons l’exemple d’un capteur de tempéra-ture. Sa position n’est pas parfaitement connue, mais on en a une idée, puisqu’on l’a définie. On peut ainsi utiliser une loi gaussienne comme densité a priori pour spécifier sa position. L’écart-type de cette loi doit être estimé de manière plus ou moins subjective par l’utilisateur.

2.4.2 Approche fréquentielle des probabilités

L’approche fréquentielle des probabilités est apparue en « protestation » à cette vision des probabilités qualifiée de subjective [11, p.9]. Considérons une expérience aléatoire et A un événement, c’est à dire un résultat possible de l’expérience. Répétons cette expérience n fois dans les mêmes conditions et comptons le nombre de fois nA qu’est réalisé l’événement A. La probabilité pA est alors définie par [16, p.23] :

pA= lim

n→∞

nA

n (1.37)

Compter le nombre de réalisations d’un événement A parmi n réalisations de l’expérience, consiste à déterminer la fréquence d’apparition de cet événement, d’où l’expression « d’approche fréquentielle ». Ce type de probabilité se prête bien à l’étude des jeux de hasard, ou à tous les problèmes où l’on peut aisément concevoir, au moins mentalement, de répéter une expérience indéfiniment. Mais tous les problèmes de statistique ne s’y prêtent pas aussi bien. Comme le fait remarquer Sivia[11, p.9], « having to seek a frequency interpretation for every data analy-sis problem seems rather perverse ». L’exemple donné est celui de l’estimation de la masse de Saturne par Laplace mais la même question se pose pour des propriétés thermophysiques de matériau. Ces grandeurs peuvent-elles être considérées comme des variables aléatoires ? Aux-quelles on peut associer une densité de probabilité p(β|Y) ? Même en imaginant une infinité d’univers indépendants, la masse de Saturne est-elle le résultat d’une expérience aléatoire ? Toutefois, avec la notion de vraisemblance développée par Fisher (§2.5 p25), la question est moins problématique puisqu’en travaillant uniquement avec p(Y|β), on évite d’introduire une

17. C’est le cas par exemple au chapitre 2, où l’instant initial t0, correspondant au début de l’expérience, n’est pas connu avec précision. On suppose ainsi que t0 suit une loi gaussienne avec un écart-type d’une fraction de seconde (≈ 0, 1 s), estimé à partir des caractéristiques techniques de la caméra infrarouge utilisée.

densité de probabilité sur β. La densité sur β prend également son sens lorsqu’elle porte sur les sorties de l’estimateur et non sur les paramètres eux-mêmes.

Par ailleurs, lorsqu’à l’issue de l’estimation, on fournit un écart-type sur les paramètres estimés, cette incertitude ne porte pas sur le paramètre lui-même, mais sur le résultat de l’esti-mateur. En effet, il ne serait pas correct d’introduire une densité de probabilité d’une grandeur qui n’est pas une variable aléatoire. Dans le cadre des probabilités Bayesiennes, la densité de probabilité ne décrit pas la dispersion du paramètre, mais seulement la connaissance que l’on en a. Un intervalle de confiance, ou n’importe quelle mesure de dispersion, ne s’interprète pas de la même façon [17] suivant que l’on considère l’approche fréquentielle ou Bayesienne.