• Aucun résultat trouvé

Une classe d'intervalles bayésiens pour des espaces de paramètres restreints

N/A
N/A
Protected

Academic year: 2021

Partager "Une classe d'intervalles bayésiens pour des espaces de paramètres restreints"

Copied!
90
0
0

Texte intégral

(1)

Une classe d'intervalles bayésiens pour des espaces de

paramètres restreints

par

Ehssan Ghashim

mémoire présenté au Département de mathématiques

en vue de l'obtention du grade de maître ès sciences (M.Sc.)

FACULTÉ DES SCIENCES

UNIVERSITÉ DE SHERBROOKE

(2)

Le 11 décembre 2013

le jury a accepté le mémoire de Monsieur Ehssan Ghashim dans sa version finale.

Membres du jury

Professeur Éric Marchand Directeur de recherche Département de mathématiques

Professeur William E Strawderman Examinateur externe

Rutgers University

Professeur Taoufik Bouezmarni Président rapporteur Département de mathématiques

(3)

Je ne sais pas par quoi commencer lorsqu'on veut exprimer un sentiment très parti-culier pour un homme pas comme les autres : C'est lui qui m'a éduqué, il m'a protégé, c'est lui qu'il m'a tracé mes premiers pas à l'école et dans la discipline du mathéma-tiques. C'est mon père.

Maman, il se peut que je ne sois jamais capable de trouver les mots justes, mais cela ne m'empêchera pas d'essayer. Toute ma vie, je m'eorcerai d'exprimer ces doux remerciements avec chaque petit geste et chaque grand baiser ; parce que tu remplis mon c÷ur de tant de joie et ma vie de tant d'amour.

Comment ne pas oublier mes s÷urs et mes frères qui n'ont cessé de me soutenir pendant tout mon parcours. Je leur exprime toute ma gratitude pour leur soutien moral, ce qui m'a permis d'être à ce niveau.

Ma ancée, merci d'être là, à côté de moi, avec toi c'est l'éternel bonheur à chaque instant. Les moments passés près de toi je ne peux pas les oublier ! ! Ils resteront à jamais gravés dans ma mémoire. Je t'aime.

Tout ce travail est dédié, à mon chère père, MAHMOUD GHASHIM qu'Allah bénisse son âme, à ma chère mère RWIDA ZARNAJI, à ma ancée BANA SHAHHET, et à mes s÷urs et mes frères.

(4)

SOMMAIRE

Ce mémoire traite d'une méthode bayésienne, analysée par Marchand et Strawder-man [1], pour la construction d'intervalles bayésiens pour des modèles de densités continues avec contrainte sur l'espace des paramètres Θ. Notamment, on obtiendra une classe d'intervalles bayésiens Iπ0,α(·), associés à la troncature d'une loi a priori

non-informative π0 et générés par une fonction de distribution α(·), avec une

proba-bilité de recouvrement bornée inférieurement par 1−α

1+α. Cette classe inclut la procédure

HPD donnée par Marchand et Strawderman [3] dans le cas où la densité sous-jacente d'un pivot est symétrique. Plusieurs exemples y illustrent la théorie étudiée. Fina-lement, on présentera de nouveaux résultats pour la probabilité de recouvrement des intervalles bayésiens appartenant à la classe étudiée pour des densités log-concaves. Ces résultats établissent la borne inférieure à 1 −

2 et généralisent les résultats de

(5)

GLOSSAIRE

Voici un glossaire utile pour les notions et dénitions utilisées dans ce mémoire.

• τ(θ) : une fonction du paramètre θ à estimer. • T (X, θ) = a1(X)−τ(θ)

a2(X) : un pivot linéaire du modèle de statistique f(x|θ).

• g : la densité du pivot linéaire T (X, θ). • G : la fonction de répartition du T (X, θ).

• G−1 : la fonction de répartition inverse du T (X, θ).

• πH : la loi a priori de Haar invariante à droite.

• π0 : la loi a priori tronquée de πH sur l'espace des paramètres [0, ∞) et donnée par

π0(θ) = πH(θ) I[0,∞)(τ(θ)).

• Iπ0,α(·) =



0,α(·)(x), uπ0,α(·)(x)



: intervalle de conance bayésien associé à une loi

a priori π0 et généré par une fonction de distribution α(·). • α(·) : fonction de distribution Rp → [0, α] et Pτ (θ)≥ u π0,α(·)(x)|x  = α(x). • Cα(·)(θ) = Pθ  0,α(·)(x)  τ(θ)  .

• C : une sous-classe d'intervalles bayésiens étudiée.

• Iπ0´eg(·)(X) : l'intervalle bayésien à ailes égales généré par la fonction de

distribu-tion α´eg(x).

(6)

REMERCIEMENTS

En préambule à ce mémoire je remercie ALLAH qui m'aide et me donne la patience et le courage durant ces longues années d'étude. Je souhaite adresser mes remerciements les plus sincères aux personnes qui m'ont apporté leur aide et qui ont contribué à l'élaboration de ce mémoire.

Je souhaite remercier en premier lieu mon directeur de recherche, Monsieur Éric Marchand, professeur de statistique au Département de mathématiques de l'Univer-sité de Sherbrooke pour m'avoir accueilli au sein de son équipe. Je lui suis également reconnaissant pour sa grande disponibilité au quotidien qu'il m'a accordée, ses qua-lités pédagogiques et scientiques, sa franchise et sa sympathie. J'ai beaucoup appris à sa côté et je lui adresse ma gratitude pour tout cela. Je le remercie aussi pour le soutien nancier qu'il m'a apporté.

Un grand remerciement très particulier premièrement, à mon pays la SYRIE et surtout l'Université de DAMAS, pour la bourse qu'elle m'a accordée durant mes études, et deuxièmement pour mes professeurs, Monsieur Bechir Ghorra, Monsieur Hassaan Aakel, et Monsieur Ezat Kassem, ainsi que tous les membres du Départe-ment de statistiques de l'Université de DAMAS en SYRIE.

(7)

adminis-tratif de Département de mathématiques de l'Université de Sherbrooke et en particu-lier le professeur Taouk Bouezmarni pour ses encouragements et ses conseils.Merci Marie-France Roy d'être toujours là.

Enn, je dois également souligner le support nancier de Département de mathéma-tiques de l'Université de Sherbrooke.

Ehssan Ghashim Sherbrooke, 2013

(8)

TABLE DES MATIÈRES

SOMMAIRE iii

GLOSSAIRE iv

REMERCIEMENTS v

TABLE DES MATIÈRES vii

LISTE DES FIGURES viii

INTRODUCTION 1

CHAPITRE 1  Notions Préliminaires 4

1.1 Dénitions et intervalles de conance . . . 4 1.2 L'inférence bayésienne . . . 13 1.2.1 Intervalle de conance bayésien HPD . . . 14

(9)

CHAPITRE 2  Probabilité de recouvrement fréquentiste de

l'inter-valle HPD 20

2.1 Illustration : cas d'une loi normale avec moyenne positive . . . 21 2.2 Cadre général avec des densités symétriques : la borne inférieure 1−α

1+α 26

CHAPITRE 3  Probabilité de recouvrement fréquentiste pour une

classe d'intervalles bayésiens 33

3.1 Cadre général avec ou sans symétrie : la borne inférieure 1−α

1+α pour la probabilité de recouvrement fréquentiste . . . 34 3.1.1 Exemples . . . 41 3.2 Cadre général avec ou sans symétrie : la borne inférieure 1 −3α

2 pour la probabilité de recouvrement fréquentiste . . . 56 3.2.1 Dénitions et propriétés préliminaires . . . 57 3.2.2 La borne inférieure 1 −

2 avec des densités log-concaves . . 59

CONCLUSION 75

(10)

LISTE DES FIGURES

1.1 La longueur moyenne de l'intervalle de Pratt et de l'intervalle usuel pour a = Φ−1(1 − α) et 1-α=0.95. . . . . 12

1.2 La crédibilité de l'intervalle de Pratt, loi a priori π(θ) = 1 et 1-α=0.95. 16 1.3La probabilité de recouvrement de IπN et IπH pour 1-α=0.95. . . . . 18

2.1 L'intervalle HPD pour le modèle N(θ,1) et 1-α=0.90. . . . 23 2.2 La probabilité de recouvrement fréquentiste de l'intervalle IHP D(X)

pour le modèle N(θ,1) et 1-α=0.9. . . . 25 2.3L'intervalle HPD pour le modèle Logistique(θ,1) et 1-α=0.90. . . . . 31 2.4 La probabilité de recouvrement pour le modèle Logistique(θ,1) et

1-α=0.90. . . 32

3.1 Les fonctions de distribution α(·) pour le modèle Gamma(5,θ), θ ≥ 1, et 1-α=0.95. . . . 45 3.2 Intervalles bayésiens pour le modèle Gamma(5,θ), θ ≥ 1, 1-α=0.95.. 46

(11)

3.3 Les probabilités de recouvrement associées aux intervalles bayésiens pour le modèle Gamma(5,θ), θ ≥ 1 et 1-α=0.95. . . . 47 3.4 Les fonctions de distribution α(·) pour le modèle Fisher(4,12), θ ≥ 1,

et 1-α=0.95. . . . 49 3.5 Intervalles bayésiens pour le modèle Fisher(4,12) et 1-α=0.95. . . . 50 3.6 Les probabilités de recouvrement associées aux intervalles bayésiens

pour le modèle Fisher(4,12), θ ≥ 1 et 1-α=0.95. . . . 51 3.7 Les fonctions de distributions α(·) pour le modèle N(θ, 1), θ ≥ 0, et

1-α=0.90. . . . 52 3.8 Intervalles bayésiens pour le modèle N(θ, 1), θ ≥ 0, et 1-α=0.90. . . 53 3.9 Les probabilités de recouvrement associées aux intervalles bayésiens

(12)

INTRODUCTION

Le but principal de la Statistique est d'obtenir, à partir d'un ensemble d'observations d'un phénomène aléatoire, une inférence sur la distribution d'un échantillon d'un tel phénomène. Il s'agit de décrire un phénomène passé ou d'obtenir une prédiction d'un phénomène à venir de nature similaire. L'inférence statistique dépend d'un modèle de probabilité du phénomène observé et implique nécessairement une étape de formalisa-tion réductrice. Sans cette noformalisa-tion probabiliste, aucune conclusion utile ne pourra être déduite. Face à cette réduction de la complication du phénomène observé, il existe diverses approches statistiques : l'une d'elles est l'approche non paramétrique et une autre représente la distribution d'un échantillon par une fonction de densité f(x|θ) où le paramètre θ, qui est de dimension ni, est le seul inconnu. Cette approche est dite l'approche paramétrique. Considérons cette dernière approche, il y a deux méthodes pour estimer le paramètre θ, ou une fonction τ(θ) : la première est dite l'estimation ponctuelle et la deuxième est l'estimation par intervalle. Concernant la méthode de l'estimation par intervalle, on peut distinguer trois classes de méthodes pour construire un intervalle (ou une région) de conance pour le paramètre θ : les méthodes classiques dites aussi fréquentistes, La méthode de Fisher (appelée F iducial

intervals), et les méthodes bayésiennes qui considèrent que le paramètre θ inconnu

(13)

Ce présent travail traite de l'estimation par intervalle dans le cas où l'espace des pa-ramètres Θ est restreint. Par exemple, soit un modèle de statistique X ∼ Fθ(·), une

méthode pour trouver un intervalle de conance de niveau 1 − α, pour le paramètre

θ d'un tel espace Θ, est de tronquer un intervalle classique I(x) du θ qui préserve

toujours la probabilité de recouvrement fréquentiste. Toutefois, il peut arriver que l'intervalle soit vide ou jugé trop court par l'utilisateur.

Ce problème a été traité par plusieurs auteurs dont Mandelkern [9], Roe et Woo-droofe [4] et Zhang et WooWoo-droofe ([5], [6]). En eet, ils ont étudié l'estimation par intervalle bayésien associé à une loi a priori non-informative, et notamment la pro-babilité de recouvrement fréquentiste des intervalles bayésiens qui en découlent. En fait, dans [9], Mandelkern traite deux problèmes d'estimation en physique dont le premier est basé sur le modèle de loi normale X ∼ N(μ, 1), où μ ≥ 0 et le deuxième concerne l'estimation du paramètre λ ≥ 0 d'un modèle de Poisson P0(λ + b) avec b

connue. Roe et Woodroofe [4] et Zhang et Woodroofe [5] ont utilisé l'inférence bayé-sienne pour trouver un intervalle de conance bayésien le plus court (HPD) de la moyenne θ d'un modèle N(θ, σ2) (avec σ2 connue dans [4] et inconnue dans [5]) avec

la contrainte θ ≥ 0. Ils ont établi une borne inférieure 1−α

1+α pour la probabilité de

recouvrement fréquentiste de cet intervalle. En 2006, Marchand et Strawderman [3] ont étudié de façon générale ce type de problème. Notamment, ils ont construit une procédure pour trouver un intervalle de conance bayésien HPD, associé à la loi a

priori non-informative tronquée de la mesure de Haar invariante à droite, pour des

lois admettant un pivot linéaire T (X, θ) ayant une densité continue et unimodale. En plus, ils ont démontré que la borne inférieure 1−α

1+α, de la probabilité de

recouvre-ment fréquentiste de l'intervalle HPD, est valable pour une grande classe de lois et de contextes. Tandis que Marchand et al.[2] ont établi la borne inférieure 1 −3α

2 , qui

représente une amélioration signicative par rapport à la borne 1−α

(14)

de la probabilité de recouvrement pour le cas où la densité d'un pivot est symétrique et log-concave. Ces deux bornes demeurent non applicables pour les cas où la densité du pivot sous-jacent n'est pas symétrique, même s'il est plausible (dans [3]) que la probabilité de recouvrement minimale est bornée inférieurement par 1−α

1+α.

Dans ce mémoire, divisé en trois chapitres, on traitera une méthode d'estimation par intervalle bayésien avec contrainte sur l'espace des paramètres en se basant sur les résultats de Marchand et Strawderman [1], où les lois a priori utilisées sont la tronca-ture des densités Haar invariantes à droite. Notamment, on étudiera la probabilité de recouvrement d'un tel intervalle bayésien Iπ0,α(·) associé à la loi a priori π0 et généré

par une fonction de distribution α(·) qu'on dénira au chapitre 3. Dans le premier chapitre, on donnera quelques notions préliminaires en statistique qu'on a jugé inté-ressantes pour la compréhension des intervalles de conances bayésiens, l'intervalle HPD, et leurs probabilités de recouvrement. Les méthodes de Roe et Woodroofe [4] et Marchand et Strawderman [3], pour un problème particulier où la densité d'un pivot sous-jacent est symétrique et unimodale, font partie du chapitre 2. Dans le troisième chapitre, on exposera les résultats de Marchand et Strawderman [1]. Dans la Section 3.1, une classe d'intervalles bayésiens, qui inclut l'intervalle HPD dans le cas où la densité du pivot sous-jacent est symétrique, avec une probabilité de recouvrement supérieure à 1−α

1+α, est obtenue. De plus, à la Section 3.2, on présentera de nouveaux

résultats pour la probabilité de recouvrement et on établira la borne inférieure 1 −3α 2

de la probabilité de recouvrement d'un intervalle bayésien à ailes égales dans le cas où la densité du pivot T (X, θ) est unimodale en 0 et log-concave. Ces résultats font l'objet d'une collaboration avec Bill Strawderman et Éric Marchand.

(15)

CHAPITRE 1

Notions Préliminaires

1.1 Dénitions et intervalles de conance

Dans cette section, on donne quelques dénitions et notions préliminaires qu'on a jugé intéressantes pour la compréhension des intervalles de conance bayésiens et de leurs probabilités de recouvrement fréquentiste.

Dénition 1. Une densité f sur R est dite symétrique par rapport à c ∈ R si :

f (t + c) = f (c− t), pour tout t ∈ R.

Dénition 2. Une densité f de probabilité sur R est unimodale autour d'un mode,

m ∈ R, si la fonction de répartition de cette loi est convexe (f croissante) sur

(−∞, m] et concave (f décroissante) sur (m, ∞).

Exemple 1. La densité de loi normale N(μ, σ2) est symétrique et unimodale autour

de μ, la densité de loi Cauchy 1

π1 + (x − m)2 est symétrique et unimodale autour

(16)

Dénition 3. (a) Soit f0(t) une densité. Alors la famille des densités f0(t − μ),

indexée par le paramètre μ, −∞ < μ < ∞ , est dite une famille de position et

μest dit le paramètre de position pour cette famille.

(b) Soit f0(t) une densité. Alors la famille des densités (σ1)f0( t

σ), indexée par le

paramètre σ > 0 , est dite une famille d'échelle et σ est dit le paramètre d'échelle pour cette famille.

(c) Soit f0(t) une densité. Alors la famille des densités (σ1)f0( t−μ

σ ), indexée par le

paramètre (μ, σ), −∞ < μ < ∞ et σ > 0, est dite une famille de position-échelle ; μ est dit le paramètre de position et σ est dit le paramètre d'position-échelle. Exemple 2. (a) Soit X ∼ Exp(1) dont sa densité est f0(x) = e−x, x ≥ 0. Alors

pour obtenir une famille de position, on remplace x par x − μ et la densité de cette famille de position est f(x, μ) = e−(x−μ), x≥ μ.

(b) Le modèle Gamma(r, θ), r connu, est un modèle à paramètre d'échelle θ > 0 où la densité f est donnée par f(t) = 1

θf0( t θ) avec f0(t) = t r−1 e−t Γ(r) I(0,∞)(t).

(c) Soit X ∼ Student de densité f0(t) avec n − 1 degrés de liberté. On dit que

la famille des densités (1

σ)f0( t−μ

σ ) est Student avec paramètre de position μ et de

paramètre d'échelle σ avec n − 1 degrés de liberté.

Dénition 4. Soit un modèle de probabilité X ∼ fθ(·), où (X1, . . . , Xn) ∼ f0(·), θ ∈

Θ.

(a) On dit que la variable aléatoire T(X,θ) est un pivot si sa loi de probabilité est indépendante de θ, ∀θ ∈ Θ.

(17)

qui s'écrit sous la forme suivante :

T (X, θ) = a1(X) − τ(θ) a2(X) ,

où a1(·) et a2(·) sont des fonctions de l'observé et τ(·) est une fonction de θ

prenant des valeurs dans R.

Exemple 3. Soit X=(X1, . . . , Xn) où X1, . . . , Xn sont des variables aléatoires iid

N(μ, σ2) , σ connu. Posant θ = μ, on a que X¯ − μ

σ/√n est un pivot linéaire avec a1(x) =

¯x, a2(x) = σ/√n, τ(θ) = μ et sa densité est N(0, 1). Si σ inconnu , posant θ = (μ, σ), on a que X¯ − μ

S/√n est un pivot linéaire avec a1(x) = ¯x, a2(x) = S/√n, τ(θ) = μ et sa

densité est Student centrée en x, de paramètre d'échelle s/√n, et avec n − 1 degrés

de liberté (Exemple 2).

Dénition 5. Soit X=(X1, . . . , Xn) ∼ fθ(·) un n-échantillon, θ ∈ Θ. Supposons

qu'on désire à estimer τ(Θ) ⊆ R et qu'on peut trouver deux fonctions de l'observé

a, b :Rn → R telles que :

Pθ(a(X) ≤ τ(θ) ≤ b(X)) ≥ 1 − α, ∀θ ∈ Θ. (1.1)

L'intervalle [a(X), b(X)] est alors appelé un intervalle de conance pour τ(θ) avec niveau de conance (1 − α).

Maintenant, si T (X, θ) est un pivot, alors on peut trouver a et b tels que :

P (T (X, θ)∈ [a, b]) = 1 − α, pour tout θ ∈ Θ,

et ainsi P (I(X)  τ(θ)) = 1 − α où I(x) = {τ(θ) : T (x, θ) ∈ [a, b]} est l'intervalle de conance de niveau 1−α. Dans le cas où T (X, θ) est un pivot linéaire avec a2(·) > 0,

(18)

I(x) =  θ : a1(x)−τ(θ) a2(x) ∈ [a, b]  = [a1(x) − b a2(x), a1(x) − a a2(x)].

Il est possible qu'il y ait plusieurs intervalles de conance pour θ avec le même niveau de conance (1 − α). Il est clair qu'on pourrait être intéressé par le plus court. Ce problème admet une élégante solution lorsque la densité de T (X, θ) est unimodale. Voici une illustration.

Exemple 4. (a) Soit X ∼ Gamma(r, θ), r connu et θ > 0 est un paramètre d'échelle. On a que X

θ ∼ Gamma(r, 1) pour tout θ,alors on peut trouver (a, b) tels

que Pθ(a ≤ Xθ ≤ b) = 1 − α. Donc un intervalle de conance de niveau 1 − α pour θ

est I(x) =  θ : a≤ X θ ≤ b =x b, x a ,

et la longueur de cet intervalle est x1

a 1b

 .

(b) Par ailleurs, T (X, θ) = log(X) − log(θ) est un pivot linéaire avec a1(x) = log(X), a2(x) = 1, τ(θ) = log(θ) et T (X, θ) =d log(Y ) où Y ∼ Gamma(r, 1).

On peut trouver a et b tels que : P (a ≤ log(Y ) ≤ b) = 1 − α ⇒ Pθ(a  ≤ log(X) − log(θ) ≤ b) = 1 − α. Donc un intervalle de conance pour τ(θ) = log(θ) est I

(x) = [log(X) −b

, log(X)− a] et la longueur de cet intervalle est b − a. On peut rapporter un intervalle de

conance pour θ à partir du I

(x) avec [elog(X)−b, elog(X)−a] = [X

eb, X ea] c'est-à-dire de la forme [x b, x a].

On remarque que le problème de minimiser la longueur b− a est équivalent à mini-miser le rapport u(x)

l(x) = x ea

x eb

= eb−a. Donc, on voit que l'intervalle ici dière de celui

(19)

(c) Une autre alternative est de distribuer également, sous la distribution du pi-vot, la probabilité α du complémentaire (a, b). C'est-à-dire de choisir a = G−1(α

2)

et b = G−1(1 − α

2). Cet intervalle a l'avantage de ne pas dépendre de la

paramé-trisation et continue d'être raisonnable pour des paraméparamé-trisations monotones. Il est couramment utilisé pour l'estimation de la variance d'une loi normale et est de la forme (n − 1)S2 X2 n−1,1−α2 ≤ σ2 (n − 1)S2 X2 n−1,α2 ,

où X1,· · · , Xn sont des variables aléatoires indépendantes de la loi N(θ, σ2), τ(θ) =

σ2, S2 = ni=1 (Xi− ¯X)2

n−1 et X2n−1,Δ est le quantile d'ordre Δ ∈ (0, 1) d'une loi Chi-deux

avec n − 1 degrés de liberté.

Le résultat suivant nous donne, pour les densités unimodales, l'intervalle de conance pour τ(θ) le plus court parmi tous les intervalles de conance dénis en (1.1) . Théorème 1. Soit f une densité unimodale et soit l'intervalle [a, b] satisfaisant :

(i) b

a f (x)dx = 1− α,

(ii) f(a) = f(b) > 0,

(iii) a ≤ m ≤ b, où m est le mode de f.

Alors [a, b] est l'intervalle le plus court parmi tous les intervalles satisfaisant (i). Démonstration : Voir Casella et Berger [8].

Le prochain corollaire est une application du Théorème1dans le cas où f une densité symétrique.

Corollaire 1. Soit f une densité symétrique et unimodale. Pour α > 0 xé, consi-dérons les intervalles [a, b] satisfaisant b

(20)

parmi cette classe est obtenu en choisissant a et b tels que a −∞f (x)dx = α2 et b f (x)dx = α 2.

Démonstration : Soit μ le point de la symétrie et mode, et soit b = 2μ − a, alors on a f(b) = f(2μ − a) = f(a) et 2μ−a f (x)dx = α2. On a −∞a f (x)dx = α2 1

2 =

μ

−∞f (x)dx, donc a ≤ μ et de même façon on obtient b ≥ μ. On a aussi que

f (a)≥ f(x) pour tout x ≤ a et −∞a f (x)dx≥ 0 ⇒ f(b) = f(a) > 0. Donc toutes les

conditions du Théorème 1 sont satisfaites.

Exemple 5. Soit X un n-échantillon de loi normale N(μ, σ2). On suppose que σ

est connu et que le paramètre est θ = μ. On prend T (X, θ) = X¯−μ

σ/√n comme fonction

pivotale. On a que T (X, θ) ∼ N(0, 1) pour tout θ. On cherche deux réels a, b tel que

a < b et P (a≤ G ≤ b)) = 1 − α, G ∼ N(0, 1), d'où Pμ(a ≤ ¯ X− μ σ/√n ≤ b) = 1 − α, donc ( ¯X− b σ n ≤ μ ≤ ¯X− a σ n) = 1 − α, c'est-à-dire  ¯ X− b√σ n, ¯X− a σ n 

est un intervalle de conance de θ de niveau 1 − α. Sa longueur est (b − a)σ

n. Il faut

trouver a, b tels que Φ(b) − Φ(a) = 1 − α et tels que b − a soit minimum. On sait que la densité de la loi normale est symétrique et unimodale. Alors, d'après le Corollaire

(21)

1, il sut de prendre a = −c, b = c > 0 où c est le quantile supérieur d'ordre 1 −α

2

de la loi N(0, 1) noté z(1−α

2). Donc l'intervalle le plus court parmi cette classe est :

 ¯ X− z(1−α 2) σ n, ¯X + z(1−α2) σ n  .

On poursuit avec la probabilité de recouvrement, quelques propriétés utiles, et des exemples.

Dénition 6. Soit X ∼ fθ(·) et I(X) = [L(X), U(X)] un intervalle de conance

pour τ(θ) ∈ R. La probabilité de recouvrement de [L(X), U(X)] est la probabilité que l'intervalle aléatoire I(X) contient τ(θ), et elle est donnée par Pθ([L(X), U(X)] 

τ (θ)).

Proposition 1. Soit X ∼ fθ(·) et I(X) = [L(X), U(X)] un intervalle de conance

pour τ(θ) ∈ R. Supposons que les fonctions L(·) et U(·) sont continues et crois-santes. Alors, à condition qu'il existe des inverses U−1(τ(θ)) et L−1(τ(θ)) ∀τ(θ), la

probabilité de recouvrement est donnée par :

C(θ) = Pθ([L(X), U(X)]  τ(θ)) = Pθ(X ∈



U−1(τ(θ)), L−1(τ(θ))). (1.2)

Exemple 6. Soit X ∼ N(θ, 1) de densité φ(x − θ). L'intervalle usuel de θ de niveau de conance 1 − α est Iusuel(X) = X ± Φ−1(1 − α2) qui a une longueur constante

−1(1−α

2) et une probabilité de recouvrement fréquentiste 1−α. Un autre intervalle

intéressant de θ est l'intervalle de Pratt (voir Pratt [13]) qui est déni de la façon suivante avec a = Φ−1(1 − α) :

(22)

La longueur de IP ratt(x) est alors donnée par l(IP ratt(x)) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎩ a− x si x ≤ −a 2a si x ∈ (−a, a) x + a si x ≥ a.

On s'intéresse à calculer la longueur espérée de IP ratt(X). On a

Eθ(l(IP ratt(X))) =  −a −∞(a − x) φ(x − θ)dx + 2a  a −a φ(x− θ)dx +  a (a + x) φ(x − θ)dx = 2a (Φ(a − θ) − Φ(−a − θ)) +  −a −∞ a φ(x− θ)dx +  a a φ(x− θ)dx  +  a x φ(x− θ)dx −  −a −∞ x φ(x− θ)dx     A = a (1 + Φ(a − θ) − Φ(−a − θ)) + A. (∗) Du fait que x∞t φ(t)dt = φ(x), on a A =  a x φ(x− θ)dx −  −a −∞ x φ(x− θ)dx =  a (x − θ) φ(x − θ)dx +  a θ φ(x− θ)dx  −a −∞(x − θ) φ(x − θ)dx +  −a −∞ θ φ(x− θ)dx  =  a−θ t φ(t)dt−  −a−θ −∞ t φ(t)dt + θ Φ(x− θ)|∞a − θ Φ(x − θ)|−a−∞

= φ(a − θ) + φ(a + θ) + θ − θ (Φ(a − θ) + Φ(−a − θ)) . (∗∗) Donc, de (∗) et (∗∗), on obtient

Eθ(l(IP ratt(X))) = a + θ + (a − θ)Φ(a − θ) − (a + θ)Φ(−a − θ) + φ(a − θ) + φ(a + θ).

Maintenant, on calcule la probabilité de recouvrement fréquentiste de IP ratt(x) pour

(23)

Pour θ > 0, P (θ ∈ IP ratt(X)) = P (θ ≤ max {0, (X + a)}) = P (θ ≤ X +a) = P (Z ≥

−a) = 1 − α. De même façon on obtient P (θ ∈ IP ratt(X)) = 1 − α pour θ < 0.

Alors, l'intervalle de Pratt Ia(X) garantit une probabilité de recouvrement ≥ 1 − α

et admet une longueur espérée plus petite que l'intervalle usuel lorsque |θ| n'est pas trop grand. En eet, la longueur espérée de IP ratt(X) atteint son minimum à θ =

0 et le rapport des longueurs moyennes de l'intervalle de Pratt et de l'intervalle usuel est a(1Φ− α) + φ(a)−1(1 −α

2)

≈ 0.85 avec 1 − α = 0.95. Voici une illustration pour a =

Φ−1(0.95) ≈ 1.645.

Figure 1.1  La longueur moyenne de l'intervalle de Pratt et de l'intervalle usuel pour

(24)

1.2 L'inférence bayésienne

À la section précédente, on s'est placé dans un espace probabilisé paramétrique clas-sique modélisé par X ∈ (X , B, {Pθ, θ∈ Θ}), où X désigne l'espace des données, B

est la tribu borélienne dans Rp et Θ est l'espace des paramètres θ. Classiquement, le

but de l'analyse statistique est de faire de l'inférence sur θ, c'est-à-dire décrire un phénomène passé ou à venir dans un cadre probabiliste. Pour l'approche bayésienne, l'idée principale est de considérer le paramètre inconnu θ comme aléatoire : l'espace des paramètres Θ est géré par une loi de probabilité π tel que (Θ, B, π) est un espace probabilisé. On notera θ ∼ π. π est appelée loi a priori. Les prochaines dénitions et propriétés sont connues en statistique bayésienne et peuvent être retrouvées dans plusieurs livres dont les livres de Berger [7] et Robert [14].

Dénition 7. Le modèle est dit dominé s'il existe une mesure commune dominante

λ, c'est-à-dire pour tout θ, Pθ admet une densité par rapport à λ : f(x|θ) = dPθ. Cette

fonction τ(θ) = f(x|θ), vue comme une fonction de θ lorsqu'on observe X = x, est appelée vraisemblance du modèle. C'est la loi de X conditionnellement à θ.

Dénition 8. Dans le cas d'un modèle dominé, la loi jointe de (X, θ) s'écrit Ψπ(X, θ) =

f (X|θ)dπ(θ) = f(X|θ)π(θ)dλ(θ), la dernière égalité étant valable dans le cas

abso-lument continue par rapport à λ, la mesure de Lebesgue. La densité a posteriori est dénie par π(θ|x) = f (x|θ)π(θ) Θf (x|θ)dπ(θ) . La quantité mπ(x) =

Θf (x|θ)dπ(θ) est la densité marginale de X et est une constante

de standardisation de la loi a posteriori, indépendante de θ. On peut donc travailler à une constante multiplicative près π(θ|x) ∝ f(x|θ)π(θ). On ajoute que par construc-tion la loi a posteriori est absolument continue par rapport à la loi a priori π et

(25)

résume l'information ce que l'on peut utiliser pour construire des intervalles cré-dibles pour une fonction quelconque τ(θ) du paramètre θ.

La détermination de la loi a priori est l'étape la plus importante dans la mise en ÷uvre de l'inférence bayésienne. En souvent, il est nécessaire de faire un choix par défaut ou arbitraire de loi a priori, ce qui peut avoir un impact considérable sur l'in-férence étudiée. Il y a plusieurs techniques usuelles dont l'approche a priori conjuguée qui nécessite une quantité limitée d'information, et l'approche non informative qui est obtenue à partir de la densité de l'échantillon (pour plus de détails, voir Robert [14] et Berger [7]). Considérant les lois a priori non-informatives, l'une des méthodes pour choisir une loi a priori est la mesure de Haar invariante à droite.

Exemple 7. (a) Considérons les familles de position-échelle, l'espace de paramètres Θ est donné par Θ = {(θ, σ) : θ ∈ R, σ > 0}. La mesure a priori Haar invariante à droite est donnée par πH(θ, σ) = σ1 I(−∞,∞)(θ) I(0,∞)(σ).

(b) Considérons les familles d'échelle, l'espace de paramètres Θ est donné par Θ =

{σ : σ > 0, σ ∈ R}. Alors, dans ce cas, la mesure a priori Haar invariante à droite

est donnée par πH(σ) = 1σ I(0,∞)(σ).

(c) Considérons les familles de position, l'espace de paramètres Θ est donné par Θ = {θ : θ ∈ R}. La mesure a priori Haar invariante à droite est donnée par πH(θ) =

I(−∞,∞)(θ).

1.2.1 Intervalle de conance bayésien HPD

Dans cette sous-section, on donne des dénitions et des résultats pour la construction d'intervalles bayésiens accompagnés d'exemples.

(26)

niveau (1 − α) donné est un couple (l(x), u(x)) tel que :

P [l(x)≤ τ(θ) ≤ u(x)|x] = 1 − α, pour tout x. (1.3)

Dénition 10. Soit π(·|x) une densité a posteriori pour θ associée à la loi a priori

π. Soit A(x) une région telle que :

A(x) ={θ ∈ Θ| π(θ|x) ≥ c(x)} , c(x) ≥ 0. (1.4)

Si la constante c(x) est choisie an de satisfaire l'équation (1.3), on dit que A(·) est la région bayésienne de niveau de conance (1 − α) ayant la plus grande densité a posteriori ou la région HPD (Highest Posterior Density).

Remarque 1. Si π (·|x) est unimodale dans le cas unidimensionnel, alors la ré-gion dénie par (1.4) est un intervalle et elle minimise la longueur parmi tous les intervalles bayésiens de niveau 1 − α.

Remarque 2. La probabilité de recouvrement donnée par Pθ(Iπ(x)  θ|θ) n'est pas

nécessairement égale à 1 − α.

Dans l'exemple suivant, on va voir la diérence entre la crédibilité et la probabilité de recouvrement fréquentiste.

Exemple 8. Dans l'Exemple 6, on a trouvé que la probabilité de recouvrement est égale à 1 − α pour tout θ = 0 et égale à 1 quand θ = 0. Maintenant, pour la loi a priori πH(θ) = I(−∞,+∞)(θ), la loi a posteriori est (pour x ∈ R) :

π(θ|x) ∝ π(θ)f(x|θ)

(27)

c'est-à-dire que θ|x ∼ N(x, 1). La crédibilité est  max(0,x+a) min(0,x−a) 1 2πe− (θ−x)2 2 dθ =  max(−x,a) min(−x,−a) 1 2πe− t2 2 dt

= P (min(−x, −a) ≤ Z ≤ max(−x, a)).

On a deux cas : (i) |x| ≤ a ⇒ la crédibilité = P (|Z| ≤ a) = 1−2α, (ii) |x| > a ⇒ la crédibilité C(x) = P (−a ≤ Z ≤ |x|) croît en |x| et tend vers 1 − α lorsque |x| → ∞. Voici un graphe pour 1 − α = 0.95.

Figure 1.2  La crédibilité de l'intervalle de Pratt, loi a priori π(θ) = 1 et 1-α=0.95. Dans les deux prochains exemples, on trouvera facilement, à l'aide du Corollaire 1, l'intervalle HPD associé à la loi a priori π.

Exemple 9. (a) (i) Soit X ∼ N(θ, 1). Pour τ(θ) = θ et la mesure a priori πH(θ) =

(28)

HPD pour θ de niveau de conance (1 − α) est donc IπH(X) = X ± z(1−α2), où zΔ

est le quantile d'ordre Δ de la loi N(0, 1). Ceci coïncide avec l'intervalle standard en vertu de la symétrie et l'unimodalité de la densité a posteriori et sa probabilité de recouvrement est CIπH(θ) = 1 − α.

(ii) Maintenant, soit la mesure a priori πN(θ) ∼ N(0, 1). La densité a posteriori de

θ est donnée par

π(θ|x) ∝ e−θ22 e−(x−θ)22 ∝ e− 1 2  θ− x2 1 2 2 I(−∞,∞)(θ), c'est-à-dire que θ|x ∼ N(x

2,12). L'intervalle bayésien HPD pour θ de niveau de

conance (1 − α) est donc IπN(X) =

X

2 ± 12z(1−α2) et la probabilité de

recouvre-ment de cet intervalle est

CN(θ) = Pθ  X 2 − 1 2 z(1−α2)≤ θ ≤ X 2 + 1 2 z(1−α2)  = P2θ −√2 z(1−α 2)≤ X ≤ 2θ + 2 z(1−α 2)  (P roposition 1) = Φ(θ +√2 z(1−α 2)) − Φ(θ − 2 z(1−α 2)).

Donc, la probabilité de recouvrement de IπN dépend de θ et tend vers 0 lorsque |θ|

est grand. En comparant avec la probabilité de recouvrement de IπH, on note que

CN est meilleur que CH pour petites valeurs de θ. Au titre d'illustration pour

1 − α = 0.95, voir le Figure 1.3.

(b) Soient X1,· · · , Xn des variables aléatoires indépendantes de N(θ, σ2), avec θ, σ2

inconnues. On s'intéresse à construire l'intervalle HPD de niveau de conance 1−α, pour θ associé à la mesure a priori πH(θ, σ) = 1σI(0,+∞)(σ)I(−∞,+∞)(θ). On pose

¯ X = n1 iXi et S2 =  i(Xi− ¯X)2 n−1 . On a : π(θ, σ|x) = 1 σ(2π)− n 2σ−ne12  (Xi−θσ )2I(0,+∞)(σ)I(−∞,+∞)(θ) m(x) ,

(29)

Figure 1.3  La probabilité de recouvrement de IπN et IπH pour 1-α=0.95.

avec le changement des variables t = n−1

2 s

2

σ2 à l'avant dernière ligne

m(x) =  +∞ −∞  +∞ 0 (2π)−n 2σ−(n+1)e12(xi−θσ )2dθdσ =  +∞ 0  +∞ −∞ (2π)−n 2σ−(n+1)e−2σ21 (  (xi−¯x)2+n(¯x−θ)2)dθdσ =  +∞ 0 (2π)−n−1 2 σ−(n+1)√σ ne −n−1 2 (σs)2  +∞ −∞ n σ√2πe 1 2(σ/√nx−θ¯ )2    =1 = (2π)− n−1 2 2√n 1 2(n − 1)s2 n−1 2  +∞ 0 tn−12 −1e−tdt (2π)−n−1 2 1  n−1 2 n− 1

(30)

La densité a posteriori de (θ, σ) est donc donnée par π(θ, σ|x) = 2√n Γ(n−1 2 ) ( 1 2(n − 1)s2) n−1 2    M σ−n−1e−12  (xi−θσ )2I(0,+∞)(σ)I(−∞,+∞)(θ)

et la densité a posteriori marginale de θ est alors égale à

π(θ|x) = M  +∞ 0 σ−(n+1)e−(n−1)s2+n(¯2σ2 x−θ)2dσ . Posant A = (n − 1)s2+ n (¯x − θ)2, t = A 2, on obtient π(θ|x) = M  +∞ 0 1 2t n 2−1(A 2) n 2e−tdt = M 2  A 2 n 2 Γ(n 2) = nΓ(n2) πΓ(n−12 )  (n − 1) s212    K (1 + 1 n− 1( ¯x − θ s/√n) 2)−n 2 = K(1 + t2 ν) −ν+1 2 I(−∞,+∞)(θ), avec ν = n−1, t = ¯x−θ

s/√n, la densité a posteriori de θ n'est rien d'autre la distribution

de Student centrée en ¯x et de paramètre d'échelle s

n avec (n − 1) degrés de liberté

(Exemple2) et l'intervalle bayésien HPD pour θ de niveau de conance (1 − α) est :

Iπ(X) =  ¯ X− t(n−1,1−α 2) S n, ¯X + t(n−1,1−α2) S n  ,

(31)

CHAPITRE 2

Probabilité de recouvrement

fréquentiste de l'intervalle HPD

On a étudié au Chapitre 1 une méthode, appelée pivot, pour construire un intervalle de conance du paramètre θ ∈ Θ de niveau 1 − α. Une méthode pour trouver un intervalle de conance lorsqu'il y des contraintes sur le paramètre est de tronquer l'intervalle de conance classique sur les valeurs possibles du paramètre. Toutefois, il peut arriver que l'intervalle soit vide ou jugé trop court par l'observateur. Par exemple, soit X ∼ N(θ, 1). Pour la loi a priori non-informative πH(θ) = IR(θ), la loi

a posteriori est θ|x ∼ N(x, 1) et l'intervalle HPD est I0(x) = x ± z1−α

2 (Exemple9).

Cet intervalle de conance bayésien de crédibilité 1 − α correspond à l'intervalle de conance usuel avec probabilité de recouvrement 1 − α. Maintenant, supposons qu'on sait aupréalable que θ est assujetti à la restriction θ ≥ 0. La projection I0(x) ∩[0, ∞[

est une alternative, garantit toujours une probabilité de recouvrement C(θ) = 1 − α pour tout θ ≥ 0, mais devient un intervalle trop court lorsque x est petit. En eet,

(32)

il devient l'ensemble vide pour x < −z1−α

2. Roe et Woodroofe [4] ont utilisé une

méthode bayésienne pour trouver un intervalle de conance de la moyenne θ d'un modèle N(θ, 1) avec la contrainte θ ≥ 0 et il ont établi la borne inférieure 1−α

1+α pour

la probabilité de recouvrement fréquentiste de cet intervalle. Ce type de résultat est étudié de façon générale par Marchand et Strawderman [3] qui ont démontré que cette borne 1−α

1+α est valable pour une grande classe de lois. Dans ce chapitre, nous

présenterons les résultats de Roe et Woodroofe [4] (Section 2.1) ainsi que Marchand et Strawderman [3] (Section 2.2).

2.1 Illustration : cas d'une loi normale avec moyenne

positive

Nous étudions ici le cas simple de l'estimation par intervalle de la moyenne θ d'une loi N(θ, 1) où θ ≥ 0. Ceci nous permettra de bien cerner la problématique et de premiers résultats sur la probabilité de recouvrement fréquentiste de l'intervalle HPD ( Roe et Woodroofe [4], Mandelkern [9] et Marchand et Strawderman [3]). Cette illustration porte sur la loi normale avec variance connue tel que décrit par Roe et Woodroofe [4]. Soit X ∼ N(θ, 1) avec densité f (x|θ) = φ (x − θ) = 1

e

−(x−θ)2

2 , x∈ R. Du point de

vue bayésien un choix par défaut plausible est l'intervalle HPD associé à la mesure a priori tronquée π0(θ) = I(0,∞)(θ). Pour la loi a priori π0, la densité a posteriori est :

π (θ|x) = 1 2πe −(x−θ)2 2 0 12πe −(x−θ)2 2 I(0,∞) (θ) = φ(θ− x) Φ(x) I(0,∞)(θ).

(33)

Pour déterminer l'intervalle HPD qui correspond à cette loi normale tronquée sur (0, ∞), on souhaite trouver des limites supérieure (u) et inférieure (l) pour lesquelles on a :

P [l(x)≤ θ ≤ u(x)|x] = 1 − α. (2.1)

Pour minimiser la longueur de l'intervalle [l(x), u(x)], on choisit l'intervalle où la densité π(·|x) est maximale, (Dénition 10), c'est-à-dire :

[l(x), u(x)] = {θ : π (θ|x) ≥ c(x)} . On a deux cas à considérer :

(a) l(x) > 0 : l'intervalle sera de la forme x ± Δ(x) et la condition (2.1) devient : 1 − α =  x+Δ(x) x−Δ(x) π (θ|x) dθ =  Δ(x) −Δ(x) φ (t) Φ (x)dt = 2Φ (Δ(x)) − 1 Φ (x) ; =⇒ Δ(x) = Φ−11 2+ 1 2(1 − α) Φ (x)  .

(b) l(x) = 0 : l'intervalle sera de la forme [0, u(x) = x + Δ(x)] et l'équation (2.1) donne : α =  x+Δ(x) π (θ|x) dθ =  Δ(x) φ (t) Φ (x)dt = 1 − Φ (Δ(x)) Φ (x) ; =⇒ Δ(x) = Φ−1[1 − αΦ (x)] . On remarque que l(x) ≥ 0 ⇔ x ≥ Φ−1[1 2 + (1−α)2 Φ(x)] ⇔ x ≥ d0, où d0 = Φ−1(1+α1 ).

Donc l'intervalle HPD du paramètre θ de crédibilité (1 − α) associé à la loi a priori

π0 est donné par IHP D(x) = [lHP D(x), uHP D(x)] avec :

lHP D(x) =  0 si x ≤ d0 x− Φ−1(12 +1−α2 Φ(x)) si x ≥ d0, uHP D(x) =  x + Φ−1(1 − αΦ(x)) si x ≤ d0 x + Φ−1(12 +1−α2 Φ(x)) si x ≥ d0.

(34)

Figure 2.1  L'intervalle HPD pour le modèle N(θ,1) et 1-α=0.90.

La Figure 2.1 représente l'intervalle IHP D(x) du paramètre θ où α = 0.10 et d0 =

Φ−1( 1

1.1) ≈ 1.335178. La Figure2.1 illustre bien le comportement général de IHP D(x),

x∈ R, et les deux formes [0, u(x)] et x ± Δ(x). On remarque que u(·) et l(·) sont des

fonctions croissantes sur R, strictement pour u et strictement pour l sur (d0,∞) avec limx→−∞u(x) = 0, limx→∞u(x) = ∞, limx→∞l(x) = ∞, ce qu'on démontrera plus

tard au chapitre suivant et ce qui servira pour analyser la probabilité du recouvrement de IHP D(X) qui fait l'objet du prochain paragraphe. En utilisant les propriétés

(35)

CHP D(θ) = Pθ(IHP D(X)  θ)

= Pθ(u−1(θ) ≤ X ≤ l−1(θ)) = Pθ(u−1(θ) − θ ≤ X − θ ≤ l−1(θ) − θ)

= Φ(l−1(θ) − θ) − Φ(u−1(θ) − θ).

On note que l−1(θ) ≥ d

0 pour tout θ ≥ 0, car l (x) = 0 pour x ≤ d0. Donc on a :

Φ(l−1(θ) − θ) = Φdl−1(θ)= 1 2 + 1 2(1 − α) Φ  l−1(θ).

Pour u−1(θ), supposons que u−1(θ) ≤ d

0. Alors, Φ (u−1(θ)) ≤ Φ (d0) ≤ Φ (l−1(θ)) et on a : Φu−1(θ) − θ = Φ−du−1(θ)= 1 − Φdu−1(θ)= αΦu−1(θ), c'est-à-dire que : Φ(l−1(θ) − θ) − Φ(u−1(θ) − θ) = 1 2 + 1 2(1 − α) Φ  l−1(θ)− αΦu−1(θ) 12 +1 2 1 − α 1 + α − α 1 + α = 1 − α 1 + α . Et pour u−1(θ) > d 0, on a Φ (l−1(θ)) ≥ Φ (u−1(θ)) ≥ Φ (d0), Φu−1(θ) − θ= Φ−du−1(θ)= 1 − 1 2 + 1 2(1 − α) Φ  u−1(θ), c'est-à-dire que : Φ(l−1(θ) − θ) − Φ(u−1(θ) − θ) = 1 2 + (1 − α) 2 Φ(l−1(θ)) − 1 + [ 1 2 + (1 − α) 2 Φ  u−1(θ)] = (1 − α) 2 Φ(u−1(θ)) + Φ(l−1(θ)) 1 − α1 + α . Donc on a C (θ) ≥ 1−α 1+α, pour tout θ ≥ 0.

(36)

Figure 2.2  La probabilité de recouvrement fréquentiste de l'intervalle IHP D(X)

pour le modèle N(θ,1)et 1-α=0.9.

La Figure2.2 représente la probabilité de recouvrement de l'intervalle IHP D(X) pour

(1 − α = 0.90). La courbe C(θ) uctue de façon continue avec limθ→∞C(θ) = 0.90.

On remarque aussi que la borne inférieure 1−α

1+α = 0.901.10 ≈ 0.818 est conservatrice et un

calcul numérique trouve une couverture minimale d'environ infθ≥0c(θ) = 0.86. Une

amélioration (1 -

2 )de la borne inférieure 1−α1+α fut obtenue par Marchand et al. [2]

pour les densités symétriques et fait l'objet d'une présentation à la Section 3.2 pour des modèles de densité non symétrique.

(37)

2.2 Cadre général avec des densités symétriques : la

borne inférieure

1−α

1+α

Le but de cette section est d'exposer et d'illustrer une méthode de Marchand et Straw-derman[3] pour trouver les intervalles HPD.On va généraliser les résultats ci-dessus et la borne 1−α

1+α pour la probabilité de recouvrement fréquentiste de l'intervalle HPD

à un grand nombre de modèles symétriques.

Soit X une variable aléatoire ayant la densité f0(x − θ), x ∈ R .Supposant qu'il y

a une contrainte de la forme τ(θ) ≥ 0 et qu'il existe un pivot linéaire T (X, θ) admet une fonction de répartition G et une densité g = G

absolument continue, symétrique et unimodale.Finalement on utilise la loi a priori π0 qui est tronquée de la loi a priori

de Haar invariante à droite.

Dénition 11. Soit G une fonction de répartition telle que G est unimodale en 0,

α∈ (0, 1) et t ∈ R, on dénit :

1. d1(t) = G−1(1 − αG(t)) ;

2. d2(t) = G−1(12 +1−α2 G(t));

3. d(t) = max(d1(t), d2(t))

Corollaire 2. Pour tout (α, G),on a d (y) ≥ d (d0) avec G (·) continue et d0 = G−1(1+α1 ).Ainsi d (y) = d1(y) ssi y ≤ d0.

Démonstration On note que d1(·) est décroissante et d2(·) est croissante,

c'est-à-dire que d0 est donné par y telle que d1(y) = d2(y).Alors, on a : d1(y) = d2(y) ⇔ G−1(1 − αG(y)) = G−1(1

2 + 1 − α 2 G(y)) ⇔ 1 − αG(y) = 12+ 1 − α 2 G(y)⇔ G(y) = 1 1 + α

(38)

Donc, on a que d (y) = d1(y) si et seulement si y ≤ d0.

Proposition 2. Pour X ∼ f0(x−θ), x ∈ R, la distribution du pivot T (X, θ) = X−θ

pour un θ donné, qui est indépendante de θ, coïncide avec la distribution a posteriori

T (X, θ)|x, s'il existe une loi a priori π telle que :

T (X, θ) = x− θ|x =d T (X, θ)|θ ∀θ ∈ Θ, x ∈ X. (2.2)

Le prochain théorème donne, sous certaines conditions, une façon directe pour trou-ver les intervalle HPD où θ ≥ 0 est un paramètre de position et un pivot linéaire

T (X, θ) = X− θ. De plus, il donne une borne inférieure pour la probabilité de

re-couvrement fréquentiste ainsi que des résultats pour la probabilité de rere-couvrement lorsque θ est grand et lorsque θ = 0. On généralisera ce théorème au Chapitre 3 pour un pivot linéaire T (X, θ) = a1(x)−τ(θ)

a2(x) ayant une densité symétrique ou non

symé-trique.

Théorème 2. Pour X ∼ g(x − θ), θ ≥ 0, g est symétrique et unimodale en 0. Pour la loi a priori π0(θ) = I[0,∞)(θ), on a pour l'intervalle HPD Iπ0 :

(a) Iπ0(X) = [l(X), u(X)], avec :

l(x) =  0 si x ≤ d0 x− G−1(12 +1−α2 G(x)) si x ≥ d0 u(x) =  x + G−1(1 − αG(x)) si x ≤ d0 x + G−1(12 + 1−α2 G(x)) si x ≥ d0 où d0 = G−1(1+α1 ). (b) C(θ) > 1−α 1+α, pour tout θ ≥ 0 ; (c) C(0) = 1 1+α; (d) limθ→∞C(θ) = 1− α.

(39)

Démonstration. (a) On pose hx, Hx et Hx−1 pour les fonctions de densité,de

répar-tition et de réparrépar-tition inverse de la loi a posteriori de θ associées à π et x. Selon (2.2), on a, sous π, que :

Pπ(T (X, θ) ≤ a|x) = G (a) ⇒ Pπ(θ ≥ y|x) = G (x − y) ,

Car G est la fonction de répartition du pivot x − θ. On a pour y ≥ 0 :

Hx(y) = Pπ0(θ ≤ y|x) = 1 − P π(θ ≥ y|x) Pπ(θ ≥ 0|x) = 1 − G (x− y) G (x) hx(y) = G(x − y) G (x) I(0,∞)(y) ; et Hx−1(Δ) = x − G−1((1 − Δ) G (x)) .

On a que hx est unimodale en max (0, x) car la densité G



est unimodale en 0. Alors, selon la Remarque 1, l'intervalle HPD est de la forme {θ : hx(θ) ≥ c(x)} pour une

constante c(x). On a :

1. l (x) = 0 et u (x) = H−1(1 − α) = x − G−1(αG (x)), ou

2. l (x) = x − b (x) et u (x) = x + b (x), pour b (x) tel que x − b (x) > 0. Par la symétrie de G

autour de 0, on a que : G (a) = 1 − G (−a) et G−1(y) =

−G−1(1 − y). Alors, on a en (1) que : u (x) = x + G−1(1 − αG (x)) = x + d

(40)

Pour (2), on a : Pπ0(x − b(x) ≤ θ ≤ x + b(x)|x) = 1 − α ⇔ Hx(x + b(x)) − Hx(x − b(x)) = 1 − α ⇔ G(b(x)) − G(−b(x)) = (1 − α)G(x) ⇔ b(x) = G−1(1 2+ 1 − α 2 G(x)) = d2(x).

De plus, la situation (2) se produit si et seulement si :

x≥ d2(x) ⇔ G (x) ≥ 1 2 + 1 − α 2 G (x)⇔ x ≥ G−1  1 1 + α  = d0. (2.3)

Enn, le résultat (a) du théorème découle de (1),(2) et du Corollaire 2.

(b) On observe que l'intervalle X ± d (x) a la même probabilité de recouvrement que

0(X) pour les valeurs non négatives de θ, car la diérence entre eux peut augmenter

seulement la probabilité de recouvrement de valeurs négatives de θ. Maintenant, selon la borne inférieure du Corollaire 2 et par la symétrie de G

, on a : Pθ(x − d(x) ≤ θ ≤ x + d(x)) = Pθ(|θ − x| ≤ d(x)) ≥ Pθ(|θ − x| ≤ d0) = 2G(d0) − 1 = 2GG−1  1 1 + α  = 1 − α 1 + α.

(C) La probabilité de recouvrement fréquentiste en θ = 0 se produit si et seulement si l(x) = 0. On a par (2.3) :

P0(Iπ0(X)  0) = P0(l(X) = 0) = P0(x − 0 ≤ d0) = G(d0) =

1 1 + α.

(41)

ce qui implique que d(x) = G−1(1 2 + 1−α2 G(x)) = G−1  1 − α 2  . Alors, on a : limθ→∞Pθ(Iπ0(X)  θ) = limθ→∞Pθ(|θ − X| ≤ d(X)) = Pθ  |θ − X| ≤ G−11 −α 2  = 2GG−11 − α 2  = 1 − α.

Exemple 10. Soit X ∼ Logistique(θ, 1) avec θ ≥ 0 et la densité de X est :

f (x|θ) = e

−(x−θ)

(1 + e−(x−θ))2.

La variable aléatoire T (x, θ) = X − θ est un pivot linéaire et sa densité, les fonctions de répartition et de répartition inverse de T (X, θ) sont données respectivement par :

(i) g(t) = (1 + ee−t−t)2; (ii) G(t) = 1 + e1 −t; (iii) G−1(t) = −ln(1

t− 1).

La densité du T (X, θ) est symétrique et unimodale autour de 0. Alors, sous la loi a priori π0(θ) = I[0,∞)(θ) et du Théorème 2, l'intervalle HPD de θ, avec d0 = G−1(1+α1 ) = −ln(α) et α = 0.10, est donné par :

l(x) =  0 si x ≤ d0 x + ln(2+ee−x−x) si x ≥ d0 u(x) =  x− ln( α 1−α+e−x) si x ≤ d0 x− ln( e−x+α 2+e−x) si x ≥ d0

(42)

Figure 2.3  L'intervalle HPD pour le modèle Logistique(θ,1) et 1-α=0.90. Ayant l'intervalle HPD Iπ0(X) = [l(X), u(X)] et à l'aide de la Proposition 1, on

peut trouver numériquement la probabilité de recouvrement fréquentiste pour θ xé. La Figure 2.4 représente C(θ), θ ≥ 0 et α = 0.10.

(i) On remarque, quand θ est grand, que C(θ) ≈ 0.9 = 1 − α.

(ii) On note que C(θ) atteint son minimum à θ = 2d0 ≈ 4.61 à la valeur 0.859

qui est nettement plus grand que la borne inférieure 1−α

1+α ≈ 0.81. On va voir au

prochain chapitre que la borne inférieure 1 −3α

2 tient, ce qui améliore la borne

inférieure 1−α

(43)

Figure 2.4  La probabilité de recouvrement pour le modèle Logistique(θ,1) et

(44)

CHAPITRE 3

Probabilité de recouvrement

fréquentiste pour une classe

d'intervalles bayésiens

On a étudié au chapitre 2 la probabilité de recouvrement fréquentiste pour les inter-valles HPD de crédibilité 1 − α et démontré, dans le cas où la densité g0 du pivot T (X, θ) = X− θ est unimodale et symétrique, que la borne inférieure 1−α1+α s'applique.

D'autre part, Marchand et al.[2] ont établi la borne inférieure 1−3α

2 pour la probabilité

de recouvrement de l'intervalle HPD pour le cas où T (X, θ) = X − θ et g0 est

log-concave et symétrique. Par contre, ces résultats théoriques ne s'appliquent pas pour les cas où la densité du pivot T (X, θ) n'est pas symétrique, même s'il est plausible (voir [3]) que la probabilité de recouvrement minimale est bornée inférieurement par

1−α

1+α. Marchand et Strawderman [1] ont établi des résultats applicables à de tels cas,

(45)

1−α

1+α tient pour une classe d'intervalles bayésiens qui inclut l'intervalle HPD pour le

cas symétrique. Nous présenterons et illustrerons dans ce chapitre leurs résultats à la Section 3.1. Enn, à la Section 3.2, on va établir la borne inférieure 1 −

2 pour

certains intervalles parmi cette classe sous l'hypothèse additionnelle de log-concavité. Ces développements sont originaux.

3.1 Cadre général avec ou sans symétrie : la borne

inférieure

1−α1+α

pour la probabilité de

recouvre-ment fréquentiste

Les intervalles de crédibilité bayésiens de la forme [l(x), u(x)] où P (l(x) ≤ τ(θ) ≤

u(x)|x) = 1 − α, peuvent être décrits de façon alternative, et équivalente, par

l'en-semble complémentaire [0, l(x)) ∪ (u(x), ∞) et la sélection de probabilités α − α(x) et α(x) respectivement sur ses deux parties disjointes, avec α(x) ∈ [0, α]. Lorsque la densité a posteriori de τ(θ) est absolument continue par rapport à la mesure de Le-besgue sur R+, le choix α(x) conduit à un choix unique de [l(x), u(x)], et vice-versa.

Nous désignerons cette fonction α(·) par fonction de distribution.

Dénition 12. Pour une loi a priori π donné pour θ et une crédibilité 1 − α, la fonction de distribution α(·) : Rp → [0, α] est une fonction telle que, pour tout x,

Pπ(τ(θ) ≥ u(x)|x) = α(x), Pπ(τ(θ) ≤ l(x)|x) = α − α(x), et [l(x), u(x)] est un

intervalle de crédibilité bayésien pour τ(θ).

Voici maintenant un présupposé et une Proposition qui jouent un rôle important dans le développement de cette section.

(46)

Hypothèse A. Soit un modèle X|θ ∼ f(x, θ) et une fonction paramétrique τ(θ) : Rp → R telle que τ(θ) ≥ 0. On suppose qu'il existe un pivot linéaire T (X, θ) = a1(X)−τ(θ)

a2(X) (où a2(·) > 0) tel que −T (X, θ)|θ a fonction de répartition G. De plus, on

suppose qu'il existe une loi a priori π telle que :

T (X, θ)|x =dT (X, θ)|θ, ∀θ, x, (3.1)

c'est-à-dire que la distribution du pivot T (X, θ) pour un θ donné, qui est indépen-dante de θ, est la même que la distribution a posteriori T (X, θ) |x pour n'importe quelle valeur de x ∈ X.

Une telle mesure a priori est la mesure de Haar invariante à droite ( voir [3]). Voici une illustration.

Exemple 11. Soient X ∼ fθ(·) où fθ(·) est une famille de position avec T (X, θ) =

X − θ et π(θ) = 1. On a bien que la densité de T (X, θ) = X − θ|θ est donnée

par fθ(x) = f0(x − θ) et aussi la densité a posteriori π(θ|x) =

fθ(x)π(θ) Θfθ(x)π(θ)dθ = f0(x − θ) Θf0(x − θ)dθ = f0(x − θ).

Remarque 3. Selon l'Hypothèse A et du fait que −T (x, θ) = −a1(x)−τ(θ)

a2(x) ∼ G, la

fonction de répartition a posteriori de τ(θ), sous πH(θ) = 1, est :

PπH(τ(θ) ≤ y|x) = G(

y− a1(x) a2(x) ).

Maintenant, sous la troncature π0(θ) = πH(θ)I[0,∞)(τ(θ)), on peut exprimer la

dis-tribution a posteriori de τ(θ) en fonction de πH et G. En eet, on a :

Pπ0(τ(θ) ≥ y|x) = PπH(τ(θ) ≥ y|x) PπH(τ(θ) ≥ 0|x) = 1 − G( y−a1(x) a2(x) ) 1 − G(−a1(x) a2(x)) . (3.2)

(47)

Remarque 4. Selon la Dénition12, un intervalle bayésien pour τ(θ), de crédibilité 1 − α associé à la loi a priori π0, peut être généré par une fonction de distribution α(·) : Rp → [0, α], telle que I

π0(·)(X) = [l(X), u(X)] avec Pπ(τ(θ) ≥ u(x)|x) = α(x).

Le Lemme1 nous donne, sous l'Hypothèse A, les bornes l(x) et u(x) pour l'intervalle bayésien Iπ0(·).

Lemme 1. Pour la loi a priori π0(θ) = π(θ)I[0,∞)(τ(θ)) et fonction de distribution α(·), les bornes de Iπ0,α(·)(x) sont données par :

(·)(x) = a1(x) + a2(x)G−1{G(−t(x)) + (α − α(x))(1 − G(−t(x)))}

et

uα(·)(x) = a1(x) + a2(x)G−1{1 − α(x)(1 − G(−t(x)))}, avec t(x) = aa12(x)(x).

Démonstration. Avec la fonction de survie Pπ0(τ(θ) ≥ y|x) =

1−G(y−a1(x)a2(x) ) 1−G(−t(x)) , en (3.2), on obtient, pour β ∈ (0, 1) : 0(τ(θ) ≥ y|x) = β ⇐⇒ 1 − G( y− a1(x) a2(x) ) = β − βG(−t(x)) ⇐⇒ y = a1(x) + a2(x)G−1{1 − β + βG(−t(x))} ,

et le résultat tient avec les choix β = α(x) et β = 1 − (α − α(x)) pour les bornes u(x) et l(x) respectivement.

Exemple 12. L'intervalle de conance bayésien HPD Iπ0,αHP D(·) est généré par le

choix αHP D(x) = arg minα(x)(uπ0,α(·)(x) − lπ0,α(·)(x)), où α(·) ∈ [0, α] minimise la

longueur de l'intervalle de crédibilité bayésien Iπ0,α(·)(x) pour tout x.

(48)

en 0 sont données par les bornes lHP D(x) = max  0, a1(x) + a2(x)G−1(1 2 − 1 − α 2 G(t(x))) et uHP D(x) = a1(x) + a2(x)min  G−1(1 − αG(t(x))), G−1(1 2+ 1 − α 2 G(t(x))) .

En faisant la correspondance avec la forme générale du Lemme 1 et par la symétrie

G(t(x)) = 1− G(−t(x)), on obtient pour t(x) ≤ G−1(1+α1 ) : G−1(1 − α(x)(1 − G(−t(x)))) = G−1(1 − α(1 − G(−t(x)))) ⇔ α(x) = α, et 1 − α(x)(1 − G(−t(x))) = 12+ 1 − α 2 G(t(x))⇔ α(x) = α 2 + G(−t(x)) 2(1 − G(−t(x))). Alors, la fonction de distribution correspondante à l'intervalle HPDest égale à :

min  α,α 2 + G(−t(x)) 2(1 − G(−t(x))) , avec α(x) = α ssi t(x) ≤ −G−1( α

1+α)(= G−1(1+α1 ) car g0 est symétrique).

Dénition 13. Soient 1 − α ∈ (0, 1), une loi a priori π0 et une fonction de

dis-tribution α(·). On dénit la sous-classe d'intervalles bayésiens C pour τ(θ) comme suit :

C = 

0,α(·) : α(x) = α pour tout x avec t(x) ≤ −G−1(

α

1 + α) = t0

.

Le prochain théorème nous donne une borne inférieure de la probabilité de recouvre-ment pour la sous-classe C ainsi que la probabilité de recouvrerecouvre-ment lorsque θ est sur la frontière de l'espace paramétrique.

(49)

Théorème 3. Soit Iπ0,α(·) un intervalle de crédibilité bayésien de la sous-classe C.

Pour la probabilité de recouvrement fréquentiste Cα(·)(θ) = Pθ(Iπ0,α(·)(X)  τ(θ)), on

a, sous l'Hypothèse A, que : (a) C(θ) = 1

1+α pour tout θ tel que τ(θ) = 0 ;

(b) C(θ) > 1−α

1+α pour tout θ tel que τ(θ) ≥ 0 aussitôt que α(x) satisfait, pour tout

x, (1 − α)G(−t(x)) + α2 1+α 1 − G(−t(x)) ≤ α(x) ≤ α (1 + α)(1 − G(−t(x))). (3.3) (c) limτ(θ)→∞Cα(·)(θ) = 1 − α, avec limt(x)→∞α(x) existe et a2(X) = 1.

Démonstration. (a) On observe, quand τ(θ) = 0, que −t(X) = −a1(X)

a2(X) a pour

fonction de répartition G. Alors, pour tout θ tel que τ(θ) = 0, on a : Pθ(Iπ0,α(·)(X)  θ) = Pθ(α(X) = α) = Pθ(t(X) ≤ t0) = 1 −

α

1 + α = 1 1 + α. (b) Pour θ tel que τ(θ) ≥ 0, l'intervalle

I1(X) = [l1(X), u1(X)] =max0, a1(x) + a2(x)G−1(αα+1), a1(x) + a2(x)G−1(α+11 )

a la même probabilité de recouvrement fréquentiste que l'intervalle I∗

1(X) = [a1(x) + a2(x)G−1(αα+1), a1(x) + a2(x)G−1(α+11 )] et cette probabilité est égale à :

Pθ(G−1(αα+1) ≤ τ(θ)−aa2(x)1(x) ≤ G−1(α1+1)) = G(G−1(α+11 )) − G(G−1(αα+1)) = 1−α1+α. On

note, de (3.3) et du Lemme 1, que uα(·)(x) ≥ a1(x) + a2(x)G−1(1 − α

α+1) = u1(x) et

lα(·)(x) ≤ a1(x) + a2(x)G−1(G(−t(x)) + α(1 − G(−t(x))) − (1 − α)G(−t(x)) − α

2

1+α) = a1(x) + a2(x)G−1(αα+1) = l1(x). Alors, la condition (3.3) sur α(·) implique que 0,α(·) ⊇ I1. Puisque l'inclusion est stricte avec une probabilité supérieure à 0 pour

tout θ, le résultat s'ensuit.

(c) Comme T (X, θ) = a1(X)−τ(θ)

a2(X) = a1(X) − τ(θ) est un pivot, on a alors que

t(x) = a1(x) → ∞ et G(−t(X)) converge en probabilité vers 0 quand τ(θ) → ∞, ce

Figure

Figure 1.1  La longueur moyenne de l'intervalle de Pratt et de l'intervalle usuel pour
Figure 1.2  La crédibilité de l'intervalle de Pratt, loi a priori π(θ) = 1 et 1-α=0.95
Figure 1.3  La probabilité de recouvrement de I π N et I π H pour 1-α=0.95.
Figure 2.1  L'intervalle HPD pour le modèle N(θ,1) et 1-α=0.90.
+7

Références

Documents relatifs

Le troisième chapitre, quant à lui, se focalisera sur les modèles graphiques et plus particulièrement sur les réseaux bayésiens, qui sont une solution proposée au problème de

Rania MERHEB, Laurent MORA, Elena PALOMO - L’analyse par intervalles pour une prévision fiable du comportement des bâtiments : cas d’une paroi multicouche

Conditions nécessaires et suffisantes de convergence L1 en probabilité de l’histogramme pour une densité.. Annales

Remarquons que tout sous-espace symétrique de (M,g) n f est pas néces- sairement une sous-variété pseudo-riemannienne symétrique : la condition de non dégénérescence

DemoPS 2014 met en lumière une densité en pharmaciens plus faible en Bretagne qu’à l’échelle nationale avec par contre une densité plus forte de titulaires d’officine

Les méthodes étudiées dans ce chapitre pour la métamodélisation d’un code dont la sortie est une densité de probabilité ou pour la décomposition fonctionnelle de densités

On trace 29 intervalles de longueurs finies sur une même droite avec des chevauchements possibles de certains d’entre eux.. On désigne par I le plus petit intervalle fermé qui

Figure 7.28  Comparaison des Fonctions Densité de Probabilité de la fraction molaire moyenne de uide injecté conditionnées à une position dans le jet et à une position dans le