Inférence bayésienne sous un a priori normal-gamma dans différents contextes et pour des fonctions de la moyenne et de la variance

(1)

Inférence bayésienne sous un a priori normal-gamma dans

différents contextes et pour des fonctions de la moyenne et de la

variance

par

Jean-Philippe MORISSETTE

mémoire présenté au Département de mathématiques en vue de l’obtention

du grade de maître ès sciences (M.Sc.)

FACULTÉ DES SCIENCES

UNIVERSITÉ DE SHERBROOKE

(2)

Le 12 mars 2019

Le jury a accepté le mémoire de Monsieur Jean-Philippe Morissette dans sa version finale.

Membres du jury

Professeur Éric Marchand Directeur de recherche Département de mathématiques

Professeur Bernard Colin Membre interne

Département de mathématiques

Professeur Félix Camirand-Lemyre Président-rapporteur

(3)

SOMMAIRE

Dans ce mémoire, on obtient différents résultats portant sur l’inférence bayésienne de divers modèles. Des résultats analytiques sont obtenus tout au long du mémoire.

Le chapitre 1 servira dans un premier temps à démontrer dans quels contextes d’applica-tion les différents modèles que l’on étudiera peuvent servir. Dans un deuxième temps, ce chapitre se verra être une introduction à quelques distributions et fonctions spéciales que l’on retrouve dans le reste du mémoire. On y présentera également quelques notions sur l’inférence prédictive. Le chapitre 2 porte sur l’inférence prédictive sous le modèle de loi multinormale à variance connue ainsi que sous le modèle gamma à paramètre d’échelle inconnu. On exploitera une décomposition faisant intervenir la loi a priori non informa-tive. Plusieurs cas particuliers seront détaillés. On terminera ce chapitre en faisant une analyse du modèle de loi normale avec (θ, η) ∼ N G, c’est-à-dire l’a priori normal-gamma. On discutera et interprétera les lois a posteriori tout en abordant l’inférence prédictive sous ce modèle. Le chapitre 3 reprend le modèle normal-gamma, mais dans un contexte d’indépendance pour la loi a priori. On étudiera les marginales des deux composantes du modèle et cette contribution nous paraît tout à fait originale. Tout d’abord, on verra que la marginale a posteriori de la moyenne fait intervenir une convolution entre une loi normale centrée réduite et une loi student. On explorera par la suite différentes propriétés de cette densité, notamment sa forme, l’impact du choix des différents hyperparamètres,

(4)

ainsi que son espérance et sa variance. Quelques cas limites seront également abordés. Puis, de façon un peu plus concise, la même approche sera utilisée pour étudier la mar-ginale a posteriori de la variance. Enfin, le chapitre 4 présente l’inférence bayésienne lorsqu’on considère un quantile, un coefficient de variation (ainsi que son inverse) et un coefficient de discrimination. L’approche choisie ici est de considérer tout d’abord un cadre général puis de s’intéresser au modèle normal-gamma. On donnera des formes ana-lytiques pour les fonctions de densité et de la répartition, l’espérance et la variance de ces fonctions lorsque ces quantités existeront. On y trouvera également quelques exemples afin de pouvoir comprendre le rôle des hyperparamètres du modèle choisi.

(5)

REMERCIEMENTS

Je tiens à remercier mon directeur de recherche, M. Éric Marchand, pour sa disponibilité, pour nos échanges, son ouverture et son soutien et pour m’avoir permis d’apprendre autant de choses, que ce soit par rapport à des questions académiques ou encore par rapport à des situations personnelles. Ces deux dernières années m’ont permis de grandir sur plusieurs plans et ses conseils ont su rendre plusieurs décisions plus faciles. Je me dois également de remercier mes consoeurs et confrères du département, des plus jeunes aux plus anciens, avec qui j’ai pu discuter de plusieurs problèmes à saveur mathématique, mais aussi qui m’ont permis de profiter de ces deux belles années et de me changer les idées lorsque c’était nécessaire. J’aimerais également remercier le personnel du département. J’ai pu profiter de votre grande sagesse et j’ai pu, je crois, laisser ma trace grâce aux différentes chances que vous m’avez offertes. Évidemment, je remercie le département de mathématiques de l’Université de Sherbrooke, le Fonds de recherche du Québec Nature et Technologies (FRQNT) ainsi que le Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG) pour leur soutien financier. Pour finir, merci à mes amis proches et à ma copine, Marie-Frédérick, pour votre soutien inépuisable et pour avoir cru en moi du début à la fin. Cette étape de ma vie aurait été bien triste sans tous ces moments passés avec vous.

Jean-Philippe Morissette Sherbrooke, décembre 2018

(6)

TABLE DES MATIÈRES

SOMMAIRE iii

REMERCIEMENTS v

TABLE DES MATIÈRES vi

LISTE DES FIGURES ix

INTRODUCTION 1

CHAPITRE 1 — Notions préliminaires et définitions 4

1.1 La loi multinormale . . . 5

1.2 Modèle linéaire . . . 6

1.3 Fonctions spéciales et lois non usuelles . . . 9

1.3.1 La distribution de Student décentrée . . . 10

1.3.2 La distribution de Student multivariée . . . 14

(7)

1.3.4 La distribution de Kummer . . . 21

1.3.5 La convolution . . . 22

1.4 L’analyse prédictive . . . 23

CHAPITRE 2 — Inférence a posteriori et prédictive sur différents modèles 28 2.1 Modèle avec un seul paramètre inconnu . . . 29

2.1.1 Modèle normal avec variance connue . . . 29

2.1.2 Modèle gamma avec paramètre d’échelle inconnu . . . 41

2.2 Modèle normal-gamma . . . 44

CHAPITRE 3 — L’a priori normal-gamma indépendant 50 3.1 Loi marginale a posteriori de θ . . . 50

3.2 Marginale a posteriori de σ2 _{. . . 63}

CHAPITRE 4 — Inférence bayésienne pour une fonction d’une moyenne et d’une variance 70 4.1 Estimation du quantile . . . 71

4.1.1 Décomposition en pivot . . . 80

4.2 Inférence bayésienne pour un coefficient de variation et un coefficient de discrimination . . . 86

4.2.1 Le coefficient de variation et son inverse . . . 86

(8)

CONCLUSION 98

(9)

LISTE DES FIGURES

1.1 Deux densités de Student décentrées avec 5 degrés de liberté. . . 12

3.1 Différents graphiques qui présentent la densité (⋆) pour : a) µ = 2, v = 3 et σ2 _{varie, b) µ = 2, v varie et σ}2 ₌_{1, c) µ varie, v = 3 et σ}2₌_{1. Le graphique}

d) compare la densité produit avec celle de Student et la normale. . . 54

3.2 Densité d’un produit d’une normale centrée réduite avec une densité Student de paramètre µ = 4, v = 2 et σ2 ₌_{0.05. . . 57}

3.3 Espérance d’une densité produit normale avec une densité Student pour a) v = 3, σ = 1, b) v = 3, µ = 2. . . 63

3.4 Différents graphiques qui représentent la densité marginale de σ2 _{a) a}

priori, mais également a posteriori lorsqu’on altère : b) la taille d’échan-tillon n, les hyperparamètres c) α, d) β, e) µ et f) τ . . . 67

4.1 Différents graphiques qui représentent : a) la densité a priori, b) la densité a posteriori, c) les deux densités, d) la densité a posteriori du quantile lorsque c = 0. . . 78

(10)

4.2 Différents graphiques qui représentent la densité a posteriori lorsqu’on al-tère : a) le paramètre c, b) la taille d’échantillon n, les hyperparamètres c) α, d) β, e) λ. . . 79 4.3 Graphique des fonctions f (x) et h(x). . . 90 4.4 Différents graphiques qui représentent : a) la densité a priori, b) la densité

a posteriori, . . . 91 4.5 Différents graphiques qui représentent l’impact sur la densité a posteriori

lorsqu’on altère : a) la taille d’échantillon n, les hyperparamètres b) λ, c) α, d) β. . . 92

(11)

INTRODUCTION

La statistique permet de répondre à plusieurs questions lorsqu’on essaie de modéliser un phénomène de la vie courante. Une approche paramétrique peut s’avérer très inté-ressante lorsqu’il est possible d’attribuer une interprétation à chacun des paramètres, ou encore à des hyperparamètres, du modèle considéré. On s’efforcera alors de donner des mesures de précision sur ces paramètres. Dans d’autres circonstances, la question d’in-térêt ne sera pas nécessairement l’estimation des paramètres, mais plutôt la prédiction d’une innovation ou encore d’une nouvelle réalisation du phénomène étudié. Un modèle privilégié, bien connu, et ayant un très grand potentiel d’application est le modèle li-néaire. En proposant un résumé exhaustif, on peut plutôt considérer un modèle bivarié (X, S), où X ∼ Nd(θ,σ

2

n), potentiellement multivarié, et nS2 ∼ G ( n−1

2 , 2σ2), où G(α, β)

représente une densité gamma de paramètre α et β. Dans ce cadre, les interrogations concernent généralement les paramètres θ et σ2_{, dictant respectivement la moyenne et la}

variance du phénomène à l’étude, ou encore sur une nouvelle observation, Y , qui n’a pas nécessairement la même variance que l’observation X. Plusieurs approches sont alors à notre disposition pour inférer sur le ou les paramètres inconnus.

Une façon de considérer plusieurs de ces problèmes de façon efficace est de s’intéresser à des problèmes concernant des fonctions de la moyenne et de la variance, par exemple les quantiles, un coefficient de variation ou un coefficient de discrimination. Ces quantités

(12)

sont considérées dans [DZ12] ainsi que dans [CL07], où plusieurs approches sont présen-tées. L’une d’entre elles est l’approche bayésienne, qui attribue aux paramètres inconnus une distribution a priori. On peut alors faire de l’inférence bayésienne sur le modèle que l’on a choisi en regardant la distribution a posteriori qui est de moins en moins influen-cée par le choix de la distribution a priori au fur et à mesure que la taille d’échantillon grandit. Dans ces articles, l’analyse bayésienne ne semble pas être utilisée à son plein po-tentiel, ce qui est mentionné dans [NCL08]. Dans la littérature, certains auteurs prennent avantage de la puissance computationnelle des ordinateurs d’aujourd’hui pour utiliser des méthodes numériques. En effet, les méthodes de Monte-Carlo par chaîne de Markov (en anglais MCMC) sont très répandues. Les auteurs de [CH03] présentent comment faire de l’estimation en suivant cette approche. À cause de la disponibilité, de l’aisance et de l’engouement pour ce genre de technologies, certains développements analytiques ont été mis de côté.

Toujours en considérant l’approche bayésienne, un choix de distribution(s) a priori appro-priée(s) pour la problématique considérée est le modèle normal-gamma, comme suggéré dans le chapitre 7 de [ER04]. Ce modèle donne la possibilité de modéliser une dépen-dance entre les paramètres θ et σ2 _{lorsque tous les deux sont inconnus. Il s’agit d’un}

choix commode et bien connu, plusieurs résultats étant déjà disponibles à ce sujet. Étant donné la facilité de faire le passage entre ce modèle et les modèles linéaires, sa présence est grandement justifiée dans la littérature. Néanmoins, l’hypothèse de dépendance entre les deux paramètres n’est pas justifiable dans tous les champs d’application. On propose donc développer une analyse de ce modèle dans ce cadre, ce qui ne semble pas être fait, de façon analytique, dans la littérature.

Ainsi, le premier chapitre de ce mémoire servira à mettre en place les différents outils qui seront nécessaires pour les chapitres ultérieurs. Différentes distributions particulières seront détaillées et définies tout comme la façon d’effectuer le passage entre les modèles

(13)

linéaires et les techniques proposées.

Par la suite, on présentera l’inférence sur différents modèles lorsqu’on suppose que la variance est connue. On terminera le chapitre en détaillant le choix d’a priori normal-gamma et en illustrant l’interprétation des hyperparamètres de ce modèle.

Ensuite, on considérera l’a priori normal-gamma dans un cadre indépendant. Toujours en ne faisant que des développements analytiques, on donnera des expressions pour les den-sités marginales de la moyenne ainsi que de la variance et on donnera quelques propriétés de ces densités.

Finalement, le dernier chapitre sera consacré à l’étude de différentes fonctions de la moyenne et de la variance. Encore une fois, on aura des formes analytiques pour les densités de ces fonctions sous un a priori quelconque, puis on illustrera le cas de l’a priori normal-gamma.

(14)

CHAPITRE 1

Notions préliminaires et définitions

Dans ce chapitre, on présente plusieurs notions et concepts nécessaires qui seront utilisés dans le reste de ce mémoire. On présente tout d’abord quelques résultats concernant la distribution multinormale. Dans la deuxième section, on explique comment le reste de ce mémoire peut être mis en pratique en mettant en valeur le modèle canonique, soit lorsque X ∼ Np(µ, σ21p)est indépendant de la variable aléatoire S2∼σ2χ2_ν. On mentionne dans [Car15], par exemple, l’importance de pouvoir estimer les quantiles dans le milieu de la santé. Dans la troisième section, des distributions et des fonctions non usuelles sont détaillées. Notamment, des développements et des résultats concernant des lois décentrées (χ2_{, Student) ainsi que des lois multidimensionnelles (Student) seront explorés. Pour finir,}

on abordera quelques différences entre la statistique classique et la statistique bayésienne en prenant soin de parler aussi d’analyse prédictive.

(15)

1.1 La loi multinormale

On aura besoin de quelques résultats importants provenant de la théorie des lois multi-normales dans la prochaine partie de ce chapitre. On réfère le lecteur au premier chapitre de [Mui09] pour les détails de ces résultats ainsi qu’une introduction formelle à la théorie de la loi multinormale.

Notation 1. Soit X une variable aléatoire.

● On notera X ∼ F (ou encore X ∼ g), où F représente un modèle statistique paramé-trique quelconque (et g est une densité), lorsque la variable aléatoire X se distribue selon ce modèle F (ou encore que la densité de X est g).

● Finalement, on notera parfois également π(θ) ∼ F (ou encore π(θ∣x) ∼ g) pour dire que la loi a priori (ou a posteriori) de θ suit un certain modèle paramétrique F (ou encore une densité g).

Définition 2. On dit qu’une variable aléatoire X suit une loi multinormale de paramètres µ ∈ Rd _{et Σ}

d×d, une matrice définie positive (Σ ≻ 0) à coefficients réels, si sa densité est

donnée par fX(x) = e−12(x−µ) ⊺_Σ−1_(x−µ) (2π)d2_∣Σ∣ 1 2 1(Rd)(x). On notera alors X ∼ Nd(µ, Σ).

Lemme 3. Soient X ∼ Np(µ, Σ), A_q×p une matrice à coefficients réels et b_q×1 un vecteur colonne à coefficients réels. Alors,

Y = AX + b ∼ Nq(Aµ + b, AΣA⊺).

Remarque 4. La Définition 2 admet une extension où Σ peut ne pas être de plein rang. Dans ce cas, au Lemme 3, il est ni nécessaire que Σ ≻ 0 ou que A soit de plein rang.

(16)

Le prochain Lemme permet de savoir le comportement des marges d’une densité multi-normale et donne également une condition pour vérifier l’indépendance entre deux com-posantes distinctes d’un vecteur suivant une loi multinormale.

Lemme 5. Pour X = (X(1), X(2)) ⊺ ∼ N_p₁_+p₂(µ = (µ₍₁₎, µ₍₂₎) ⊺ , Σ = (Σ11 Σ12 Σ21 Σ22 )), avec Σ ≻ 0, on a : a) Xi ∼ N_p_i(µ_(i), Σ_ii), i = 1, 2.

b) X(1) et X(2) sont indépendants si et seulement si Σ12=0.

1.2 Modèle linéaire

Les modèles linéaires englobent beaucoup de domaines d’applications en science. On y retrouve notamment la régression, l’analyse de la variance ainsi que l’analyse de la covariance. On parle de modèle linéaire, lorsque le modèle présente une structure linéaire et lorsqu’on tente de prédire une variable réponse en se basant sur différents facteurs que l’on observe, qui peuvent être qualitatifs, quantitatifs ou encore un mélange de ces deux types de variables. Selon les facteurs que l’on utilise, on pourra choisir l’outil le mieux approprié pour prédire la variable réponse et estimer les paramètres du modèle de la façon la plus juste possible. Pour plus de détail sur ces modèles, on suggère [LC06] ou [CB02].

Notation 6. Tout au long de ce mémoire, on utilisera la notation ₁p pour désigner la

matrice identité de dimension p × p.

On parlera de modèle linéaire simple lorsque la relation pourra s’écrire sous la forme Y = Zβ + , où Yn×1 = (Y1, . . . , Yn)⊺, Z_n×p = (Z₁, . . . , Z_n)⊺, β_p×1 = (β₁, . . . , β_p)⊺, ∼ N_n(0, 1_nσ2) et n > p. On dira que Y_i est la variable réponse de la ième observation,

(17)

que Zi= (Zi1, . . . , Zip) est le vecteur des facteurs observés pour la ième observation, que β est le vecteur des coefficients des différents facteurs du modèle et finalement que i est

l’erreur d’observation liée à la ième observation, qui est supposée de loi normale.

Remarque 7. Sous les hypothèses que l’on vient d’énoncer, on trouve que Y ∼ Nn(Zβ, 1_nσ2), et donc que fY(y) = e2σ2−1(y−Zβ) ⊺_(y−Zβ) ( √ 2πσ)n

Une des méthodes pour trouver un estimateur plausible de β a été proposée au début du 19e _{siècle par le mathématicien français Adrien-Marie Legendre. Il s’agissait de la}

technique des moindres carrés ordinaires. Carl Friedrich Gauss a participé à populariser la méthode, notamment dans un ouvrage en astronomie. [Ste12]

Lemme 8. Lorsque Z est de plein rang, on sait que l’estimateur ˆβ = (Z⊺_Z)−1_Z⊺_{Y , que}

l’on trouve en utilisant les moindres carrés ordinaires, est un estimateur sans biais de β. De plus, on a que ˆβ ∼ Np(β, (Z⊺Z)−1σ2).

Une fois que l’on dispose d’un estimateur de β, prédire la variable réponse est très simple. En effet, les prédictions associées seront seulement des points de la droite engendrée par les observations Z et l’estimation des paramètres ˆβ, que l’on notera ˆY = Z ˆβ. Finalement, la quantité S2 _{= (Y − ˆ}_{Y )}⊺_{(Y − ˆ}_{Y ) correspond à la somme des carrés des écarts entre la}

vraie valeur des réponses et leurs prédictions. Lemme 9. On a que S2 _∼_σ2_χ2

n−p sous les hypothèses d’un modèle linéaire simple (voir

le Chapitre 4 dans [RPD01]).

Lemme 10. Sous les hypothèses de la Définition ??, les statistiques S2 _{et ˆ}_{β sont}

(18)

Démonstration. On va tout d’abord montrer que (Y − ˆY ) est indépendant de Z ˆβ, pour X une matrice de plein rang. Remarquons tout d’abord que les deux statistiques peuvent s’exprimer en fonction de Y . En effet, on a (Y − ˆ_{Y ) = (1}n−Z(Z⊺Z)−1Z⊺)Y et que Z ˆβ = (Z(Z⊺_Z)−1_Z⊺_{)Y . On pose A}

1 = (1_n−Z(Z⊺Z)−1Z⊺), A₂ = (Z(Z⊺Z)−1Z⊺), W = (Y, Y )⊺ et A = (A1 0

0 A2

).

En utilisant le Lemme 3, on a que

W ∼ N2n((Zβ, Zβ)⊺, (1n σ2 ₁ nσ2 1nσ2 1nσ2 )) et que AW ∼ N2n(A(Zβ, Zβ)⊺, ( A11nσ2A⊺1 A11nσ2A⊺2 A21nσ2A⊺1 A21nσ2A⊺2 )).

En vertu du Lemme 5, il suffit alors de vérifier que A11nσ2A⊺2 =0n×n pour avoir

l’indé-pendance. On a A11nσ2A⊺2 = (1_n−Z(Z⊺Z)−1Z⊺)(Z(Z⊺Z)−1Z⊺)⊺ σ2 = Z(Z⊺_Z)−1⊺_Z⊺ −Z(Z⊺Z)−1Z⊺Z(Z⊺Z)−1⊺Z⊺ σ2 =0_n×n.

Ainsi, on a bien que (Y − ˆY ) et Z ˆβ sont indépendants et, de surcroit, que S2 _{et ˆ}_{β le sont}

aussi.

Théorème 1.1. Dans le cadre du modèle présenté dans la définition ??, le vecteur ( ˆβ, S2₎

est une statistique exhaustive pour (β, σ2_).

(19)

∥Y − Zβ∥2= ∥Y − ˆY + ˆY − Zβ∥2

= ∥Y − ˆY ∥2+2(Y − ˆY )⊺( ˆY − Zβ) + ∥ ˆY − Zβ∥

2

= ∥Y − ˆY ∥2+ ∥Z ˆβ − Zβ∥2, en utilisant que

n ∑ i=1 (Yi− ˆY_i) =0, = ∥Y − ˆY ∥ 2 + ( ˆβ − β)⊺(Z⊺Z)( ˆβ − β), d’où e2σ2−1∥Y −Zβ∥ 2 =e −1 2σ2∥Y − ˆY ∥ 2 e2σ2−1 ( ˆβ−β) ⊺_(Z⊺_{Z)( ˆ}_β−β) .

Alors, par le critère de factorisation, le vecteur ( ˆβ, S2₎ _{est exhaustif.}

Dans les sections qui suivent, on utilisera plutôt un modèle où X correspond à notre vecteur d’observations et où c’est le vecteur (X, S2₎ _{qui est exhaustif, comme présenté}

dans [LC06]. Ainsi, pour faire le passage de ˆβ vers X, deux situations sont possibles. Dans le premier cas, la matrice Z est orthogonale. Alors, il suffit de bien choisir une matrice A, elle aussi orthogonale, pour avoir A ˆβ ∼ Np(µ = Aβ, 1_pσ2), où µ est la moyenne de X. Dans le deuxième cas, la matrice Z n’est pas orthogonale. Alors, il suffit de remarquer que (Z⊺_Z)−1

2β ∼ Nˆ _p((Z⊺Z)

1

2β, 1_pσ2), où on utilise que A

1 2A⊺

1

2 ₌A. Ceci donne alors le

modèle canonique.

1.3 Fonctions spéciales et lois non usuelles

Dans les prochains chapitres, on verra quelques résultats faisant intervenir des distribu-tions non élémentaires, telles que la loi de Student décentrée, la loi du χ2 _{décentrée et}

(20)

but de familiariser le lecteur avec ces dernières. On peut également consulter [VAG03] et [vAG00] pour des propriétés et le comportement analytique des distributions décentrées.

1.3.1 La distribution de Student décentrée

On rappelle tout d’abord comment obtenir la distribution de Student usuelle.

Définition 11. Soient Z ∼ N (0, 1) et U ∼ χ2

v deux variables aléatoires indépendantes.

Alors, la variable T = √Z

U v

suit une loi de Student univariée à v > 0 degrés de liberté. De plus, sa densité est donnée par

fT(x) = Γ (v+1₂ ) Γ (v₂) √ vπ(1 + x2 v ) −(v+1 2 ) . (⋆)

Notation 12. Soit Z ∼ N (0, 1) une variable aléatoire de loi normale centrée et réduite. Alors, on notera par φ sa fonction de densité et par Φ sa fonction de répartition.

Dans l’éventualité où la variable Z de la Définition 11 n’aurait pas une moyenne nulle, quelle distribution obtiendrait-on ? En posant T = √Z+δ

U v , où δ ∈ R, on a en conditionnant par rapport à U : P(T ≤ t) = ∫ R+ P (Z ≤ t √ u v −δ) fU(u)du = ∫ R+ Φ (t √ u v −δ) fU(u)du.

(21)

fT(t) =_∫ R+ φ (t √ u v −δ) √ u vfU(u)du = e−δ22 √ 2πvΓ (v₂)2 v 2 ∫_R+ e−u( t2+v 2v )_e tδ√u √ v uv−12 du = e−δ22 √ 2πvΓ (v₂)2 v 2 ∞ ∑ k=0 (√tδ v) k k! ∫R+ uv+k+12 e −u(t2+v 2v ) du = e−δ22 v v 2 √ πΓ (v₂) (t2₊_v)v+12 ∞ ∑ k=0 Γ (v+k+1₂ )δk2 k 2tk Γ (k + 1) (t2₊_v)k2 .

On peut donc donner la définition suivante sans ambigüité.

Définition 13. Soient Z ∼ N (0, 1) et V ∼ χ2

ν deux variables aléatoires indépendantes.

On dit que T = √Z +δ

V ν

, notée T ∼ tv,δ, suit une loi décentrée de Student avec paramètres de

décentralité δ ∈ R et degrés de liberté v > 0 si densité sur R est donnée par :

fT(t) = vv2e −δ2 2 √ πΓ (v₂) (v + t2₎v+12 ∞ ∑ k=0 Γ(v+k+1₂ )δk2 k 2tk Γ(k + 1)(v + t2₎k2 .

Remarque 14. Lorsque δ = 0, on retrouve bien la distribution de Student usuelle et la densité en (⋆).

Remarque 15. Comme on peut le voir dans [vAG00], la distribution de Student décentrée demeure une distribution unimodale. De plus, lorsque δ ≠ 0, il s’agit d’une distribution asymétrique (voir Figure 1.1) Lorsque δ > 0, c’est la queue droite qui est plus lourde et lorsque δ < 0, c’est la queue gauche qui est plus lourde.

Lemme 16. Soit T ∼ tv,δ. Alors, l’espérance et la variance de T sont données

(22)

Figure 1.1 – Deux densités de Student décentrées avec 5 degrés de liberté. E(T ) = δ √ v 2 Γ (v−1₂ ) Γ (v₂) , si v > 1, V(T ) = v(1 + δ 2₎ v − 2 − δ2_v 2 ⎛ ⎝ Γ (v−1₂ ) Γ (v₂) ⎞ ⎠ 2 , si v > 2. Démonstration. On a E(T ) = EUE ⎛ ⎜ ⎝ Z + δ √ U v R R R R R R R R R R R R R R U ⎞ ⎟ ⎠ = √ vδ E (U−12 ₎ =δ √ v 2 Γ (v−1₂ ) Γ (v₂) ,

la dernière égalité étant obtenue en utilisant les résultats sur les moments d’une loi gamma. De plus, on a

(23)

V(T ) = EUV (Z + δ√ U √ v∣ U ) + VUE ⎛ ⎜ ⎝ Z + δ √ U v R R R R R R R R R R R R R R U ⎞ ⎟ ⎠ =v E (U−1) +vδ2_{V (U} −1 2 ₎ = v(1 + δ2₎ v − 2 +vδ 2 (_{E (U}−1) − (_{E (U} −1 2 ₎₎ 2 ) = v(1 + δ2₎ v − 2 − δ2_v 2 ⎛ ⎝ Γ (v−1₂ ) Γ (v₂) ⎞ ⎠ 2 ,

la dernière égalité étant obtenue en utilisant les résultats sur les moments d’une loi gamma et par un réarrangement des termes.

Remarque 17. Notons que cette distribution est implémentée dans [R]. En effet, les fonctions dt, pt, qt et rt ont un paramètre optionnel, ncp, qui étend la définition de la Student à celle de la Student décentrée.

Enfin, la distribution de Student décentrée peut être utilisée pour déterminer la puissance d’un test de Student, tel que présenté dans [JW40]. On rappelle tout d’abord ce qu’est la puissance d’un test.

Définition 18. La puissance d’un test γ est la probabilité de rejeter l’hypothèse nulle lorsque que cette hypothèse est incorrecte.

On considère un test de Student pour les hypothèses suivantes :

H0∶µ = µ₀, σ2>0 H1∶µ > µ0, σ2>0

(24)

Sous H0, on suppose que la moyenne d’un échantillon de taille n, ¯x, est distribuée selon

une loi normale de moyenne µ0 et de variance σ

2

n. La statistique de ce test est donnée

par t =

√ n(¯x−µ0)

s , où s est l’écart-type de l’échantillon. Puisque t = √

n(¯x−µ0)/σ

√

s2_(n−1)/σ2 sous H0, la

distribution de cette statistique est celle de Student avec n − 1 degrés de liberté. On peut également écrire : t = √ n(¯x − µ0) s = ( √ n(¯x − µ1) σ + √ n(µ1−µ₀) σ ) ÷ √ s2 σ2,

et donc que sous H1, avec µ = µ1 > µ₀, t ∼ t_n−1,δ, où δ =

√

n(µ1−µ0)

σ . De plus, pour un

niveau de confiance α fixé, on pose t0 tel que P(t > t0∣H0) =α. On peut alors calculer la puissance de ce test. On a P(rejeter H0∣H1) =_{P (t}_n−1,δ>t₀).

1.3.2 La distribution de Student multivariée

En partant de la Définition 11, il est envisaageable d’étendre cette définition à un contexte multidimensionnel. Ainsi, si l’on a Z ∼ Np(0, Σ), avec Σ ≻ 0 et U ∼ χ2v deux vecteurs

aléatoires indépendantes et que l’on pose T = √Z

U v

+µ, quelle densité obtiendrait-on ? On a, pour t ∈ Rp _: P(Ti ≤t_i, i = 1, . . . , p) =_∫ R+ P ( Zi≤ √ ui v (ti−µi)∣ui, i = 1, . . . , p) uv2e −u 2 2v2Γ (v 2) du.

(25)

fT(t) = 1 ∣2πΣ∣122 v 2Γ (v 2)v p 2 ∫ R+ e−u( v+(t−µ)⊺ Σ−1(t−µ) 2v )_uv+p₂ −1_du = 1 ∣2πΣ∣122 v 2Γ (v 2)v p 2 Γ (v + p 2 ) ( 2v v + (t − µ)⊺_Σ−1₍_{t − µ)}) v+p 2 = Γ (v+p₂ ) ∣Σ∣12Γ (v 2)π p 2v p 2 (1 +(t − µ) ⊺_Σ−1_{(t − µ)} v ) −(v+p₂ ) , t ∈ Rp_.

La définition suivante vient donc naturellement.

Définition 19. Soient Z ∼ Np(µ, Σ), µ ∈ Rp, Σ ≻ 0, et U ∼ χ2v, v > 0, deux vecteurs

indépendants. On dit que la loi de T = √Z

U v

∼t_p(v, µ, Σ) est Student multidimensionnelle de dimension p avec paramètres de forme v et Σ, où v > 0 correspond au degré de liberté, et paramètre de position µ. Sa densité est alors donnée par :

fT(t) = Γ (v+p₂ ) ∣Σ∣12Γ (v 2)π p 2v p 2 (1 +(t − µ) ⊺_Σ−1_{(t − µ)} v ) −(v+p₂ ) .

Pour des détails sur la caractérisation de la distribution de Student multivariée, on peut consulter [Lin72].

Lemme 20. Soit T ∼ t(v, µ, Σ), alors l’espérance et la matrice de covariance de T sont

données respectivement par :

E(T ) = µ, si v > 1

Cov(T ) = vΣ

(26)

1.3.3 La distribution du χ

2

_décentrée

Notation 21. Tout au long de ce mémoire, on notera la fonction indicatrice par ₁(A)(x),

qui correspond en fait à la fonction

1(A)(x) = ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ 1 si x ∈ A, 0 sinon.

On rappelle tout d’abord comment obtenir la distribution du χ2 _usuelle.

Définition 22. Soient Z1, . . . , Zk∼ N (0, 1) des variables aléatoires indépendantes. Alors,

on dira que la variable X = ∑k_i=1Z2

i ∼ χ2k, où k ∈ N∗ est un paramètre de forme et

correspond au degré de liberté. De plus, sa densité est donnée par

fX(x) = (1 2) k 2 Γ (k₂) xk2−1e −x 2 1_([0,∞))(x).

Le prochain Lemme est connu sous le nom de la formule de dédoublement. Ce dernier sera utile afin d’obtenir une autre représentation de la densité d’une chi-deux décentrée à un degré de liberté. On définit tout d’abord la notation de Pochhammer, qu’on utilisera dans ce Lemme.

Définition 23. On note par (a)k la notation de Pochhammer, ou encore de factoriel

ascendant, qui se définit comme suit :

(a)k=

k−1

∏

j=0

(a + j),

pour k = 1, 2, . . . et on définit également (a)0 =1.

Lemme 24. On a pour n ∈ N : (2n)! = 22n_{n! (}1

2)n et aussi (2n + 1)! = 2 2n_{n! (}3

2)n.

(27)

(2n)! = 2nn!(2n − 1)(2n − 3)⋯1 =22nn! Γ (n + 1₂) Γ (1₂) =22nn! (1 2)n , et on a également (2n + 1)! = (2n + 1)(2n)! = (2n + 1)22nn! (1 2)n = (2n + 1)22nn!Γ (n + 1 2) Γ (1₂) = (n + 1 2)2 2n_n!Γ (n + 1 2) Γ (3₂) =22nn! Γ (n +3₂) Γ (3₂) =22nn! (3 2)n .

Une fois encore, on peut s’interroger à savoir ce qui se passerait si les différentes variables normales utilisées n’étaient pas de moyenne nulle. Dans un premier temps, que se passe-t-il si on a Y = X2_{, où X ∼ N (µ, 1) ? On a alors}

P(Y ≤ y) = Φ( √

y − µ) − Φ(−√y − µ).

(28)

fY(y) = y−12 √ 2πe −y 2 e −µ2 2 cosh (µ √ y) 1((0,∞))(y) =y −1 2 e −y 2 e −µ2 2 ∞ ∑ k=0 (µ 2_y 2 ) k k!2k+12Γ (k + 1 2) , (⋆⋆)

l’équation (⋆⋆) étant obtenue en remplaçant la fonction cosh et en utilisant la formule de dédoublement. Cette autre écriture sera réutilisée plus tard.

Remarque 25. L’équation (⋆⋆) admet la représentation suivante :

Y ∣K = k ∼ G (k + 1 2, 2) (ou χ 2 2k+1), K ∼ P (µ 2 2 ), ,

où P(λ) représente la densité Poisson de paramètre λ.

On peut alors donner la définition suivante.

Définition 26. Soit X ∼ N (µ, 1). On dit que Y = X2 _{suit une loi décentrée du chi-deux}

avec un degré de liberté si sa densité a pour expression

fY(y) = y −1 2 e −y 2 e −µ2 2 ∞ ∑ k=0 (µ 2_y 2 ) k k!2k+12Γ (k + 1 2) .

Dans un deuxième temps, il est naturel de vouloir étendre cette généralisation à une somme ∑r_i=1X2

i où les Xi sont i.i.d. N (µi, 1). On considère donc le cas où Y = ∑ r

i=1Yi, où

Yi ∼χ2₁(δ_i), δ_i ∈_R+, i = 1, . . . , r. En vertu de la Remarque 25, on sait que la représentation

(29)

Yi∣Ki =k_i∼ G (k_i+ 1 2, 2) Ki ∼ P (δi

2).

Ainsi, en utilisant les propriétés d’additivité des distributions Gamma et Poisson, on trouve la représentation suivante :

T ∣K = k ∼ G ( r ∑ i=1 ki+ r 2, 2) K = r ∑ i=1 Ki ∼ P (∑ r i=1δi 2 ). (⋆ ⋆ ⋆)

Enfin, si on écrit la densité associée à ce mélange, il vient

fY(y) = ∞ ∑ k=0 e−δ2 (δ 2) k yk+r2−1e −y 2 k!Γ (k +₂r)2k+ r 2 ,

où δ = ∑r_i=1δi. On obtient alors la définition suivante.

Définition 27. Soient Yi ∼χ2₁(δ_i), i ≥ 1, des variables aléatoires indépendantes. On dit que T = ∑r_i=1Yi suit une loi décentrée du chi-deux à r degrés de liberté, si sa densité est

donnée par fT(t) = ∞ ∑ k=0 e− ∑ r i=1δi 2 (∑ r i=1δi 2 ) k k! tk+r2−1e −t 2 Γ (k + r₂)2k+ r 2 .

Remarque 28. On peut également écrire la densité de la Définition 27 de façon à faire ressortir la densité d’une χ2 _{standard à r + 2k degrés de liberté. En effet, on a}

fT(t) = e −λ 2 ∞ ∑ k=0 (λ₂) k k! gχ2r+2k(t),

(30)

dont la fonction de répartition s’exprime sous la forme : FT(t) = e −λ 2 ∞ ∑ k=0 (λ₂) k k! Gχ2r+2k(t), où G_χ2

r+2k(t) désigne la fonction de répartition d’une loi χ

2 _{standard à r + 2k degrés de}

liberté.

Lemme 29. Soit X ∼ χ2

r(λ), alors l’espérance et la variance de X sont données

respec-tivement par :

E(X) = r + λ

V(X) = 2(r + 2λ).

Démonstration. On utilise la représentation (⋆ ⋆ ⋆). En premier lieu, on a E(X) = EKE(T ∣K) =_{E(2K + r)} =λ + r. En second lieu, on a V(X) = EKV(T ∣K) + VKE(T ∣K) =_{E (4 (k +} r 2)) +V (2K + 2r) =2(r + 2λ).

Remarque 30. La distribution du χ2 _{décentrée peut également s’obtenir en tant que}

forme quadratique. En effet, comme on peut le voir dans [Mui09], on a que si X ∼ N_p(µ, Σ), alors

(31)

1. (X − µ)⊺_Σ−1_{(X − µ) ∼ χ}2 p,

2. X⊺_Σ−1_{X ∼ χ}2

p(δ = µ⊺Σ−1µ).

1.3.4 La distribution de Kummer

Définition 31. On note par1F1(a, b, z) la fonction hypergéométrique confluente de

Kum-mer de type I, aussi appelée la série hypergéométrique généralisée. La série hypergéomé-trique généralisée, qui converge pour z ∈ R, est la suivante :

1F1(a, b, z) = ∑

k≥0

(a)kzk

(b)kk!

,

où (a)k est la notation de Pochhammer, qu’on appelle également la factorielle

décrois-sante.

Définition 32. On note Φ(a, b, c) la fonction hypergéométrique confluente de Kummer de type II, qui correspond à la fonction suivante :

Φ(a, b, c) = 1 Γ(a)∫R+

ta−1(1 + t)b−a−1e−ct_{dt, a > 0, b ∈ R, c > 0.}

Dans [HV16], on reprend la fonction de la Définition 32 pour en déduire une densité de probabilité.

Définition 33. On dit qu’une variable aléatoire X suit une loi de Kummer de type II de paramètres a > 0, b ∈ R et c > 0, si sa densité est donnée par

fX(x) =

xa−1_{(1 + x)}−a−b_e−cx

Γ(a)Φ(a, 1 − b, c) 1((0,∞))(x). Remarque 34. Si l’on pose c = 0 dans la Définition 33, on a

fX(x) =

xa−1_{(1 + x)}−a−b_{Γ(a + b)}

(32)

qui correspond en fait à une densité Bêta de type II de paramètres a et b. De plus, si l’on pose b = −a dans la Définition 33, on a

fX(x) =

xa−1_e−cx

Γ(a)Φ(a, 1 + a, c)1((0,∞))(x) =

xa−1_e−cx

Γ(a)ca ,

qui correspond à une densité gamma de paramètres a et c.

1.3.5 La convolution

Ici, on définit l’opérateur de convolution, puis on présente une proposition montrant l’utilisation classique de la convolution en probabilités ou en statistique.

Définition 35 ([Bre10], chapitre 4). On définit L1_{(Ω) comme étant l’espace des fonctions}

intégrables de Ω dans R. De plus, on définit son extension en p dimensions par l’ensemble suivant :

Lp(Ω) = { f ∶ Ω → R∣ f est mesurable et ∣f ∣p∈ L1(Ω)}. Définition 36 ([Bre10], p.104). Soit f ∈ L1₍

Rn) et g ∈ Lp(_Rn) avec 1 ≤ p ≤ ∞. Alors, pour x ∈ Rn_{, la fonction y ↦ f (x − y) est intégrable sur R}n _{presque partout par rapport à}

la mesure choisie et l’on définit la convolution de f et g par (f ⋆ g)(x) =_∫

Rn

f (x − y)g(y)dy

Proposition 37. Soient X de densité fX et Y de densité gY deux variables aléatoires

indépendantes. Alors, la variable aléatoire Z = X + Y admet la densité suivante fZ(z) = (fX⋆g_Y)(z).

Démonstration. Voici une démonstration pour la cas n = 1. La proposition étant vraie pour n > 1, on réfère le lecteur Pour z ∈ R, on a :

(33)

P (X + Y ≤ z) = ∫

∞ −∞

P (Y ≤ z − x) fX(x)dx

On obtient directement le résultat en dérivant l’équation par rapport à z.

Remarque 38. La Proposition 37 est également vraie dans un contexte multivarié et l’idée de la démonstration reste la même.

Exemple 39. Soient X ∼ N (µX, σ2_X) et Y ∼ N (µ_Y, σ2_Y) deux variables aléatoires indé-pendantes. Soit Z = X + Y . Par la Proposition 37, on a que

fZ(z) = (fX ⋆g_Y)(z) = ∫ R e −(_{x−t−µX )}2 2σ2 X √ 2πσ2 X e −(_{t−µY )}2 2σ2 Y √ 2πσ2 Y dt = e −(_{x−µX −µY )}2 2(σ2 X+σ2Y) √ 2π(σ2 X+σY2) , et donc on a que Z ∼ N (µX +µ_Y, σ2_X+σ_Y2).

1.4 L’analyse prédictive

Avant d’aborder les concepts de l’analyse prédictive, on se doit de mentionner que deux écoles de pensée distinctes sont présentes dans le monde de la statistique : l’école fré-quentiste, qui est souvent la façon classique de présenter la statistique, ainsi que l’école bayésienne. On rappellera tout d’abord que la statistique est un outil permettant d’in-férence, soit d’interpréter, de décrire ou encore d’analyser un phénomène aléatoire. Elle peut également être utile lors de la prédiction pour ce type d’évènements. [Rob06]

(34)

Concept. Dans l’approche fréquentiste paramétrique, on a accès à un échantillon (x1, . . . ,

xn)et l’on désire inférer sur les paramètres θ, qui sont inconnus, permettant de modéliser la situation. On dira que la densité de ce modèle est donnée par une certaine fonction f (x∣θ) et que cette dernière devrait correspondre à la fonction de vraisemblance L(θ∣x). [CB02] Dans ce contexte, les tests d’hypothèses faisant intervenir des p-valeurs sont om-niprésents, ainsi que les méthodes d’estimation basées sur le maximum de vraisemblance. [CL08]

Concept. Dans l’approche bayésienne, on affecte une distribution, appelée loi a priori, à certaines quantités inconnues du modèle. [CL08] Le choix de cette distribution peut être justifié par l’intuition d’experts, par des expériences antérieures ou encore il s’agira d’un choix par défaut (on parlera dans ce cas de loi a priori non informative). Encore une fois, on a accès à un échantillon (x1, . . . , xn) et l’on désire inférer sur les paramètres θ inconnus. Par la suite, on utilisera le théorème de Bayes (d’où l’appellation) afin d’obtenir ce qu’on appelle une loi a posteriori, laquelle nous permettra d’inférer sur les paramètres θ du modèle.

Voici un exemple permettant de comparer les deux approches.

Exemple 40. On considère un échantillon x = (x1, . . . , xn) où x_i ∼ Ber(θ). Du côté fréquentiste, une approche consiste à considérer comme estimé de θ la valeur qui maximise la vraisemblance. On a donc

(35)

L(θ∣x) = n ∏ i=1 θxi₍_{1 − θ)}1−x1 =θ∑ n i=1xi_{(1 − θ)}n−∑ni=1xi_, (log L(θ∣x))′ =l(θ∣x) = ∑n_i=1xi θ − n − ∑ni=1xi 1 − θ . Si on résout l’équation l(θ∣x) = 0, on trouve aisément que θ = ∑n_i=1xi

n =x.¯

Considérons maintenant l’approche bayésienne. Un choix en absence d’information sur θ serait de poser θ ∼ U (0, 1). On trouve alors que la loi a posteriori est donnée par

π(θ∣x) = π(θ) ∏ n i=1f (xi∣θ) ∫ 1 0 π(θ) ∏ n i=1f (xi∣θ)dθ = θ ∑n_i=1xi₍_{1 − θ)}n−∑ni=1xi ∫ 1 0 θ∑ n i=1(1 − θ)n−∑ni=1dθ =θ ∑n_i=1xi+1−1₍_{1 − θ)}n−∑ni=1xi+1−1 B (∑ni=1xi+1, n − ∑n_i=1+1)

, (où B(⋅, ⋅) est la fonction Bêta)

ce qui correspond à une densité Bêta(∑n_i=1xi+1, n − ∑n_i=1x_i+1).

On trouve donc du côté fréquentiste l’estimé ∑n_i=1xi

n . Cet estimé est sans biais, c’est-à-dire

que Eθ(∑ n i=1xi n ) =θ et sa variance est V ( ∑n_i=1xi n ) = θ(1−θ)

n . Du côté bayésien on trouve plutôt

une densité et la variabilité de θ s’exprime à travers cette dernière. Remarquons que la moyenne de cette densité correspond à ∑n_i=1xi+1

n+2 et donc qu’à la limite, la différence entre

ces deux résultats est nulle. Ceci est dû au fait que la loi a posteriori résume l’information sur θ ; elle incorpore le choix a priori et l’observé x.

(36)

Dans ce mémoire, c’est l’approche bayésienne qui sera utilisée. On formalise le contexte bayésien est donnant la définition d’une règle de Bayes.

Définition 41. Pour une loi a priori π(θ) et une fonction de perte L(⋅, ⋅), on dit que δπ

est une règle de Bayes si ∀x ∈ X, δπ(x) minimise E (L(θ, d)∣ x) pour un certain d ∈ D, où D est l’espace des décisions.

Enfin, la statistique bayésienne permet de se pencher sur la problématique de la pré-diction d’une façon très intuitive. On supposera ici qu’on travaille avec les variables aléatoires X ∼ pθ et Y ∼ qθ, variables indépendantes conditionnellement à θ, c’est-à-dire

que P(X = x, Y = y∣θ) = P(X = x∣θ) P(Y = y∣θ)∀x, y. Le but de l’analyse prédictive est de tirer avantage des observations disponibles, ici issues de la densité pθ afin de faire une

prédiction pour la variable Y qui prend en compte la variabilité du paramètre θ. Encore mieux, on estimera la densité prédictive de Y , qui correspond à la distribution d’une innovation conditionnellement à l’observation d’un échantillon x, notée ˆqθ(y∣x). En effet,

en supposant que la loi a priori π(θ) est absolument continue par rapport à une mesure σ-finie ν(θ), on a ˆ qθ(y∣x) =∫ Θ q(y, θ∣x)dν(θ) = ∫ Θ q(y∣θ, x)π(θ∣x)dν(θ) = ∫ Θ q(y∣θ)π(θ∣x)dν(θ).

Exemple 42. Dans le contexte de l’Exemple 40, calculons la densité prédictive d’une nouvelle observation y ∼ Ber(θ). On a

(37)

ˆ q(y∣x) =_∫ 1 0 θy_{(1 − θ)}1−y θ∑ n i=1xi₍_{1 − θ)}n−∑ni=1xi B(∑ni=1xi+1, n − ∑n_i=1x_i+1) dθ = B(∑ n i=1xi+y + 1, n + 1 − ∑n_i=1x_i−y + 1) B(∑ni=1xi+1, n − ∑n_i=1x_i+1) , y = 0, 1.

(38)

CHAPITRE 2

Inférence a posteriori et prédictive sur

différents modèles

Dans le monde de la statistique, plusieurs modèles sont disponibles afin de modéliser un phénomène. Certains de ces modèles, plus standards, ont été étudiés sous plusieurs angles différents, que ce soit en considérant tous les paramètres comme étant inconnus ou encore en utilisant une information disponible afin de réduire la complexité du modèle. Dans la première section de ce chapitre, on considère les modèles normal et gamma lorsqu’un seul paramètre est inconnu. Ceci permettra de faire une brève revue de la littérature et aussi de mieux comprendre les outils à notre disposition lorsqu’on fait de l’inférence bayésienne. Différents cas limites seront développés et quelques résultats concernant la loi du χ2

décentrée seront abordés, démontrant l’importance de cette distribution. On terminera le chapitre par une section abordant le modèle normal-gamma en version multivariée, où cette fois, on aura deux paramètres inconnus. Les différentes propriétés de ce modèle seront exploitées au chapitre 4 se qui viendra alléger les calculs.

(39)

2.1 Modèle avec un seul paramètre inconnu

Nous verrons dans cette section différents résultats lorsque le paramètre de position pour une densité normale est inconnu puis lorsque le paramètre d’échelle est inconnu dans le cas d’une densité gamma. Nous présenterons également quelques exemples intéressants pour chacun de ces cas.

2.1.1 Modèle normal avec variance connue

Dans cette sous-section, on s’intéresse à l’inférence a posteriori pour θ et l’analyse pré-dictive pour le modèle

X ∼ Np(θ, σx21p), Y ∼ Np(θ, σ2y1p) (⋆) avec σ2

x et σ2y connues, et p ≥ 1.

Tout d’abord, on introduit un lemme qui nous sera utile pour plusieurs calculs dans cette section. Lemme 43. ∫_Rpe −(x−θ)⊺ (x−θ) 2σ2 e −(y−θ)⊺ (y−θ) 2τ 2 dθ = e −(x−y)⊺_(x−y) 2(τ 2+σ2) √ 2π √ τ 2+σ2 τ 2σ2 . Démonstration. On a que (x − θ)⊺_{(x − θ)} σ2 + (y − θ)⊺_{(y − θ)} τ2 = ( τ2₊_σ2 τ2_σ2 ) (θ − xτ2₊_yσ2 σ2₊_τ2 ) ⊺ (θ −xτ 2₊_yσ2 σ2₊_τ2 ) + (x − y)⊺₍_{x − y)} 2(σ2₊_τ2₎ . Ainsi, on obtient

(40)

∫ Rp e−(x−θ) ⊺ (x−θ) 2σ2 e −(y−θ)⊺ (y−θ) 2τ 2 dθ = e −(x−y)⊺ (x−y) 2(τ 2+σ2) ∫ Rp e −1 2( τ 2+σ2 τ 2σ2)(θ− xτ 2+yσ2 σ2+τ 2 ) ⊺ (θ−xτ 2+yσ2 σ2+τ 2 )_dθ =e −(x−y)⊺ (x−y) 2(τ 2+σ2) √ 2π √ τ2_+σ2 τ2_σ2 .

Lemme 44. Pour le modèle (⋆) et pour l’a priori uniforme πU(θ) ≡ 1, la densité a

posteriori de θ est de loi normale π(θ∣x) ∼ Np(x, σx21p)et la densité prédictive a posteriori de Y est également de loi normale ˆqU(y∣x) ∼ Np((x, (σ2x+σy2)1p).

Démonstration. Dans un premier temps, on a que π(θ∣x) ∝ f (x∣θ)π(θ) ∝e −1 2(θ−x) ⊺ (σx21p) −1 (θ−x)_.

Dans un deuxième temps, on a que ˆ qU(y∣x) =∫ Rp p(y∣θ)π(θ∣x)dθ = 1 (2πσxσy)p∫Rp e −1 2σ2_y(y−θ) ⊺ (y−θ) e −1 2σ2_x(x−θ) ⊺_(x−θ) dθ = e −1 2(σ2_x+σ_{y )}2 (y−x) ⊺_(y−x) (2π(σ2 x+σ2y)) p 2 ,

la dernière égalité étant obtenue en appliquant le lemme 43.

Il est également intéressant de considérer une borne inférieure comme contrainte pour θ dans le cas univarié. La présence de contraintes paramétriques survient dans plusieurs contextes (voir par exemple [M+_{02]) et a fait l’objet de nombreux travaux (comme par}

(41)

Proposition 45. Pour le modèle ¯X∣θ ∼ N (θ,σ_n2) et l’a priori θ ∼ N (µ, τ2)1_R₊(θ), la densité a posteriori de θ est de loi normale tronquée sur R+ N (µ

′_{, τ}′ 2₎ _{et la densité}

prédictive a posteriori de Y ∼ N (θ, σ2₎ _{est égale à :}

ˆ qπ(y∣¯x) = e −(y−µ′ )2 2(τ ′2+σ2) √ 2π (τ′ 2 +σ2) (1 − Φ (−M S )), où µ′ = xτ¯ 2_+µσ2 n τ2₊σ2 n , τ′ 2 = τ 2 σ2 n τ2₊σ2 n , M = yτ_τ′ 2′ 2+µ_+σ′2σ2 et S2= τ′ 2 σ2 τ′ 2_+σ2.

Démonstration. Comme la fonction indicatrice ne dépend pas des données, on déduit le résultat pour la densité a posteriori de θ avec le Lemme 44 et en prenant p = 1.

Pour la densité prédictive a posteriori de Y , il suffit d’appliquer dans un premier temps le Lemme 43, puis d’utiliser la relation entre les fonctions de densité et de répartition de la loi normale centrée et réduite. On a que

ˆ qπ(y∣¯x) =∫ R+ e−(y−θ)22σ2 √ 2πσ e −(θ−µ′ )2 2τ ′2 √ 2πτ′ dθ =e −(y−µ′ )2 2(τ ′2+σ2) 2πστ′ ∫ R+ e −1 2( τ′ 2_+σ2 τ ′2σ2)(θ− yτ′ 2_{+µ′ σ2} τ ′2+σ2 )_dθ = e −(y−µ′ )2 2(τ ′2+σ2) √ 2πστ′ S_∫ R+ φ (θ−M_S ) S dθ = e −(y−µ′ )2 2(τ ′2+σ2) √ 2π(τ′ 2 +σ2) (1 − Φ ( −M S )). Théorème 2.1. [GLX+_{06] Pour X∣θ ∼ N} p(θ, σx21p), Y ∣θ ∼ Np(θ, σy21p) prises comme étant conditionnellement indépendantes et n’importe quelle loi a priori π(θ) absolument

(42)

continue par rapport à une mesure σ-finie ν(θ), à condition que la loi a posteriori existe, on a que la densité prédictive a posteriori de Y est donnée par

ˆ qπ(y∣x) = mZ,π(z) mX,π(x) ˆ qU(y∣x),

où ˆqU(y∣x) est donnée dans le Lemme 44, Z =

Xσ2y+Y σ2x

σ2

x+σy2 et mW,π(w) est la marginale de

W donnée par ∫ f (w∣θ)π(θ)dν (θ).

Démonstration. Remarquons tout d’abord que ˆqπ(y∣x) = f (x,y)

mX,π(x). Il suffit alors de calculer

la densité conjointe de X et Y . On a que

f (x, y) =∫ Θ f (x∣θ)f (y∣θ)π(θ)dν(θ) =e −1 2(σ2_x+σ2_{y )}(y−x) ⊺_(y−x) (2πσxσy)p ∫Θ e −1 2( σ2_x+σ2_y σ2_xσ2_y )(θ− xσ2_{y +yσ}_x2 σ2_x+σ2_y ) 2 π(θ)dν(θ) =e −1 2(σ2_x+σ2_{y )}(y−x) ⊺_(y−x) (2π(σ2 x+σy2)) p 2 ∫ Θ f (z∣θ)π(θ)dν(θ) =qˆ_U(y∣x)m_Z,π(z).

On obtient l’avant dernière équation en remarquant que V(Z) = σ

2 xσy2

σ2

x+σy2 et en ajoutant les

termes manquants pour obtenir la densité de Z∣θ.

Remarque 46. Dans le Théorème précédent, rien n’exclut qu’on utilise une loi a priori discrète, ou de façon plus générale une densité a priori qui n’est pas absolument continue par rapport à la mesure de Lebesgue sur Rp_.

Exemple 47. Trouvons la densité prédictive a posteriori de Y dans le cadre du Théo-rème 2.1 avec l’a priori π(θ) ∼ Np(µ, τ21p), ∥θ∥ ≤ m où m > 0, c’est-à-dire que la norme

(43)

de θ est plus petite ou égale à une constante positive m. Commençons par calculer la marginale de X. En posant Cθ comme étant la constante de normalisation de la normale

tronquée, on a que mX,π(x) Cθ = ∫Rp e −1 2σ2_x(x−θ) ⊺_(x−θ) (2πσ2_x) p 2 e2τ 2−1(θ−µ) ⊺_(θ−µ) (2πτ2) p 2 1 (Bm)(θ)dθ, où Bm = {θ ∈ R p _{∶ ∥θ∥ ≤ m},} = e −1 2(τ 2+σ2_x)(x−µ) ⊺_(x−µ) (2πσ_xτ )p ∫_Rpe −1 2 ( τ 2+σ2_x τ 2σ2x )(θ− xτ 2+µσ2_x σ2x+τ2 ) ⊺ (θ−xτ 2+µσ2x σ2x+τ2 ) 1(Bm)(θ)dθ.

L’intégrale présente à la dernière ligne peut être réécrite comme étant une probabilité, soit P(∥θ∥ ≤ m∣X), où θ ∼ Np(xτ 2_+µσ2 x σ2 x+τ2 , τ2σ2x σ2 x+τ21p). Or, on a que θ √ τ′ ∼ N_p( µ′ √ τ′, 1p ) ⇒ ∥θ∥2 τ′ ∼χ 2 p( ∥µ′ ∥2 τ′ ), avec µ′ = xτ 2_+µσ2 x σ2 x+τ2 et τ ′ = τ 2_σ2 x σ2

x+τ2. Ainsi, si l’on note par Fk,∆(⋅) la fonction de répartition

d’une loi χ2 k(∆), on trouve que P(∥θ∥ ≤ m∣X) = P (∥θ∥ 2 τ′ ≤ m2 τ′ ∣X) = F_p,∥µ′∥2 τ ′ ( m2 τ′ ),

et l’on obtient finalement que mX,π(x)

Cθ = e −1 2(τ 2+σ2x) (x−µ)⊺_(x−µ) (2πσxτ )p F_p,∥µ′∥2 τ ′ (m 2 τ′ ).

De même, on trouve que la loi marginale de Z est

mZ,π(z) Cθ = e −1 2(τ 2+σ2z )(z−µ) ⊺_(z−µ) (2πσzτ )p F p,∥µ′z ∥ 2 τ ′_z ( m2 τ′ z ), où µ′ z = zτ2+µσ2z σ2 z+τ2 et τ ′ z = τ2σ2z σ2 z+τ2.

(44)

On trouve alors que ˆ qπ(y∣x) = e −1 2 (τ 2+σ2_x) X X X X X X X X X X X y−µσ2x+τ2x τ 2+σ2_x X X X X X X X X X X X 2 (τ 2+σ2_{y )σ}_x+τ2 2σ2y ₍ τ 2₊_σ2 x 2π((τ2₊_σ2 y)σx2+τ2σy2) ) p 2 F_p,∥µ′z ∥ 2 τ ′_z (m 2 τ′ z ) F p,∥µ′∥2_{τ ′} ( m2 τ′ ) ,

qui est tout simplement une densité normale Np(µy= µσ

2 x+τ2x τ2_+σ2 x , τy = ( τ2_+σ2 x (τ2_+σ2 y)σx2+τ2σy2) −1 1p) pondérée. De plus, on observe que

lim m→∞qˆπ(y∣x) ∼ Np(µy, τy1p), lim τ →∞qˆπ(y∣x) = e −∥y−x∥2 2(σ2_x+σ2_{y )} ( 1 2π(σ2 x+σy2) ) p 2 Fp,∥z∥2 σ2_z (m 2 σ2 z ) F p,∥x∥2 σ2_x (m 2 σ2 x) , lim τ,m→∞qˆπ(y∣x) = ˆqU(y∣x).

Dans le second cas, lorsque τ → ∞, on a que la densité a priori π se comporte comme une densité uniforme sur la boule Bm = {θ ∈ Rp ∶ ∥θ∥ ≤ m}. Ainsi, dans le cas où p = 1, on peut alors réécrire la densité obtenue ci-dessus de manière équivalente :

lim τ →∞qˆπ(y∣x) = e −(y−x)2 2(σ2_x+σ_{y )}2 2π(σ2 x+σ2y) Φ (m σz − √ ∥z∥ σ2 z ) −Φ (−_σm z − √ ∥z∥ σ2 z ) Φ (_σm x − √ ∥x∥ σ2 x) −Φ (− m σx − √ ∥x∥ σ2 x) .

Le résultat qui suit, présenté dans [Str03], utilise une approche quelque peu différente. Tout d’abord, introduisons le concept de règle de Bayes ainsi que l’identité de Stein [Ste81].

Lemme 48 (Identité de Stein). Soient X ∼ Np(θ, σ21p) et g(x) = (g₁(x), . . . , g_p(x))⊺ une fonction de Rp _{dans R}p _{telle que E (∥g(X)∥}2_{) < ∞}_{. Alors, E((X − θ)}⊺_{g(X)) =}

σ2

(45)

Démonstration. On commence par considérer le cas univarié X ∼ N (θ, σ2_{). On a} E((X − θ)g(X)) = ∫ R (x − θ)e −(x−θ)2 2σ2 √ 2πσ2g(x)dx = −σ2e −(x−θ)2 2σ2 √ 2πσ2g(x) R R R R R R R R R R R R R ∞ −∞ +σ2_∫ R e−(x−θ)22σ2 √ 2πσ2g ′_(x)dx =0 + σ2_E(g′(X)). Pour le cas X ∼ Np(θ, σ21p), on a E((X − θ)⊺g(X)) = E ( p ∑ i=1 (Xi−θ_i)g_i(X_i)) = p ∑ i=1 E ((Xi−θ_i)g_i(X_i)) =σ2 p ∑ i=1 E ( ∂ ∂Xi

gi(Xi)), qui correspond au cas univarié

=σ2_{E (} p ∑ i=1 ∂ ∂Xi gi(Xi)) =σ2_{E(div g(X)).}

La représentation qui suit pour la règle de Bayes peut être retrouvée dans [GMS87]. Théorème 2.2. Soit X∣θ ∼ Np(θ, σ21p) et supposons également que l’on dispose de la fonction de perte quadratique L(θ, d) = ∥d − θ∥2. Alors, pour n’importe quelle loi a priori π(θ), la règle de Bayes, qui correspond dans ce cas à l’espérance a posteriori de θ lorsque V(θ∣x) existe, est donnée par

δπ(x) = E(θ∣x) = x + σ2

∇m(x) m(x) ,

(46)

où m(x) =_∫_Θ_σ1pφ (

x−θ

σ )π(θ)dν(θ) et ∇ désigne le gradient d’un vecteur par rapport à x.

Démonstration. Remarquons tout d’abord qu’on peut écrire E(θ∣x) = E(x + θ − x∣x) = x + E(θ − x∣x). De plus, on a pour i = 1, . . . , p, en utilisant le fait que φ′₍_{t) = −tφ(t) :}

σ2 ∂ ∂xim(x) m(x) =σ 2∫Θ ∂ ∂xi( φ(x−θ_σ )π(θ) σp ) m(x) dν(θ) =σ2_∫ Θ (θ_i−x_i)φ (x−θ σ )π(θ) σp+2_m(x) dν(θ) = ∫ Θ (θi−x_i)π(θ∣x)dν(θ) =_{E [(θ}_i−x_i)∣x] .

Les résultats techniques qui suivent seront primordiaux pour les prochains exemples. Lemme 49. Soit Fk,λ la fonction de répartition d’une χ2_k(λ) avec k > 0 et λ > 0. Alors,

la dérivée partielle de cette fonction par rapport à λ est donnée par ∂Fk,λ(x)

∂λ =

Fk+2,λ(x) − Fk,λ(x)

2 , λ > 0, x > 0.

Démonstration. On a, par la représentation donnée à la Remarque 28, que Fk,λ(x) = e−λ2 _∑∞

j=0 (λ₂)

j

j! Gk+2j(x), où Gk est la répartition d’une χ 2 k. Alors, ∂Fk,λ(x) ∂λ = −e −λ 2 2 ∞ ∑ j=0 (λ₂) j j! Gk+2j(x) + e −λ 2 ∞ ∑ j=1 (λ₂) j−1 2(j − 1)!Gk+2j(x) = −F_k,λ(x) 2 +e −λ 2 ∞ ∑ l=0 (λ 2) l 2(l)!Gk+2+2l(x) = Fk+2,λ(x) − Fk,λ(x) 2 .

(47)

Les deux prochains corollaires peuvent se déduire directement du Lemme 49. Ils s’avèrent utiles si l’on désire obtenir des formes analytiques pour des densités du χ2 _{décentrées où}

le degré de liberté est un nombre impair (voir Exemple 51).

Corollaire 50. [Coh88] Soient fk,λ(x) la fonction de densité d’une χ2_k(λ) et gk,λ(x) =

ex+λ2 f_k,λ(x), où k > 0. Alors, la dérivée partielle de f par rapport à λ est donnée par

∂

∂λfk,λ(x) =

fk+2,λ(x) − f_k,λ(x)

2 .

De plus, la dérivée partielle de g par rapport à λ est donnée par

∂

∂λgk,λ(x) =

gk+2,λ(x)

2 .

Démonstration. La première équation s’obtient directement en utilisant la relation pré-sentée au Lemme 49 et en prenant la dérivée partielle par rapport à x de chaque côté. Pour ce qui est de la deuxième expression, on a

∂ ∂λgk,λ(x) = ∂ ∂λ(e x+λ 2 f_k,λ(x)) = ex+λ2 2 fk+λ(x) + e x+λ 2 ₍fk+2,λ (x) − f_k,λ(x) 2 ) = ex+λ2 f_k+2,λ(x) 2 = gk+2,λ(x) 2 .

Voici un court exemple qui montre comment on peut utiliser quelques-unes des relations que l’on vient d’établir.

(48)

Exemple 51. Comme on peut écrire, f1,λ(x) = x−12 √ 2πe −x 2 e −λ 2 cosh ( √ xλ) , (voirlasection 1.3.3 et que ∂ ∂λg1,λ(x) = ∂ ∂λ cosh ( √ xλ) √ 2πx = sinh ( √ xλ) 2√2πλ ,

on trouve en utilisant le Corollaire 50 que f3,λ(x) =

e−x2 e−λ2 sinh(√xλ) √

2πλ .

Lemme 52. Soient Fk,λ(x) et fk,λ(x) les fonctions de répartition et de densité d’une

χ2

k(λ). Alors, on a la relation suivante :

Fk+2,λ(x) − Fk,λ(x)

2 = −fk+2,λ(x). (2.1)

Démonstration. On a tout d’abord que

Fk+2,λ(x) − F_k,λ(x) = e −λ 2 ∞ ∑ j=0 (λ₂) j j! [Gk+2+2j(x) − Gk+2j(x)] −2f_k+2,λ(x) = e −λ 2 ∞ ∑ i=0 (λ₂) i i! ⎡ ⎢ ⎢ ⎢ ⎢ ⎣ −2 x i+k₂_e−x₂ Γ (k₂+i + 1) 2 k 2+i+1 ⎤ ⎥ ⎥ ⎥ ⎥ ⎦ .

Ainsi, il suffit de montrer que

Gk+2+2j,λ(x) − Gk+2j(x) = −2 xj+k₂_e−x₂ Γ (k₂+j + 1) 2 k 2+j+1 . (●) Or, on a que

(49)

Gp(x) =∫ x 2 0 tp2−1e−t Γ (p₂) dt = −e−x 2 (x 2) p 2−1 Γ (p₂) +G_p−2(x),

en faisant l’intégrale par partie. Ainsi, on trouve que Gk+2+2j,λ(x)−Gk+2j(x) = −e

−x 2xk2+j

Γ(k₂+j+1)2k2+j

, ce qui montre le résultat.

Exemple 53. On considère la règle de Bayes pour X∣θ ∼ Np(θ, σ21_p) avec la loi a priori π(θ) = 1(Bm)(θ), où Bm = {θ ∈ Rp∣ ∥θ∥ ≤ m}. Alors, il suffit de calculer la loi marginale

de X ainsi que son gradient pour pouvoir appliquer le Théorème 2.2. On a

mπ(x) =∫ Bm (2πσ2)− p 2e− ∥x−θ∥2 2σ2 dθ =_{P(∥Y ∥}2 ≤m2), où Y ∼ N_p(x, σ21_p) =F p,∥x∥2 σ2 ( m2 σ2),

où Fk,∆ est la fonction de répartition d’une loi χ2_k(∆). Alors, en utilisant le Lemme 49 et le Théorème 2.2, on trouve que

δπ(x) = x + σ2 2x [F p+2,∥x∥2 σ2 (m 2 σ2) −F p,∥x∥2 σ2 (m 2 σ2)] 2σ2_F p,∥x∥2 σ2 (m 2 σ2) , (⋆⋆) =x F p+2,∥x∥2 σ2 (m 2 σ2) F p,∥x∥2 σ2 (m2 σ2) .

(50)

Si on se restreint au cas p = 1 et lorsque θ ∈ (a, b), il y a donc une troncature à gauche et à droite, on trouve de façon analogue que m(x) = _2(b−a)1 (Φ (x−a

σ ) −Φ ( x−b σ )), m ′ (x) = 1 2(b−a)σ(φ ( x−a σ ) −φ ( x−b σ )), d’où δπ(x) = x + σ2 φ (x−a_σ ) −φ (x−b_σ ) σ (Φ (x−a_σ ) −Φ (x−b_σ )) =x + σ φ (x−a_σ ) −φ (x−b_σ ) Φ (x−a_σ ) −Φ (x−b_σ ) . (●●)

On a alors une expression permettant de traiter différents cas où θ ∈ C ⊂ R. Un des cas intéressants est celui où C = Bm. Dans ce cas, on trouve, à partir de (●●), que

δπ(x) = x + σ

φ (x+m_σ ) −φ (x−m_σ ) Φ (x+m_σ ) −Φ (x−m_σ )

. (⋆ ⋆ ⋆)

Enfin, on peut se demander comment les représentations (⋆⋆) et (⋆ ⋆ ⋆) sont équivalentes pour p = 1 et θ ∈ Bm. Dans un premier temps, on peut réécrire (⋆⋆) de la façon suivante :

δπ(x) = x + 2x −f 3,x2 σ2 (m 2 σ2) F_1,x2 σ2 (m2 σ2) =x + 2x −f 3,x2 σ2 (m 2 σ2) Φ (x+m_σ ) −Φ (x−m_σ ) .

(51)

f 3,x2 σ2 (m 2 σ2) = e−m22σ2e −x2 2σ2 √ 2π √ x2 σ2 (e xm σ2 −e −xm σ2 2 ) = −σ 2x ⎛ ⎜ ⎝ e−(x+m)22σ2 √ 2π − e−(x−m)22σ2 √ 2π ⎞ ⎟ ⎠ = −σ 2x(φ ( x + m σ ) −φ ( x − m σ )), d’où δπ(x) = x + σ φ (x+m_σ ) −φ (x−m_σ ) Φ (x+m_σ ) −Φ (x−m_σ ) .

2.1.2 Modèle gamma avec paramètre d’échelle inconnu

Dans cette sous-section, on va continuer d’explorer le même type de scénario. Cette fois, la base du modèle sera la loi gamma plutôt que la loi normale, c’est-à-dire qu’on a X∣β ∼ G(α, β). On cherchera ici aussi à identifier les lois a posteriori pour β ainsi que la loi prédictive d’une nouvelle observation Y ∣β ∼ G(γ, β) lorsque les paramètres α et γ sont connus.

Un premier cas intéressant survient avec le choix de la loi a priori non informative usuelle pour β. En fait, le résultat qui suit est un peu l’équivalent du Lemme 44 mais dans un contexte de loi gamma.

Lemme 54. Pour X∣β ∼ G(α, β), Y ∣β ∼ G(γ, β) prises comme étant conditionnellement indépendantes et l’a priori π0(β) =

1(_R+)(β)

β , la densité a posteriori de β est de loi inverse

(52)

ˆ qπ0(y∣x) = Γ(α + γ) Γ(α)Γ(γ)(1 + x y) 1−γ (1 + y x) −α ₁ x + y1((0,∞))(y). Démonstration. Dans un premier temps, on a pour β > 0 :

π0(β∣x) ∝ f (x∣β)π0(β)

∝ e−xβ

βα+1.

Dans un deuxième temps, on a que ˆ qπ0(y∣x) =∫ R+ f (y∣β)π(β∣x)dβ = ∫ R+ yγ−1_e−yβ Γ(γ)βγ xα_e−xβ Γ(α)βα+1dβ = yγ−1_xα Γ(γ)Γ(α)∫R+ e−(x+y)β βα+γ+1dβ = Γ(α + γ) Γ(α)Γ(γ)(1 + x y) 1−γ (1 +y x) −α ₁ x + y.

Remarque 55. La densité prédictive a posteriori sous π0 peut se réécrire de la façon

suivante ˆ qπ0(y∣x) = Γ(α + γ) Γ(α)Γ(γ) 1 x( y x) γ−1 (1 + y x) −(α+γ) ,

ce qui correspond à une densité Bêta de type II de paramètres (γ, α) et de paramètre d’échelle x.

Pour d’autres a prioris, la représentation suivante fut obtenue par L’Moudden et coll. dans [LMKS17].

(53)

Théorème 2.3. Pour X∣β ∼ G(α, β), Y ∣β ∼ G(γ, β) prises comme étant conditionnel-lement indépendantes par rapport à β et n’importe quelle loi a priori π(β) absolument continue par rapport à une mesure σ-finie ν(β), la densité prédictive a posteriori de Y est donnée par

ˆ qπ(y∣x) = ˆqπ0(y∣x) mZ,π(z) mX,π(x) z x,

où ˆqπ0(y∣x) est donnée au Lemme 54, Z = X + Y et mW,π(w) =∫Θf (w∣β)π(β)dν(β).

Démonstration. On utilisera encore une fois la décomposition ˆqπ(y∣x) = f (x,y) mX,π(x). On a que f (x, y) =_∫ R+ f (x∣β)f (y∣β)π(β)dν(β)(par indépendance) = xα−1_yγ−1 Γ(α)Γ(γ)∫R+ e−(x+y)β βα+γ π(β)dν(β) = xα−1_yγ−1 Γ(α)Γ(γ) Γ(α + γ) (x + y)α+γ−1∫_R+ f (z∣β)π(β)dν(β) =qˆ_π₀(y∣x)m_Z,π(z)z x, d’où le résultat.

Exemple 56. Trouvons la densité prédictive a posteriori de Y dans le cadre du Théo-rème 2.3 avec l’a priori π(β) ∼ IG(α0, β0). Calculons dans un premier temps la loi marginale de X. On a que mX,π(x) =∫ R+ xα−1_e−xβ Γ(α)βα βα0 0 e −_β0 β Γ(α0)βα0+1dβ = Γ(α + α0) Γ(α)Γ(α0) 1 x( x x + β0 ) α ( β0 x + β0 ) α0 , pour x > 0.

(54)

De la même façon, on trouve que mZ,π(x + y) = Γ(α + α0+γ) Γ(α + γ)Γ(α0) 1 x + y( x + y x + y + β0 ) α+γ ( x + β0 x + y + β0 ) α0 , pour x + y > 0.

Enfin, on peut trouver la densité prédictive de Y a posteriori, qui est de la forme

ˆ qπ(y∣x) = Γ(α + α0 +γ) Γ(α + α0)Γ(γ) 1 x + β0+y (1 +x + β0 y ) 1−γ (1 + y x + β0 ) −(α+α0) .

On remarque qu’il s’agit d’une densité Bêta de type II de paramètres (γ, α + α0) et de paramètre d’échelle x + β0, le cas α0=β₀ =0 nous ramenant au Lemme 54.

2.2 Modèle normal-gamma

Cette sous-section porte sur un modèle connu, le modèle normal-gamma. On présentera quelques propriétés importantes de ce modèle et on tirera profit de ces propriétés au cours des prochains chapitres.

Définition 57. On dit que le couple (u, v) est de loi normale-gamma avec paramètre µ ∈ Rp_{, λ > 0, α > 0 et β > 0, que l’on note (u, v) ∼ N}

pG (µ, λ, α, β) si

u∣v ∼ Np(µ, 1 λv1p), v ∼ G(α, β).

Il en découle que la densité conjointe de (u, v) est alors donnée par f (u, v) = β α_λp₂ Γ(α)(2π)p2 vα−1+p2e−βve −1 2(u−µ) ⊺ (λv1p)(u−µ)_{, u ∈ R}p_{, v > 0.}

(55)

Le prochain résultat donne la marginale de u.

Lemme 58. Soit (u, v) ∼ NpG (µ, λ, α, β). Alors, la loi marginale de u est :

u ∼ tp(2α, µ, β αλ1p). Démonstration. On a f (u) =_∫ R+ βα_λp2 Γ(α)(2π)p2 vα+p2−1e−v(β+ 1 2(u−µ) ⊺ (λ1p)(u−µ))_dv = β α_λp₂ Γ(α)(2π)p2 Γ (2α + p 2 ) (β + 1 2(u − µ) ⊺ (λ1_p)(u − µ)) −(2α+p 2 ) = Γ (2α+p₂ ) Γ (2α 2 ) (2απ) p 2 ∣ β αλ1p∣ −1 2 (1 + 1 2α(u − µ) ⊺ ( β αλ1p) −1 (u − µ)) −(2α+p 2 ) .

On reconnaît alors la densité de Student de dimension p, telle que vue au chapitre 1, avec les paramètres donnés.

Lemme 59. Soient X1, . . . , Xn iid Np(θ, η−1). Soit (θ, η) ∼ NpG (µ, λ, α, β). Soient

égale-ment ¯X = _n1∑n_i=1Xi et S2= _n1∑n_i=1(Xi− ¯X)⊺(X_i− ¯X). Alors, la loi a posteriori de (θ, η) est également normale-gamma de dimension p avec les paramètres : µ0 = xn+µλ¯_λ+n , λ₀ =λ + n, α0 =n−1+p 2 +α et β0=β + ns2_+nλ(¯_x−µ)⊺_(¯_x−µ) 2 . Démonstration. On a f_{θ,η∣ ¯}_X,S(θ, η) ∝ 1 ∣η −1 n 1p∣ 1 2 e −1 2(¯x−θ) ⊺ (η −1 n 1p) −1 (¯x−θ) e− ns2η 2 (η−1₎n−12 ηα−1+p₂_e−βη_e−1₂(θ−µ)⊺ (λη1p)(θ−µ) ∝η n−1 2 +α−1+pe −η(β+ns2₂ ) e−η2 (n(¯x−θ) ⊺ (¯x−θ)+λ(θ−µ)⊺ (θ−µ)) ∝η n−1 2 +α−1+pe−η(β+ ns2 2 )_e −1 2( (¯x−µ)⊺ (¯x−µ) λ+n )(nλη)+η(n+λ)(θ− ¯ xn+µλ λ+n ) ⊺ (θ−xn+µλ¯_λ+n ) ∝η n 2+α−1+ p 2+ p 2− 1 2e −η(β+ns2+(¯x−µ)₂⊺(¯x−µ)nλ) e −η 2 (n+λ)(θ− ¯ xn+µλ λ+n ) ⊺ (θ−¯xn+µλ_λ+n ) , θ ∈ Rp, η > 0.

(56)

On reconnaît alors la densité d’une normale-gamma de dimension p avec les paramètres donnés.

Remarque 60. Voici quelques remarques à propos du Lemme 59. ● Selon la Définition 57, on a que η∣ ¯X, S ∼ G (α +n−1+p₂ , β +ns

2_+nλ(x−µ)⊺_(x−µ)

2 ).

● Le paramètre µ₀ s’exprime comme une combinaison convexe de la moyenne expéri-mentale et la moyenne a priori. En effet, on a µ0 =x (¯ n

λ+n) +µ (1 − n

λ+n). On voit

bien que lorsque n → ∞, µ0 →x et donc que l’influence de la loi a priori finit par¯ disparaître.

● Il y a une mise à jour additive avec l’inverse des variances : 1

V(θi∣η) +

1 V(X¯i∣η,θ) =

1

V(θi∣η, ¯X,S), où ¯Xi représente la i-ième composante de ¯X, pour i = 1, . . . , d. En effet,

on a λη + nη = η(λ + n).

Corollaire 61. Sous les conditions du Lemme 59, la loi a posteriori de θ est la suivante :

π(θ∣ ¯X, S) ∼ tp(2α0, µ0,

β0

λ0α01 p).

Démonstration. Immédiat en appliquant le Lemme 58 et le Lemme 59.

Théorème 2.4. Pour Y ∣θ, η ∼ Np(θ, η−1) et (θ, η) ∼ N_pG (µ, λ, α, β), la densité prédictive de Y est tp(2α₀, µ₀,β0(1+λ0)

λ0α0 1p).

Démonstration. Afin de faciliter les calculs, on pose A = y+λ0µ0

λ0+1 et B = β0+

λ0

2(λ0+1)(y −µ0)

2_.