• Aucun résultat trouvé

Sur l’évaluation de densités prédictives pour des modèles de loi Gamma

N/A
N/A
Protected

Academic year: 2021

Partager "Sur l’évaluation de densités prédictives pour des modèles de loi Gamma"

Copied!
99
0
0

Texte intégral

(1)Sur l’´ evaluation de densit´ es pr´ edictives pour des mod` eles de loi Gamma. par. Carl Lapointe. m´emoire pr´esent´e au D´epartement de math´ematiques en vue de l’obtention du grade de maˆıtre `es sciences (M.Sc.). ´ DES SCIENCES FACULTE ´ DE SHERBROOKE UNIVERSITE. Sherbrooke, Qu´ebec, Canada, octobre 2018.

(2) Le 29 octobre 2018, le jury suivant a accept´e ce m´emoire dans sa version finale.. Directeur :. ´ Marchand M. Eric D´epartement de math´ematiques. Pr´esident-rapporteur :. M. Taoufik Bouezmarni D´epartement de math´ematiques. ´ Evaluateur externe :. M. Patrick Richard D´epartement d’´economique. ii.

(3) SOMMAIRE L’inf´erence statistique est un domaine qui ´evolue constamment, et on cherche continuellement de nouvelles m´ethodes d’inf´erence, notamment celles li´ees a` la pr´evision. Le pr´esent m´emoire traitera de l’estimation d’une densit´e pr´edictive par une loi Gamma. Apr`es un bref survol des notions de base et de r´esultats connus, nous travaillerons `a d´eterminer l’efficacit´e de la loi Gamma g´en´eralis´ee comme densit´e pr´edictive en comparaison tout d’abord avec la loi Gamma standard, puis nous ferons la mˆeme comparaison entre la loi Gamma standard et la loi Gamma avec expansion de la variance. Pour ce faire, nous utiliserons deux fonctions de perte qui nous permettrons d’´evaluer l’efficacit´e d’une densit´e pr´edictive par rapport `a une autre. On d´efinira tout d’abord, au chapitre 1, le contexte du probl`eme ainsi les notions de bases n´ecessaires a` ce travail tels les fonctions de perte pertinentes, la densit´e Gamma, les estimateurs par substitution et l’approche Bay´esienne. Nous verrons par la suite, au chapitre 2, certains r´esultats connus qui s’apparentent a` ceux qui nous int´eressent, nous donnant par le fait mˆeme des pistes de solution. Finalement, au chapitre 3, nous ferons l’´etude de l’efficacit´e des densit´es pr´edictives Gamma avec expansion de la variance ainsi que Gamma g´en´eralis´ee, respectivement sous les pertes L1 et Kullback-Leibler, en se basant sur des r´esultats obtenus dans le papier de L’Moudden et coll. (2017).. iii.

(4) REMERCIEMENTS ´ Je tiens tout d’abord a` remercier mon directeur de maˆıtrise, M. Eric Marchand, dans un premier temps d’avoir su voir en moi un candidat potentiel a` la maˆıtrise malgr´e un relev´e de notes peu reluisant a` l’´epoque du baccalaur´eat, mais ´egalement pour ses apprentissages, son soutien moral et pour la disponibilit´e qu’il m’a consacr´ee malgr´e la distance qui nous s´eparait. Merci aussi a` M. Aziz L’Moudden pour l’aide qu’il m’a apport´ee a` certains moments dans le parcours ainsi qu’`a tous les autres consoeurs et confr`eres math´ematiciens qui ont ´et´e pr´esents tout au long de mon parcours. Sur une note plus l´eg`ere, merci au Boqu´ebi`ere pour les soir´ees quiz, au Club de judo To-HakuKan et a` Yannick Degasne de m’avoir accept´e dans leur grande famille pendant mon passage. Finalement merci `a ma conjointe Marie, que j’ai suivie a` Sherbrooke et sans qui je n’aurais pu vivre cette grande aventure qu’´etait la maˆıtrise en math´ematiques.. Carl Lapointe Chicoutimi, juin 2018. iv.

(5) ` TABLE DES MATIERES. SOMMAIRE. iii. REMERCIEMENTS. iv. ` TABLE DES MATIERES. v. LISTE DES TABLEAUX. ix. LISTE DES FIGURES. x. INTRODUCTION. 1. CHAPITRE 1 — G´ en´ eralit´ es et r´ esultats pr´ ec´ edents. 7. 1.1. Nature du probl`eme et d´efinitions g´en´erales . . . . . . . . . . . . . . . .. 7. 1.2. Fonctions de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. Perte L1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 1.2.1. 1.2.1.1. Lien avec le coefficient de recouvrement . . . . . . . . . v. 11.

(6) 1.3. 1.4. 1.5. 1.2.2. Perte Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . .. 15. 1.2.3. Autres fonctions de perte . . . . . . . . . . . . . . . . . . . . . . .. 18. 1.2.3.1. Perte Hellinger . . . . . . . . . . . . . . . . . . . . . . .. 18. 1.2.3.2. Perte α − divergence . . . . . . . . . . . . . . . . . . . .. 19. Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 1.3.1. D´efinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 1.3.2. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 1.3.2.1. Processus de Poisson et th´eorie des files d’attentes . . .. 21. 1.3.2.2. Inf´erence pour la variance . . . . . . . . . . . . . . . . .. 22. 1.3.2.3. R´egression lin´eaire multiple . . . . . . . . . . . . . . . .. 23. Estimateurs par substitution (Plug-in) . . . . . . . . . . . . . . . . . . .. 24. 1.4.1. D´efinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 1.4.2. Dualit´e des fonctions de pertes entre les densit´es et leurs param`etres 25 1.4.2.1. Cas Gamma avec perte Kullback-Leibler . . . . . . . . .. 25. 1.4.2.2. Cas de la loi Normale avec perte Kullback-Leibler . . . .. 27. 1.4.2.3. Cas normale avec perte L1 . . . . . . . . . . . . . . . . .. 27. 1.4.2.4. Cas normale avec perte Hellinger . . . . . . . . . . . . .. 28. Approche Bay´esienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30. 1.5.1. D´efinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30. 1.5.2. Cas Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31. vi.

(7) 1.5.3. Cas de la loi normale . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 1.5.4. Cas g´en´eral pour les familles d’´echelle . . . . . . . . . . . . . . . .. 36. CHAPITRE 2 — Am´ elioration par l’expansion d’´ echelle. 38. 2.1. Nature des r´esultats. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. 2.2. Cas de la loi normale et perte Kullback-Leibler . . . . . . . . . . . . . . .. 39. 2.3. Perte L1 : Cas de la loi normale et autres densit´es sym´etriques et logconcaves. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. CHAPITRE 3 — Densit´ es pr´ edictives pour un mod` ele Gamma. 43. 54. 3.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. 3.2. R´esultats de dominance Kullback-Leibler par expansion de la variance . .. 55. 3.3. ´ Etude des densit´es Gamma g´en´eralis´ee avec perte Kullback-Leibler . . . .. 62. 3.3.1. D´efinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. 3.3.2. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. 3.3.3. Perte Kullback-Leibler et loi Gamma g´en´eralis´e . . . . . . . . . .. 63. ´ Etude de performance pour la perte L1 . . . . . . . . . . . . . . . . . . .. 73. 3.4.1. Notions pr´ealables pour perte L1 . . . . . . . . . . . . . . . . . .. 73. 3.4.2. Perte L1 et densit´e Gamma expansion de la variance . . . . . . .. 77. 3.4.3. Analyse de r´esultats . . . . . . . . . . . . . . . . . . . . . . . . .. 78. ´ Etude des densit´es Gamma g´en´eralis´ee avec perte L1 . . . . . . . . . . . .. 81. 3.4. 3.5. vii.

(8) 3.5.1. Gain obtenu par la valeur c qui minimise le risque avec densit´e pr´edictive Gamma G´en´eralis´ee . . . . . . . . . . . . . . . . . . . .. 81. CONCLUSION. 84. BIBLIOGRAPHIE. 86. viii.

(9) LISTE DES TABLEAUX 2.1. 2 Gain sur le risque et valeur de c0 selon le rapport σY2 /σX .. . . . . . . . .. 53. 3.1. Valeur du multiple a∗ , de c∗ (a∗ ) et du risque minimal pour a∗ selon α. . .. 81. ix.

(10) LISTE DES FIGURES 1.1. La perte L1 entre deux densit´es q1 et q2 . . . . . . . . . . . . . . . . . . .. 1.2. Coefficient de recouvrement entre deux lois normales de mˆeme moyenne selon le rapport R =. σ1 . σ2. . . . . . . . . . . . . . . . . . . . . . . . . . . .. Valeur de Δ pour μ ∈ (−1, 1) avec c =. 9. 15. c0 (m(μ)) . . . . . . . . . .. 42. 2.2. Valeur du rapport Rc (μ)/R1 (μ) selon μ pour c = c0 (μ) . . . . . . . . . .. 43. 2.3. Risque L1 pour densit´e Laplace lorsque β = 1. . . . . . . . . . . . . . . .. 51. 2.4. Risque L1 pour le cas normale lorsque σX = σY = 1. . . . . . . . . . . . .. 52. 3.1. ˆ Risque entropie pour β(X) = aX pour diff´erentes valeurs de a avec α1 = 3,. 2.1. inf μ∈(−1,1). α2 = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. ˆ Risque de l’estimateur de densit´e pr´edictive β(X) =. X α1 −1. 57. pour α1 = 3,. α2 = 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 60. 3.3. Risques des estimateurs de densit´e pr´edictive, β ≥ 2, α1 = 4, α2 = 6.. . .. 61. 3.4. Risque Kullback-Leibler de qβˆa(c) ,c , α1 = 3, α2 = 5. . . . . . . . . . . . . .. 67. 3.5. Risque Kullback-Leibler de qˆβˆa ,c , a = 4, α1 = 1.9, α2 = 20. . . . . . . . .. 72. x.

(11) 3.6. Exemple de deux densit´es Gamma ayant deux points d’intersection . . .. 73. 3.7. Exemple de deux densit´es Gamma n’ayant qu’un seul point d’intersection. 74. 3.8. Coefficient de recouvrement entre deux lois exponentielles selon le rapport R=. 3.9. θ1 θ2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 77. Risque L1 avec Gamma expansion de la variance selon le param`etre c avec ˆ α1 = 3, α2 = 5 et β(X) =. X . α1. . . . . . . . . . . . . . . . . . . . . . . . .. 78. selon α1 pour diff´erentes valeurs α2 fix´ees. . . .. 79. 3.11 Comparaison du risque pour diff´erents estimateurs qˆ selon α1 . . . . . . .. 80. 3.12 Valeur de a qui minimise le risque pour le cas α1 = α2 = α. . . . . . . . .. 80. 3.10 Rapport des risque. R(1) R(c∗ ). 3.13 Rapport R(1)/R(c∗ ) du risque Kullback-Leibler avec Gg(α2 , αx1 , c) pour diff´erentes valeurs de α1 , α2 . . . . . . . . . . . . . . . . . . . . . . . . . .. 82. R(1) du risque Gg(α2 , αx1 , c) pour diff´erentes valeurs de α1 , α2 . R(c∗ ). 83. 3.14 Rapport. xi.

(12) INTRODUCTION L’inf´erence statistique constitue l’une des applications les plus courantes des math´ematiques. On la voit principalement au quotidien lorsqu’on lit les r´esultats d’un sondage, mais aussi dans un geste aussi banal que de choisir une grappe de raisin a` l’´epicerie en goutant `a un seul raisin du lot. On cherche donc a` pr´edire des r´esultats sur une population a` l’aide de quelques donn´ees amass´ees sur le terrain. Ces pr´edictions de valeurs futures ou manquantes sont au cœur de l’´etude des statistiques. L’´etude de ces r´esultats sur un ´echantillon nous a men´e a` mieux comprendre certains ph´enom`enes. Par exemple, le regroupement de donn´ees dans un histogramme nous a men´e `a y voir une forme constante pour ph´enom`enes distincts et a ainsi men´e `a l’´elaboration de la fonction de densit´e de la loi normale. En d´eveloppant ainsi diff´erentes fonctions de densit´es, nous nous sommes plac´es en meilleure position afin de mieux comprendre divers comportements, ou encore mieux pr´edire certains ´ev´enements al´eatoires. L’une d’entre elles est la loi Gamma, ayant pour densit´e :. x. xα−1 e− β p(x) = 1[0,∞) (x), avec α, β > 0, Γ(α)β α. (1). o` u 1X (x) correspond a` la fonction indicatrice sur X. Cette loi statistique s’av`ere bien utile pour d´ecrire des ph´enom`enes ayant des valeurs 1.

(13) positives, ou encore une d´ecroissance rapide de la dur´ee de vie, alors qu’on d´esire calculer la probabilit´e qu’un individu survive a` la prochaine p´eriode de temps en tenant compte de son aˆge pr´esent, notion qui peut ˆetre utilis´ee dans divers domaines tels l’ing´enierie pour la dur´ee de vie des structures, en biologie pour la survie d’organismes ainsi qu’en assurancevie afin d’´etablir une prime a` un client. Dans le dernier cas, on comprend mieux pourquoi la prime est plus ´elev´ee si un individu ach`ete une assurance-vie tardivement, puisque sa probabilit´e de survie instantan´ee (et que l’assureur paie) est de plus en plus faible. Toujours en assurance, par la technique des processus de Poisson (que nous aborderons en 1.3.2.1), on l’utilise dans l’´etude du temps ´ecoul´e entre deux sinistres non-li´es entre eux.. L’inf´erence statistique nous am`ene a` d´eterminer diff´erentes m´ethodes d’approximation d’un ph´enom`ene. Une de ces m´ethodes est l’approche bay´esienne, qui consiste, `a partir des donn´ees amass´ees sur le terrain et d’une loi a priori sur les param`etres, de d´eterminer la loi a posteriori qui approximerait le mieux le ph´enom`ene en question a` partir des donn´ees r´ecolt´ees lors de l’´echantillonnage. Une autre m´ethode plus simple est d’utiliser, a` partir des donn´ees r´ecolt´ees, des densit´es par substition (ou densit´es plug-in), qui est semblable a` celle de l’estimateur maximum de vraisemblance.. Mais pourquoi s’int´eresser seulement aux param`etres quand on peut s’int´eresser a` la fonction de densit´e ? C’est ce qui nous m`ene a` l’utilisation d’un estimateur de loi de probabilit´e, qu’on appellera ici densit´e pr´edictive. Ces concepts n´ecessitent la notion de fonction de perte, mesurant la divergence entre une loi de probabilit´e et une densit´e pr´edictive. Plusieurs fonctions de pertes existent allant de la plus simple visuellement, la perte L1 qui est une mesure net de similitude de forme et d’´echelle entre deux densit´es, jusqu’`a des fonctions de pertes plus complexes. Ces fonctions de pertes ont ´et´e ´etudi´ees a` plusieurs reprises depuis le d´ebut des ann´ees 1900, comme en fait foi Hellinger (1909) 2.

(14) portant sur la perte Hellinger. Pour une densit´e pr´edictive qˆ de la densit´e q de param`etre θ et une mesure de divergence g, on d´efinit la fonction de perte comme :. Lg (θ, qˆ) = g(qθ , qˆ). Pour un observ´e X ∼ pθ et la densit´e pr´edictive qˆ(·, X), on d´efinit la fonction de risque comme : Rg (q, qˆ) = E X [Lg (θ, qˆ)].. Nous travaillerons principalement avec deux fonctions de pertes, soient la perte L1 qui, comme nous le verrons plus tard, est li´ee au coefficient de recouvrement. Cette mesure a ´et´e notamment utilis´ee lors d’´etudes sociologiques entre deux populations h´et´erog`enes, et elle repr´esente la distance nette entre q et qˆ en plus d’ˆetre facilement illustrable, comme nous le verrons au chapitre 1. Nous aborderons aussi la perte Kullback-Leibler, une perte entropie qui s’arime bien avec la loi Gamma, puisque grˆace aux propri´et´es des logarithmes nous pouvons ramener les fonctions de perte et de risque sous forme d’une somme de plus petites fonctions, ce qui facilite les calculs. Nous verrons qu’il existe d’autres fonctions de perte, telles les pertes quadratiques, Hellinger ainsi que la famille des pertes α-divergences. Plusieurs ´etudes du risque entre une loi de probabilit´e et sa densit´e pr´edictive ont ´et´e r´edig´ees au fil des ann´ees, mais au cours des derni`eres ann´ees des ´etudes plus pouss´ees sur le sujet ont men´e `a de nouveaux estimateurs qui diminuent le risque. Il y aura donc, dans plusieurs cas, dominance d’une densit´e pr´edictive par rapport a` une autre, c’esta`-dire que le risque encouru par l’utilisation d’une densit´e pr´edictive sera inf´erieur au risque encouru par une autre densit´e pr´edictive. On d´enote notamment des am´eliorations 3.

(15) des densit´es par substitution sur le risque en utilisant l’expansion de la variance, c’est-`adire de partir d’une densit´e pr´edictive avec param`etre d’´echelle plus grand que la densit´e cible. On trouve des exemples de cette am´elioration du risque par expansion de la variance dans Fourdrinier et coll. (2011) pour la loi normale avec perte Kullback-Leibler, dans la publication de Kubokawa et coll. (2017) pour la perte L1 , dans L’Moudden et Marchand (2018) pour les pertes α-divergence ainsi qu’un premier r´esultat sur la loi Gamma avec perte Kullback-Leibler dans L’Moudden et coll. (2017). Nous observerons dans ce m´emoire ce qu’engendrera la perte L1 sur la loi Gamma, entre autres. Pour le cas Gamma, on peut ´egalement obtenir des variations dans les param`etres en utilisant comme densit´e pr´edictive la loi Gamma g´en´eralis´ee Y ∼ Gg(α, β, c), obtenue par la transformation : Y = βT c , o` u T ∼ Ga(α, 1), avec α, β, c > 0.. C’est une loi que nous ´etudierons dans ce m´emoire, puisque nous cherchons `a proposer de nouvelles m´ethodes plus efficaces pour estimer une loi de probabilit´e d’une loi Gamma. Nous ´etudierons ceci pour la perte L1 ainsi que la perte Kullback-Leibler. Nous montrerons, entre autres pour la perte Kullback-Leibler, qu’il y a bien dominance de la densit´e pr´edictive Gamma g´en´eralis´ee avec c > 1 comparativement `a la loi Gamma standard dans plusieurs cas. Ce m´emoire est constitu´e de trois chapitres. Au chapitre 1, nous aborderons les notions pr´ealables n´ecessaires `a la compr´ehension de la suite du m´emoire. On y introduira les notions de perte et de risque dans un cadre bay´esien, diff´erentes fonctions de perte dont les pertes L1 et Kullback-Leibler qui nous int´eressent principalement ainsi que certaines applications de ces derni`eres. On y introduira ´egalement le mod`ele Gamma, mod`ele sur 4.

(16) lequel nous travaillerons principalement. On y verra ´egalement le principe de densit´es par substitution ainsi que l’approche bay´esienne comme m´ethode afin d’obtenir une loi pr´edictive. Certains exemples seront pr´esent´es et des propri´et´es int´eressantes pour la suite du m´emoire y apparaˆıtrons ´egalement.. Au chapitre 2, nous introduirons le concept de densit´e pr´edictive tel qu’il sera utilis´e lors des diff´erentes ´evaluations effectu´ees dans ce m´emoire. Nous y verrons alors certains r´esultats connus pour des cas de perte L1 et Kullback-leibler sur la loi normale en y introduisant l’expansion de la variance, avec g´en´eralisation pour des lois sym´etriques. On y d´ecouvrira la technique que nous utiliserons pour d´emontrer la dominance d’un estimateur par rapport a` un autre et nous verrons qu’il existe un intervalle de valeurs c > 1 o` u il y a dominance du risque par rapport au cas initial, et qu’une de ces valeurs minimise le risque. Le tout sera accompagn´e d’exemples servant `a illustrer ces r´esultats.. Au chapitre 3, qui est au cœur du m´emoire, nous analyserons l’impact des risques L1 et Kullback-Leibler sur les densit´es Gamma avec expansion de la variance ainsi que Gamma g´en´eralis´ee, en partant d’un premier r´esultat paru dans L’Moudden et coll. (2017) pour le cas Gamma expansion de la variance avec risque Kullback-Leibler. Cela nous permettra de nous familiariser avec la fonction digamma (not´ee ψ(z)), qui reviendra souvent au cours des diff´erentes analyses, ainsi que ses propri´et´es qui seront fort utiles lors des d´emonstrations. On portera alors un int´erˆet particulier a` l’analyse du risque Kullback-Leibler en utilisant la densit´e Gamma g´en´eralis´ee, nouvelle approche test´ee dans ce m´emoire et sur laquelle nous pouvons trouver une forme close qui sera plus propice aux d´emonstrations ainsi qu’aux ´evaluations num´eriques. Nous verrons alors que le c optimal n’est pas toujours sup´erieur `a 1, mais qu’il semble exister pour les estimateurs ˆ par substitution du type β(X) = aX du param`etre β. Il en sera de mˆeme pour les cas du risque L1 sur les densit´es Gamma expansion de la variance et Gamma g´en´eralis´ee, sur 5.

(17) lesquelles des ´evaluations num´eriques seront faites.. 6.

(18) CHAPITRE 1 G´ en´ eralit´ es et r´ esultats pr´ ec´ edents. 1.1. Nature du probl` eme et d´ efinitions g´ en´ erales. On d´efinit le mod`ele suivant : X ∼ p(·|θ) et Y ∼ q(·|θ), soient deux v.a., o` u v.a. exprime une variable ou un vecteur al´eatoire, dont les lois d´ependent d’un param`etre θ des deux v.a.. X et Y sont d´efinies comme des variables ind´ependantes conditionnellement a` θ ∈ Θ, o` u Θ repr´esentant l’espace param´etrique. Les densit´es p(·|θ) et q(·|θ) sont, quant a` elles, d´efinies comme absolument continues par rapport a` la mesure de Lebesgue sur Rd . On cherchera `a estimer q(y|θ), y ∈ Rd , par une densit´e pr´edictive qˆ(y; X), y ∈ Rd , pour une fonction de perte donn´ee. En particulier, on vise `a d´eterminer des am´eliorations d’un ˆ pour diff´erent mod`eles, o` ˆ estimateur plug-in q(·|θ) u θ(X) est un estimateur du param`etre θ, qui sera fonction de la variable X. ˆ Les estimateurs ´etudi´es dans ce m´emoire seront soumis `a une fonction de perte L(θ, θ(X)), ˆ qui mesurera l’erreur provoqu´ee par l’utilisation de l’estimateur θ(X). Il nous faut donc un outil capable de mesurer la performance d’un estimateur afin de le comparer a` un 7.

(19) autre. D´ efinition 1.1.1. Pour un probl`eme d’estimation ponctuelle du param`etre θ `a l’aide ˆ ˆ le risque fr´equentiste d’un estimateur θ(X) par rapport a` une fonction de perte L(θ, θ),  ˆ = E X [L(θ, θ)] ˆ = d L(θ, θ)p(x|θ)dx. ˆ associ´e `a cette perte est d´efini par R(θ, θ) R. D´ efinition 1.1.2. L’estimateur θˆ1 (X) domine un autre estimateur θˆ2 (X) si R(θ, θˆ1 ) ≤ R(θ, θˆ2 ) pour toute valeur de θ avec in´egalit´e stricte pour au moins une valeur de θ.. Nous verrons dans ce chapitre les notions pr´ealables aux analyses que nous voulons effectuer. Nous d´efinirons tout d’abord les diff´erentes fonctions de perte ´etudi´ees dans ce m´emoire ainsi que certaines de leurs applications, en plus de se familiariser avec la famille des pertes α-divergence. Nous nous familiariserons ensuite avec la loi Gamma, d’o` u proviennent les densit´es pr´edictives qui seront ´etudi´ees et au coeur des analyses que nous ferons dans ce m´emoire, en observant quelques propri´et´es de cette loi ainsi que certaines applications de celle-ci. Nous introduirons ensuite la notions d’estimateur par substitution, lesquels seront utilis´es pour d´efinir les param`etres de nos densit´es pr´edictives, et finalement une exploration de l’approche Bay´esienne qui est a` la base de l’´etude des densit´es pr´edictives, en plus d’introduire la notion d’estimation de densit´e pr´edictive qui nous aidera a` mieux comprendre les diff´erents r´esultats qui ont inspir´e ce m´emoire.. 1.2. Fonctions de perte. Il existe plusieurs fonctions de perte `a notre disposition pour mesurer la distance entre deux densit´es. Dans ce m´emoire, nous travaillerons principalement avec deux d’entre elles, soient les pertes L1 et Kullback-Leibler. 8.

(20) 1.2.1. Perte L1. La perte L1 correspond a` la distance en valeur absolue entre deux fonctions de densit´es. Elle se mesure par l’aire entre les courbes des densit´es q1 et q2 , d’o` u L1 (q1 , q2 ) ∈ [0, 2], ce qui peut ˆetre visualis´ee facilement. Elle est d´ecrite en profondeur dans l’ouvrage de Devroye et Gy¨orfi (1985). D´ efinition 1.2.1. Pour un probl`eme d’estimation de densit´e pr´edictive o` u l’on d´esire mesurer l’erreur d’une densit´e pr´edictive qˆ(y; X), y ∈ Rd , par rapport `a la densit´e q(y|θ), on d´efinit la perte L1 par : L1 (q, qˆ) =.  Rd.   q(y|θ) − qˆ(y; X)dy.. Par le fait mˆeme, pour X ∼ p(x|θ), x ∈ Rd , on peut d´efinir le risque L1 par :  X. R1 (θ, qˆ) = E [L1 (q, qˆ)] = R2d. 9.   q(y|θ) − qˆ(y; x)p(x|θ)dydx..

(21) Figure 1.1 – La perte L1 entre deux densit´es q1 et q2. Voici une expression ´equivalente pour la perte L1 . Celle-ci est ´egalement d´emontr´ee dans Devroye et Gy¨orfi (1985) :. Lemme 1.2.1. Soient g1 et g2 des densit´es sur Rd et Pg1 , Pg2 leur fonction de r´epartition respective. Soit A = {y ∈ Rd : g1 (y) ≥ g2 (y)}. Alors la perte L1 entre g1 et g2 s’exprime comme ´etant : ρL1 (g1 , g2 ) = 2[Pg1 (Y ∈ A) − Pg2 (Y ∈ A)].. (1.1). D´emonstration. On a :.  ρL1 (g1 , g2 ) =.  Rd. . | g1 (y) − g2 (y) | dy =. (g1 (y) − g2 (y))dy + A. (g2 (y) − g1 (y))dy Ac. = Pg1 (Y ∈ A) − Pg2 (Y ∈ A) + Pg2 (Y ∈ Ac ) − Pg1 (Y ∈ Ac ) = Pg1 (Y ∈ A) − Pg2 (Y ∈ A) + (1 − Pg2 (Y ∈ A)) − (1 − Pg1 (Y ∈ A)) = 2[Pg1 (Y ∈ A) − Pg2 (Y ∈ A)]. Exemple 1.2.1. Soient Yi ∼ N (μi , σ 2 ), i = {1, 2} des variables al´eatoires suivant des lois normales de mˆeme variance. Alors, en posant A = {y ∈ Rd : qY (y−μ1 ) ≥ qY (y−μ2 )}, et en sachant que les courbes des densit´es se croisent au point que : 10. μ1 +μ2 , 2. on trouve par (1.1).

(22) ρL1 (μ1 , μ2 ) = 2[Pμ1 (Y ∈ A) − Pμ2 (Y ∈ A)] μ1 + μ 2 μ1 + μ 2 ) − Pμ2 (Y ≤ )] = 2[Pμ1 (Y ≤ 2 2      μ 1 + μ2 μ 1 + μ2 =2 Φ − μ1 − Φ − μ2 2 2      μ 1 − μ2 μ 2 − μ1 −Φ =2 Φ 2 2       μ 2 − μ1 μ 2 − μ1 − 1−Φ =2 Φ 2 2   μ 2 − μ1 − 2, = 4Φ 2. o` u Φ(t) correspond a` la fonction de r´epartition de la loi normale centr´ee r´eduite. Remarque 1.2.1. On d´emontre dans Kubokawa et coll. (2017) qu’on peut g´en´eraliser. 1 || le r´esultat ρL1 = 4F ||μ2 −μ a − 2 pour tout couple de densit´es qY (||y − μ||2 ), y ∈ Rd , ` 2 sym´etrie sph´erique et unimodale, o` u on d´efinie une densit´e sym´etrique sph´erique comme d´ependante uniquement de la distance ||Y − θ||. 1.2.1.1. Lien avec le coefficient de recouvrement. Le coefficient de recouvrement (overlap coefficient) est un concept math´ematique qui ` l’´epoque, on s’int´eressait voit ses premi`eres racines apparaˆıtre dans Weitzman (1970). A a` la diff´erence entre les revenus moyens, `a la profession et `a la formation des populations ´ blanches et noires aux Etats-Unis. La diff´erence implique une nette dissociation des deux populations, or on y d´ecouvre que les courbes de densit´e des deux populations se chevauchent jusqu’`a un certain point. On y change alors l’id´ee d’une diff´erence entre les deux populations pour celle de recouvrement. On trouve une premi`ere forme du coefficient dans le cas discret comme ´etant un indice du pourcentage des populations dans une classe de 11.

(23) salaires moyens i partag´e par les populations blanches et noires, `a partir de l’expression suivante :. IiBN =. min (PiB ; PiN ) ,. (1.2). 1 iBN |PiB − PiN |, 2 i. (1.3). i. ou encore :. 1 − DiBN = 1 −. o` u DiBN exprime la diff´erence entre les diagrammes de fr´equences pour la classe de salaires moyens i, et PiX le pourcentage de la population X dans la classe de salaires moyens i, X ∈ {Blanc, N oir}. Quelques ann´ees plus tard, dans l’´ebauche de Bradley et coll. (1983), on y ´elabore une version pour le cas continu, qui deviendra la forme usuelle du coefficient de recouvrement et qui se lit comme suit : D´ efinition 1.2.2. Le coefficient de recouvrement correspond `a la proportion d’aire situ´ee sous les deux courbes de densit´es. On l’obtient par l’´equation suivante :  OV L(g1 , g2 ) =. Rd. min(g1 (y), g2 (y))dy.. (1.4). On voit que l’expression s’apparente `a la forme (1.2) du coefficient d´efini originalement par Weitzman (1970). Nous en verrons une illustration `a la figure 1.2. Il est facile de v´erifier que min(g1 (y), g2 (y)) = l’appliquant `a (1.4), on obtient : 12. 1 [g (y) 2 1. + g2 (y) − |g1 (y) − g2 (y)|]. En.

(24)  OV L(g1 , g2 ) =. Rd. 1 1 [g1 (y) + g2 (y) − |g1 (y) − g2 (y)|]dy = 1 − ρL1 (g1 , g2 ) 2 2. du fait que g1 et g2 sont des fonctions de densit´es. On remarque finalement que cette version de l’´equation du coefficient de recouvrement s’apparente fortement a` la forme (1.3) de Weitzman (1970). Remarque 1.2.2. Mˆeme si nous nous int´eresserons davantage au coefficient de recouvrement selon la d´efinition de Weitzman (1970), il en existe d’autres que celui-ci. Tout d’abord celui de Matusita (1955), connu ´egalement comme la distance Hellinger (qu’on d´ecrira a` la section 1.2.3.1) : ρ=. 

(25). f1 (x)f2 (x)dx. celui de Morisita (1959) :. λ= . 2. . f1 (x)f2 (x)dx 2 2  f2 (x) dx f1 (x) dx +. et celui de Pianka (1973) : . ∗. α =  . f1 (x)f2 (x)dx 2  2 . f1 (x) dx f2 (x) dx. Pour le cas des densit´es de lois normales fi (y) = R=. σ1 σ2. 1 φ( y−μ ), σi σi. i ∈ {1, 2}, avec le rapport. des param`etres d’´echelle, le coefficient de recouvrement de Weitzman poss`ede les. propri´et´es suivantes telles que pr´esent´ees dans Mulekar et Mishra (1994) 13.

(26) i) 0 ≤ OV L ≤ 1 ; ii) OV L → 0 si et seulement si R → 0 ou R → ∞ ; iii) OV L = 1 si et seulement si R = 1 ; iv) OV L(R) = OV L(1/R) ∀R > 0 ; v) L’OV L ne d´epend pas de μ ; vi) L’OV L de Weitzman est une fonction monotone par morceaux en R, croissante pour 0 ≤ R ≤ 1 et d´ecroissantes pour R > 1 ; vii) L’OV L ne varie pas pour les densit´es. 1 φ( y−aμ−b ), i |a|σi |a|σi. ∈ {1, 2}, obtenues par trans-. formation lin´eaire Y → aX + b, a = 0, b ∈ R. Ces propri´et´es se d´emontrent assez ais´ement de par la d´efinition 1.2.2 ainsi que par les r´esultats du rapport R. Exemple 1.2.2. Soient deux densit´es normales de mˆemes moyennes fi ∼ N (μ, σi2 ), i ∈ {1, 2}. Posons A = {x ∈ R : f1 (x) ≥ f2 (x)}. On trouve alors que : ρL1 (f1 , f2 ) = 2[Pf1 (X ∈ A) − Pf2 (X ∈ A)]  . = 2| F1 (x2 ) − F1 (x1 ) − F (x2 ) − F (x1 ) |, avec Fi (x) la fonction de r´epartition d’une loi normale de param`etres (μ, σi ) et x1 =  ln(R2 ) μ − σ1 b, x2 = μ + σ1 b les points d’intersection des deux courbes, o` u b = −1−R u 2 , o` R =. σ1 . σ2. En appliquant le changement de variable z =. x−μ σi. aux densit´es fi , on trouve. alors :.   ρL1 (f1 , f2 ) = 2| Φ(b) − Φ(−b) − Φ(Rb) − Φ(−Rb) |.  . . = 2| Φ(b) − 1 − Φ(b) − Φ(Rb) − 1 − Φ(Rb) | = 2|2Φ(b) − 2Φ(Rb)|  2 (2Φ(b) − 2Φ(Rb)) , = 2 (2Φ(Rb) − 2Φ(b)) , 14. R ≤ 1, . R>1.

(27) On a donc :  OV L(f1 , f2 ) = 1 − 12 ρL1 (f1 , f2 ) =. 1 − (2Φ(b) − 2Φ(Rb)) , 1 − (2Φ(Rb) − 2Φ(b)) ,. R ≤ 1, , R>1. qui ne d´epend pas de μ. En observant la Figure 1.2, on visualise clairement toutes les autres propri´et´es de l’OVL.. 0.6 0.2. 0.4. OVL. 0.8. 1.0. OVL de deux densités N(u, σi). 0. 2. 4. 6. 8. 10. R. Figure 1.2 – Coefficient de recouvrement entre deux lois normales de mˆeme moyenne selon le rapport R = σσ12 .. 1.2.2. Perte Kullback-Leibler. La perte Kullback-Leibler (Kullback et Leibler (1951)) est une mesure de divergence entre deux densit´es p1 et p2 . En particulier, lorsqu’on travaille avec des densit´es Gamma que nous d´efinirons ult´erieurement, elle prend la forme de la fonction de perte entropie. On d´efinit ici la perte et le risque Kullback-Leibler : D´ efinition 1.2.3. Pour X ∼ p(x|θ) et Y ∼ q(y|θ) deux v.a. ind´ependantes, x, y ∈ Rd , et pour un estimateur qˆ(·; X) de la densit´e q(·|θ), la perte et le risque Kullback-Leibler 15.

(28) sont d´efinis par :. LKL (q, qˆ) =. et RKL (q, qˆ) =. .  Rd. log. log. R2d. q(y|θ) qˆ(y;X). q(y|θ) qˆ(y;X). q(y|θ)dy = E. Y. . |θ) ) log( qˆq(Y (Y ;X).  ..   |θ) ) q(y|θ)p(x|θ)dydx = E Y,X log( qˆq(Y (Y ;X). La prochaine proposition provient de Aitchison (1975). Proposition 1.2.1. La perte Kullback-Leibler est non-n´egative. Elle est nulle si et seulement si q(y|θ) = qˆ(y; X) presque partout en y. D´emonstration. Par l’in´egalit´e de Jensen, sachant que g(y) = − log y est une fonction convexe, on a :. .    qˆ(y; X) qˆ(y; X) Y LKL (q, qˆ) = E − log( ) ≥ − log E ( ) q(y|θ) q(y|θ)    qˆ(y; X) q(y|θ)dy = − log 1 = 0. = − log q(y|θ) R Y. Le prochain th´eor`eme provient ´egalement de Aitchison (1975) et est important pour les sections suivantes, puisqu’il explique le lien entre la perte Kullback-Leibler et les estimateurs de densit´e pr´edictive bay´esiens. Nous devons tout d’abord d´efinir ce qu’est un estimateur bay´esien. ˆ D´ efinition 1.2.4. Un estimateur θ(X) du param`etre θ est dit bay´esien s’il minimise . R θ, θˆ pour une fonction de risque donn´ee. De plus, une densit´e pr´edictive qˆ(y; X) de la densit´e q(y|θ) est dite bay´esienne si elle minimise R (q, qˆ) pour une fonction de risque donn´ee. 16.

(29) Theor` eme 1.2.1. Sous la perte Kullback-Leibler, la densit´e pr´edictive bay´esienne associ´ee au mod`ele X ∼ p(·|θ), Y ∼ q(·|θ) et `a π(θ), une mesure a priori absolument continue par rapport a` la mesure de Lebesgue, est donn´ee par :  qˆπ (y; x) = q(y|θ)π(θ|x)dθ, Θ. o` u π(θ|x) correspond a` la loi a posteriori du param`etre θ. D´emonstration. Soient X ∼ p(x|θ), Y ∼ q(y|θ) des v.a. d´ependantes du param`etre θ, q1 (y; x) et q2 (y; x) des densit´es pr´edictives de q(y|θ). La diff´erence des pertes KullbackLeibler associ´ees `a l’utilisation de qi (y; x), i ∈ {1, 2} comme estimateur de la densit´e q(y|θ) est donn´ee par : Δ(q, q1 , q2 ) = LKL (q, q1 ) − LKL (q, q1 ) =.  Y. q(y|θ) log. q1 (y;x)  q2 (y;x). dy.. Par cons´equent, On trouve la diff´erence des risque de Bayes entre q1 et q2 : ΔRKL (q, q1 , q2 ) =.   X. Y. q(y|θ) log. q1 (y;x)  q2 (y;x). dy p(x|θ)dx.. En utilisant l’a priori π(θ), on trouvera alors la diff´erence de risque marginale suivante :.    q(y|θ) log Θ. X. Y. q1 (y; x) . dy p(x|θ)dx π(θ)dθ. q2 (y; x). (1.5). Par la formule de Bayes, on sait que π(θ)p(x|θ) = p(x)π(θ|x), on trouve en changeant l’ordre d’int´egration :.   . q(y|θ)π(θ|x)dθ log. X. Y. Θ. . q1 (y; x) q2 (y; x). .  . . dy p(x)dx =. qˆ(y; X) log X. 17. Y. q1 (y; x) q2 (y; x). .  dy p(x)dx.

(30) o` u qˆ(y; X) =.  Θ. q(y|θ)π(θ|x)dθ.. En posant q1 (y; x) = qˆ(y; X), on obtient que la diff´erence des risques de Bayes entre q2 (y; x) et qˆ(y; X) est toujours positive except´ee lorsque q2 (y; x) ≡ qˆ(y; X) o` u le risque de Bayes est nul. (voir proposition 1.2.1) Le r´esultat s’ensuit. Remarque 1.2.3. Ce r´esultat est g´en´eral et la d´emonstration pr´esent´ee n’est valable que dans le cas o` u le risque de Bayes d´efini en (1.5) existe.. 1.2.3. Autres fonctions de perte. Les probl`emes d’estimateurs de densit´es pr´edictives ont ´egalement ´et´e ´etudi´es avec d’autres fonctions de pertes. Certains r´esultats int´eressants, dont des r´esultats de dominance ´equivalent `a ceux que nous verrons plus tard, existent avec ces fonctions de perte. Nous les d´efinissons dans cette section : 1.2.3.1. Perte Hellinger. La perte Hellinger a ´et´e ´elabor´ee par Ernst Hellinger (1909) . Elle est ´enonc´ee dans les ouvrages de diff´erentes mani`eres. Par exemple :. 1 LH (q, qˆ) = 2. .

(31) Rd. q(y|θ) −. 2

(32) qˆ(y; X) dy.. Cette perte constitue un excellent outil du fait que la distance Hellinger est sym´etrique et born´ee a` 1. Remarque 1.2.4. Le risque Hellinger est d´efini par :  

(33). 2 

(34) 1 RH (q, qˆ) = q(y|θ) − qˆ(y; X) dy p(x|θ)dx. 2 Rd Rd 18.

(35) 1.2.3.2. Perte α − divergence. La classe de fonctions de perte de type α − divergence est introduite dans Csisz´ar (1967). Elle est d´efinie de la mani`ere suivante :  qˆ(y; X) qˆ(Y ; X) Lα (θ, qˆ) = ) q(y|θ) dy = E Y [fα ( )], fα ( q(y|θ) q(Y |θ) Y o` u. ⎧ ⎨ fα (z) =. 4 (1 1−α2. − log z ⎩ z log z. −z. 1+α 2. (1.6). ) si |α| < 1, si α = −1, si α = 1. 4 2 (1 α→±1 1−α. Les cas α = ±1 peuvent ˆetre obtenus en calculant lim. −z. 1+α 2. ), sur laquelle on. peut appliquer la r`egle de l’Hospital puisqu’on veut z → 1. On trouve entre autres, dans cette classe de fonction de perte, la perte Kullback-Leibler pour α = −1, la perte Hellinger pour α = 0 ainsi que la perte Kullback-Leibler inverse pour α = 1. En effet, pour la perte Hellinger, on a : 

(36)

(37). 2 1 LH (q, qˆ) = q(y|θ) − qˆ(y; X) dy 2 Y 

(38)

(39).  1 q(y|θ) − 2 q(y|θ) qˆ(y; X) + qˆ(y; X) dy = 2 Y 

(40)

(41) = 1 − ( q(y|θ) qˆ(y; X))dy Y  . qˆ(y; X)  1− q(y|θ)dy = q(y|θ) Y  qˆ(y; X)  1 = f0 ( ) q(y|θ)dy. 4 Y q(y|θ) On obtient donc L0 (θ, qˆ) telle que vue en (1.6). Le risque fr´equentiste associ´e `a la perte α − divergence s’exprime comme : Rα (θ, qˆ) =.   X. Y.   (y;X) (Y ;X) fα ( qˆq(y|θ) ) q(y|θ) dy p(x|θ)dx = E X,Y fα ( qˆq(Y ) . |θ). 19.

(42) 1.3. Loi Gamma. 1.3.1. D´ efinition. D´ efinition 1.3.1. La loi Gamma, not´ee X ∼ Gamma(α, β), o` u α, β > 0, est une loi de probabilit´e valable pour des variables continues et non n´egatives. Elle se caract´erise par la fonction de densit´e vue en (1), o` u E[X] = αβ et V ar[X] = αβ 2 .. Remarque 1.3.1. La fonction Gamma s’´ecrit Γ(t) et r´epond a` l’identit´e Γ(t)β t =  ∞ t−1 − x x e β dx. On a pour t > 1 Γ(t) = (t − 1)Γ(t − 1) et Γ(1) = 1, et alors Γ(t) = (t − 1)! 0 lorsque t est un entier positif.. Remarque 1.3.2. Dans le cas o` u le param`etre α est une valeur enti`ere, la loi gamma de param`etres (α, λ) correspond a` la somme de α lois exponentielles ind´ependantes de param`etre λ. Une justification usuelle est qu’on trouve par les fonctions g´en´eratrices de moments, not´ees MX (t) = E X [etX ], une caract´erisation des diff´erentes fonctions de probabilit´es. Pour X ∼ exp(λ), on trouve MX (t) = Y ∼ Gamma(α, λ) que MY (t) =. 1 , (1− λt )α. 1 , t (1− λt ) n . < λ, et on trouve pour. Xi , o` u Xi i.i.d. ∼ exp(λ).. t < λ. Posons Z =. i=1. Alors : . t.  n. Xi. . MZ (t) = E[etZ ] = E e i=1  n  n   tXi =E e E[etXi ] (par ind´ependance des Xi ) = i=1. =. n  i=1. =. i=1. 1 (1 − λt ). 1 , qui est bien la fonction g´en´eratrice de moments d’une loi Gamma(n, λ). (1 − λt )n 20.

(43) 1.3.2. Motivation. La motivation de l’utilisation de la loi Gamma provient de diff´erentes applications que l’on connaˆıt de celle-ci. En voici quelques unes. 1.3.2.1. Processus de Poisson et th´ eorie des files d’attentes. On d´efinit N (t) ∼ P P (λ) comme ´etant un processus de Poisson r´ef´erant au nombre de fois qu’un ´ev´enement se produit dans l’intervalle de temps [0,t), avec une moyenne de λ apparitions de l’´ev´enement pour chaque unit´e de temps. Soit T une variable al´eatoire d´efinissant le temps d’attente avant que l’´ev´enement se soit produit k fois. T est une variable continue. On cherche a` d´efinir la fonction de densit´e de T . Commen¸cons par d´eterminer sa fonction de r´epartition : F (t) = P (T < t) = 1 − P (T > t) = 1 − P (N (t) < k) = 1 − P (N (t) ≤ k − 1) = 1 − e. −λt. k−1. (λt)x x=0. x!. ,. puisque les ´ev´enements (T < t) et (N (t) ≥ k) sont ´equivalents. On trouve la fonction de densit´e comme suit : . f (t) = F (t) = λe. −λt. k−1. (λt)x. x!. x=0. = λe−λt = λe. −λt. k−1 (λt)x x=0 k−1 x=0. x!. −. −e. −λt. k−1. x(λt)x−1 λ x=0. x!. k−1. (λt)x−1. (x − 1)! x=1. (λt)x (λt)y λk tk−1 e−λt − = , x! y! Γ(k) y=0 k−2. ce qui nous dit que T ∼ Gamma(k, λ1 ). 21.

(44) Exemple 1.3.1. Soit un magasin o` u en moyenne 10 clients `a l’heure effectuent une transaction sous l’hypoth`ese d’un Processus de Poisson. On s’int´eresse au temps n´ecessaire pour que 5 clients effectuent une transaction. 1 a) Le temps T d’attente jusqu’`a la transaction du 5i`eme client suit une Gamma(5, 10 ),. dont la densit´e est trac´ee ci-dessous. 1 ) 10. 1.0 0.0. 0.5. f(t). 1.5. 2.0. Fonction de densité d'une Γ(5,. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. t. b) La probabilit´e que le temps d’attente avant la transaction du 5i`eme client soit d’au moins trente minutes est donn´ee par P (T > 12 ) ≈ 0.4405. 1.3.2.2. Inf´ erence pour la variance. Voici quelques propri´et´es connues pour le mod`ele Gamma : i) Si Y ∼ Gamma(α, β), alors cY ∼ Gamma(α, cβ) ; ii) Si les Yi ∼ Gamma(αi , β) sont des v.a. ind´ependantes, alors iii) Si Z ∼ N (0, 1), alors Z 2 ∼ Gamma( 12 , 2) ; iv) Pour X1 , . . . , Xn i.i.d. de loi N (μ, σ 2 ), on a que :. n  i=1. n  i=1. (Xi −μ)2 σ2.  Yi ∼ Gamma. n .  αi , β ;. i=1. ∼ Gamma( n2 , 2).. Remarque 1.3.3. i) se d´emontrent ais´ement par les fonctions g´en´eratrices de moments par ind´ependance des variables, ii) se d´emontre comme `a la remarque 1.3.2 et repr´esente √ √ une g´en´eralisation. Pour iii), on a que pour Y = X 2 , FY (y) = 2FZ ( y) = 2Φ( y), et en 22.

(45) √ √1 φ( y) y. d´erivant on trouve la fonction de densit´e iv) est une cons´equence de ii) et iii) car. Xi −μ σ. 1. y. =. e− 2 √ √ y 2π. =. ∼ N (0, 1).. On note ´egalement, au passage, que les statistique usuelles. n . y. y 2 −1 e− 2 1. Γ( 12 )2 2. ∼ Gamma( 12 , 2).. (Xi − μ)2 et. i=1. n . ¯ 2 (Xi − X). i=1. sont utilis´ees pour l’inf´erence du param`etre σ 2 sont de loi Gamma. nous aurons besoin du Lemme suivant pour le d´emontrer. Lemme 1.3.1. Si Y1 , Y2 sont des v.a. ind´ependantes, si Y1 ∼ Gamma(a1 , b) et Y1 + Y2 ∼ Gamma(a, b), avec a > a1 , alors Y2 ∼ Gamma(a − a1 , b).. Ce Lemme se d´emontre ais´ement par les fonctions g´en´eratrices de moments et sera utile n  ¯ 2. pour trouver la loi de (Xi − X) i=1. On a donc pour X1 , . . . , Xn ∼ N (μ, σ 2 ) en appliquant i) au r´esultat en iv), on voit n n   (Xi −μ)2 n que si ∼ Gamma( , 2), alors (Xi − μ)2 sera de loi Gamma( n2 , 2σ 2 ). Pour 2 σ 2 n . i=1. i=1. n  ¯ , on utilisera le fait que ¯ 2 + n(X ¯ − μ)2 ainsi (Xi − X) (Xi − μ)2 = (Xi − X) i=1 i=1 i=1 √ (X−μ) ¯ ¯ − μ)2 ∼ Gamma( 1 , 2σ 2 ) que le Lemme 1.3.1. Puisque n σ ∼ N (0, 1), alors n(X 2 n  ¯ 2 ∼ par les propri´et´es i) et iii). On applique ensuite ii) et on trouve que (Xi − X) 2. n . i=1. Gamma( n−1 , 2σ 2 ) 2. Remarque 1.3.4. On ´etudie souvent le probl`eme d’inf´erence de la variance en utilisant la densit´e khi-deux, qui est un cas particulier de loi Gamma, c’est-` a-dire χ2 (n) est ´equivalent `a Gamma( n2 , 2). 1.3.2.3. R´ egression lin´ eaire multiple. La r´egression lin´eaire multiple est une g´en´eralisation de la r´egression lin´eaire simple. Dans le mod`ele standard, les observations y1 , . . . , yn sont mod´elis´ees par :. 23.

(46) ⎛ ⎞ ⎛ ⎞ y1 1 z1,1 · · · z1,p ⎜ .. ⎟ ⎜ .. .. ⎟ .. .. ⎝ . ⎠ = ⎝. . . ⎠ . 1 zn,1 · · · zn,p yn. ⎛ ⎞ ⎛ ⎞ b0

(47) 1 ⎜ b1 ⎟ ⎜ ⎟ ⎜ .. ⎟ ⎜ .. ⎟ + ⎝ . ⎠ ⎝.⎠

(48) n bp. ⎛ ⎞

(49) 1 ⎜ .. ⎟ sous conditions n > p + 1 et ε = ⎝ . ⎠ ∼ Nn (0, σ 2 In ).

(50) n. ˆ de Rp+1 , passe le plus pr`es On cherche alors a` obtenir βˆ telle que la droite Yˆ = Z β, de tous les points (Zi,1 , . . . , Zi,p , Yi ), i ∈ {1, . . . , n} du nuage de points, et on trouve βˆ = (Z T Z)−1 Z T Y lorsque Z est de plein rang. On a aussi que la somme des carr´es des r´esidus : ˆ = (Y − Yˆ )T (Y − Yˆ ) = ||Y − Yˆ ||2 . ˆ T (Y − Z β) W = (Y − Z β) , 2σ 2 ). est de loi Gamma( n−p−1 2. 1.4 1.4.1. Estimateurs par substitution (Plug-in) D´ efinition. Un estimateur de densit´es pr´edictives par substitution (ou estimateur plug-in) de qθ est ˆ donn´e par qθˆ, o` u θ(X) est un estimateur de θ. 24.

(51) 1.4.2. Dualit´ e des fonctions de pertes entre les densit´ es et leurs param` etres. Lorsqu’on ´etudie la perte entre une loi de densit´e et son estimateur de densit´e pr´edictive, il peut arriver qu’apr`es simplification on y d´ecouvre certaines similitudes avec une autre fonction de perte entre un param`etre et l’estimateur par substitution de ce param`etre utilis´e pour d´efinir l’estimateur de densit´e pr´edictive. Nous pr´esenterons donc, dans cette sous-section, quelques exemples de cette dualit´e. 1.4.2.1. Cas Gamma avec perte Kullback-Leibler. On d´esire estimer la densit´e q(·|β) de Y ∼ Gamma(α2 , β) sous la perte K-L `a partir de X ∼ Gamma(α1 , β) distribu´ees ind´ependemment, avec α1 , α2 connus et β inconnu. Pour des densit´es plug-in qβˆ, on a :.  RKL (β, qˆ) = E X,Y. log  '. q(Y |β) qˆ(Y ; X). . ⎡. ⎛. ⎢ ⎜ = E X,Y ⎣log ⎝. −Y. Y α2 −1 e β Γ(α2 )β α2 −. Y ˆ β(X). Y α2 −1 e α2 ˆ Γ(α2 )β(X). ⎞⎤ ⎟⎥ ⎠⎦. (  ˆ β(X) 1 = E X,Y y − + α2 log ˆ β β β(X) ' (   β β = α2 E X − log −1 , ˆ ˆ β(X) β(X) 1. (1.7). puisque E X,Y (Y ) = α2 β et X, Y sont des variables al´eatoires ind´ependantes. On constate alors que la forme obtenue pour le risque Kullback-Leibler de la densit´e pr´edictive qˆ(Y ; X) par rapport `a la densit´e q(Y |θ) est directement li´ee `a la fonction de ˆ perte entropie sur l’utilisation de l’estimateur β(X) du param`etre β. Il en r´esulte donc 25.

(52) une mani`ere moins lourde d’´evaluer la performance de l’estimateur de densit´e q(·|β). Il est aussi d’int´erˆet de consid´erer les densit´es plug-in qβˆ en travaillant avec la sous classe ˆ d’estimateurs β(X) = aX comme estimateur plug-in du param`etre β. Le prochain lemme est un cas classique souvent fait en exercice, abord´e entre autre dans Lehmann et Casella (2006). Lemme 1.4.1. Pour le probl`eme de risque entropie avec X ∼ Gamma(α, β), le meilleur estimateur βˆa (X) = aX du paramˆetre β (pour α > 1) est. X . α−1. Il en d´ecoule que la. meilleure densit´e pr´edictive parmi les densit´es plug-in qβˆa est donn´ee par le choix a =. 1 . α−1. D´emonstration. Soit la perte entropie et la classe d’estimateurs βˆa (X) = aX du para β )  * β m`etre β. On a alors RKL (β, βˆa ) = α2 Eβ aX − log aX − 1 = α2 a1 E1 ( X1 ) + log a + E1 (log X) − 1 = G(a), car. X β. ∼ Gamma(α, 1).. 1 Puisque G (a) = α2 [− a12 E1 ( X1 ) + a1 ] = α2 [− a2 (α−1) + a1 ], le r´esultat s’ensuit.. Remarque 1.4.1. Pour α1 > 1, l’estimateur. X α1 −1. est ´egalement Bayes par extension et. minimax pour la perte entropie (1.7). On sait ´egalement que. X α1. est un estimateur sans biais, mais aussi l’estimateur maximum. de vraisemblance du param`etre β pour β > 0. En effet, ∂ log fβ (x) ∂ x = ((α − 1) log x − − log Γ(α) − α log β) ∂β ∂β β x α = 2− , β β 3 ∂ 2 log fβ (x) x  = − αx2 < 0, ce qui confirme qu’on est qui vaut 0 lorsque β = αx . De plus, ∂β 2 α en pr´esence d’un maximum. 26.

(53) 1.4.2.2. Cas de la loi Normale avec perte Kullback-Leibler. ˆ o` u X et Y On d´esire estimer qY (·|θ) sous la perte K-L par une densit´e plug-in qY (·, θ), sont des v.a. ind´ependants, X ∼ Np (θ, vx ), Y ∼ Np (θ, vy ), avec vx , vy connus et θ inconnu. On a : . . ⎡. ⎛. ⎢ ⎜ ˆ = E X,Y log q(Y |θ) = E X,Y ⎢log ⎜ RKL (θ, θ) ⎣ ⎝ ˆ qˆ(Y |θ) . 1 p (2πvy ) 2 1 p (2πvy ) 2. e. e. −. ||Y −θ||2 2vy. 2 ˆ ||Y −θ(X)|| − 2vy. ⎞⎤ ⎟⎥ ⎟⎥ ⎠⎦.   2 ˆ ||Y − θ(X)|| ||Y − θ||2 1 X,Y  ˆT Tˆ T T ˆ − E θ (X)θ(X) − 2Y θ(X) + 2Y θ − θ θ = =E 2vy 2vy 2vy   1 X  ˆT 1 X ˆ ˆ ˆ = + 2θT θ − θT θ = E θ (X)θ(X) − 2θT θ(X) E ||θ(X) − θ||2 , 2vy 2vy X,Y. puisque E X,Y [Y ] = θ et que X, Y sont ind´ependants. ˆ = X est un estimateur sans biais de θ, en plus d’ˆetre l’estimaRemarque 1.4.2. θ(X) teur maximum de vraisemblance.. 1.4.2.3. Cas normale avec perte L1. Dans Kubokawa et coll. (2017), on a ´etudi´e l’estimateur de q(·|θ) sous la perte L1 par une densit´e qˆ(·|x), o` u X et Y sont des v.a. ind´ependants, X ∼ Nd (θ, σ12 Id ), Y ∼ Nd (θ, σ22 Id ), avec σ1 , σ2 connus et θ inconnu. En utilisant le risque L1 d´efinit comme ´etant   ) * ˆ θ(X)| E x R |q(y|θ) − q(y; x)|dy , on ´etablit un lien entre le risque L1 et le risque E X 2Φ( |θ−2σ ) − 1 2 ˆ de θ(X) comme estimateur de θ. Lemme 1.4.2. Pour l’estimation de q(·|θ) ∼ N (θ, σ 2 ) sous le risque L1 par la densit´e   ˆ ˆ qˆ(·|x) ∼ N (θ(X), σ 2 ), on trouve RL1 (θ, qˆ) = 2E X 2Φ( θ−θ(X) ) − 1 . 2 27.

(54)  D´emonstration. On a RL1 (θ, qˆ) = E X.  2   1 − (y−θ) 2 2σ2 √ e − R  2πσ2. √ 1 e 2πσ2. −. 2 ˆ (y−θ(X)) 2 2σ2.     ˆ  dy = E X [ρL1 (θ, θ)], . ˆ correspond a` ce qu’on a fait `a l’exemple 1.2.1. D`es lors, nous avons : o` u ρL1 (θ, θ)   ˆ ˆ = 2E X 2Φ( θ−θ(X) ) − 1 E X [ρL1 (θ, θ)] 2. 1.4.2.4. Cas normale avec perte Hellinger. u X et Y sont On d´esire estimer qY (·|θ) sous la perte Hellinger par une densit´e qˆ(·|x), o` des v.a. ind´ependants, X ∼ N (θ, σx2 ), Y ∼ N (θ, σy2 ), avec σx , σy connus et θ inconnu. Pour y arriver, nous aurons besoin des lemmes suivants ´enonc´es dans Kubokawa et coll. (2015) qui se d´emontrent ais´ement. Pour le troisi`eme lemme, il s’agit d’un cas univari´e du lemme ´enonc´e dans Ghosh et coll. (2008). 1. 1. Lemme 1.4.3. On a pour tout Z ∈ R : φ 2 (Z) = (2π) 4 φ( √Z2 ). Lemme 1.4.4. Pour θ1 , θ2 ∈ Rd , v1 , v2 des matrices de covariance d´efinies positives, on a. . d d  − 12 − 12 − d2 − 12 2 2 φ (y − θ )(v ) )(v ) v (v +v ) φ (θ − θ )(v + v ) φ (y − θ dy = v . 1 1 1 2 1 2 1 2 1 2 1 2 Rd Lemme 1.4.5. Pour tout θ1 , θ2 ∈ R, σ1 , σ2 ∈ R+ , on a :   R. 1 φ σ1. . y − θ1 σ1. . 1 φ σ2. .    1 (θ1 −θ2 )2 2σ1 σ2 2 − 4(σ y − θ2 2 2 1 +σ2 ) , dy = e 2 2 σ2 σ1 + σ2. 28.

(55) D´emonstration. On a par les lemmes 1.4.3 et 1.4.4 :   1           1 1 2π 2 y − θ2 y − θ1 y − θ2 y − θ1 dy = φ √ dy φ φ φ √ σ1 σ1 σ2 σ2 σ1 σ2 2σ1 2σ2 R R (   1  1 '  1 (θ1 −θ2 )2 2π 2 2σ1 σ2 2 − 4(σ 2σ12 σ22 2 θ1 − θ2 2 2 1 +σ2 ) . = = φ

(56) 2 e 2 2 2 2 σ1 σ2 σ1 + σ2 σ1 + σ2 2(σ1 + σ22 ) Remarque 1.4.3. Le cas multivari´e, qui parait dans Ghosh et coll. (2008), ´etablit que pour des densit´es Nd (x|μi , Σi ), i ∈ {1, 2}, on a :  Rd. [Nd (x|μ1 , Σ1 )]α1 [Nd (x|μ2 , Σ2 )]α2 dx 1. d. 1. 1. = (2π) 2 (1−α1 −α2 ) |Σ1 | 2 (1−α1 ) |Σ2 | 2 (1−α2 ) |α1 Σ2 + α2 Σ1 |− 2 α1 α2 (μ1 − μ2 )T (α1 Σ2 + α2 Σ1 )−1 (μ1 − μ2 )], × exp[− 2 Le Lemme 1.4.5 en d´ecoule donc en posant α1 = α2 =. 1 2. et d = 1.. Pour la dualit´e de la loi normale avec la perte   de Hellinger, on ´etablit un lien entre le risque Hellinger et le risque E. X. 1−e. −. 2 ˆ (θ−θ(X)) 2 8σy. ˆ qui correspond au risque de l’estimateur θ(X). comme estimateur de θ sous la perte normale r´efl´echie tel que vu dans Spiring (1993). En effet :.  

(57)

(58). 2. 1 RH (θ; qˆ) = q(y|θ) − qˆ(y; X) dy p(x|θ)dx 2 R R

(59).

(60) = 1 − ( q(y|θ) qˆ(y; X))dy p(x|θ)dx R R  2. ˆ (θ−θ(X)) − 2 8σy = 1−e p(y|θ)dx R   2 =E. X. 1−e. −. ˆ (θ−θ(X)) 2 8σy. 29. ,.

(61) ˆ en appliquant le  lemme 1.4.5 avec  σ1 = σ2 = σy , θ1 = θ et θ2 = θ(X). On a donc 2 RH (θ; qˆ) = E. 1.5. X. 1 − σy e. −. ˆ (θ−θ(X)) 2 8σy. , d’o` u le r´esultat.. Approche Bay´ esienne. Tel que vu au Th´eor`eme 1.2.1, il existe une autre mani`ere d’obtenir une loi pr´edictive, soit par une approche bay´esienne. Contrairement au cas des estimateurs par substitution, l’approche bay´esienne s’appuie plutˆot sur une loi a priori π a` laquelle le param`etre θ pourrait ob´eir. Il en r´esulte alors une loi a posteriori, ainsi que la densit´e pr´edictive usuelle qˆπ du th´eor`eme 1.2.1.. 1.5.1. D´ efinition. On cherchera `a estimer une densit´e q(y|θ), y ∈ Rd , par une densit´e pr´edictive qˆ(y; X) en utilisant une ou plusieurs observations de X telles que X ∼ p(x|θ). On ne sait que peu de choses du param`etre θ, si ce n’est qu’elle pourrait suivre une loi dite a priori d´efinie comme ´etant θ ∼ π(θ). L’inf´erence bay´esienne d´ecoule de la loi a posteriori, qui sera not´ee π(θ|x) et qui sera obtenue, par une application de la formule de Bayes, de la mani`ere suivante : π(θ|x) = . p(x|θ)π(θ) p(x|θ)π(θ) , = mπ (x) p(x|θ)π(θ)dθ Θ. (1.8). o` u mπ (x) est la loi marginale de X associ´ee `a l’a priori π(θ). Remarque 1.5.1. On utilise souvent la notion de proportionalit´e dans les calculs afin d’´eviter l’int´egrale au d´enominateur, de sorte que π(θ|X) ∝ p(x|θ)π(θ). On est ensuite souvent en mesure de d´eduire la loi a posteriori de θ|X. 30.

(62) On est ensuite en mesure de d´eterminer une loi pr´edictive qˆ(·; X) par la loi marginale de Y , ce qui donne :  Θ. q(y|x) =. q(y|θ)p(x|θ)π(θ)dθ  = p(x|θ)π(θ)dθ Θ.  Θ. q(y|θ)p(x|θ)π(θ)dθ = mπ (x).  q(y|θ)π(θ|x)dθ, Θ. lorsque X et Y sont conditionnellement ind´ependants par rapport a` θ. On trouve plusieurs r´esultats par rapport a` l’approche bay´esienne sur les densit´es pr´edictives qui seront d´emontr´es dans les sous-sections suivantes.. 1.5.2. Cas Gamma. Le r´esultat suivant provient de L’Moudden et coll. (2017). On supposera ici queX ∼ Gamma(α1 , β) et que Y ∼ Gamma(α2 , β). On cherche ici une repr´esentation de la densit´e pr´edictive qˆπ (y; X), o` u π est la loi a priori du param`etre β.. Theor` eme 1.5.1. En consid´erant les lois sur X, Y ´enonc´ees ci-dessus et en supposant une loi a priori π(β) pour laquelle la loi a posteriori π(β|x) existe, on obtient la densit´e pr´edictive :. qˆπ (y; x) =. Γ(α1 + α2 ) 1 y α2 −1 x + y −(α1 +α2 −1) mπ (y + x|α1 + α2 ) 1(0,∞) (y), x > 0, Γ(α1 )Γ(α2 ) x x x mπ (x|α1 ). o` u mπ (z|α) =. . −z. R+. z α−1 e β Γ(α)β α. π(β)dβ est la densit´e marginale de Z (c’est-` a-dire Z ∼ Gamma(α, β)). sous la loi a priori π(β). 31.

(63) D´emonstration. On a pout tout x > 0, y > 0 :  ∞ yα2 −1 e− βy xα1 −1 e− βx  ∞ e− y+x ∞ β α −1 α −1 1 2 π(β)dβ π(β)dβ q(y|β)p(x|β)π(β)dβ y x Γ(α2 )β α2 Γ(α1 )β α1 0 0 β α1 +α2 0  = = qˆπ (y; x) = x ∞ −  ∞ xα1 −1 e β Γ(α1 )Γ(α2 ) mπ (x|α1 ) p(x|β)π(β)dβ 0 π(β)dβ Γ(α1 )β α1. 0. ∞. α1 −1 α2 −1. −. y+x. (y+x)α1 +α2 −1 e β Γ(α1 +α2 )β α1 +α2. π(β)dβ x y Γ(α1 + α2 ) 0 x α α +α −1 x 2 (y + x) 1 2 Γ(α1 )Γ(α2 ) mπ (x|α1 ). Γ(α1 + α2 ) 1 y α2 −1 x + y −(α1 +α2 −1) mπ (y + x|α1 + α2 ) = . Γ(α1 )Γ(α2 ) x x x mπ (x|α1 ) α2. =. Exemple 1.5.1. En utilisant l’a priori tronqu´e π(β) = β1 1[a,b] (β) sur [a, b] bas´ee sur l’a priori non-informative π(β) = β1 , on obtient : x x  xα1 −1 e− β 1 xα1 −1 b e− β dβ = mπ (x|α1 ) = dβ α1 β Γ(α1 ) a β α1 +1 a Γ(α1 )β    x xα1 −1 a uα1 +1−2 e−u x = du En posant u = Γ(α1 ) xb x α1 β x . x. x 1 xα1 −1 a uα1 −1 e−u du = F α1 − F α1 , = α1 x x Γ(α1 ) x a b b. . b. o` u Fα correspond `a la fonction de r´epartition d’une Gamma(α, 1). Par un calcul similaire, on montre que mπ (y+x|α1 +α2 ) =. 1 y+x.  Fα1 +α2 ( y+x ) − Fα1 +α2 ( y+x ) . a b. On trouve donc la densit´e pr´edictive :. ) − Fα1 +α2 ( y+x ) Γ(α1 + α2 ) 1 y α2 −1 x + y −(α1 +α2 ) Fα1 +α2 ( y+x a b . x x Γ(α1 )Γ(α2 ) x x x F α1 ( a ) − F α1 ( b ). Pour le prochain exemple, nous avons besoin de d´efinir deux lois de densit´e, soient les lois inverse Gamma et Beta de type 2. 32.

(64) D´ efinition 1.5.1. Une variable X suit une loi Inverse Gamma (not´ee IG(γ1 , γ2 )), lorsqu’elle admet la fonction de densit´e : γ2. γ γ1 x−(γ1 +1) e− x p(x) = 2 1(0,∞) (x), Γ(γ1 ) avec γ1 , γ2 > 0.. D´ efinition 1.5.2. Une variable X suit une loi Beta de type 2 (not´ee Beta2(c, d, σ)), avec c, d, σ > 0, lorsqu’on lui trouve la fonction de densit´e suivante :. p(x) =. Γ(c + d) 1 ( σx )c−1 1(0,∞) (x). Γ(c)Γ(d) σ (1 + σx )c+d. Remarque 1.5.2. Il en d´ecoule de l’exemple 1.5.1 pour le cas π(β) =. 1 1 (β), β (0,∞). la. densit´e pr´edictive :. qˆπ0 (y; x) =. Γ(α1 +α2 ) 1 Γ(α1 )Γ(α2 ) x. α2 −1 y x. x+y x. −(α1 +α2 ). ,. pour a > 0 et b = ∞. On voit donc que qˆπ0 (y; x) ∼ Beta2(α2 , α1 , x).. Exemple 1.5.2. Soit Y ∼ Gamma(α2 , β), X ∼ Gamma(α1 , β). Pour un a priori π(β) ∼ IG(γ1 , γ2 ) tel que mentionn´e `a la d´efinition 1.5.1 sous conditions α1 > 1, γ1 > α1 − 1 et γ2 > 0, on obtient que qˆπ (y; x) ∼ Beta2(α2 , α1 + γ1 , x + γ2 ) selon la d´efinition 1.5.2. En effet, pour x > 0 : 33.

(65)  ∞ yα2 −1 e− βy xα1 −1 e− βx γ2γ1 β −(γ1 +1) e− γβ2 ∞ dβ q(y|β)p(x|β)π(β)dβ Γ(α2 )β α2 Γ(α1 )β α1 Γ(γ1 ) 0 = qˆπ (y; x) = 0  ∞ γ  ∞ xα1 −1 e− βx γ2γ1 β −(γ1 +1) e− β2 p(x|β)π(β)dβ 0 dβ Γ(α1 )β α1 Γ(γ1 ) 0  ∞ (x+y+γ2 )α1 +α2 +γ1 −(α +α +γ +1) − x+y+γ2 Γ(α1 +α2 +γ1 ) y α2 −1 β β 1 2 1 e dβ Γ(α2 ) (x+y+γ2 )α1 +α2 +γ1 0 Γ(α1 +α2 +γ1 ) = x+γ Γ(α1 +γ1 )  ∞ (x+γ2 )α1 +γ1 −(α1 +γ1 +1) − β 2 β e dβ Γ(α1 +γ1 ) (x+γ2 )α1 +γ1 0 =. y α2 −1 Γ(α2 ). (x + γ2 )α1 +γ1 (x + y + γ2 )α1 +α2 +γ1 Γ(α1 + γ1 ). Γ(α1 + α2 + γ1 ) )α1 +α2 +γ1. (x+γ2 (x+γ2 )α1 +α2 +γ1. y ( x+γ )α2 −1 1 Γ(α1 + α2 + γ1 ) 2 = ∼ Beta2(α2 , α1 + γ1 , x + γ2 ). y Γ(α2 )Γ(α1 + γ1 ) (x + γ2 ) (1 + x+γ )α1 +α2 +γ1 2. Remarque 1.5.3. On arrive ´egalement au r´esultat en appliquant le th´eor`eme 1.5.1 puisque mπ (x+y|α1 +α2 ) =. 1.5.3. γ. Γ(α1 +α2 +γ1 ) (x+y)α1 +α2 −1 γ2 1 Γ(α1 +α2 )Γ(γ1 ) (x+y+γ2 )α1 +α2 +γ1. et mπ (x|α1 ) =. γ. Γ(α1 +γ1 ) xα1 −1 γ2 1 . Γ(α1 )Γ(γ1 ) (x+γ2 )γ1 +α1. Cas de la loi normale. Les prochains r´esultats proviennent de l’article Kubokawa et coll. (2015) , o` u l’on utilise le fait que l’estimateur de densit´e pr´edictive qˆπ (y; X) de l’´equation (1.8) est ´egalement Bayes pour la perte L2 . On y trouve ´egalement d’int´eressants r´esultats pour l’approche bay´esienne sur X, Y de lois normales, ainsi que pour d’autres densit´es `a sym´etrie sph´erique. Pour mieux comprendre ces r´esultats, nous aurons besoin des notions suivantes. D´ efinition 1.5.3. Le produit de convolution entre deux fonctions f et g, not´e (f ∗ g) est d´efini par :  (f ∗ g)(x) =.  Rd. f (x − t)g(t)dt =. Rd. f (t)g(x − t)dt.. Ce produit repr´esente, lorsque f et g sont des densit´es de Lebesgue sur Rd , la densit´e de la somme X + Y o` u X ∼ f et Y ∼ g et les variables X et Y sont ind´ependantes. 34.

(66) 2 Exemple 1.5.3. Pour f ∼ Nd (0, σX Id ) et g ∼ Nd (0, σY2 Id ), on trouve 2 (f ∗ g) ∼ Nd (0, (σX + σY2 )Id ).. D´emonstration. Pour x ∈ Rd , on obtient :   − 12 ||x−t||2 − 12 ||t||2 1 1 2σ 2σ X Y f (x − t)g(t)dt = e e dt (f ∗ g)(x) = 2 d2 2 d2 d d (2πσY ) R R (2πσX )  (σ 2 +σ 2 ) 2xtσ 2 ||x||2 σ 2 − X2 2Y ||t||2 + 2 Y2 − 2 2Y 1 2σ σ 2σ σ 2σ σ X Y X Y X Y dt e = 2 2 d2 2 ((2π) σX σY ) Rd ) 2 4 4 *  (σ 2 +σ 2 ) 2xtσ 2 ||x||2 σY ||x||2 σY ||x||2 σY − X2 2Y ||t||2 − 2 Y2 + 2 + 2 − 2 1 2 2 2 2 (σ +σ ) (σ +σ ) (σ +σ ) (σ +σ )2 Y Y Y Y X X X X e 2σX σY = dt d 2 2 2 ((2π)2 σX σ Y ) Rd ) ||x||2 σ2 2 4 * (σ 2 +σ 2 ) Y − ||x|| σY ) * − X2 2Y   2 (σ 2 +σ 2 ) 2xtσ 2 ||x||2 σ 4 2σ σ (σ 2 +σ 2 ) (σ 2 +σ 2 )2 X Y X Y X Y (σX + σY2 )  d2 − 2σX2 σ2Y ||t||2 − (σ2 +σY2 ) + (σ2 +σ2Y)2 e Y Y X Y X X e dt = d 2 2 2 2πσX σY (2π(σX + σY2 )) 2 Rd ) 2 (σ 2 +σ 2 ) 2 4 * (σ 2 +σ 2 ) ||x||2 σY X Y − ||x|| σY − X2 2Y 2   2 (σ 2 +σ 2 ) xσY 2σ σ (σ 2 +σ 2 )2 (σ 2 +σ 2 )2 2 Y Y X Y X X (σX + σY2 )  d2 − 2σX2 σ2Y ||t− σ2 +σ e 2 || X Y X Y e dt = d 2 2 2 2πσX σY (2π(σX + σY2 )) 2 Rd ) * (σ 2 +σ 2 ) ||x||2 σ 2 σ 2 =. e. −. X Y 2σ 2 σ 2 X Y. Y X (σ 2 +σ 2 )2 Y X d. 2 (2π(σX + σY2 )) 2. =. 1 d. 2 (2π(σX + σY2 )) 2. e. −. ||x||2 (σ 2 +σ 2 ) X Y. 2 ∼ Nd (0, (σX + σY2 )Id ).. Lemme 1.5.1. En supposant que la densit´e a posteriori en (1.8) existe sur Rd et peut ˆ ˆetre exprim´ee sous la forme π(θ|x) = g(θ − θ(x)), alors la densit´e pr´edictive qˆπ (y; x) de ˆ q(y − θ) ´equivaut `a (q ∗ g)(y − θ(x)), o` u q ∗ g est le produit de convolution entre q et g. ˆ D´emonstration. Par (1.8) et en posant π(θ|x) = g(θ − θ(x)), alors on obtient pour tout y ∈ Rd : qˆπ (y; x) =. .  Rd. ˆ q(y − θ)g(θ − θ(x))dθ =. Rd. ˆ − θ )g(θ )dθ = (q ∗ g)(y − θ(x)), ˆ q(y − θ(x). ˆ − θ . en posant le changement de variable θ = θ(x) Exemple 1.5.4. Pour X ∼ Nd (θ, σx2 Id ), Y ∼ Nd (θ, σy2 Id ) avec loi a priori π(θ) ∼  ˆ ˆ Nd (μ, τ 2 Id ), on obtient que la loi a posteriori π(θ|x) ∼ Nd (θ(x), (τ )2 Id ) telle que θ(x) =. 35.

Figure

Figure 1.2 – Coefficient de recouvrement entre deux lois normales de mˆ eme moyenne selon le rapport R = σ σ 1
Figure 2.1 – Valeur de Δ pour μ ∈ ( − 1, 1) avec c = inf
Figure 2.2 – Valeur du rapport R c (μ)/R 1 (μ) selon μ pour c = c 0 (μ)
Figure 2.3 – Risque L 1 pour densit´ e Laplace lorsque β = 1.
+7

Références

Documents relatifs

• Si les suites (u 2n ) et (u 2n+1 ) convergent vers une mˆeme limite ℓ, alors (u n ) converge ´egalement vers ℓ.. • Utilisation de suites extraites pour ´etablir la

Une matrice sym´ etrique r´ eelle est dite positive si ses valeurs propres sont positives et elle est dite d´ efinie positive si ses valeurs propres sont strictement positives.. On

Proposer une situation, avec deux groupes de 12 personnes de moyennes d’ˆ ages 18 ans et 29 ans, o` u Max n’aurait pas du tout fait le

´etabli dans [35] et [38], pour en tirer des r´esultats fins sur la g´eom´etrie des vari´et´es ou des fibr´es. Nous d´emontrons ainsi une version du th´eor`eme de Lefschetz

[r]

Remarque Nous ne serons pas plus royaliste que le ”roi concepteur” et nous ne soul` everons pas de difficult´ e au niveau des probabilit´ es conditionnelles sur la nullit´ e de

Enfin, on remarque que pour les nombres auxquels on associe des groupes cycliques, l’intersection entre l’ensemble des g´ en´ erateurs du groupe et l’ensemble des nombres

Ces trois identit´es sont ` a connaˆıtre parfaitement et ` a savoir utiliser [comme dans l’exemple