• Aucun résultat trouvé

Modèles statistiques à vraisemblance pivotale

N/A
N/A
Protected

Academic year: 2021

Partager "Modèles statistiques à vraisemblance pivotale"

Copied!
28
0
0

Texte intégral

(1)

Modèles statistiques à vraisemblance pivotale

Francis Maisonneuve

MINES ParisTech

Résumé

Quitte à se limiter à quelques modèles statistiques usuels (mais importants) qui vérifient une condition forte de “vraisemblance pivotale”, on peut étendre la méthode des pivots utilisée pour les intervalles de confiance à l’estimation de paramètre (réel ou vectoriel) parrégions les plus vraisemblables. La procédure proposée ne fait intervenir aucun élément ou choix arbitraire (estimationintrinsèque) ; elle est de plus invariante par reparamétrage, à l’instar des estimations ponctuelles au maximum de vraisemblance attachées à ces estimations ensemblistes.

Bien que la démarche soit de facture purement classique (fréquentiste), on vérifiera en dernière partie de l’étude qu’il est possible deprobabiliser a posterioril’espace des paramètres de tels modèles à vraisemblance pivotale, au moins de manière partielle en vue deformulerles résultats d’estimation, et même complètement pour les exemples considérés, qualifiés deparfaits. Allant au-delà de la notion contestée deprobabilité fiduciaireintroduite par R.A.

Fisher, on pourra établir pour eux un lien direct avec l’approche bayésienne en dégageant une notion de loi a priori non informative ; on rejoindra à cette occasion l’approche de l’école bayésienne appeléeexact matching prior.

Abstract

Statistical Models with Pivotal Likelihood

We consider a few common (however important) statistical models satisfying a strong condition of “pivotal likelihood”. For these, we can extend the pivotal method designed for the confidence intervals to the (real or vectorial) parameter estimation based onhighest likelihood regions. The proposed procedure involve no arbitrary element or choice (intrinsicestimation); furthermore it is equivariant under reparameterization, as do maximum likelihood point estimations linked with these set estimations.

Although this work relies only on classical (frequentist) statistics, we verify in the final section of the paper that it is possible to post-probabilize the parameter space of such models having pivotal likelihood, at least partially in order toexpressthe estimation results, and even completely for the previous examples that we callperfect models.

Going further than the highly contestedfiducial probabilityintroduced by R.A. Fisher, we will establish for them a direct link with Bayesian modelling by identifying a notion of uninformative prior distribution ; we will meet on this occasion the Bayesian approach calledexact matching prior.

(2)

Table des matières

1 Introduction : généralités sur la vraisemblance 3

1.A Cadre de l’étude 3

1.B Paramètres utiles et nuisibles 3

2 Vraisemblance pivotale et régions de confiance 4

2.A L’hypothèse de vraisemblance pivotale 4

2.B Réflexions sur le choix de l’hypothèse 6

2.C Statistiques exhaustives et factorisation vraie deφ 7

2.D Cas des modèles exponentiels réels 8

3 Exemples 9

3.A Une situation asymptotique assez générale 9

3.B Modèles à paramètre de translation pourT 10

3.C Modèles réels à paramètre de position pourT 12

3.D Modèles réels à paramètre d’échelle pourT 13

3.E Modèles des lois gaussiennes à un paramètre nuisible 16

4 Probabilisation possible deΘ 17

4.A La famille des pré-probabilités surΘsachantx 18

4.B Factorisation deφet probabilité surΘ 19

4.C Lien avec la statistique bayésienne 20

4.D Exemples de modèles parfaits 22

5 Annexes 24

5.A Statut de la fonction de répartition deT dans le cas réel 24

5.B Le modèle de seuillage d’une variable aléatoire 25

5.C Information a priori en vision fréquentiste ? 27

6 Conclusion 27

Références 28

(3)

1. Introduction : généralités sur la vraisemblance

1.A. Cadre de l’étude

On considère un modèle statistique paramétrique dominé par une mesureσ-finieµ: Θouvert connexe de Rd (d≥1), Ω,A,(Pθ)θ∈Θ

etX variable aléatoire de loifθµpourPθ. Pour ne pas multiplier les notations, unX-échantillon(X1, . . . , Xn)de taille nsera encore noté X; et sa densité par rapport à la mesureµn⊗ sera encore notée fθ :

x= (x1, . . . , xn)7−→fθ

n

Y

i=1

fθ(xi)(et ennotation croisée fx est la fonction de vraisemblance θ7→fθ(x)).

∆ désigne un borélien porteur de µ (µ(∆c) = 0), en général inclus dans le support de µ. On ne considérera couramment que desx= (x1, . . . , xn)∈∆n.

Rappelons que la (fonction de) vraisemblance sachant x est en fait une notion définie à un facteur multiplicatif (strictement positif) près pour chaque valeur fixée de x, ce qu’on écrit · ∝ fx; de sorte qu’elle n’est pas affectée par le remplacement de la mesure dominante µ par une mesure équivalente.

Elle exprime essentiellement une relation d’ordre surΘ(variable avecx), sur laquelle est fondée l’estima- tion du paramètreθ au maximum de vraisemblance. Elle détermine aussi la famille des régions les plus vraisemblablespourθ sachantx∈∆n

h≥0,{fx> h} ⊆Θ,

qui peuvent constituer d’intéressantes estimations régionales deθ, dans la mesure où on peut leur attribuer des niveaux de confiance justifiés et précis.

Soulignons le caractère essentiellement fréquentiste de cette analyse. Il existe des estimations apparen- tées en inférence bayésienne, fondées sur les grandes valeurs de ladensité a posteriori du paramètre, avec comme on le sait l’obligation pour rester cohérent de modifier convenablement la mesure de référence en cas de reparamétrage.

1.B. Paramètres utiles et nuisibles

Dans le cas d’un modèle à paramètreθvectoriel (d≥2), il est fréquent de s’intéresser plus spécialement à l’estimation de certaines composantes deθ, les autres ayant des valeurs connues ou non. Précisons les relations entre estimation complète et de telles estimations partielles de θ par régions les plus vraisem- blables : pour tout sous-ensemble strict J de {1, . . . , d} de cardinal dJ et pour toutθ ∈ Θ, soitθJ et θJc le dJ et ledJc-uplet “projections” de θselon J etJc respectivement, constitués de ses composantes d’indices dansJ et dans Jc={1, . . . , d} \J; de sorte qu’on peut identifierθau couple (θJ, θJc).

– SiθJc est connu, la famille des régions les plus vraisemblables pourθJ sachantx∈∆n est h≥0,{fx(·, θJc)> h};

{fx(·, θJc)> h} est la section àθJc de la région la plus vraisemblable pourθ sachantx, {fx> h}.

Ceci revient, dans le cadre du modèle de référence, à prendre comme fonction de vraisemblance de θJ lavraisemblance conditionnelle à θJc

θJ 7−→fxJ, θJc).

Une justification consiste à se placer dans le cadre du modèle de référence “conditionné àθJc” : Ω,A,(PJJ c))θ

J

où ∀θJ,fJJ c)µ est la loi deX pour PJJ c), dont le paramètreθJ admet la fonction précédente comme vraisemblance sachantx.

(4)

– Si θJc est inconnu (θJc paramètre nuisible), la famille des régions les plus vraisemblables pour θJ

sachantx∈∆n est

h≥0, [

θJ c

fx(·, θJc)> h ; [

θJ c

fx(·, θJc)> h est la projection selonJ de la région la plus vraisemblable pourθ sachant x, {fx> h}: on adopte ceci comme région la plus vraisemblable, car à hauteurhfixée, on veut y trouver tous lesθJ tels quefxJ, θJc)> hpour au moins une valeur deθJc. Ceci revient, dans le cadre du modèle de référence, à prendre comme fonction de vraisemblance deθJ sachant xlavraisemblance marginale, qu’on suppose à valeurs finies,

θJ7−→ sup

J c: (θJ, θJ c)Θ}

fxJ, θJc).

2. Vraisemblance pivotale et régions de confiance

2.A. L’hypothèse de vraisemblance pivotale

On considère dans la suite un modèle statistique àdparamètres réels tel que

∀x= (x1, . . . , xn)∈∆n,M(x)=efkfxk= sup

θ∈Θ

fx(θ)vérifie 0<kfxk<+∞; ce qui permet de définir lavraisemblance normaliséeφ=φ(n): ∆n×Θ→[0,1]par

∀(x, θ)∈∆n×Θ, φx(θ) = 1

kfxkfx(θ) (en abrégéφ= f M)

(ou en cas de paramètre nuisibleθJc, de définir lavraisemblance marginale normalisée φ=φ(n)J par φxJ) = 1

kfxk sup

J c: (θJ, θJ c)Θ}

fxJ, θJc)).

Définition2.1 On dira que le modèle vérifie l’hypothèse de vraisemblance pivotalesiφest une fonction pivotale, autrement dit siφ vérifie la propriété pivotale qui s’écrit en notation croisée (φθ(x) =φx(θ)) :

∀θ∈Θ, la variable aléatoire composéeφθ(X1, . . . , Xn)(qui dépend deθ) est telle que sa loiη =η(n) n’en dépend pas :

∀θ∈Θet∀B ∈ B(R),Pθ φθ(X1, . . . , Xn)∈B

=η(B); ce qu’on note en abrégé ∀θ∈Θ, φθ(X)

(Pθ) =η.

η est ainsi la probabilité image dePθparφθ(X1, . . . , Xn), ou encore celle de la loifθµn⊗=M φθµn⊗

de(X1, . . . , Xn)parφθ; elle est portée parφθ(∆n)pour toutθ∈Θ, a fortiori parφ(∆n×Θ)⊆[0,1].

L’hypothèse très forte de vraisemblance pivotale ci-dessus, qui exprime que la fonction de vraisemblance normalisée est une fonction pivotale, est semble-t-il originale ; les exemples détaillés dans les sections suivantes, où on pourra identifier la loiη, attesteront que cette hypothèse n’est pas totalement saugrenue !

On a d’après la propriété pivotale ∀θ∈Θet ∀B ∈ B(R), Pθ φ−1X (B)3θ

=Pθ φX(θ)∈B

=η(B): φ−1X (B)est unerégion aléatoire de confiance pourθau niveauγ=efη(B). Conformément au point de vue fréquentiste habituel, si on renouvelait un grand nombre de fois l’expérience aléatoire pour obtenir une suite d’échantillons xj ∈ ∆n, on auraitφ−1xj(B) 3θ avec une fréquence expérimentale voisine de γ; ce qui conduit pour un échantillon donnéx∈∆n à prendre comme estimation ensembliste de θ au niveau

(5)

(exact) de confianceγ

ΘBx =efφ−1x (B) ={φx∈B}=

θ∈Θ :φθ(x1, . . . , xn)∈B ,

appelérégion de confiance pourθ sachant l’échantillonxau niveauγ=η(B), indépendant dex.

On peut noter que le principe de vraisemblance n’est pas à proprement parler respecté dans cette définition, du fait qu’on doit se référer à la mesureηpour la détermination des niveaux de confiance (voir toutefois le paragraphe 4.C à ce sujet).

En fait, pour éviter tout paradoxe apparent dans l’estimation par régions de confiance, on peut com- pléter l’hypothèse de vraisemblance pivotale par deux conditions sur la mesureη :

– ∀x∈∆n,η est portée parφx(Θ), autrement dit η φx(Θ)c

= 0.

En effet sinon il pourrait exister B ∈ B(R)tel que η(B)>0 vérifiantB ⊆φx(Θ)c pour certains échantillons x∈∆n; de sorte qu’on aurait pour ceux-ci ΘBx =∅ : curieuse estimation ensembliste ! (cf. à ce sujet le paragraphe 3.C). Plus profondément, la valeur du niveau de confianceη(B)deΘBx dépend ainsi de B seulement via ΘBx : en effet ΘBx = ΘBx0 =⇒ φx ΘBx

= φx ΘBx0

, c’est-à-dire B∩φx(Θ) =B0∩φx(Θ); de sorte que

ΘBx = ΘBx0 =⇒η(B) =η B∩φx(Θ)

=η B0∩φx(Θ)

=η(B0).

– η diffuse, ou au moins η({0}) = 0.

La relationη({0}) = 0assure que pour toutx∈∆n, la région de vraisemblance nulle{φx= 0} a un niveau de confiance nul : ce qui paraît être une exigence minimum de cohérence entre ces deux notions !

Ces deux conditions se résument en :∀x∈∆nx(Θ)∩]0,1] = φx({φx >0}) est porteur deη. Nous dirons alors queφest une fonction pivotaleétalée.

Remarque 1 Il est clair que la vraisemblance normaliséeφ, et de là la mesureη, ne dépendent ni du choix de la mesure dominante µ du modèle, ni d’un reparamétrage θ ∈ Θ7−→δ θe∈ Θ, oùe δ est une bijection bi-mesurable deΘsur un autre ouvertΘe deRd(au sens oùφe

eθθeteη=η). Et les régions aléatoires de confiance pourθ au niveauγ déterminées par φne dépendent pas non plus du choix de la normalisation deφà 1 plutôt qu’à une autre constantek >0, ou même du remplacement deφparφ0=`◦φoù`:RR est un homéomorphisme croissant quelconque (au sens où {φ0x∈B0}={φx∈`−1(B0)}, avec η0 =`(η)).

Remarque 2 La fonctionφest étalée siη({0}) = 0et si on est dans l’un ou l’autre des deux cas suivants : – φx(Θ)ne dépend pas dex∈∆n (car il coïncide alors avecφ(∆n×Θ)qui porte η) ;

– ∀x∈∆nx(Θ)⊇]0,1], ouη({1}) = 0et ∀x∈∆nx(Θ)⊇]0,1[(car ]0,1]porteη).

On dispose ainsi pour toutx∈∆n de la famille desrégions de confiance les plus vraisemblables pourθ y∈]0,1[,{φx> y} ⊆Θ, au niveauγ(y)=efη( ]y,1])indépendant dex.

La fonctionγ (prolongée par les valeurs 1 sur]− ∞,0]et 0 sur[1,+∞[) est la fonction de répartition complémentaire de la probabilité η surR, continue en 0 puisque η({0})) = 0; si elle est continue sur R (cas oùηest diffuse), elle prend en décroissant toutes les valeurs de]0,1[et on a pour tout x∈∆n

∀γ0∈]0,1[,{γ◦φx< γ0}={φx> y0} où y0= max{y∈R:γ(y) =γ0}:

la (plus petite) région la plus vraisemblable pour θ sachant x au niveau de confianceγ0 s’obtient ainsi directement par seuillage du graphe de la fonctionγ◦φxdansΘ×Rsous la hauteurγ0.

En résumé, sous l’hypothèse très forte devraisemblance pivotale (étalée), la famille {φx> y}

y∈]0,1[

des régions les plus vraisemblables pourθ sachantxestintrinsèque au modèle statistique, au sens où la définition de ces régions et de leur niveau de confiance ne comportent aucune part d’arbitraire ; contraire-

(6)

ment par exemple aux intervalles de confiance d’un paramètre réel qui dépendent du choix de la fonction pivotale, ainsi que du type d’intervalle retenu.

L’estimation par régions les plus vraisemblables pour θ nous semble “optimale” au sens évident où elle maximise la vraisemblance du paramètre. Comme pour l’estimation ponctuelle au maximum de vraisemblanceθˆdeθque (l’adhérence de) ces régions contiennent lorsqu’elle existe1, ce mode d’estimation n’est pas associé à un critère d’optimalité lié à un paramétrage particulier ; contrairement aux estimations classiques fondées sur la minimisation d’un risque ou d’une “taille” impliquant la mesure de Lebesgue sur Θ, ou tout autre étalon non invariant par reparamétrage. Selon qu’on se focalise sur des cas où un paramétrage particulier s’impose ou non, cette invariance apparaîtra comme un défaut ou au contraire comme une qualité structurelle supplémentaire.

2.B. Réflexions sur le choix de l’hypothèse On part de la relation

∀B∈ B(R),Pθ φ−1X (B)3θ∀θ

=η(B),

et pour tout échantillon x∈∆n on attribue à la région φ−1x (B) le niveau de confiance γ =η(B). Ceci suppose impérativement que B ne dépend pas de x; car si B =Bx on devrait se référer à la quantité Pθ φ−1X (BX)3θ

=Pθ φX(θ)∈BX

qui ne s’exprime plus au moyen de η (même siη(Bx)ne dépend pas dex) !

C’est la raison pour laquelle on s’est résolu à poser la très stricte hypothèse de vraisemblance pivotale plutôt que le jeu d’hypothèses :

– ∃Φ : ∆n×Θ→Rd0 (1≤d0≤d) telle que

∀θ,Φθ(X1, . . . , Xn)est de loi fixeν

∀x,Φx(Θ)est porteur deν

; – ∀x∈∆n,∃Gx: Φx(Θ)⊆Rd0 →[0,1]telle queφx=Gx◦Φx, oùφ= f

M,

cette dernière hypothèse assurant simplement qu’àxfixé la valeurΦx(θ)détermine la valeurφx(θ)pour toutθ∈Θ; de sorte que∀y∈]0,1[, la région la plus vraisemblable pourθ,{φx> y}, s’exprime au moyen de la fonction pivotaleΦpar

x> y}={Φx∈Bx} où Bx={Gx> y}.

On peut noter que, d’un point de vue strictement formel, ce jeu d’hypothèses peu exigeantes pourrait suffire pour une partie de l’étude. Mais les niveaux de confiance qu’on attribuerait alors aux régions les plus vraisemblables pour θ sachant x seraient à la fois injustifiés (cf. ci-dessus) et non intrinsèques, du fait de la multiplicité des fonctions pivotalesΦpossibles.

Par contre siGx ne dépend pas dex,φ=G◦Φest une fonction pivotale, qui est étalée si la loiν est portée par{G >0} (cf. le paragraphe 2.C).

Une idée plus subtile est la particularisation suivante du jeu d’hypothèses précédent : – ∃Φ : ∆n×Θ→R telle que

∀θ,Φθ(X1, . . . , Xn)est de loi fixeν

∀x,Φx(Θ) est porteur deν

; – ∀x∈∆n,∃Gx:RRhoméomorphisme croissant tel queφx=Gx◦Φx.

1. on se réfère pour définirθˆà la version semi-continue supérieurement defx,θ7→lim sup

θ0→θ

fx0)

(7)

Il s’agit en effet d’hypothèses moins restrictives que l’hypothèse de vraisemblance pivotale (où Φ =φ etGx=idR) et telles cependant que lafamilledes régions les plus vraisemblables pourθsachantx∈∆n est encore de la forme (cf. les paragraphes 1.A et 2.A)

z∈R, {Φx> z}, de niveau de confiance z7−→ν( ]z,+∞[ ) indépendant dex.

Mais rien ne semble garantir que si (Φ0, G0) est un autre couple de fonctions vérifiant les hypothèses ci-dessus, donc tel que

Φ0x=G0x−1◦φx=G0x−1◦Gx◦Φx, l’homéomorphisme croissant composé`x

ef

= G0x−1◦Gxne dépende pas dex; or c’est seulement sous cette condition de non dépendance enxqu’on est assuré que les niveaux de confiance attribués aux régions les plus vraisemblables ne dépendent pas du choix particulier du couple(Φ, G)et donc sont bien intrinsèques au modèle.

2.C. Statistiques exhaustives et factorisation vraie de φ

On sait qu’une variable T =τ(X1, . . . , Xn)à valeurs dansRp (courammentp=d) est une statistique exhaustive pour le modèle si on a une factorisation de la densité de(X1, . . . , Xn)de la forme

∀(x1, . . . , xn, θ)∈∆n×Θ,fθ(x1, . . . , xn) =B(x1, . . . , xn)fθT(t1, . . . , tp)

où (t1, . . . , tp) =ef t = τ(x1, . . . , xn) et où B > 0 sur ∆n. fθT est pour tout θ ∈ Θla densité de T par rapport à la mesure dominanteµ0 =τ(B µn⊗)surRp, image parτ =τ(n)de la mesure de densitéB par rapport àµn⊗. La factorisation s’écritfx=B(x)ftT avec la notation croiséeftT(θ)=effθT(t1, . . . , tp); elle exprime donc simplement queftT ∝fx quandt=τ(x).

En supposant toujours que∀x∈∆n,M(x) =kfxk∈]0,+∞[, on aftT ∝fx∝φx. Ainsi∀x, x0 ∈∆n tels quet=τ(x) =τ(x0), on aφx∝φx0 et doncφxx0 du fait de la normalisation. Ceci assure que la fonctionφne dépend dexque viaτ(x):

∀x∈∆nx ef

= φTt oùt=τ(x),

avec pour tout t ∈ τ(∆n), φTt ∝ ftT et kφTtk = 1. Ainsi fx = M(x)φx = M(x)φTt : cette dernière factorisation exprime que pour toutθ∈Θ, la fonction normaliséeφTθ est exactement la densité deT dans le modèle statistique image parτdu modèle de référence lorsqu’on choisitMcomme fonctionB— de sorte queµ0=τ(M µn⊗). Enfin si on noteMT(t)=efkftTkpour toutt∈τ(∆n), on aM(x) =B(x)MT(t).

L’hypothèse de vraisemblance pivotale étalée s’exprime donc au moyen deT par

∀θ∈Θ, (φTθ(T))(Pθ) =η et ∀t∈τ(∆n),φTt(Θ)∩]0,1]est porteur deη;

et on peut si besoin remplacer ci-dessusτ(∆n)par∆0, où∆0 ⊆τ(∆n)est n’importe quel sous-ensemble porteur de µ0. On dira encore que φT est une fonction pivotale étalée (du modèle image par τ). On retiendra que la relation φx = φTτ(x) assure qu’une région la plus vraisemblable pour θ ne dépend de l’échantillonxque via la valeur t=τ(x)de n’importe quelle statistique exhaustiveT =τ(X1, . . . , Xn):

y∈]0,1[,{φTt > y} ⊆Θ, au niveau de confianceγ(y) =η( ]y,1])indépendant de t; de sorte que cette définition respecte leprincipe d’exhaustivité.

Supposons à présent qu’il existe deux fonctions boréliennes ΦT : ∆0×Θ→Rd et g: ΦT(∆0×Θ)→R+

bornée telles que

fT =g◦ΦT

∀θ,ΦTθ(T)a sa loiν fixe et portée par{g >0}

∀t,ΦTt est une bijection de {ftT >0}sur{g >0}

.

(8)

Comme∀t∈∆0,ftT =g◦ΦTt, on akftTk=kgk∈]0,+∞[puisqueΦTt est une bijection de{ftT >0}

sur{g >0}et gest bornée non nulle ; donc en posant G=ef 1

kgkg: Φ(∆n×Θ)⊆Rd →[0,1], on a de manière plus intrinsèque

φT =G◦ΦT

∀θ,ΦTθ(T)a sa loiν fixe et portée par{G >0}

∀t,ΦTt est une bijection de {φTt >0}sur{G >0}

.

Ceci assure queφT est une fonction pivotale étalée (ainsi quefT =kgkφT), puisque∀θ,φTθ(T)a sa loi fixeη= G◦(ΦTθ(T))(Pθ)

=G(ν)portée pour toutt parG({G >0}) =φTt({φTt >0}) =φTt(Θ)∩]0,1].

Si U et une variable aléatoire de loi ν, alors η est la loi de G(U). On désignera en abrégé ce type de factorisation deφT par(ΦT, G).

On a d’après ci-dessus∀θ∈Θet ∀B∈ B(Rd),PθTT)−1(B)3θ

=Pθ ΦTT(θ)∈B

=ν(B):

TT)−1(B)est une région aléatoire de confiance pourθ au niveauγ=ν(B). Conformément au point de vue fréquentiste habituel, si on renouvelait un grand nombre de fois l’expérience aléatoire pour obtenir une suite d’échantillons xj ∈ ∆n déterminant la suite tj = τ(xj), on aurait (ΦTtj)−1(B) 3 θ avec une fréquence expérimentale voisine deγ; d’où pour un échantillon donnéx∈∆n l’estimation ensembliste deθau niveau de confianceγ, en posantt=τ(x):

Tt)−1(B) ={ΦTt ∈B}=

θ∈Θ : ΦTθ(t1, . . . , tp)∈B .

En particulier pour touty∈]0,1[, la région la plus vraisemblable pourθ sachantxest {φx> y}={φTt > y}=

ΦTt ∈ {G > y} , au niveau de confianceγ(y) =η( ]y,1]) =ν(G > y) =P G(U)> y

.

On peut noter que dans le cas où la statistique exhaustive T = τ(X1, . . . , Xn) est minimale, la fac- torisation est “universelle” : en effet pour toute statistique exhaustiveS =σ(X1, . . . , Xn), il existe une application borélienneψ telle que T =ψ(S), de sorte que τ =ψ◦σ; alorsφT =G◦ΦT implique que φS =G◦ΦS en posantΦSθ = ΦTθ ◦ψpour toutθ, carφSθTθ ◦ψ.

2.D. Cas des modèles exponentiels réels

On rappelle qu’il s’agit de modèles réguliers (qu’on dit réels, card= 1) :

µportée par∆⊆R et ∀θ∈Θ, fθ(x) = ¯b(x)eα(θ) ¯a(x)+β(θ) oùΘest un intervalle ouvert deR, dans lesquels α et β sont de classe C2 sur Θ, α0 6= 0 partout, ¯a(X) non presque sûrement constant et

¯b >0 sur∆, avece−β(θ)= Z

¯b(x)eα(θ) ¯a(x)dµ(x).

L’estimateur efficaceT = 1 n

n

X

i=1

¯

a(Xi), qui en est une statistique exhaustive minimale, est intrinsèque au modèle exponentiel, car la fonction a¯ dans fθ(x) = ¯b(x)eα(θ) ¯a(x)+β(θ) ne dépend pas de la mesure dominante µdu modèle est n’est évidemment pas affectée par un reparamétrage. On sait que sa densité fθT(t)=efen[α(θ)t+β(θ)]>0 (en prenantB(x) = Q

1≤i≤n

¯b(xi)) est telle que pour tout t∈R,ftT est stricte- ment monotone ou unimodale2 surΘ, comme on le voit par le changement de variable canoniqueδ=efα

2. au sens de strictement croissant, puis strictement décroissant

(9)

à partir de la concavité stricte de l’application θe7−→ 1

n ln(ftT ◦α−1)(eθ) = θ te +β(eeθ) sur l’intervalle ouvert imageΘ =e α(Θ): on a en effet le résultat classique, en notanth(θ)=ef−β0(θ)

α0(θ) =Eθ(T): βe=β◦α−1=⇒βe0(eθ) = β0(θ)

α0(θ) =−h(θ) =⇒ −eβ00(eθ) = h0(θ)

α0(θ) =nvarθT >0.

En conséquence les régions les plus vraisemblables sont toutes des intervalles ouverts.

D’un autre côté la fonctionh, dont la dérivée est de signe constant, est un difféomorphisme deΘsur l’intervalle ouvert imageh(Θ); et∀t∈h(Θ), la dérivée deftT s’annule enθtel queα0(θ)t+β0(θ) = 0⇐⇒

θ=h−1(t). On en déduit par élimination (cf. ci-dessus) que∀t∈h(Θ),ftT est unimodale, de sorte que h−1(t)est l’estimationθˆdeθau maximum de vraisemblance.

Supposons que∆0 =efh(Θ)porteµ0=τ(B µn⊗); alorsφT est bien définie sur∆0×ΘpuisquekftTk= en[α(h−1(t))t+β(h−1(t))] ∈]0,+∞[; et∀t ∈∆0, φTt > 0 est unimodale et atteint son maximum 1 en θˆ= h−1(t). D’où ∀(t, θ)∈h(Θ)×Θ,−1

n lnφTθ(t) =

α h−1(t)

−α(θ) t+

β h−1(t)

−β(θ) .

Ainsi lorsqueh(Θ)porteµ0,h−1(T)est l’estimateur deθau maximum de vraisemblance et l’hypothèse de vraisemblance pivotale est vérifiée si et seulement si la loi de

α h−1(T)

−α(θ) T+

β h−1(T)

−β(θ) ne dépend pas deθ. Alors la loiη deφTθ(T) =φθ(X1, . . . , Xn)vérifieη({0}) = 0puisqueφTθ(T)>0.

Enfin par exemple la condition

∀t∈h(Θ),infftT(Θ) = 0

suffit à assurer que∀t∈h(Θ),φTt(Θ) = ]0,1], de sorte queφT est étalée (cf. la remarque 2 et le paragraphe 2.C). Si h(Θ) ne portait pas µ0, la fonction ftT serait strictement monotone en tout point t d’un sous- ensemble nonµ0-négligeableA; etφTt ne serait définie ent∈A que sikftTk<+∞.

3. Exemples

3.A. Une situation asymptotique assez générale

On suppose ici que la fonction f, telle que ∀x ∈ ∆n, M(x) = kfxk∈]0,+∞[, est suffisamment régulière pour que s’applique lethéorème du rapport des vraisemblances maximales, qui énonce

∀θ∈Θ,−2 ln fθ

M(X1, . . . , Xn)CVL−→χ2

d lorsquentend vers l’infini ;

c’est-à-dire une convergence en loi vers une variable du chi-deux qui ne dépend pas des valeurs de θ ni même du modèle, mais seulement du nombredde paramètres réels (indépendants) constituantθ qui est égal au nombre de degrés de liberté du chi-deux. φ= f

M vérifie donc la propriété pivotale de manière asymptotique, puisque la loi ηθ de φθ(X1, . . . , Xn) est assimilable pour nassez grand à la loi fixe η de e

χ2

d

2 . Sous réserve par exemple que la régularité def assure que φx(Θ)⊇]0,1[pour toutx∈∆n(cf. la remarque 2,η étant diffuse), on a donc que pour toutγ∈]0,1[fixé,

φx> y=efez2 =

fx> h=efez2kfxk

est la région la plus vraisemblable pourθ sachantxau niveau de confiance asymptotiqueγ, pourz >0 défini par

P(χ2

d < z) =γ.

(10)

3.B. Modèles à paramètre de translation pourT

Soit un modèle tel que l’ouvertΘ⊆Rdest un groupe localement compact, de mesure de Haar à gauche notéeΛ, et soitT une statistique exhaustive (minimale) telle que∆0 = Θet

∀θ∈Θ, θ−1T ≡L U oùU a pour loiν=gΛ avec la densitég bornée.

Comme T ≡L θ U = τθ(U) où τθ désigne l’opérateur de translation de θ à gauche, on a les égalités entre lois T(Pθ) = τθ(ν) = (g◦τθ−1θ(Λ) = (g◦τθ−1) Λ; de sorte qu’en choisissant Λ comme mesure dominanteµ0 (la relation précédente assure en pratique queΛest dans la bonne classe d’équivalence), on afθT =g◦τθ−1, soitfθT(t) =g(θ−1t)pour tout(t, θ). On a donc

fT =g◦ΦT

∀θ,ΦTθ(T)a sa loiν fixe et portée par{g >0}

∀t,ΦTt est une bijection de{ftT >0}sur{g >0}

pourΦT(t, θ)=efθ−1t; de sorte qu’en posantG=ef 1

kgkg,(ΦT, G)est unefactorisationdeφT (cf. le paragraphe 2.C).

Ainsi pour toutt∈∆0 et pour touty∈]0,1[, en notantil’involution θ7→θ−1 surΘ, {φTt > y}={θ∈R:G(θ−1t)> y}= (τt◦i) ({G > y})

est la région la plus vraisemblable pourθ au niveau de confianceγ(y) =P G(U)> y .

Remarque 3 Tout reparamétrage θ ∈ Θ 7−→δ θe∈ Θ, oùe δ est un homéomorphisme de Θ sur un autre ouvertΘe de Rd, permet de transporter la structure de groupe de Θsur Θe; de sorte que Θe est encore un groupe localement compact de mesure de Haar à gaucheΛ =e δ(Λ)car τ˜

θ ◦δ=δ◦τθ. De plusTe=efδ(T) est comme T une statistique exhaustive (minimale) telle que∆e0 =Θe et on a

∀eθ∈Θ,e θe−1

Te=δ(θ−1T)≡L δ(U)oùδ(U)est de loi fixeδ(ν) =geΛe avec eg=g◦δ−1 bornée.

L’hypothèse considérée n’est donc pas liée à un paramétrage particulier.

Exemple du modèle à deux paramètres réels des lois gaussiennes On considère le modèle (exponentiel) usuel des lois gaussiennes

∆ =R, µ=λ , f(σ,m)(x) = 1 σ√

2πe(x−m)22σ2 >0 ; (1)

soit f(σ,m)(x1, . . . , xn) = 1 σ√

n

e21σ2Pn

i=1(xi−m)2 = (2π)n2 en2 lnσ2+( ¯x−m)2 +s

2 σ2

, en ayant noté X¯ = 1

n

n

X

i=1

Xi et S2= 1 n

n

X

i=1

(Xi−X¯)2. On veut estimer ensemblemetσ(θ= (σ, m)dansΘ =R+×R).

On voit (et on sait !) que le coupleT = (S,X¯)est une statistique exhaustive (minimale) du modèle (1) telle que∆0= Θ. On va considérer cet ensemble comme un sous-groupe dugroupe affine a x+b, qui est l’ensembleR×Rmuni de la loi de composition interne (non commutative)

(a, b) (a0, b0)= (a aef 0, a b0+b), dont(1,0)est l’élément neutre et1 a,−b

a

est l’élément inverse de(a, b).

On a ∀θ= (σ, m)∈Θ,θ−1T =1 σ,−m

σ

(S,X) =¯ S σ,

X¯ −m σ

L

≡ qχ2

n−1

n , Z

√n ef

= U oùZ est une gaussienne centrée réduite indépendante de la variable du chi-deux χ2

n−1, d’après ce qu’on sait sur les lois des variables indépendantesX¯ etS. La variableU admet donc pour densité par rapport à

(11)

la mesure de Lebesgue sur∆0 la fonctionu= (u1, u2)7−→k un−21 en2u21en2u22 oùk= nn2 2n2−1

πΓ(n−12 ), et comme “la” mesure de Haar à gaucheΛ sur∆0 est 1

u21du1du2, on ag(u1, u2) =k un1en2(u21+u22); d’où G(u1, u2) = 1

kgkg(u1, u2) =un1en2(u21−1+u22)=en2K(u1,u2), en posant K(u1, u2)=efu22+ ¯K(u21) où ∀u >0,K(u)¯ = lnef 1

u+u−1.

0 u

K(u)¯

+

0,5

+

1

+

1,5

+

2

+

2,5

+

3 0,25+

0,5+

0,75+

1+

z z

u1

u1 uu22

Figure1. Graphe de la fonctionK¯

La fonction K¯ est positive et strictement convexe surR+, de minimum 0 enu= 1 et de limite +∞

quandu→0et quandu→+∞.

Ainsi pour tout (s,x)¯ ∈R+×Ret pour toutγ∈]0,1[fixé, φT(s,¯x)> en2z =n

(σ, m)∈Θ :Ks

σ,x¯−m σ

≡(¯x−m)2+s2

σ2 + lnσ2−lns2−1< zo est la région la plus vraisemblable pour(σ, m)au niveau de confianceγ, pour z >0 tel que

γ=P G(U)> en2z

=P K(U)< z

(u1, u2)∈R×R+:u22+ ¯K(u21)< z .

-1 -0.5 0 0.5 1

0.5 1 1.5 2 2.5

(a)

φT(1,0)> en2z ànfixé pour divers ni- veauxγ=P(K(U)< z)

-1 -0.5 0 0.5 1

0.5 1 1.5 2 2.5

(b)

φT(1,0) > en2z et

φT(1,0)> e12zas àn= 10pour le niveauγ= 0.95

Figure2. Régions vraisemblables pour(σ, m)sachant(s,x) = (1,¯ 0)

(12)

Application numériquepour(s,x) = (1,¯ 0)etγ= 0.95, dans le casn= 10: on trouvez≈0.661.

Si on reprend cette étude en considérant (hardiment) qu’on est déjà en situation asymptotique (cf. le paragraphe 3.A), la région la plus vraisemblable

φT(1,0)> e12zas a le niveau de confiance asymptotique γ pourP(χ2

d< zas) =γ; ce qui donne numériquement ici (oùd= 2)zas≈5.99.

La figure 2 (b) montre ces deux régions les plus vraisemblables, la plus grande étant au niveau de confiance γ exact et la plus petite au même niveau γ asymptotique. L’écart est déjà assez faible pour n= 10.

3.C. Modèles réels à paramètre de position pourT

C’est un cas particulier de modèle à paramètre de translation pourT, où∆0= Θest le groupe(R,+): T−θ≡L U oùU est de loi fixeν=g λavec la densitég bornée,

λdésignant la mesure de Haar – Lebesgue surR. Alors pour toutt∈Ret pour touty∈]0,1[, {φTt > y}={θ∈R:G(t−θ)> y}=t− {G > y}

est la région la plus vraisemblable pourθ au niveau de confianceγ(y) =P G(U)> y . Exemple du modèle des exponentielles translatées

On considère le modèle (non régulier) de paramètre de positionθ pourX

∆ =R,µ=λ,fθ(x) =e−(x−θ)1]0,+∞[(x−θ) oùΘ =R, tel que ∀x= (x1, . . . , xn), fθ(x1, . . . , xn) =en θ−

Pn i=1xi

1]−∞,min(x1,...,xn)[(θ).

Soit T = min(X1, . . . , Xn) l’estimateur de θ au maximum de vraisemblance, qui est une statistique exhaustive (minimale) puisque∀x∈∆n,fx∝ θ7→en θ1]−∞,t[(θ)

.

Comme∀i∈ {1, . . . , n},Xi−θ≡L S1, oùS1 est la variable exponentielle de paramètre 1, et comme les Xi−θsont indépendantes, on a

∀θ∈Θ,T−θ= min(X1−θ, . . . , Xn−θ)≡L U où U =ef S1

n a pour densité g(u) =n e−n u1]0,+∞[(u).

Ainsi G(u) = e−n u1]0,+∞[(u), doncG(U) = e−S1 et η est la probabilité uniforme sur ]0,1[. On en déduit que∀y∈]0,1[, γ(y) =η( ]y,1]) = 1−y; de sorte que pour toutt∈Ret pour toutγ∈]0,1[fixé,

Tt >1−γ}=t− {G > y}=i t−1

nln 1 1−γ, th

est la région la plus vraisemblable pourθau niveau de confianceγ. On note que cet intervalle de confiance diffère de l’intervalle équilibré habituel

i t−1

nln 2

1−γ, t−1 nln 2

1 +γ h

,

qui est de plus grande taille et dont l’adhérence ne contient pas l’estimation au maximum de vraisemblance θˆ=t deθ.

Remarque 4 La densité ψx(θ) =ef fθ(x1, . . . , xn) = Q

1≤i≤n

e−(xi−θ)1]0,+∞[(xi−θ)

est elle-même une fonction pivotale puisque pour toutθ∈Θ, du fait que∀i,Xips> θ,

ψX(θ)ps= Y

1≤i≤n

e−(Xi−θ)L Y

1≤i≤n

e−S1(i)L e−Sn,

où lesS1(i)sont des variables exponentielles de paramètre 1 indépendantes et oùSnest la variable gamma

(13)

réduite de paramètre de formen. Le support de la loi (diffuse) dee−Sn est[0,1], mais la fonction pivotale ψ n’est pas normalisée et a fortiori n’est pas étalée, puisque le point 1 est à une distance strictement positive de ψx(Θ) =

0, enmin(x1,...,xn)−

Pn i=1xi

dès que lesxi ne sont pas tous égaux entre eux. Comme analysé au paragraphe 2.A, ceci suffit à rendre contestable l’emploi de cette fonction pivotale pour toute estimation par régions de confiance.

Passons outre pour s’en convaincre : un niveau de confiance γ∈]0,1[étant fixé, soit y∈]0,1[tel que P e−Sn > y) =γ. Pour toutx= (x1, . . . , xn)∈Rn, la région la plus vraisemblable pour θ sachant xau niveau de confiance γ ainsi déterminée parψserait

x> y}=n

θ <min(x1, . . . , xn) :en θ−

Pn

i=1xi > yo

=i1 n

n

X

i=1

xi+ 1

nlny , th .

Cet intervalle dépend non seulement de la valeur t = min(x1, . . . , xn) de la statistique exhaustive T, mais aussi de n1

n

P

i=1

xi via sa borne inférieure ; ce qui paraît saugrenu (cf. à ce sujet le paragraphe 2.C). Et il peut même être vide si d’aventure moyenne et borne inférieure de l’échantillon sont assez différentes !

Exemple du modèle des lois gaussiennes à écart-type connu

On considère le modèle (exponentiel) des lois gaussiennes à écart-type connuσ, de paramètre de position θ=mpour X

∆ =R,µ=λ,fm(x) = 1 σ√

2πe

(x−m)2

2σ2 >0 oùΘ =R.

On sait que l’estimateur efficace T = ¯X =ef 1 n

n

X

i=1

Xi est une statistique exhaustive minimale, et que X¯ −m≡L U oùU = σ

√nZ,Z étant une gaussienne centrée réduite.

On a doncg(u) =

√n

σ√

2πen u

2

2σ2, d’oùG(u) =en u

2

2σ2 et G(U) =eZ22. On en déduit

∀z >0,

G > ez

2

2 ={u∈R:n u2< σ2z2}=i

−z σ

√n, z σ

√n h

et P G(U)> ez

2 2

=P(|Z|< z); de sorte que pour toutx¯∈Ret pour tout γ∈]0,1[fixé,

φXx¯¯ > ez

2

2 = ¯x−

G > ez

2

2 =i

¯ x−z σ

√n, x¯+z σ

√n h

pourz >0tel que P(|Z|< z) =γ (qui est la section àσd’une région la plus vraisemblable pour(σ, m), cf. le paragraphe 1.B), est la région la plus vraisemblable pour m au niveau de confiance γ. On retrouve l’intervalle de confiance équilibré habituel, du fait queZ est de loi paire.

3.D. Modèles réels à paramètre d’échelle pourT

C’est un cas particulier de modèle à paramètre de translation pourT, où∆0= Θest le groupe(R+,×): T

θ

L U oùU >0est de loi fixeν=gΛ avec la densitégbornée surR+, Λdésignant la mesure de Haar 1

udusurR+. Alors pour toutt∈R+et pour tout y∈]0,1[, {φTt > y}=n

θ∈R+:Gt θ

> yo

=nt

u:u∈R+, G(u)> yo est la région la plus vraisemblable pourθ au niveau de confianceγ(y) =P G(U)> y

.

(14)

Exemple du modèle des lois uniformes

On considère le modèle (non régulier) de paramètre d’échelleθpour X

∆ =R+,µ=1λ,fθ(x) =1

θ1]0,1[x θ

oùΘ =R+, tel que ∀x= (x1, . . . , xn),fθ(x1, . . . , xn) = 1

θn 1] max(x1,...,xn),+∞[(θ).

Soit T = max(X1, . . . , Xn) l’estimateur de θ au maximum de vraisemblance, qui est une statistique exhaustive (minimale) puisque∀x∈∆n,fx=

θ7→ 1

θn1]t,+∞[(θ) . Comme∀i∈ {1, . . . , n}, Xi

θ est une variable uniforme sur]0,1[et comme les Xi

θ sont indépendantes,

∀θ∈Θ, T

θ = maxX1

θ , . . . ,Xn

θ L

≡U où U a pour densité g(u) =u n un−11]0,1[(u)par rapport àΛ.

AinsiG(u) =un1]0,1[(u), donc la loi η deG(U) est la probabilité uniforme sur]0,1[. On en déduit que∀y∈]0,1[,γ(y) =P G(U)> y

= 1−y; de sorte que pour tout t∈R+ et pour toutγ∈]0,1[fixé, {φTt >1−γ}=nt

u :u∈R+, G(u)> yo

=i t , t

(1−γ)n1 h

est la région la plus vraisemblable pourθau niveau de confianceγ. On note que cet intervalle de confiance diffère de l’intervalle équilibré habituel

it 2 1 +γ

n1

, t 2 1−γ

1nh ,

qui est de plus grande taille et dont l’adhérence ne contient pas l’estimation au maximum de vraisemblance θˆ=t deθ.

Remarque 5 La fonction ψx(θ) =ef x1· · ·xnfθ(x1, . . . , xn) = Y

1≤i≤n

hxi

θ 1]0,1[xi

θ i

est elle-même une fonction pivotale puisque pour toutθ∈Θ, du fait que∀i,Xips< θ,

ψX(θ)ps= Y

1≤i≤n

Xi θ

L Y

1≤i≤n

U(i)L Y

1≤i≤n

e−S1(i)L e−Sn

où les U(i) sont des variables uniformes sur ]0,1[ indépendantes. Le support de la loi (diffuse) de e−Sn est[0,1], mais comme dans l’exemple du modèle des exponentielles translatées (cf. le paragraphe 3.C), la fonction pivotaleψ n’est pas normalisée et a fortiori n’est pas étalée puisque le point 1 est à une distance strictement positive deψx(Θ) =

0, max(xx1x2···xn

1,...,xn)n

dès que les xi ne sont pas tous égaux entre eux. Ceci suffit à rendre contestable l’emploi de cette fonction pivotale pour toute estimation par région de confiance.

Exemple du modèle des lois gamma – Weibull

Soient deux réelsa, b >0 fixés ; on considère le modèle de paramètre d’échelleθ pourX

∆ =R+,µ=1λ,fθ(x) = b Γ(a)

1 θ

x θ

a b−1

e−(xθ)b oùΘ =R+,

Γétant la fonction d’Euler. Il s’agit d’un modèle exponentiel standardfθ(x) = ¯b(x)eα(θ) ¯a(x)+β(θ) avec

¯

a(x) =xb,¯b(x) = b

Γ(a)xa b−1,α(θ) =−1

θb et β(θ) =−a blnθ.

Pour b= 1 il s’agit des lois gamma (non réduites) de paramètre de forme a; pour a= 1il s’agit des lois de Weibull de paramètre de forme b; et pour a= b = 1, on a affaire au modèle des durées de vie exponentielles.

Références

Documents relatifs

C’est dans ce contexte que, en observant l’utilisation de cette salle par des femmes qui n’avaient pas fait de sport depuis leur passage à l’école une cinquan- taine

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Souvent, plusieurs définitions sont nécessaires à la démonstration d’une proposition ; elle n’est donc contenue dans aucune d’entre elles prises

• les donn ´ees sont utilis ´ees pour raffiner la distribution a-priori des param `etres.. • Avantages de

Le résidu, défini sur tout l’intervalle de temps, des équations obtenues par la méthode des éléments finis et le développement de Karhunen–Loève permettent de définir

Key words: continuation methods; error estimate; global homotopy; residue..

Principe de vraisemblance, règle d'arrêt, plan Binomial séquentiel, information de Fisher, inférence bayésienne, propriétés fréquentistes, principe de translation de la

Key words : Finite elements, Maxwell’s equations, error estimations, a posteriori esti- mations, residual, equilibrated fluxes, reaction-diffusion equations, discontinuous