MAP 433 : Introduction aux méthodes. statistiques. Cours 6. 1 Sélection de variables

(1)

MAP 433 : Introduction aux m´ethodes

statistiques.

Cours 6

Sélection de variables Régression non-linéaire Comparaison d’estimateurs Modèles réguliers et information de Fisher

MAP 433 : Introduction aux m´ethodes statistiques. Cours 6

21 mars 2014

statistiques.

Cours 6

Aujourd’hui

1 S´election de variables

Backward Stepwise Regression LASSO

2 R´egression non-lin´eaire

3 Comparaison d’estimateurs Risque et admissibilit´e Approche asymptotique

4 Modèles réguliers et information de Fisher Construction de l’information de Fisher Modèle régulier

Cadre général et interprétation géométrique Exemples, applications

statistiques.

Cours 6

Régression linéaire multiple (= Modèle linéaire)

La fonction de r´egression est r(#,x_i) =#^Tx_i. On observe (x₁,Y₁), . . . ,(x_n,Y_n)

avec

Y_i =#^Tx_i+⇠_i, i = 1, . . . ,n o`u #2⇥=R^k, x_i 2R^k.

Matriciellement

Y=M#+⇠

avecY= (Y1· · ·Yn)^T,⇠= (⇠1· · ·⇠n)^T etMla matrice (n⇥k) dont leslignes sont lesx_i.

statistiques.

Cours 6

EMC en r´egression lin´eaire multiple

Estimateur desmoindres carrésen régression linéaire multiple : tout estimateur #b_n^mc satisfaisant

Xn i=1

Yi (#b_n^mc)^Tx_i ²= min

#2R^k

Xn i=1

Yi #^Tx_i ². En notation matricielle :

kY M#b_n^mck² = min

#2R^kkY M#k²

= min

v2VkY vk² o`uV = Im(M) ={v 2Rⁿ :v =M#, #2R^k}. Projection orthogonale surV.

(2)

statistiques.

Cours 6

G´eom´etrie de l’EMC

L’EMC v´erifie

M#b_n^mc =PVY o`u P_V est le projecteur orthogonal surV.

Mais M^TP_V =M^TP_V^T = (P_V M)^T =M^T. On en déduit les équations normales des moindres carrés :

M^TM#b_n^mc =M^TY.

Remarques.

L’EMC est unZ-estimateur.

Pas d’unicit´ede#b_n^mc si la matriceM^TMn’est pas inversible.

statistiques.

Cours 6

G´eom´etrie de l’EMC

Proposition

SiM^TM(matrice k⇥k) inversible, alors#b_n^mc est unique et

#b_n^mc= M^TM ¹M^TY

Contient la droite de r´egression simple.

R´esultat g´eometrique,non stochastique.

statistiques.

Cours 6

Cadre gaussien : loi des estimateurs

Hyp. 1 : ⇠⇠N(0, ²Idn).

Hyp. 2 : M^TM>0.

Proposition

(i) #b_n^mc⇠N #, ² M^TM ¹

(ii) kY M#b_n^mck² ⇠ ^{2 2}(n k)loi du Chi 2 à n k degrés de liberté

(iii) #b_n^mc etY M#b_n^mc sont ind´ependants.

Preuve : Thm. de Cochran(Poly, page 18). Si

⇠⇠N(0,Idn) etAj matricesn⇥n projecteurs t.q.

A_jA_i = 0 pouri 6=j, alors : A_j⇠⇠N 0,A_j , ind´ependants, kAj⇠k²⇠ ²(Rang(Aj)).

statistiques.

Cours 6

Propri´et´es de l’EMC : cadre gaussien

Estimateur de la variance ² : bn²= kY M#b_n^mck²

n k = 1

n k

Xn i=1

Y_i (#b_n^mc)^Tx_i ²

D’apr`es la derni`ere Proposition :

b²_n/ ²⇠ ²(n k)loi du Chi 2 àn k degrés de liberté C’est un estimateursans biais :

E#

⇥b_n²⇤

= ². b²n estind´ependant de#b_n^mc.

(3)

statistiques.

Cours 6

Propri´et´es de l’EMC : cadre gaussien

Lois des coordonn´ees de #b_n^mc :

(#b_n^mc)j #j ⇠N 0, ²bj)

où b_j est lejème élément diagonal de M^TM ¹. (#b_n^mc)_j #j

bnp

b_j ⇠t_{n k} loi de Student à n k degrés de liberté.

tq = ⇠ p⌘/q

o`u q 1 un entier,⇠⇠N 0,1), ⌘⇠ ²(q) et

⇠ ind´ependant de⌘.

statistiques.

Cours 6

Exemple de donn´ees de r´egression

Donn´ees de diab`ete

Patient age sex bmi map tc ldl hdl tch ltg glu Response

1 59 2 32.1 101 157 93.2 38 4 4.9 87 151

2 48 1 21.6 87 183 103.2 70 3 3.9 69 75

3 72 2 30.5 93 156 93.6 41 4 4.7 85 141

4 24 1 25.3 84 198 131.4 40 5 4.9 89 206

5 50 1 23.0 101 192 125.4 52 4 4.3 80 135

6 23 1 22.6 89 139 64.8 61 2 4.2 68 97

... ... ... ... ... ... ... ... ... ... ... ...

441 36 1 30.0 95 201 125.2 42 5 5.1 82 220

442 36 1 19.6 71 250 132.2 97 3 4.6 92 57

n=442,k=10

bmi = Body Mass Index map = Blood Pressure

tc, ldl, tch, ltg, glu = Blood Serum Measurements ResponseY = a quantitative measure of disease progression 1 year after baseline

1 MAP 433 :

Introduction aux m´ethodes

statistiques.

Cours 6

R´esultats de traitement statistique initial

Estimate Std. Error t value Pr(>|t|) (Intercept) 152.133 2.576 59.061 <2e 16⇤ ⇤⇤

age 10.012 59.749 0.168 0.867000

sex 239.819 61.222 3.917 0.000104⇤ ⇤⇤

bmi 519.840 66.534 7.813 4.30e 14⇤ ⇤⇤

map 324.390 65.422 4.958 1.02e 06⇤ ⇤⇤

tc 792.184 416.684 1.901 0.057947

ldl 476.746 339.035 1.406 0.160389

hdl 101.045 212.533 0.475 0.634721

tch 177.064 161.476 1.097 0.273456

ltg 751.279 171.902 4.370 1.56e 05⇤ ⇤⇤

glu 67.625 65.984 1.025 0.305998

statistiques.

Cours 6

Questions statistiques

S´election de variables.Lesquelles parmi les 10 variables : age,sex,bmi,map,tc,ldl,hdl,tch,ltg,glu

sont significatives ? Formalisation math´ematique : trouver (estimer) l’ensembleN ={j:#j 6= 0}.

Prévison.Un nouveau patient arrive avec son vecteur des 10 variablesx₀2R¹⁰. Donner la prévison de la réponseY

=´etat du patient dans 1 an.

(4)

statistiques.

Cours 6

S´election de variables

Backward Stepwise Regression LASSO Régression non-linéaire Comparaison d’estimateurs Modèles réguliers et information de Fisher

RSS (Residual Sum of Squares)

Mod`ele de r´egression

Y_i =r(#,x_i) +⇠_i, i = 1, . . . ,n.

R´esidu : si#bn est un estimateur de #,

⇠bi =Yi r(#bn,x_i) r´esiduau pointi.

RSS :Residual Sum of Squares, somme résiduelle des carrés. Caractérise la qualité d’approximation.

RSS(=RSS_#_b

n) =k⇠bk²= Xn

i=1

Y_i r(#bn,x_i) ².

En r´egression lin´eaire: RSS=kY M#bnk².

statistiques.

Cours 6

S´election de variables : Backward Stepwise Regression

On se donne un critère d’élimination de variables (plusieurs choix de critère possibles...).

On ´elimine une variable, la moins significative du point de vue du crit`ere choisi.

On calcule l’EMC #b^mc_n,k ₁ dans le nouveau mod`ele, avec seulement lesk 1 param´etres restants, ainsi que le RSS :

RSS_k ₁=kY M#b^mc_n,k ₁k².

On continue à éliminer des variables, une par une, jusqu’à lastabilisation de RSS: RSSm⇡RSSm 1.

statistiques.

Cours 6

Donn´ees de diab`ete : Backward Regression

S´election ”na¨ıve”: {sex,bmi,map,ltg} S´election par Backward Regression:

Crit`ere d’´elimination : plus grande valeur de Pr(>|t|).

Estimate Std. Error t value Pr(>|t|) (Intercept) 152.133 2.576 59.061 <2e 16⇤ ⇤⇤

age 10.012 59.749 0.168 0.867000

sex 239.819 61.222 3.917 0.000104⇤ ⇤⇤

bmi 519.840 66.534 7.813 4.30e 14⇤ ⇤⇤

map 324.390 65.422 4.958 1.02e 06⇤ ⇤⇤

tc 792.184 416.684 1.901 0.057947

ldl 476.746 339.035 1.406 0.160389

hdl 101.045 212.533 0.475 0.634721

tch 177.064 161.476 1.097 0.273456

ltg 751.279 171.902 4.370 1.56e 05⇤ ⇤⇤

glu 67.625 65.984 1.025 0.305998

statistiques.

Cours 6

Donn´ees de diab`ete : Backward Regression

Backward Regression : It´eration 2.

Crit`ere d’´elimination : plus grande valeur de Pr(>|t|).

Estimate Std. Error t value Pr(>|t|) (Intercept) 152.133 2.573 59.128 <2e 16

sex 240.835 60.853 3.958 0.000104

bmi 519.905 64.156 5.024 8.85e 05

map 322.306 65.422 4.958 7.43e 07

tc 790.896 416.144 1.901 0.058

ldl 474.377 338.358 1.402 0.162

hdl 99.718 212.146 0.470 0.639

tch 177.458 161.277 1.100 0.272

ltg 749.506 171.383 4.373 1.54e 05

glu 67.170 65.336 1.013 0.312

(5)

statistiques.

Cours 6

Donn´ees de diab`ete : Backward Regression

Backward Regression : It´eration 5 (derni`ere).

Variables s´electionn´ees : {sex,bmi,map,tc,ldl,ltg}

Estimate Std. Error t value Pr(>|t|) (Intercept) 152.133 2.572 59.159 <2e 16

sex 226.511 59.857 3.784 0.000176

bmi 529.873 65.620 8.075 6.69e 15

map 327.220 62.693 5.219 2.79e 07

tc 757.938 160.435 4.724 3.12e 06

ldl 538.586 146.738 3.670 0.000272 ltg 804.192 80.173 10.031 <2e 16

statistiques.

Cours 6

S´election de variables : Backward Regression

Discussion deBackward Regression:

Méthode de sélection purement empirique, pas de justification théorique.

Application d’autres critères d’élimination enBackward Regression peut amener aux résultats di↵érents.

Exemple.Critère C_p de Mallows–Akaike : on élimine la variablej qui réalise

minj

⇣

RSS_m,( _j₎+ 2bn²m⌘ .

statistiques.

Cours 6

S´election de variables : LASSO

LASSO = Least Absolute Shrinkage and Selection Operator Estimateur LASSO : tout estimateur#b^L_n v´erifiant

#b^L_n2arg min

#2R^k

0

@ Xn

i=1

Yi #^T x_i ²+ Xk j=1

|#j| 1

A avec >0.

Si M^TM>0, l’estimateur LASSO#b^L_n est unique.

Estimateur des moindres carrés pénalisé. Pénalisation par P_k

j=1|#_j|, la norme `₁ de#.

statistiques.

Cours 6

S´election de variables : LASSO

Deux utilisations de LASSO :

Estimation de#: alternative `a#b_n^mcsik>n.

Sélection de variables: on ne retient que les variables qui correspondent aux coordonnées non-nulles du vecteur#b^L_n. LASSO admet une justification théorique: sous certaines hypothèses sur la matriceM,

nlim!1P{Nb_n=N}= 1, o`uN ={j :#_j 6= 0}etNbn ={j :#b^L_n,j 6= 0}.

(6)

statistiques.

Cours 6

Application de LASSO : ”regularization path”

* * * * * * * * * * * * *

0.0 0.2 0.4 0.6 0.8 1.0

−5000500

|beta|/max|beta|

Standardized Coefficients

* * * * *

* *

* * * * * *

*

* * * * * * * * *

* * *

*

* * * * * * * * *

* * * * * * *

*

**

*

* * * * * * * * **

**

*

* * * *

*

* *

*

* *

*

* * * * * * * *

* * * * *

* *

*

* * *

* *

*

* * * * * * * * * * * * *

LASSO

52178469

0 2 3 4 5 6 7 8 10 12

statistiques.

Cours 6

Donn´ees de diab`ete : LASSO

Application aux donn´ees de diab`ete.

L’ensemble de variables s´electionn´e par LASSO : {sex,bmi,map,tc,hdl,ltg,glu}

Backward Regression:

{sex,bmi,map,tc,ldl,ltg} S´election na¨ıve :

{sex,bmi,map,tc}

statistiques.

Cours 6

Limites des moindres carr´es et du cadre gaussien

Calcul explicite(et efficace) de l’EMC limité à une fonction de régression linéaire.

Modèle linéaire donne un cadre assez général : Modèle polynomial,

Mod`eles avec interactions...

Hypoth`ese de gaussianit´e= cadre asymptotique implicite.

Besoin d’outils pour les modèles à réponseY discrète.

statistiques.

Cours 6

R´egression lin´eaire non-gaussienne

Modèle de régression linéaire

Y_i =#^Tx_i+⇠i, i = 1, . . . ,n.

Hyp. 1’ :⇠i i.i.d.,E[⇠i] = 0,E[⇠²_i] = ²>0.

Hyp. 2’ :M^TM>0,limnmax_1inx^T_i M^TM ¹x_i = 0.

Proposition (Normalit´e asymptotique de l’EMC)

1 M^TM ^1/2(#b_n^mc #) ^d!N 0,Id_k), n! 1.

A comparer avec le cadre gaussien :

1 M^TM ^1/2(#b_n^mc #)⇠N 0,Idk) pour toutn.

(7)

statistiques.

Cours 6

R´egression non-lin´eaire

On observe

(x₁,Y₁), . . . ,(x_n,Y_n), o`u

Y_i =r(#,x_i) +⇠_i, i = 1, . . . ,n avec

x_i 2R^k, et #2⇥⇢R^d. Si ⇠i ⇠i.i.d. N(0, ²),

Ln(#,Y1, . . . ,Yn)/exp⇣ 1 2 ²

Xn i=1

Yi r(#,x_i) ²⌘ et l’estimateur du maximum de vraisemblanceest obtenu en minimisant la fonction

# Xn

i=1

Yi r(#,x_i) ².

statistiques.

Cours 6

Moindre carr´es non-lin´eaires

D´efinition

M-estimateur associ´e `a lafonction de contraste :⇥⇥R^k⇥R!R : tout estimateur#bn satisfaisant

Xn i=1

(#bn,x_i,Y_i) = max

a2⇥

Xn i=1

(a,x_i,Y_i).

Estimateur desmoindres carrés non-linéaires : associé au contraste (a,x,y) = y r(a,x) ².

Extensiondes résultats en densité!théorèmes limites pour des sommes de v.a. indépendantes

non-´equidistribu´ees.

statistiques.

Cours 6

Modèle à réponse binaire

On observe

(x₁,Y1), . . . ,(x_n,Yn), Yi 2{0,1}, x_i 2R^k. Mod´elisationvia la fonction de r´egression

x px(#) =E^#⇥

Y|X=x⇤

=P^#⇥

Y = 1|X=x⇤ Repr´esentation

Yi =pxi(#) + Yi pxi(#)

=r(#,x_i) +⇠i

avecr(#,x_i) =p_x_i(#) et⇠i =Y_i p_x_i(#).

E^#⇥

⇠_i⇤

= 0 mais structure des⇠_i compliqu´ee(d´ependance en #).

statistiques.

Cours 6

Modèle à réponse discrète

Y_i v.a. de Bernoulli de param`etre px_i(#).

Vraisemblance

Ln(#,Y1, . . . ,Yn) = Yn i=1

px_i(#)^Yⁱ(1 px_i #) ¹ ^Yⁱ

!méthodes de résolution numérique.

R´egression logistique(tr`es utile dans les applications) px(#) = (x^T#),

(t) = e^t

1 +e^t, t2R fonction logistique.

(8)

statistiques.

Cours 6

R´egression logistique et mod`eles latents

Représentation équivalente de la régression logistique: on observe

Y_i = 1

Y_i^?>0 , i= 1, . . . ,n

(les x_i sont donn´es), et Y_i^? est une variable latenteou cach´ee,

Y_i^?=#^Tx_i+U_i, i= 1, . . . ,n avecU_i ⇠i.i.d.F, o`u

F(t) = 1

1 +e ^t, t2R. P#

⇥Y_i^?>0] =P#

⇥x^T_i #+Ui >0⇤

= 1 P#

⇥Ui  x^T_i #⇤

= 1 1 + exp( x^T_i #) ¹= (x^T_i #).

statistiques.

Cours 6

Sélection de variables Régression non-linéaire Comparaison d’estimateurs

Risque et admissibilité Approche asymptotique Modèles réguliers et information de Fisher

Bilan provisoire : modèles paramétriques dominés

Mod`ele de densit´e :on observe

X₁, . . . ,X_n⇠i.i.d.P^#, #2⇥⇢R^d. Estimateurs :moments,Z- et M-estimateurs,EMV.

Mod`ele de r´egression :on observe

Y_i =r(#,x_i) +⇠_i, i= 1, . . . ,n, ⇠_i i.i.d., #2⇥⇢R^d. Estimateurs :

Si r(#,x) =x#^T, EMC (co¨ıncide avec l’EMVsi les⇠_i gaussiens)

Sinon,M-estimateurs,EMV...

Autres m´ethodes selon deshypoth`esessur le⌧design ...

statistiques.

Cours 6

#bn estimateur de#: pr´ecision, qualit´ede#bn? En pratique, on a^⌧souvent

une information non-asymptotiquede type E⇥

k#bn #k²⇤

cn(#)², ou bien asymptotiquede type

vn(#bn #) ^d!Z#, vn! 1.

Permet^⌧souvent de construire un(e) r´egion-intervalle de confiance...

statistiques.

Cours 6

Region-intervalle de confiance : d´efinition formelle

{Pⁿ#,#2⇥}, ⇥⇢R^d, engendrée par l’observationZ⁽ⁿ⁾. Densité: Z⁽ⁿ⁾= (X₁, . . . ,X_n),Pⁿ#=P^#⌦. . .⌦P^# Régression(à design déterministe) : Z⁽ⁿ⁾= (Y₁, . . . ,Y_n), Pⁿ#=P#,x1⌦. . .⌦P#,xn, oùP#,x_i loi deYi =r(#,x_i) +⇠i. Définition

R´egion de confiancede niveau1 ↵, ↵2(0,1), (resp.

asymptotiquement de niveau↵) : sous-ensembleobservable Cn,↵(Z⁽ⁿ⁾) deR^d t.q.

8#2⇥:Pⁿ#

⇥#2Cn,↵(Z⁽ⁿ⁾)⇤

1 ↵

resp.

8#2⇥: lim inf

n!1 Pⁿ#

⇥#2Cn,↵(Z⁽ⁿ⁾)⇤

1 ↵.

(9)

statistiques.

Cours 6

Comparaison d’estimateurs

Etant donn´e{Pⁿ#,#2⇥}commentconstruirelemeilleur estimateur ? Dans quel sens ?

Intuitivement :#bn fournit une pr´ecision optimale si on peut lui associer une r´egion de confiance de longueur (moyenne) minimale.

Di↵´erence entre point de vue asymptotiqueet non-asymptotique.

Dans ce cours, nous ´etudions les deux points de vue sous un angle –un peu r´educteur– particulier :

Non-asymptotique : contrˆole durisque quadratique Asymptotique : comparaison des estimateurs asymptotiquement normaux.

statistiques.

Cours 6

Risque quadratique, admissibilit´e

Situation :#bn,i =#bn,i(Z⁽ⁿ⁾),i = 1,2 deux estimateurs bas´es sur l’observationZ⁽ⁿ⁾qui engendre l’exp´erience {Pⁿ#,#2⇥},

⇥⇢R¹. D´efinition

Risque quadratique de l’estimateur#bn au point#2⇥: R(#bn,#) =Eⁿ#⇥ b#n # ²⇤

.

D´efinition

L’estimateur#bn,1 estpréférable– au sens du risque quadratique – à l’estimateur#b_n,2 si

8#2⇥, R #bn,1,# R #bn,2,# .

statistiques.

Cours 6

Absence d’optimalit´e

Existe-t-il un estimateur optimal#^?_n au sens o`u 8#2⇥, R #^?_n,# inf

#bn

R #bn,# ? Si ⇥={#₁,#₂}ets’il n’existe pas d’événement observable Atel que, simultanément:

Pⁿ#₁

⇥A⇤

= 0 et Pⁿ#₂

⇥A⇤

= 1,

(on dit que Pⁿ#1 etPⁿ#2 ne sontpas ´etrang`eres), alorsil n’existe pas d’estimateur optimal.

Condition suffisante pour quePⁿ#₁ etPⁿ#₂ ne soient pas

´etrang`eres :Pⁿ#1⌧Pⁿ#2 etPⁿ#2 ⌧Pⁿ#1.

statistiques.

Cours 6

Absence d’optimalit´e (cont.)

Preuve : Pour tout estimateur#^?_n, on a

max R(#^?_n,#₁),R(#^?_n,#₂) >0 (?).

Supposons #^?_n estimateur optimal etR(#^?_n,#1)>0. Alors

#bn trivial

:=#1 v´erifie 0 =R #bn

trivial

,#₁ <R #^?_n,#₁ contradiction ! et contredit l’optimalit´e de#^?_n.

(10)

statistiques.

Cours 6

Absence d’optimalit´e (fin.)

Preuve de (?) : siR #^?_n,#1 =R #^?_n,#2 = 0, alors

#^?_n=#1 Pⁿ#₁ p.s. et #^?_n =#2 Pⁿ#₂ p.s..

Soient A={!,#^?_n(!) =#₁}etB ={!,#^?_n(!) =#₂}. Alors Pⁿ#₁[A] = 1 et doncPⁿ#₂[A]>0. Aussi,Pⁿ#₂[B] = 1.

Donc A\B 6=;. Il existe!₀ tel que#₁ =#^?_n(!₀) =#₂ contradiction !

Attention ! La propriétéPⁿ#₁ etPⁿ#₂ non étrangères est minimale. Mais elle disparaˆıt en général lorsque n! 1.

statistiques.

Cours 6

Notions d’optimalit´e

Di↵érentes notions existent. Deux exemples extrêmes : Définition (Admissibilité et critère minimax)

Un estimateur#^?_n estadmissibles’iln’existe pas d’estimateur#bnpréférableà#^?_n tel que, pourun point

#02⇥

R(b#_n,#0)<R(#^?_n,#0).

Un estimateur#^?_n estminimaxsi sup

#2⇥R(#^?_n,#) = inf

#bn

sup

#2⇥R(b#_n,#).

Admissibilit´e: permet d’´eliminer des estimateurs absurdes (mais pas tous).

Minimaxité: notion très robuste mais conservatrice, à suivre...

statistiques.

Cours 6

Approche asymptotique

Hypothèse simplificatrice :#2⇥⇢R. On se restreint aux estimateurs asymptotiquement normaux c’est-à-dire vérifiant p

n #bn # ^d!N 0,v(#)

cf. th´eor`emes limites obtenus pour les Z-,M-estimateurs.

Si #b_n,1 et#b_n,2 as. normaux de variance asymptotique v1(#)v2(#), alors la pr´ecision de#bn,1 est

asymptotiquement meilleure que celle de#b_n,2 au point# :

#bn,1=#+

rv₁(#) n ⇠⁽ⁿ⁾

#bn,2=#+

rv₂(#) n ⇣⁽ⁿ⁾ o`u ⇠⁽ⁿ⁾ et⇣⁽ⁿ⁾!^d N(0,1).

statistiques.

Cours 6

Comparaison d’estimateurs : cas asymptotique

Si v1(#)<v2(#), et si# vi(#) est continue, on pose

Cn,↵(#bn,i) = 2 4b#n,i±

s v_i(#b_n,i)

n

1(1 ↵/2) 3

5, i = 1,2

o`u↵2(0,1) et (·) est la fonction de r´epartition de la loi normale standard.

Cn,↵(#b_n,i),i = 1,2 sont deux intervalles de confiance asymptotiquement de niveau 1 ↵ et on a

|Cn,↵(#b_n,1)|

|Cn,↵(#bn,2)|

Pⁿ_#

! s

v₁(#) v2(#) <1.

La notion delongueur minimale possible d’un intervalle de confianceest en général difficile à manipuler.

(11)

statistiques.

Cours 6

Conclusion provisoire

Il est difficile en g´en´eralde comparer des estimateurs.

Cadre asymptotique + normalit´e asymptotique ! comparaison de la variance asymptotique# v(#).

Sous des hypothèses de régularité du modèle {Pⁿ#,#2⇥} alors

Ilexisteune variance asymptotiquev^?(#)minimaleparmi les variances de la classe desM-estimateurs as. normaux.

Cette fonction est associée à unequantité d’information intrinsèqueau modèle.

La variance asymptotique de l’EMVestv^?(#).

Ceci règle partiellementle problème de l’optimalité.

statistiques.

Cours 6

Construction de l’information de Fisher Modèle régulier Cadre général et interprétation géométrique Exemples, applications

Régularité d’un modèle statistique et information

Cadre simplificateur : mod`ele de densit´e X1, . . . ,Xn i.i.d. de loi P^#

dans la famille P#,#2⇥ avec⇥⇢R pour simplifier.

Notation :

f(#,x) = dP#

dµ (x), x 2R,#2⇥.

Hypoth`ese : la quantit´e I(#) =E#

⇥ @#logf(#,X) ²⇤ est bien d´efinie.

statistiques.

Cours 6

Information de Fisher

D´efinition I(#) =E^#⇥

@#logf(#,X) ²⇤

s’appellel’information de Fisher de la famille{P^#,#2⇥}au point#. Elle ne d´epend pas de la mesure dominanteµ.

Le cadre d’intérêt est celui où

0<I(#)<+1.

I(#)quantifie^⌧l’information qu’apporte chaque observation X_i sur le param`etre#.

Remarque : on aP^#⇥

f(#,X)>0⇤

= 1, donc la quantit´e logf(#,X) est bien d´efinie.

statistiques.

Cours 6

Information dans quel sens ? Origine de la notion

Supposons l’EMV#b_n^mv bien d´efini et convergent.

Supposons l’application (#,x) f(#,x) possédanttoutes les propriétés de régularité et d’intégrabilitévoulues.

Alors

pn #b_n^mv # ^d!N⇣ 0, 1

I(#)

⌘

en loi sousP#, o`u encore

#b_n^mv ⇡^d #+ 1

pnI(#)N(0,1) en loi sousP^#.

(12)

statistiques.

Cours 6

Construction de l’information + jeu d’hypoth`eses attenant

Heuristique : on ´etablira un jeu d’hypoth`eses justifianta posteriorile raisonnement.

Etape 1 : l’EMV#b_n^mv converge:

#b_n^mv ^P!^# #

via le th´eor`eme de convergence des M-estimateurs.

Etape 2 : l’EMV#b_n^mv est unZ-estimateur: 0 =@#

⇣Xⁿ

i=1

logf(#,X_i)⌘

#=#b_n^mv.

statistiques.

Cours 6

Construction de I (#) cont.

Etape 3 : d´eveloppement asymptotique autour de#: 0⇡

Xn i=1

@#logf(#,X_i) +(#b_n^mv #) Xn

i=1

@_#²logf(#,X_i), soit

#b_n^mv #⇡ P_n

i=1@#logf(#,Xi) P_n

i=1@_#²logf(#,Xi)

Etape 4 : le num´erateur. Normalisation et convergence de P_n

i=1@#logf(#,X_i) ?

statistiques.

Cours 6

Num´erateur

Lemme On a

E^#⇥

@#logf(#,X)⇤

= 0.

Preuve.

E^#⇥

@#logf(#,X)⇤

= Z

R@#logf(#,x)f(#,x)µ(dx)

= Z

R

@#f(#,x)

f(#,x) f(#,x)µ(dx)

= Z

R@#f(#,x)µ(dx)

=@#

Z

Rf(#,x)µ(dx) =@#1 = 0.

statistiques.

Cours 6

D´enominateur

De mˆemeR

R@²_#f(#,x)µ(dx) = 0. Cons´equence: I(#)=E#

⇥ @#logf(#,X) ²⇤

= E#

⇥@²_#logf(#,X)⇤

En e↵et E^#⇥

@_#²logf(#,X)⇤

=

= Z

R

@_#²f(#,x)f(#,x) @#f(#,x) ²

f(#,x)² f(#,x)µ(dx)

= Z

R@_#²f(#,x)µ(dx) Z

R

@#f(#,x) ² f(#,x) µ(dx)

= 0 Z

R

⇣@#f(#,x) f(#,x)

⌘₂

f(#,x)µ(dx) = E⇥

@#logf(#,X) ²⇤ .

(13)

statistiques.

Cours 6

Cons´equences

Les @#logf(#,Xi) sont i.i.d. etE^#⇥

@#logf(#,X)⇤

= 0.

TCL : p1

n Xn i=1

@#logf(#,Xi) ^d!N 0,E^#⇥

@#logf(#,X) ²⇤

=N 0,I(#) . Les @²_#logf(#,X_i) sont i.i.d. LGN :

1 n

Xn i=1

@²_#logf(#,X_i) ^P!^# E^#⇥

@_#²logf(#,X)⇤

cons´equence

= I(#).

statistiques.

Cours 6

Conclusion

En combinant les deux estimations + lemme de Slutsky : pn(#b_n^mv #)⇡

p1 n

P_n

i=1@#logf(#,X_i)

n1

Pn

i=1@_#²logf(#,Xi)

d!N 0,I(#) I(#)

loi=N⇣ 0, 1

I(#)

⌘ .

Le raisonnement estrigoureux dès lors que: i) on a la convergence de#b_n^mv, ii) on peut justifier le lemme et sa conséquence, iii)I(#) est bien définie et non dégénérée et iv) on sait contrôler le terme de reste dans le

d´eveloppement asymptotique,partie la plus difficile.

statistiques.

Cours 6

Mod`ele r´egulier

D´efinition

La famille de densités {f(#,·),#2⇥}, par rapport à la mesure dominanteµ, ⇥⇢R, est régulièresi

⇥ ouvert et{f(#,·)>0}={f(#⁰,·)>0}, 8#,#⁰2⇥.

µ-p.p.# f(#,·), # logf(#,·)sontC².

8#2⇥,9V#⇢⇥ t.q. pour a2V#

|@_a²logf(a,x)|+|@_alogf(a,x)|+ @_alogf(a,x) ²g(x)

o`u Z

Rg(x) sup

a2V(#)

f(a,x)µ(dx)<+1. L’information de Fisher est non-dégénérée :

8#2⇥, I(#)>0.

statistiques.

Cours 6

R´esultat principal

Proposition

Si l’expérience engendrée par l’observation X1, . . . ,Xn⇠i.i.d. P# est associée à une famille de probabilités{P^#,#2⇥}sur Rrégulière au sens de la définition précédente, alors

pn #b_n^mv # ^d!N⇣ 0, 1

I(#)

⌘ .

Si #bn est un Z -estimateurr´egulierasymptotiquement normal de variance v(#), alors

8#2⇥, v(#) 1 I(#).