Aide Mémoire de Statistique
(E,E,P)modèle statistique6= (E,E,P)modèle probabiliste En probabilité, on connaît la loiPet on fait des calculs
En statistique, on ne connaît pas la loi (seulement une famille de probabilitésP) mais on connaît des observations et on tente de retrouver la loi.
(E,E,P)modèle statistique paramétrique ⇒ P = {Pθ, θ ∈ Θ} famille de loi de probabilité dépendant d’un paramètreθ.
1 Échantillonnage
• (X1, .., Xn)échantillon aléatoirei.i.d. de même loi que la v.a. parenteX.
(X1, .., Xn)est un vecteur aléatoire i.i.d. particulier.
• (x1, .., xn)échantillon de données,réalisation/observationsde échantillon aléa- toire(X1, .., Xn).
(x1, .., xn)est un vecteurs de données (réelles...)
• Moyenne empiriquede l’échantillon :Xn= 1nPn i=1Xi
E(Xn) =E(X) V ar(Xn) =V ar(X)/n TCL :√
nX√n−E(X)
V ar(X)
−L→ N(0,1) Xn
−−→p.s. E(X)
SiX∼ N(µ, σ2)alorsXn∼ N(µ, σ2/n)
• Variance empiriquede l’échantillon :Sn2 = 1 n
n
X
i=1
(Xi−Xn)2= 1 n
n
X
i=1
Xi2−(Xn)2 E(Sn2) =n−1n V ar(X)
• Variance empirique sans biaisde l’échantillon :Sn02= n−1n S2n E(Sn02) =V ar(X)
Xn,S2n,Sn02sont des variables aléatoires.
• Rappel :
(X1, ..., Xn)vecteur aléatoire i.i.d. de loiN(0,1) =⇒Z=Pn
i=1Xi2∼χ2n Loi du Chi-deux :
X ∼χ2n Y ∼χ2m
XetY indépendants
=⇒X+Y ∼χ2n+m
Loi de Student :
U ∼ N(0,1) Z ∼χ2n
U etZindépendants
=⇒ √U
Z n
∼St(n): loi de Student dendegré de liberté (d.d.l.)
• Théorème de Fisher:
(X1, ..., Xn)échantillon aléatoire i.i.d. de loi parenteN(µ, σ2)
=⇒
1) (n−1)Sσn022 ∼χ2n−1
2)XnetSn02sont 2 v.a. indépendantes.
3)√ nXnS−µ0
n ∼St(n−1)
2 Estimation ponctuelle
(E,E,P)modèle statistique paramétrique ⇒ P = {Pθ, θ ∈ Θ} famille de loi de probabilité dont on ne connaît pas le paramètreθ.
• Un estimateur deθest une variable aléatoire qui tente d’estimer le paramètreθ de la loi inconnuePθ, il est notéθb=Tn=T(X1, ..., Xn)
• Une estimation deθest une réalisation/observation de l’estimateurTn : tn = T(x1, ..., xn).
2.1 Propriétés d’un estimateur
• Biais d’un estimateur
– Estimateur sans biais :E(bθ) =θ
– Estimateur avec biais :E(bθ) =θ+bθ(bθ)c-à-d : biais=bθ(bθ) – Estimateur asymptotiquement sans biais :E(bθ)−−−−→n→∞ θ
– Erreur quadratique moyenne :EQMθ(bθ) =E((bθ−θ)2) =V ar(bθ) + (bθ(bθ))2 Une erreur liée au biais et une erreur liée à la précision.
• Précision d’un estimateur :V ar(bθ)
Estimateur optimal : estimateur sans biais de variance minimale (ESBVM)
• Convergence (en loi) d’un estimateur vers le paramètre estimé : E(Tn)−−−−→n→∞ θ
V ar(Tn)−−−−→n→∞ 0
⇒Tn L2
−−→θ⇒Tn
−→L θ
Remarque :
bθestimateur sans biais deθ;g(bθ)estimateur sans biais deg(θ)
2.2 Information de Fisher
(X1, .., Xn)échantillon aléatoire i.i.d. de même loi que la v.a. parenteX
• Fonction de vraisemblancede l’échantillon observé(x1, ..., xn)pour le paramètreθ: – cas discret :L(θ;x1, ..., xn) =
n
Y
i=1
Pθ(X =xi)
– cas continu :L(θ;x1, ..., xn) =
n
Y
i=1
fθ(xi) avecfθla fonction de répartition deX
Les(x1, ..., xn) sont connus (résultat d’une expérience) et le paramètreθ est inconnu.
• Lalog-vraisemblancede l’échantillon observé(x1, ..., xn)pour le paramètreθ: l(θ;x1, ..., xn) =lnL(θ;x1, ..., xn)
• Condition de régularité(HR) sur la vraisemblance 1. L’information de Fisher existe∀θ∈Θ
2. La loi parente deXest deux fois dérivable par rapport àθ 3. ∂θ∂22
R L(θ;x1, ..., xn)dx1...dxn=R ∂2
∂θ2L(θ;x1, ..., xn)dx1...dxn
En pratique, les (HR) sont vérifiées si le support de la loi parente ne dépend pas du paramètreθet la vraisemblance est suffisamment régulière.
Support(L(X)) =f(θ) =⇒(HR) ne sont pas vérifiées
• Information de Fisher apportée par l’échantillon(X1, ..., Xn)sur le paramètre inconnuθ:
In(θ) =E ∂
∂θlnL(θ;X1, ..., Xn) 2!
oùL(θ;X1, ..., Xn)est un v.a. et sa réalisation estL(θ;x1, ..., xn) (HR) =⇒ In(θ) =V ar
∂
∂θlnL(θ;X1, .., Xn)
=−E ∂2
∂θ2lnL(θ;X1, .., Xn)
=nI(θ) =nI1(θ) =nE ∂
∂θlnL(θ;X) 2!
Information de Fisher apportée par la statistiqueTn sur le paramètre in- connuθ:
ITn(θ) =E ∂
∂θlnL(θ;Tn) 2!
Tnestimateur deθ⇒06ITn(θ)6In(θ)
• Borne de Cramer-Rao(BCR) est la précision maximale auquel peut prétendre un estimateur
Théorème de Fréchet-Darmois-Cramer-Rao (FDCR) : (HR)vérifiées
In(θ)6= 0
Tnestimateur sans biais deθ
E(Tn)est dérivable sous le signe somme
⇒V ar(Tn)> 1
In(θ) =BCR De plus, siV ar(Tn) =BCRalorsTnest unestimateur efficace.
Si V ar(TBCRn)→1alorsTnest unestimateur asymptotiquement efficace.
• StatistiqueTnestexhaustivesiL(θ;x1, ..., xn) =φ(tn, θ)×h(x1, ..., xn), c-à-d si on peut décomposer la vraisemblance en une fonctionφdépendant de la réalisation de l’estimateurTnet du paramètreθet d’une fonctionhne dépendant que de la réalisation de l’échantillon(X1, ..., Xn).
2.3 Comment trouver un estimateur ?
– Estimateur de maximum de vraisemblance à compléter
– Estimateur des moments à compléter
3 Intervalles de confiance
à compléter
4 Tests d’hypothèses
Tests paramétriques : test sur un paramètreθd’un loiPθ, θ∈Θ
• Hypothèses statistiques :
– L’hypothèse nulleH0 :θ∈Θ0contre l’hypothèse alternativeH1:θ ∈ Θ1
test :H0à rejeter (pourH1) ou non ?
– Hypothèse simple siΘ = {θ0}: singleton (sinonhypothèse composite oucomposée)
– Hypothèses maintenues,Hm, hypothèses que l’on considère toujours vraies – Test bilatéral:H0:θ=θ0contreH1:θ6=θ0
– Test unilatéral:H1composé et test non bilatéral Rôle des hypothèses est non symétrique
• Deux types d’erreur et risques associés – Erreur de première espèceεI :
DéciderH1(rejet deH0) alors queH0est vrai
⇒ Risque de première espèce: α: Θ0 → [0,1]
θ 7→ α(θ) =PH0(rejet deH0) =PH0((X1, ..., Xn)∈W) siH0est simple (H0:θ=θ0) alorsα(θ) =α(θ0) =αest une constante (siH0: innocent alorsαest la proba de condamner un innocent)
– Erreur de deuxième espèceεII :
DéciderH0(non rejet deH0) alors queH1est vrai
⇒ Risque de deuxième espèce: β: Θ1 → [0,1]
θ 7→ β(θ) =PH1(non rejet deH0) =PH1((X1, ..., Xn)∈/W) siH1est simple (H0:θ=θ1) alorsβ(θ) =β(θ1) =βest une constante (siH0: innocent alorsβest la proba de libérer un coupable)
– Puissance d’un test:∀θ∈Θ1, γ(θ) =PH1(rejet deH0)= 1−β(θ) – Niveauouseuil d’un test:α= sup
H0:θ∈Θ0
α(θ)
• Règle de décisionΨ⇔Région critiqueW ⇔Statistique de testTn – Fonction de testoutest d’hypothèseourègle de décision:
Ψ : χn → {0,1}
(x1, ...., xn) 7→ Ψ(x1, ...., xn) =
1si on rejetteH0au profit deH1
0si on ne rejette pasH0
= 1W(x1, ...., xn) =
1si(x1, ...., xn)∈W 0si(x1, ...., xn)∈/W avecχnensemble des réalisations de l’échantillon aléatoire(X1, ...., Xn).
– Région critique (RC) du testΨ: région de rejet deH0 c-à-d ensemble des observations qui conduisent à rejeterH0:
W ={(x1, ...., xn)∈χn: Ψ(x1, ...., xn) = 1}= Ψ−1(1) Région d’acceptation deH0=W = Ψ−1(0)
– Statistique de testouvariable de décision est une fonction de l’échantillon Tn =f(X1, ..., Xn)c-à-d une v.a. particulière dont la loi est connue sous H0supposé vrai
∗ Très souvent la statistique de testTnest un estimateur du paramètre à éprouver
∗ On peut réécrireW à l’aide detn(une réalisation deTn) : W ={(x1, ...., xn)∈χn :tn ∈ D}
avecDà déterminer
Donner une région critiqueW ⇐⇒Donner une règle de décisionΨ
⇐⇒Donner une statistique du testTnet son domaineD
4.1 Test d’hypothèse à seuil : principe de Neyman
Contrôle du risque de premier espèce via le seuil du test :α= sup
H0:θ∈Θ0
α(θ).
Étapes de construction d’un test
1. Choix des hypothèses de testH0etH1
2. Choix de la statistique de test (et donc de la forme de la RC) 3. Fixer le seuil du testα= sup
H0:θ∈Θ0
α(θ)(⇒limite le risque de première espèce) et déterminer alors la RC :Wα
4. Vérifier si les observations(x1, ..., xn)se trouvent ou pas dans la RC 5. Conclusion : rejet ou non rejet deH0au seuilα
6. Si non rejet de H0 : évaluer si possible de risque de deuxième espèce ou la puissance du test (difficile si (H1) est composée carβ est alors une fonction de θet non une constante)
4.2 p-valeur
Lap-valeurouprobabilité critiqueouseuil critiqueest le plus petit risqueαpour lequel les observations conduisent au rejet deH0:
αc(tn) = inf{α: (x1, ..., xn)∈Wα} On inverse les points 3. et 4. dans le cas précédant.
4.3 Test optimaux et Test UPP
• entre 2 hypothèses simples Définition
Théorème de Neyman-Pearson
• entre une hypothèse simple et une composée Thm
Pas de test UPP pour les tests bilatéraux
• entre 2 hypothèses composées Thm
Test du rapport de vraisemblances maximales Propriété