Convergence en loi et estimation
Table des matières
1 Inégalité de Markov et conséquences 2
1.1 Inégalité de Markov . . . 2
1.2 Inégalité de Bienaymé-Tchebychev . . . 3
1.3 Loi faible des grands nombres . . . 4
2 Convergence en loi 5 2.1 Définitions . . . 5
2.2 Cas des variables aléatoires discrètes . . . 6
2.3 Théorème limite central . . . 7
2.4 Approximations . . . 8
2.4.1 Approximation de la loi binomiale par la loi normale . . . 9
2.4.2 Approximation de la loi de Poisson par la loi normale . . . 9
3 Estimation 10 3.1 Estimation ponctuelle . . . 10
3.1.1 Échantillonage . . . 10
3.1.2 Estimateur . . . 11
3.1.3 Biais . . . 12
3.1.4 Estimateur asymptotiquement sans biais . . . 14
3.1.5 Risque quadratique d’un estimateur . . . 15
3.1.6 Estimateur convergent . . . 16
3.1.7 Comparaison de deux estimateurs . . . 17
3.2 Estimation par intervalle de confiance . . . 18
3.2.1 Définitions . . . 18
3.2.2 Utilisation de l’inégalité de Bienaymé-Tchebychev . . . 18
3.2.3 Approximation de la loi binomiale par la loi normale . . . 19
3.2.4 Intervalle de confiance asymptotique . . . 20
4 Annexe : Variance empirique modifiée 21
Dans ce chapitre, toutes les variables aléatoires sont supposées discrètes ou à densité, et définies sur le même espace probabilisé (Ω,A,P).
1 Inégalité de Markov et conséquences
1.1 Inégalité de Markov
Proposition 1.1 : Inégalité de Markov
SoitX une variable aléatoire (discrète ou à densité) positive ayant une espérance, alors on a :
∀a >0, P(X ≥a)≤ E(X) a .
Démonstration. On prouve l’inégalité de Markov dans le cas d’une variable aléatoire discrète, puis d’une variable aléatoire à densité.
• SiXest une variable aléatoire discrète, on a :X(Ω) ={xi≥0, i∈I ⊂N}. On poseJ ={i∈I, xi ≥a}, on a alors :
[X≥a] = [
i∈J
[X =xi].
Ainsi comme union incompatible d’événements, on a P(X≥a) =X
i∈J
P(X=xi).
Par ailleurs, on a
E(X) = X
i∈I
xiP(X=xi) carX admet une espérance,
≥ X
i∈J
xiP(X=xi) carJ ⊂I etxiP(X =xi)≥0,
≥ X
i∈J
aP(X =xi) car pour i∈J, xi ≥a,
≥ aP(X≥a).
On conclut donc queP(X ≥a)≤ E(X)
a car a >0.
• SiX est une variable aléatoire à densité, de densitéf. CommeX est à valeurs positives, f est nulle surR−. On a :
P(X ≥a) = Z +∞
a
f(t)dt.
Puisquef admet une espérance, E(X) =
Z +∞
0
tf(t)dt≥ Z +∞
a
tf(t)dt≥ Z +∞
a
af(t)dt≥aP(X≥a).
On conclut donc queP(X ≥a)≤ E(X)
a car a >0.
Remarque 1.2 : Pas exigible au concours
L’inégalité de Markov n’est pas exigible au concours, cependant on demande souvent de la redémontrer dans les sujets de Parisiennes. Il faut donc en connaitre la preuve.
Exemple 1. Soit X une variable aléatoire réelle et g:R∗+→R∗+ une fonction croissante. On suppose que g(|X|) admet une espérance, montrer que
∀a >0, P(|X| ≥a)≤ E(g(|X|)) g(a) .
Proposition 1.3 : Inégalité de Markov et moments
Pourr ∈N∗, soit X une variable aléatoire (discrète ou à densité) ayant un moment d’ordrer, alors on a
∀a >0, P(|X| ≥a)≤ mr(|X|) ar .
Démonstration. C’est une application directe de l’exemple précédent.
1.2 Inégalité de Bienaymé-Tchebychev
Proposition 1.4 : Inégalité de Bienaymé-Tchebychev
SoitX une variable aléatoire (discrète ou à densité) ayant un moment d’ordre 2, alors on a :
∀ε >0, P(|X−E(X)| ≥ε)≤ V(X) ε2 .
Démonstration. La variable aléatoire (X−E(X))2 est positive et possède une espérance égale à V(X). Pour ε >0, on applique l’inégalité de Markov à (X−E(X))2 en ε2, et on obtient
P((X−E(X))2 ≥ε2)≤ V(X) ε2 .
Orh(X−E(X))2≥ε2i= [|X−E(X)| ≥ε], on en déduit
P(|X−E(X)| ≥ε)≤ V(X) ε2 .
Remarque 1.5 : Exigible au concours
L’inégalité de Bienaymé-Tchebychev est exigible au concours, il faut donc la connaitre par cœur.
Exemple 2. Soit X la variable aléatoire donnant la note en maths au concours Ecricome. On suppose que E(X) = 10et σ(X) = 4. Montrer que
P(5< X <15)≥0.36.
Remarque 1.6 : Inégalité peu précise
L’inégalité de Bienaymé-Tchebychev n’est pas très précise, elle donne un résultat grossier qui donne simplement une vague idée de la situation. Par contre, elle ne demande pas de connaître la loi de probabilité de la variable. Quand on connaît cette loi, on obtient des résultats bien meilleurs.
Dans le dernier exemple, si l’on sait queX ,→ N 10,42, on pose alors X∗ = X−10
4 ,→ N(0,1). On en déduit que
P(5< X <15) =P(−5< X−10<5) =P
−5
4 < X∗< 5 4
= Φ 5
4
−Φ
−5 4
= 2Φ 5
4
−1≈0.79 Le résultat retourné par l’inégalité de Bienaymé-Tchebychev est correct, mais bien peu précis.
Exemple 3. En appliquant l’inégalité de Bienaymé-Tchebychev à X ,→ N(0,1), montrer que
∀x >0, Z x
0
e−t
2 2 dt≥
rπ 2
1− 1
x2
.
1.3 Loi faible des grands nombres
Proposition 1.7 : Loi faible des grands nombres
Soit (Xn)n≥1 une suite de variables aléatoires réelles indépendantes, ayant chacune la même espérancem et la même varianceσ2. On pose :
Xn= X1+X2+· · ·+Xn
n .
Alors
∀ε >0, P
Xn−m≥ε −→
n→+∞0.
Démonstration. Étant somme de variables mutuellement indépendantes admettant une espérance et une variance, leur sommeX1+X2+· · ·+Xn admet donc une espérance et une variance, ainsi :
E(Xn) = 1 n
n
X
k=1
E(Xk) = nm
n =m et V(Xn) = 1 n2
n
X
k=1
V(Xk) = nσ2 n2 = σ2
n.
D’après l’inégalité de Bienaymé-Tchebychev, on obtient
∀ε >0, P
Xn−m≥ε≤ σ2 nε2. D’après le théorème d’encadrement, on en déduit que
∀ε >0, P
Xn−m≥ε −→
n→+∞0.
Remarque 1.8 : Interprétation de la loi faible des grands nombres La loi des grands nombres s’écrit aussi :
∀ε >0, P
Xn−m< ε −→
n→+∞1.
Cela signifie qu’en répétant un grand nombre de fois une expérience aléatoire et en prenant la moyenne des résultats obtenus, on obtient une valeur très proche de l’espérance.
Exemple 4. Soit (Xn)n≥1 une suite de variables de Bernoulli indépendantes et de même paramètre p. On pose :
Xn= X1+X2+· · ·+Xn
n .
Alors
∀ε >0, P
Xn−p≥ε −→
n→+∞0.
Autrement dit, la moyenne empirique Xn converge d’une certaine manière (en probabilité) vers la variable aléatoire certaine égale àp.
2 Convergence en loi
2.1 Définitions
Définition 2.1 : Convergence en loi
Soient (Xn)n≥1 une suite de variables aléatoires réelles etX une variable aléatoire réelle. On dit que la suite (Xn)n≥1 converge en loi versX si
FXn(x) −→
n→+∞FX(x) pour toutx oùFX est continue.
On note alors : Xn−→L X.
Remarque 2.2 : Rappel : la fonction de répartition caractérise la loi
Comme deux variables aléatoires qui ont la même fonction de répartition suivent la même loi, siXn
−→L X alors pour nassez grand on pourra approcher la loi de Xn par la loi de X (ou inversement).
Méthode 2.3 : Comment montrer qu’une suite de variables aléatoires converge en loi ?
La convergence en loi correspond à la convergence de la fonction de répartition vers une fonction limite. Il s’agit donc de faire le calcul de limite suivant : la suite (Xn)n≥1 converge en loi versX si
FXn(x) −→
n→+∞FX(x) pour toutx oùFX est continue.
Exemple 5. Soient (Xn)n≥1 une suite de variables aléatoires à densité. La fonction de répartition FXn de Xn est donnée par
FXn(x) =
1−
n n e+ 1
x
, si x >0, 0, sinon.
Montrer que la suite(Xn)n≥1 converge en loi vers X qui suit une loi exponentielle de paramètre1.
Exemple 6. Soit X une variable aléatoire à densité. Pour n∈N∗, on pose : Xn= n
n+ 1X.
Montrer que la suite(Xn)n≥1 converge en loi vers X.
2.2 Cas des variables aléatoires discrètes
Proposition 2.4 : Convergence en loi des variables aléatoires discrètes
Soient (Xn)n≥1 une suite de variables aléatoires discrètes et X une variable aléatoire discrète. On suppose que lesXn etX sont à valeurs dansZ, alors
Xn−→L X ⇐⇒ ∀k∈Z, lim
n→+∞P(Xn=k) =P(X =k).
Méthode 2.5 : Comment montrer qu’une suite de variables à valeurs entières converge en loi ?
Pour montrer qu’une suite (Xn)n≥1 de variables aléatoires à valeurs entières converge en loi vers une variable discrète X, il suffit de montrer que pour entier k, la suite des probabilités (P(Xn = k))n≥1
converge versP(X=k) lorsque ntend vers +∞.
Exemple 7. Soient(Xn)n≥1 une suite de variables aléatoires telles que, pourn∈N∗,Xn,→ P1n. Montrer que la suite (Xn)n≥1 converge en loi vers la variable aléatoire certaine égale à 0.
Proposition 2.6 : Approximation d’une loi binomiale par une loi de Poisson
Soientλ >0 et (Xn)n≥1 une suite de variables aléatoires réelles telles que pour tout n≥λ, Xn,→ B
n,λ
n
,
alors la suite (Xn)n≥1 converge en loi versX qui suit une loi de Poisson de paramètreλ.
Démonstration. Soit k∈Nfixé. Prenonsn∈N grand, donc pourn≥k P(Xn=k) = n
k
!λ n
k 1−λ
n n−k
= n!
k!(n−k)!
λk
nke(n−k) ln(1−λn)
= λk k!
n(n−1). . .(n−k+ 1) nk
e(n−k) ln(1−nλ). Or n(n−1). . .(n−k+ 1) ∼
n→+∞nk, donc
n→+∞lim
n(n−1). . .(n−k+ 1)
nk = 1.
D’autre part, ln
1− λ n
n→+∞∼ −λ
n, donc (n−k) ln
1−λ n
n→+∞∼ −(n−k)λ
n. On obtient
n→+∞lim (n−k) ln
1−λ n
=−λ.
On conclut donc que
n→+∞lim P(Xn=k) = λk k! e−λ.
Remarque 2.7 : Interprétation
Dans une urne contenant des boules blanches ou rouges, la proportion de boules blanches étant p, on tirenboules avec remise. Sip est proche de 0 etnassez grand, la variable aléatoire égale au nombre de boules blanches tirées suivra approximativement une loi de Poisson de paramètre np. On dit que la loi de Poisson est la loi des "événements rares".
2.3 Théorème limite central
Théorème 2.8 : Théorème limite central (version moyenne)
Soit (Xn)n≥1 une suite de variables aléatoires réelles indépendantes, de même loi ayant chacune la même espérancem et la même varianceσ2. On pose :
Xn= X1+X2+· · ·+Xn n
et la variable aléatoire centrée réduite associée àXn
X∗n=√
nXn−m
σ ,
alors la suiteX∗n
n≥1 converge en loi vers une variable aléatoire de loiN(0,1).
Démonstration. La preuve est hors-programme.
Remarque 2.9 : Interprétation du théorème limite central
Pour (Xn)n≥1 une suite de variables aléatoires réelles indépendantes, on a donc :
∀x∈R, P
X∗n≤x −→
n→+∞Φ(x) et plus généralement, pour−∞ ≤a < b≤+∞ :
P
a≤X∗n≤b −→
n→+∞Φ(b)−Φ(a) = 1
√2π Z b
a
e−t
2 2 dt.
Ce théorème met en évidence le rôle central joué par la loi normale en probabilités et en statistiques.
Exemple 8. Soit (Tn)n≥1 une suite de variables aléatoires réelles indépendantes, et qui suivent toutes la loi de Poisson de paramètreλ. On pose :
T¯n= 1 n
n
X
k=1
Tk
et
Un=√ n
T¯n−λ
√ λ . Déterminer la limite en loi de la suite (Un)n≥1.
Théorème 2.10 : Théorème limite central (version somme)
Soit (Xn)n≥1 une suite de variables aléatoires réelles indépendantes, de même loi ayant chacune la même espérancem et la même varianceσ2. On note :
Sn=X1+X2+· · ·+Xn=nXn et la variable aléatoire centrée réduite associée àSn
Sn∗ = Sn−nm
√n σ =√
nXn−m
σ =X∗n,
alors la suite (Sn∗)n≥1 converge en loi vers une variable aléatoire de loiN(0,1).
Méthode 2.11 : Comment utiliser le théorème limite central ?
Lorsque l’on cherche à montrer la limite d’une probabilité ou la valeur approchée d’une probabilité concernant une variable aléatoire qui se présente sous la forme d’une moyenneXn ou d’une sommeSn de variables aléatoires indépendantes de même loi et de même espérance et variance, on utilise le théorème limite central.
Exemple 9. Une montre fait une erreur d’au plus une demi-minute par jour. Déterminer la probabilité que l’erreur commise au bout d’une année soit inférieure ou égale à un quart-d’heure.
Remarque 2.12 : Calcul de Φ(x) avec Scilab
Pour calculer Φ(x) en Scilab, on utilise la commandecdfnor("PQ",x,0,1) cdfnor("PQ",15*sqrt(12)/sqrt(365),0,1)
ans =
0.9967338
2.4 Approximations
Les approximations de ce paragraphe seront fournies dans l’énoncé des épreuves.
Proposition 2.13 : Conséquence du théorème limite central
Avec le théorème limite central, si (Xn)n≥1 une suite de variables aléatoires réelles indépendantes, de même loi ayant chacune la même espérancem et la même varianceσ2, on pose Sn=X1+X2+· · ·+Xn, en définissant
Sn∗ = Sn−nm
√nσ
alors la suite (Sn∗)n≥1 converge en loi vers une variable aléatoire de loi N(0,1). On remarque ainsi que pourn grand, comme Sn= √
nσSn∗ +nm, alors la variable aléatoire Sn suit approximativement la loi N(nm, nσ2).
Remarque 2.14 : Attention !
On ne peut pas dire que (Sn)n≥1 converge en loi vers une variable aléatoire de loiN(nm, nσ2), puisque celle-ci dépend den.
2.4.1 Approximation de la loi binomiale par la loi normale
Proposition 2.15 : Approximation de la loi binomiale par la loi normale On approche la loiB(n, p) par la loi N(np, npq) dès que n≥30 et p proche de 1
2.
Démonstration. On considère des variables aléatoires Xk indépendantes suivant une loi de Bernoulli de paramètrep. On pose :
Sn=X1+X2+· · ·+Xn,→ B(n, p)
En appliquant le théorème limite central, pour n grand, Sn∗ suit approximativement la loi N(0,1). Donc Sn=√
npq Sn∗ +npsuit approximativement la loiN(np, npq).
En pratique on convient que l’approximation est satisfaisante dès lors que : n≥30, np≥15 et npq≥5.
Ces valeurs ne sont pas à connaître par cœur, si nécessaire elles seront rappelées par l’énoncé de l’exercice.
Exemple 10. Soit X ,→ B(900,0.5). Calculer un résultat approché de P(435≤X ≤465).
2.4.2 Approximation de la loi de Poisson par la loi normale
Proposition 2.16 : Approximation de la loi de Poisson par la loi normale On approche la loiP(λ) par la loiN(λ, λ) dès queλ≥15.
Démonstration. On considère des variables aléatoires Xk indépendantes suivant une loi de Poisson de paramètreα. On pose :
Sn=X1+X2+· · ·+Xn,→ P(nα)
En appliquant le théorème limite central, pour n grand, Sn∗ suit approximativement la loi N(0,1). Donc Sn=√
nα Sn∗+nα suit approximativement la loiN(nα, nα). Comme α est quelconque, pourλassez grand, on peut approcher la loi deP(λ) par la loi N(λ, λ).
En pratique on convient que l’approximation est satisfaisante dès lors que : λ≥15.
Cette valeur n’est pas à connaître par cœur, si nécessaire elle sera rappelée par l’énoncé de l’exercice.
Exemple 11. Soit X ,→ P(25). Calculer un résultat approché de P(10≤X ≤40).
3 Estimation
On considère un phénomène aléatoire et une variable aléatoire réelleX qui lui est lié. Le type de la loiX est supposé connu et dépend d’un paramètreθ inconnu qui varie dans un ensemble Θ.
Exemple 12. Par exemple, on a :
• X suit une loi de Bernoulli de paramètre p,θ=p etΘ =]0,1[.
• X suit une loi de Poisson de paramètre λ, θ=λ etΘ =R∗+.
• X suit une loi normale de paramètre (µ, σ2), oùσ est connu et µest inconnu, θ=µ et Θ =R. L’objectif est de donner une estimation de la valeur du paramètreθ à partir d’un échantillon de données x1, x2, . . . , xn obtenues en observantn fois le phénomène. On fait l’hypothèse que cet échantillon de données constitue une réalisation d’une suite de variables aléatoires (X1, X2, . . . , Xn), où les Xi sont des variables aléatoires réelles de même loi queX. Il y a deux types d’estimation :
• l’estimation ponctuelle, on cherche à trouver une valeur approchée deθ,
• l’estimation par intervalle de confiance, on cherche à déterminer un intervalle dans lequel θ a une certaine probabilité de se trouver.
3.1 Estimation ponctuelle
3.1.1 Échantillonage
Définition 3.1 : n-échantillon
On appellen-échantillon d’une variableX, un n-uplet (X1, X2, . . . , Xn) de variables aléatoires mutuelle- ment indépendantes et suivant toutes la même loi queX.
Définition 3.2 : Échantillon observé
Soit (X1, X2, . . . , Xn) un échantillon d’une variableX. Pourω ∈Ω, on appelle réalisation de cet échantillon (ou échantillon observé), len-uplet de réels
(X1(ω), X2(ω), . . . , Xn(ω)) = (x1, x2, . . . , xn).
Remarque 3.3 : Évitons les confusions!
Attention, il ne faut pas confondre l’échantillon (X1, X2, . . . , Xn) qui est un n-uplet de variables aléatoires et l’échantillon observé (x1, x2, . . . , xn) qui est unn-uplet de réels (appartient àRn).
Pour obtenir un échantillon observé (x1, x2, . . . , xn), on effectuenépreuves identiques et indépendantes, pour lesquelles la variable aléatoireXk (associée à lake épreuve) a pris la valeur xk.
Exemple 13. Prenons l’exemple d’un référendum où les électeurs français (44.6 millions : source INSEE) ne peuvent que répondre par "oui" ou "non" (les abstentions étant sans influence sur le résultat). Interrogeons n= 1000électeurs, et posons xi = 1 si la ie interrogée déclare savoir ce qu’elle ira voter et vouloir voter
"oui" et xi = 0 si elle déclare vouloir voter "non".
3.1.2 Estimateur
Définition 3.4 : Estimateur
Soit (X1, X2, . . . , Xn) un échantillon d’une variableX dont la loi dépend d’un paramètreθ, avecθ∈Θ⊂R. On appelle estimateur deθ toute variable aléatoire fonction de X1, X2, . . . , Xn et à valeurs dans Θ.
Autrement dit, l’estimateurTn est de la forme
Tn=f(X1, X2, . . . , Xn) avec f une application deRn dansR.
Remarque 3.5 : L’estimateur est une variable aléatoire
Un estimateur est une variable aléatoire dépendant de (X1, X2, . . . , Xn). Comme lesXi suivent tous la loi deX, l’estimateurTnest une variable aléatoire dont la loi dépend deθ. Les valeurs observées grâce auxquelles on cherchera à évaluerθ sont des réalisations deTn.
Définition 3.6 : Estimation
SoitTn=f(X1, X2, . . . , Xn) un estimateur deθ. Une estimation deθ est une réalisation deTn : tn=f(x1, x2, . . . , xn)
où (x1, x2, . . . , xn) est une réalisation de l’échantillon (X1, X2, . . . , Xn).
Remarque 3.7 : Estimation indépendante deθ
L’estimation ϕ(x1, x2, . . . , xn) ne dépend que de l’échantillon (x1, x2, . . . , xn) observé. L’estimation ϕ(x1, x2, . . . , xn) ne dépend pas deθ.
Un estimateur souvent utilisé : la moyenne empirique Définition 3.8 : Moyenne empirique
Soit (X1, X2, . . . , Xn) un échantillon d’une variable X, on appelle moyenne empirique de l’échantillon, la variable aléatoire
Xn= X1+X2+· · ·+Xn
n .
La moyenne empirique est un estimateur deE(X).
Remarque 3.9 : Estimation de certains paramètres à l’aide de la moyenne empirique
On utilisera cet estimateur pour déterminer le paramètre p d’une loi de Bernoulli B(1, p), puisque l’espérance de cette loi estp. De même, on utilisera cet estimateur pour déterminer le paramètre λd’une loi de Poisson.
Propriété 3.10 : Moyenne empirique
SoientX une variable aléatoire d’espérance m et de varianceσ2 et un n-échantillon (X1, X2, . . . , Xn) de la loi deX. Alors on a
E(Xn) =m et V(Xn) = σ2 n .
Démonstration. Par linéarité de l’espérance, on a E(Xn) =E
Pn i=1Xi
n
= 1 n
n
X
i=1
E(Xi) = nm n =m.
Les variables aléatoires étant indépendantes, on obtient V(Xn) =V
Pn i=1Xi
n
= 1 n2
n
X
i=1
V (Xi) = nσ2 n2 = σ2
n.
Exemple 14. On trace ici deux estimateurs T1 et T2 dem, l’espérance de la variable aléatoire X.
X
T
1T
2m m'
Les estimateurs sont des fonctions des échantillons : ce sont donc des variables aléatoires qui possèdent, le plus souvent, une espérance et une variance. Ces deux grandeurs permettent de comparer, dans une certaine mesure, les estimateurs entre eux.
3.1.3 Biais
Pour construire un estimateur permettant d’obtenir des évaluations de bonne qualité du paramètre étudié, il faut se donner des critères de qualité pour un estimateur. Si l’on veut estimerθ par les valeurs prises par la variable aléatoireTn, il faut que les valeurs prises par Tn ne s’éloignent pas trop de θ.
Définition 3.11 : Biais
SoitTn un estimateur deθ. Si pour tout θde Θ, Tn admet une espérance, on appelle biais de Tn le réel bθ(Tn) =Eθ(Tn)−θ.
Remarque 3.12 : Notation
Rappelons que la loi de la variable aléatoireTndépend a priori deθ, son espérance dépend donc également deθ. C’est pourquoi cette espérance est souvent notéeEθ(Tn).
Définition 3.13 : Estimateur sans biais
On dit queTn est un estimateur sans biais deθ si, pour toutθ∈Θ Eθ(Tn) =θ.
Remarque 3.14 : Qualité de l’estimateur
Le biais d’un estimateurTn de θ donne l’éloignement entre la moyenne des valeurs prises par Tn et le paramètre θ à estimer. Plus le biais est proche de 0, meilleur est l’estimateur : en pratique on essaiera donc si possible de déterminer un estimateur sans biais deθ.
Exemple 15. En reprenant l’exemple précédent, on observe queT1 est un estimateur sans biais dem. Alors que T2 est un estimateur biaisé de m.
X
T
1T
2m m'
Proposition 3.15 : Estimation de l’espérance d’une variable aléatoire
SoitXn la moyenne empirique associée à un n-échantillon d’une variableX admettant une espérance m.
On a
E(Xn) =m.
La moyenne empiriqueXn est un estimateur sans biais de l’espérancem.
Remarque 3.16 : Moyenne observée
Si (x1, x2, . . . , xn) est un échantillon observé, une estimation de E(X) est la moyenne observée me= x1+· · ·+xn
n .
Exemple 16. Reprenons l’exemple du référendum, Xn est alors un estimateur du paramètre p (on rappelle que si X ,→ B(1, p) alors E(X) =p).
Si on suppose que l’on a obtenu 630 "oui" et 370 "non", on peut estimer que la probabilité p d’obtenir
"oui" est la moyenne observé
me= x1+· · ·+x1000
1000 = 630
1000 = 63%.
Méthode 3.17 : Comment déterminer le biais d’un estimateur ? SiTn est un estimateur deθ, il suffit de calculer son espérance.
• SiEθ(Tn) =θ, alors Tn est un estimateur sans biais deθ.
• SiEθ(Tn)6=θ, alors le biais de Tn est donné parbθ(Tn) =Eθ(Tn)−θ.
Exemple 17. Soient X une variable aléatoire d’espérance m et de variance σ2 et un n-échantillon (X1, X2, . . . , Xn) de la loi de X. On suppose que m est connu, monter que
Tn= 1 n
n
X
i=1
(Xi−m)2
est un estimateur sans biais de σ2.
En pratique,mest rarement connu exactement : on le remplace par un estimateur, la moyenne empirique, et on introduit la variance empirique.
Définition 3.18 : Variance empirique
SoientX une variable aléatoire d’espérance m et de varianceσ2 et un n-échantillon (X1, X2, . . . , Xn) de la loi deX. On appelle variance empirique de l’échantillon, la variable aléatoire Sn2
Sn2 = 1 n
n
X
i=1
Xi−Xn
2
.
Remarque 3.19
La notationSn2 ne désigne pas un carré, l’exposant 2 désigne la somme de carrés. On lit "S,n,2". Pour plus d’informations sur la variance empirique et son utilisation, vous pouvez lire l’annexe 4.
3.1.4 Estimateur asymptotiquement sans biais
Définition 3.20 : Estimateur asymptotiquement sans biais On dit qu’une suite (Tn)n∈
N∗ d’estimateurs de θ est asymptotiquement sans biais, si pour toutθ∈Θ Eθ(Tn) −→
n→+∞θ.
Par abus de langage, on dit aussi que l’estimateurTn est asymptotiquement sans biais.
3.1.5 Risque quadratique d’un estimateur
La qualité d’une estimateur ne dépend pas seulement de la proximité de son espérance avec la vraie valeur du paramètre à estimer, mais aussi de la dispersion des valeurs qu’il prend autour de cette valeur à estimer.
Définition 3.21 : Risque quadratique d’un estimateur
SoitTn un estimateur de θ. Si pour toutθ de Θ,Tn admet une variance (ou un moment d’ordre 2), on appelle risque quadratique deTn le réel
rθ(Tn) =Eθ(Tn−θ)2.
Proposition 3.22 : Décomposition biais - variance du risque quadratique
Si pour toutθde Θ, Tnadmet une variance (ou un moment d’ordre 2), alors on a rθ(Tn) =bθ(Tn)2+Vθ(Tn).
Démonstration. On écrit
(Tn−θ)2 = (Tn−Eθ(Tn) +bθ(Tn))2
= (Tn−Eθ(Tn))2+ 2bθ(Tn) (Tn−Eθ(Tn)) +bθ(Tn)2 Par linéarité de l’espérance, on a
rθ(Tn) =Eθ
(Tn−Eθ(Tn))2+ 2bθ(Tn)Eθ(Tn−Eθ(Tn)) +bθ(Tn)2 Or Eθ(Tn−Eθ(Tn)) = 0, donc
rθ(Tn) =Eθ(Tn−Eθ(Tn))2+bθ(Tn)2 =Vθ(Tn) +bθ(Tn)2.
Proposition 3.23 : Risque quadratique d’un estimateur sans biais Si l’estimateurTn est sans biais et s’il admet une variance, alors on a
rθ(Tn) =Vθ(Tn).
Exemple 18. SiT1 est un estimateur sans biais de m, Son risque quadratique se mesure en évaluant la variance de T1.
X
T
1m m'
Exemple 19. Calculer le risque quadratique de la moyenne empirique d’une variable X admettant une varianceσ2.
3.1.6 Estimateur convergent
Définition 3.24 : Estimateur convergent On dit qu’une suite (Tn)n∈
N∗ d’estimateurs de θ est convergente, si pour toutθ∈Θ
∀ε >0,P(|Tn−θ|> ε) −→
n→+∞0.
Par abus de langage, on dit aussi que l’estimateurTn est convergent.
Remarque 3.25 : Interprétation
Un estimateur convergent s’écarte donc du paramètreθ avec une probabilité faible, lorsque la taille de l’échantillon est assez grande.
Proposition 3.26 : Condition suffisante de convergence d’un estimateur Si pour toutθde Θ, Tnadmet une variance (ou un moment d’ordre 2), si
rθ(Tn) −→
n→+∞0, alorsTn est un estimateur convergent de θ.
Démonstration. Pour ε >0, on a
[|Tn−θ|> ε] =h(Tn−θ)2 > ε2i.
Comme (Tn−θ)2 est une variable aléatoire positive admettant une espérance, on applique l’inégalité de Markov
P
(Tn−θ)2 > ε2≤ E (Tn−θ)2
ε2 = rθ(Tn) ε2 . Ainsi par encadrement, on a
P(|Tn−θ|> ε) −→
n→+∞0.
Proposition 3.27 : Condition suffisante de convergence d’un estimateur asymptotiquement sans biais Si l’estimateurTn est sans biais (ou asymptotiquement sans biais) et s’il admet une variance, si
Vθ(Tn) −→
n→+∞0, alorsTn est un estimateur convergent de θ.
Démonstration. D’après la décomposition biais-variance, on a rθ(Tn) =bθ(Tn)2+Vθ(Tn). Or, d’après les hypothèses, on a
Donc
rθ(Tn) −→
n→+∞0.
Par conséquent, d’après la condition suffisante de convergence d’un estimateur, Tn est un estimateur convergent deθ.
Méthode 3.28 : Comment montrer qu’un estimateur est convergent ?
Pour monter queTn est un estimateur convergent de θ, il suffit de calculer son risque quadratique et de montrer qu’il tend vers 0. On a également
• SiTn est un estimateur sans biais : il faut montrer que rθ(Tn) =Vθ(Tn) −→
n→+∞0.
• SiTn est un estimateur asymptotiquement sans biais : commerθ(Tn) =bθ(Tn)2+Vθ(Tn) et que bθ(Tn) −→
n→+∞0, il faut montrer que
Vθ(Tn) −→
n→+∞0.
Exemple 20. Montrer que la moyenne empirique est un estimateur convergent de l’espérance.
Exemple 21. Soit(X1, X2, . . . , Xn)unn-échantillon d’une variableXsuivant la loi uniforme sur l’intervalle [0, θ], avecθ >0 inconnu. On considère Un= max(X1, X2, . . . , Xn).
1. Déterminer une densité de Un.
2. Montrer que Un est un estimateur asymptotiquement sans biais deθ.
3. Montrer que Un est un estimateur convergent de θ.
3.1.7 Comparaison de deux estimateurs
Proposition 3.29 : Comparaison de deux estimateurs
Si l’on a deux estimateursTn1 et Tn2 deθ, on considérera que Tn1 est meilleur que Tn2 si pour toutθ∈Θ et pourn assez grand
rθTn1≤rθTn2.
Remarque 3.30 : Qualité de l’estimateur
Le risque quadratique d’un estimateurTn deθ traduit la fa¸on dont se dispersent les valeurs prises par Tn autour du paramètreθà estimer. Plus le risque quadratique est petit, plus les valeurs prises par Tn sont en moyenne proches deθ, donc meilleur est l’estimateur.
Exemple 22. Soit(X1, X2, . . . , Xn)unn-échantillon d’une variableXsuivant la loi uniforme sur l’intervalle [0, θ], avecθ >0 inconnu. La moyenne empirique Xn de l’échantillon vérifie
Eθ(Xn) =Eθ(X) = θ 2. On en déduit que2Xn est un estimateur sans biais de θ. De plus,
rθ(2Xn) =Vθ(2Xn) = 4 n
θ2 12 = θ2
3n.
On sait également que Un= max(X1, X2, . . . , Xn) est un estimateur convergent de θ avec rθ(Un) =
− θ n+ 1
2
+ n
(n+ 2)(n+ 1)2θ2= 2n+ 2
(n+ 2)(n+ 1)2θ2 = 2θ2 (n+ 2)(n+ 1). Déterminer le meilleur estimateur deθ.
3.2 Estimation par intervalle de confiance
Le résultat d’une estimation est une valeur approchée du paramètreθ que l’on cherche à évaluer. Si l’on effectue une autre estimation, on n’obtiendra en général pas le même résultat. Plutôt que de donner une (ou plusieurs) estimations numériques deθ, on peut chercher à déterminer un intervalle qui contienne, avec une certaine probabilité, le paramètre θ.
3.2.1 Définitions
Définition 3.31 : Intervalle de confiance, niveau de confiance
Soient (X1, X2, . . . , Xn) un échantillon etα ∈R. On suppose que Un et Vn sont des estimateurs de θ. On dit que [Un, Vn] est un intervalle de confiance deθ au niveau de confiance 1−α(ou au risque α), si pour toutθ∈Θ
P(Un≤θ≤Vn)≥1−α.
On a aussi
P(θ /∈[Un, Vn])≤α.
Remarque 3.32 : Intervalle de confiance réalisé
• Un intervalle de confiance est un intervalle dont les bornes sont aléatoires et qui contient, avec une probabilité donnée, la valeurθ que l’on cherche à évaluer.
• Si on considère un échantillon observé (x1, x2, . . . , xn), les réalisations de Un = φ(X1, X2, . . . , Xn) et Vn=ψ(X1, X2, . . . , Xn) sont donc
un=φ(x1, x2, . . . , xn) et vn=ψ(x1, x2, . . . , xn).
L’intervalle [un, vn] est appelé intervalle de confiance réalisé (ou fourchette).
3.2.2 Utilisation de l’inégalité de Bienaymé-Tchebychev Remarque 3.33 : Rappel : Inégalité de Bienaymé-Tchebychev
SoitX une variable aléatoire réelle ayant un moment d’ordre 2, alors on a :
∀ε >0, P(|X−E(X)|> ε)≤P(|X−E(X)| ≥ε)≤ V(X) ε2 . Ce qui s’écrit aussi
∀ε >0, P(|X−E(X)| ≤ε)≥1−V(X) ε2 .
Proposition 3.34 : Inégalité de Bienaymé-Tchebychev pour un estimateur sans biais SoitTn un estimateur sans biais deθ admettant un moment d’ordre 2, alors
∀ε >0, P(|Tn−θ| ≤ε)≥1−Vθ(Tn) ε2 .
Démonstration. CommeEθ(Tn) =θ, on utilise directement l’inégalité de Bienaymé-Tchebychev pour conclure.
Méthode 3.35 : Comment déterminer un intervalle de confiance grâce à l’inégalité de Bienaymé- Tchebychev ?
Pour trouver deux variables Un et Vn telles que P(Un ≤ θ ≤ Vn) ≥ 1−α, on applique l’inégalité de Bienaymé-Tchebychev à un estimateurTn sans biais de θ:
∀ε >0, P(|Tn−θ|< ε)≥1−Vθ(Tn) ε2 .
On cherche alors à majorerVθ(Tn) pour tout θ∈Θ. S’il existe M >0 tel que ∀θ∈Θ, Vθ(Tn)≤M alors
∀ε >0, P(|Tn−θ|< ε)≥1− M ε2.
Pour queα= M
ε2 on pose ε= rα
M, afin d’avoir P
|Tn−θ| ≤ rα
M
≥1−α donc
T −
r α
≤θ≤T + rα
≥1−α.
18
Méthode 3.35 : Comment déterminer un intervalle de confiance grâce à l’inégalité de Bienaymé- Tchebychev ?
Pour trouver deux variables Un et Vn telles que P(Un ≤ θ ≤ Vn) ≥ 1−α, on applique l’inégalité de Bienaymé-Tchebychev à un estimateur Tn sans biais de θ :
∀ε >0, P(|Tn−θ|< ε)≥1−Vθ(Tn) ε2 .
On cherche alors à majorerVθ(Tn) pour tout θ∈Θ. S’il existe M >0 tel que ∀θ∈Θ,Vθ(Tn)≤M alors
∀ε >0, P(|Tn−θ|< ε)≥1−M ε2.
Pour queα= M
ε2 on pose ε= r α
M, afin d’avoir P
|Tn−θ| ≤ r α
M
≥1−α donc
P
Tn− rα
M ≤θ≤Tn+ rα
M
≥1−α.
L’intervalle
Tn− rα
M, Tn+ rα
M
est un intervalle de confiance pourθ au niveau 1−α.
Remarque 3.36 : Cas de la loi de Bernoulli
Dans le cas d’unn-échantillon d’une loi de Bernoulli de paramètre θ, on détermine M en montrant que, pour toutθ∈]0,1[,
Vθ(Xn) =θ(1−θ)≤ 1 4.
Exemple 23. Soit (X1, X2, . . . , Xn) unn-échantillon d’une loi de Bernoulli de paramètre θ. Déterminer un intervalle de confiance deθ au niveau de confiance 1−α.
Remarque 3.37 : Sondage d’opinions
Pour un risqueα = 0.05, si l’on effectue n= 1000 expériences, la probabilité que la valeur de θ soit dans l’intervalle
me− 1 2√
50, me+ 1 2√
50
≈[me−0.07, me+ 0.07] est supérieure à 0.95 avecme la moyenne observée.
3.2.3 Approximation de la loi binomiale par la loi normale
Exemple 24. Reprenons l’exemple précédent, déterminer un intervalle de confiance de θ au niveau de confiance 1−α avec n grand.
Remarque 3.38 : Calcul de Φ−1(x) avec Scilab
Avec Scilab, pour calculer Φ−1(x) on utilise la fonction cdfnor(’X’,0,1,x,1-x). Pour α = 0.05, on trouve
tα= Φ−1
1−α 2
≈1.96
Remarque 3.39 : Sondage d’opinions
Pour α = 0.05, si l’on fait n= 1000 expériences (n grand), la probabilité que la valeur de θ soit dans l’intervalle
me− 1.96 2√
1000, me+ 1.96 2√
1000
≈ [me−0.03, me+ 0.03] est supérieure à 0.95 avec me la moyenne observée.
Remarque 3.40 : Amélioration de l’intervalle de confiance
En utilisant l’approximation de la loi binomiale par la loi normale plutôt que l’inégalité de Bienaymé- Tchebychev, on améliore nettement l’approximation de l’intervalle de confiance lorsque le nombre d’expériences devient grand.
Exemple 25. Les sondages d’opinions relatifs à l’élection présidentielle française (Ifop, Odoxa, TNS Sofres) s’effectuent généralement sur des échantillons d’environ 1000électeurs. La marge d’erreur de ces sondages d’opinions est estimée à environ 3.2% avec un niveau de confiance de 95%.
3.2.4 Intervalle de confiance asymptotique
Définition 3.41 : Intervalle de confiance asymptotique
Soient (X1, X2, . . . , Xn) un échantillon etα ∈R. On suppose que Un et Vn sont des estimateurs de θ. On dit que ([Un, Vn])n∈
N∗ est un intervalle de confiance asymptotique deθau niveau de confiance 1−α, s’il existe une suite de réels (αn)n∈
N∗ à valeurs dans [0,1], de limite α, telle que pour tout n≥1, pour tout θ∈Θ
P(Un≤θ≤Vn)≥1−αn.
Par abus de langage, on dit aussi que [Un, Vn] est un intervalle de confiance asymptotique.
Proposition 3.42 : Caractérisation d’un intervalle de confiance asymptotique
[Un, Vn] est un intervalle de confiance asymptotique de θau niveau de confiance 1−α si l’on a
n→+∞lim P(Un≤θ≤Vn)≥1−α.
Exemple 26. Soit (X1, X2, . . . , Xn) un n-échantillon d’une variable X de loi d’espérance m et de variance σ2. Déterminer un intervalle de confiance asymptotique dem au niveau de confiance 1−α pour α∈]0,1[.