Chapitre 10 : Convergence en loi et estimation

(1)

Convergence en loi et estimation

Table des matières

1 Inégalité de Markov et conséquences 2

1.1 Inégalité de Markov . . . 2

1.2 Inégalité de Bienaymé-Tchebychev . . . 3

1.3 Loi faible des grands nombres . . . 4

2 Convergence en loi 5 2.1 Définitions . . . 5

2.2 Cas des variables aléatoires discrètes . . . 6

2.3 Théorème limite central . . . 7

2.4 Approximations . . . 8

2.4.1 Approximation de la loi binomiale par la loi normale . . . 9

2.4.2 Approximation de la loi de Poisson par la loi normale . . . 9

3 Estimation 10 3.1 Estimation ponctuelle . . . 10

3.1.1 Échantillonage . . . 10

3.1.2 Estimateur . . . 11

3.1.3 Biais . . . 12

3.1.4 Estimateur asymptotiquement sans biais . . . 14

3.1.5 Risque quadratique d’un estimateur . . . 15

3.1.6 Estimateur convergent . . . 16

3.1.7 Comparaison de deux estimateurs . . . 17

3.2 Estimation par intervalle de confiance . . . 18

3.2.1 Définitions . . . 18

3.2.2 Utilisation de l’inégalité de Bienaymé-Tchebychev . . . 18

3.2.3 Approximation de la loi binomiale par la loi normale . . . 19

3.2.4 Intervalle de confiance asymptotique . . . 20

4 Annexe : Variance empirique modifiée 21

(2)

Dans ce chapitre, toutes les variables aléatoires sont supposées discrètes ou à densité, et définies sur le même espace probabilisé (Ω,A,P).

1 Inégalité de Markov et conséquences

1.1 Inégalité de Markov

Proposition 1.1 : Inégalité de Markov

SoitX une variable aléatoire (discrète ou à densité) positive ayant une espérance, alors on a :

∀a >0, P(X ≥a)≤ E(X) a .

Démonstration. On prouve l’inégalité de Markov dans le cas d’une variable aléatoire discrète, puis d’une variable aléatoire à densité.

• SiXest une variable aléatoire discrète, on a :X(Ω) ={x_i≥0, i∈I ⊂N}. On poseJ ={i∈I, xi ≥a}, on a alors :

[X≥a] = ^[

i∈J

[X =x_i].

Ainsi comme union incompatible d’événements, on a P(X≥a) =^X

i∈J

P(X=x_i).

Par ailleurs, on a

E(X) = ^X

i∈I

xiP(X=xi) carX admet une espérance,

≥ ^X

i∈J

xiP(X=xi) carJ ⊂I etxiP(X =xi)≥0,

≥ ^X

i∈J

aP(X =xi) car pour i∈J, xi ≥a,

≥ aP(X≥a).

On conclut donc queP(X ≥a)≤ E(X)

a car a >0.

• SiX est une variable aléatoire à densité, de densitéf. CommeX est à valeurs positives, f est nulle surR−. On a :

P(X ≥a) = Z +∞

a

f(t)dt.

Puisquef admet une espérance, E(X) =

Z +∞

0

tf(t)dt≥ Z +∞

a

tf(t)dt≥ Z +∞

a

af(t)dt≥aP(X≥a).

On conclut donc queP(X ≥a)≤ E(X)

a car a >0.

(3)

Remarque 1.2 : Pas exigible au concours

L’inégalité de Markov n’est pas exigible au concours, cependant on demande souvent de la redémontrer dans les sujets de Parisiennes. Il faut donc en connaitre la preuve.

Exemple 1. Soit X une variable aléatoire réelle et g:R^∗+→R^∗+ une fonction croissante. On suppose que g(|X|) admet une espérance, montrer que

∀a >0, P(|X| ≥a)≤ E(g(|X|)) g(a) .

Proposition 1.3 : Inégalité de Markov et moments

Pourr ∈N^∗, soit X une variable aléatoire (discrète ou à densité) ayant un moment d’ordrer, alors on a

∀a >0, P(|X| ≥a)≤ mr(|X|) a^r .

Démonstration. C’est une application directe de l’exemple précédent.

1.2 Inégalité de Bienaymé-Tchebychev

Proposition 1.4 : Inégalité de Bienaymé-Tchebychev

SoitX une variable aléatoire (discrète ou à densité) ayant un moment d’ordre 2, alors on a :

∀ε >0, P(|X−E(X)| ≥ε)≤ V(X) ε² .

Démonstration. La variable aléatoire (X−E(X))² est positive et possède une espérance égale à V(X). Pour ε >0, on applique l’inégalité de Markov à (X−E(X))² en ε², et on obtient

P((X−E(X))² ≥ε²)≤ V(X) ε² .

Or^h(X−E(X))²≥ε²ⁱ= [|X−E(X)| ≥ε], on en déduit

P(|X−E(X)| ≥ε)≤ V(X) ε² .

Remarque 1.5 : Exigible au concours

L’inégalité de Bienaymé-Tchebychev est exigible au concours, il faut donc la connaitre par cœur.

Exemple 2. Soit X la variable aléatoire donnant la note en maths au concours Ecricome. On suppose que E(X) = 10et σ(X) = 4. Montrer que

P(5< X <15)≥0.36.

(4)

Remarque 1.6 : Inégalité peu précise

L’inégalité de Bienaymé-Tchebychev n’est pas très précise, elle donne un résultat grossier qui donne simplement une vague idée de la situation. Par contre, elle ne demande pas de connaître la loi de probabilité de la variable. Quand on connaît cette loi, on obtient des résultats bien meilleurs.

Dans le dernier exemple, si l’on sait queX ,→ N 10,4², on pose alors X^∗ = X−10

4 ,→ N(0,1). On en déduit que

P(5< X <15) =P(−5< X−10<5) =P

−5

4 < X^∗< 5 4

= Φ 5

4

−Φ

−5 4

= 2Φ 5

4

−1≈0.79 Le résultat retourné par l’inégalité de Bienaymé-Tchebychev est correct, mais bien peu précis.

Exemple 3. En appliquant l’inégalité de Bienaymé-Tchebychev à X ,→ N(0,1), montrer que

∀x >0, Z x

0

e⁻^t

2 2 dt≥

rπ 2

1− 1

x²

.

1.3 Loi faible des grands nombres

Proposition 1.7 : Loi faible des grands nombres

Soit (X_n)_n≥1 une suite de variables aléatoires réelles indépendantes, ayant chacune la même espérancem et la même varianceσ². On pose :

Xn= X1+X2+· · ·+Xn

n .

Alors

∀ε >0, P

X_n−m≥ε −→

n→+∞0.

Démonstration. Étant somme de variables mutuellement indépendantes admettant une espérance et une variance, leur sommeX1+X2+· · ·+Xn admet donc une espérance et une variance, ainsi :

E(Xn) = 1 n

n

X

k=1

E(Xk) = nm

n =m et V(Xn) = 1 n²

n

X

k=1

V(Xk) = nσ² n² = σ²

n.

D’après l’inégalité de Bienaymé-Tchebychev, on obtient

∀ε >0, P

Xn−m≥ε≤ σ² nε². D’après le théorème d’encadrement, on en déduit que

∀ε >0, P

Xn−m≥ε −→

n→+∞0.

(5)

Remarque 1.8 : Interprétation de la loi faible des grands nombres La loi des grands nombres s’écrit aussi :

∀ε >0, P

X_n−m< ε −→

n→+∞1.

Cela signifie qu’en répétant un grand nombre de fois une expérience aléatoire et en prenant la moyenne des résultats obtenus, on obtient une valeur très proche de l’espérance.

Exemple 4. Soit (X_n)_n≥1 une suite de variables de Bernoulli indépendantes et de même paramètre p. On pose :

X_n= X₁+X₂+· · ·+X_n

n .

Alors

∀ε >0, P

X_n−p≥ε −→

n→+∞0.

Autrement dit, la moyenne empirique X_n converge d’une certaine manière (en probabilité) vers la variable aléatoire certaine égale àp.

2 Convergence en loi

2.1 Définitions

Définition 2.1 : Convergence en loi

Soient (Xn)_n≥1 une suite de variables aléatoires réelles etX une variable aléatoire réelle. On dit que la suite (X_n)_n≥1 converge en loi versX si

F_X_n(x) −→

n→+∞F_X(x) pour toutx oùF_X est continue.

On note alors : X_n−→^L X.

Remarque 2.2 : Rappel : la fonction de répartition caractérise la loi

Comme deux variables aléatoires qui ont la même fonction de répartition suivent la même loi, siXn

−→L X alors pour nassez grand on pourra approcher la loi de X_n par la loi de X (ou inversement).

Méthode 2.3 : Comment montrer qu’une suite de variables aléatoires converge en loi ?

La convergence en loi correspond à la convergence de la fonction de répartition vers une fonction limite. Il s’agit donc de faire le calcul de limite suivant : la suite (Xn)_n≥1 converge en loi versX si

F_X_n(x) −→

n→+∞F_X(x) pour toutx oùF_X est continue.

Exemple 5. Soient (X_n)_n≥1 une suite de variables aléatoires à densité. La fonction de répartition F_X_n de Xn est donnée par

F_X_n(x) =





 1−

n n e+ 1

x

, si x >0, 0, sinon.

Montrer que la suite(Xn)_n≥1 converge en loi vers X qui suit une loi exponentielle de paramètre1.

(6)

Exemple 6. Soit X une variable aléatoire à densité. Pour n∈N^∗, on pose : Xn= n

n+ 1X.

Montrer que la suite(X_n)_n≥1 converge en loi vers X.

2.2 Cas des variables aléatoires discrètes

Proposition 2.4 : Convergence en loi des variables aléatoires discrètes

Soient (Xn)_n≥1 une suite de variables aléatoires discrètes et X une variable aléatoire discrète. On suppose que lesXn etX sont à valeurs dansZ, alors

X_n−→^L X ⇐⇒ ∀k∈Z, lim

n→+∞P(X_n=k) =P(X =k).

Méthode 2.5 : Comment montrer qu’une suite de variables à valeurs entières converge en loi ?

Pour montrer qu’une suite (Xn)_n≥1 de variables aléatoires à valeurs entières converge en loi vers une variable discrète X, il suffit de montrer que pour entier k, la suite des probabilités (P(X_n = k))n≥1

converge versP(X=k) lorsque ntend vers +∞.

Exemple 7. Soient(Xn)_n≥1 une suite de variables aléatoires telles que, pourn∈N^∗,Xn,→ P¹_n. Montrer que la suite (Xn)_n≥1 converge en loi vers la variable aléatoire certaine égale à 0.

Proposition 2.6 : Approximation d’une loi binomiale par une loi de Poisson

Soientλ >0 et (Xn)_n≥1 une suite de variables aléatoires réelles telles que pour tout n≥λ, X_n,→ B

n,λ

n

,

alors la suite (X_n)_n≥1 converge en loi versX qui suit une loi de Poisson de paramètreλ.

Démonstration. Soit k∈Nfixé. Prenonsn∈N grand, donc pourn≥k P(X_n=k) = n

k

!λ n

k 1−λ

n n−k

= n!

k!(n−k)!

λ^k

n^ke^{(n−k) ln}(¹⁻^λ_n)

= λ^k k!

n(n−1). . .(n−k+ 1) n^k

e^{(n−k) ln}(¹⁻_n^λ). Or n(n−1). . .(n−k+ 1) ∼

n→+∞n^k, donc

n→+∞lim

n(n−1). . .(n−k+ 1)

n^k = 1.

D’autre part, ln

1− λ n

n→+∞∼ −λ

n, donc (n−k) ln

1−λ n

n→+∞∼ −(n−k)λ

n. On obtient

n→+∞lim (n−k) ln

1−λ n

=−λ.

On conclut donc que

n→+∞lim P(X_n=k) = λ^k k! e^−λ.

(7)

Remarque 2.7 : Interprétation

Dans une urne contenant des boules blanches ou rouges, la proportion de boules blanches étant p, on tirenboules avec remise. Sip est proche de 0 etnassez grand, la variable aléatoire égale au nombre de boules blanches tirées suivra approximativement une loi de Poisson de paramètre np. On dit que la loi de Poisson est la loi des "événements rares".

2.3 Théorème limite central

Théorème 2.8 : Théorème limite central (version moyenne)

Soit (Xn)_n≥1 une suite de variables aléatoires réelles indépendantes, de même loi ayant chacune la même espérancem et la même varianceσ². On pose :

X_n= X₁+X₂+· · ·+X_n n

et la variable aléatoire centrée réduite associée àXn

X^∗_n=√

nX_n−m

σ ,

alors la suiteX^∗_n

n≥1 converge en loi vers une variable aléatoire de loiN(0,1).

Démonstration. La preuve est hors-programme.

Remarque 2.9 : Interprétation du théorème limite central

Pour (Xn)_n≥1 une suite de variables aléatoires réelles indépendantes, on a donc :

∀x∈R, P

X^∗_n≤x −→

n→+∞Φ(x) et plus généralement, pour−∞ ≤a < b≤+∞ :

P

a≤X^∗_n≤b −→

n→+∞Φ(b)−Φ(a) = 1

√2π Z b

a

e⁻^t

2 2 dt.

Ce théorème met en évidence le rôle central joué par la loi normale en probabilités et en statistiques.

Exemple 8. Soit (T_n)_n≥1 une suite de variables aléatoires réelles indépendantes, et qui suivent toutes la loi de Poisson de paramètreλ. On pose :

T¯n= 1 n

n

X

k=1

Tk

et

U_n=√ n

T¯_n−λ

√ λ . Déterminer la limite en loi de la suite (Un)_n≥1.

(8)

Théorème 2.10 : Théorème limite central (version somme)

Soit (Xn)_n≥1 une suite de variables aléatoires réelles indépendantes, de même loi ayant chacune la même espérancem et la même varianceσ². On note :

S_n=X₁+X₂+· · ·+X_n=nX_n et la variable aléatoire centrée réduite associée àS_n

S_n^∗ = Sn−nm

√n σ =√

nXn−m

σ =X^∗_n,

alors la suite (S_n^∗)_n≥1 converge en loi vers une variable aléatoire de loiN(0,1).

Méthode 2.11 : Comment utiliser le théorème limite central ?

Lorsque l’on cherche à montrer la limite d’une probabilité ou la valeur approchée d’une probabilité concernant une variable aléatoire qui se présente sous la forme d’une moyenneX_n ou d’une sommeS_n de variables aléatoires indépendantes de même loi et de même espérance et variance, on utilise le théorème limite central.

Exemple 9. Une montre fait une erreur d’au plus une demi-minute par jour. Déterminer la probabilité que l’erreur commise au bout d’une année soit inférieure ou égale à un quart-d’heure.

Remarque 2.12 : Calcul de Φ(x) avec Scilab

Pour calculer Φ(x) en Scilab, on utilise la commandecdfnor("PQ",x,0,1) cdfnor("PQ",15*sqrt(12)/sqrt(365),0,1)

ans =

0.9967338

2.4 Approximations

Les approximations de ce paragraphe seront fournies dans l’énoncé des épreuves.

Proposition 2.13 : Conséquence du théorème limite central

Avec le théorème limite central, si (Xn)_n≥1 une suite de variables aléatoires réelles indépendantes, de même loi ayant chacune la même espérancem et la même varianceσ², on pose Sn=X1+X2+· · ·+Xn, en définissant

S_n^∗ = Sn−nm

√nσ

alors la suite (S_n^∗)_n≥1 converge en loi vers une variable aléatoire de loi N(0,1). On remarque ainsi que pourn grand, comme Sn= √

nσS_n^∗ +nm, alors la variable aléatoire Sn suit approximativement la loi N(nm, nσ²).

(9)

Remarque 2.14 : Attention !

On ne peut pas dire que (Sn)_n≥1 converge en loi vers une variable aléatoire de loiN(nm, nσ²), puisque celle-ci dépend den.

2.4.1 Approximation de la loi binomiale par la loi normale

Proposition 2.15 : Approximation de la loi binomiale par la loi normale On approche la loiB(n, p) par la loi N(np, npq) dès que n≥30 et p proche de 1

2.

Démonstration. On considère des variables aléatoires Xk indépendantes suivant une loi de Bernoulli de paramètrep. On pose :

S_n=X₁+X₂+· · ·+X_n,→ B(n, p)

En appliquant le théorème limite central, pour n grand, S_n^∗ suit approximativement la loi N(0,1). Donc Sn=√

npq S_n^∗ +npsuit approximativement la loiN(np, npq).

En pratique on convient que l’approximation est satisfaisante dès lors que : n≥30, np≥15 et npq≥5.

Ces valeurs ne sont pas à connaître par cœur, si nécessaire elles seront rappelées par l’énoncé de l’exercice.

Exemple 10. Soit X ,→ B(900,0.5). Calculer un résultat approché de P(435≤X ≤465).

2.4.2 Approximation de la loi de Poisson par la loi normale

Proposition 2.16 : Approximation de la loi de Poisson par la loi normale On approche la loiP(λ) par la loiN(λ, λ) dès queλ≥15.

Démonstration. On considère des variables aléatoires Xk indépendantes suivant une loi de Poisson de paramètreα. On pose :

S_n=X₁+X₂+· · ·+X_n,→ P(nα)

En appliquant le théorème limite central, pour n grand, S_n^∗ suit approximativement la loi N(0,1). Donc Sn=√

nα S_n^∗+nα suit approximativement la loiN(nα, nα). Comme α est quelconque, pourλassez grand, on peut approcher la loi deP(λ) par la loi N(λ, λ).

En pratique on convient que l’approximation est satisfaisante dès lors que : λ≥15.

Cette valeur n’est pas à connaître par cœur, si nécessaire elle sera rappelée par l’énoncé de l’exercice.

Exemple 11. Soit X ,→ P(25). Calculer un résultat approché de P(10≤X ≤40).

(10)

3 Estimation

On considère un phénomène aléatoire et une variable aléatoire réelleX qui lui est lié. Le type de la loiX est supposé connu et dépend d’un paramètreθ inconnu qui varie dans un ensemble Θ.

Exemple 12. Par exemple, on a :

• X suit une loi de Bernoulli de paramètre p,θ=p etΘ =]0,1[.

• X suit une loi de Poisson de paramètre λ, θ=λ etΘ =R^∗+.

• X suit une loi normale de paramètre (µ, σ²), oùσ est connu et µest inconnu, θ=µ et Θ =R. L’objectif est de donner une estimation de la valeur du paramètreθ à partir d’un échantillon de données x1, x2, . . . , xn obtenues en observantn fois le phénomène. On fait l’hypothèse que cet échantillon de données constitue une réalisation d’une suite de variables aléatoires (X1, X2, . . . , Xn), où les Xi sont des variables aléatoires réelles de même loi queX. Il y a deux types d’estimation :

• l’estimation ponctuelle, on cherche à trouver une valeur approchée deθ,

• l’estimation par intervalle de confiance, on cherche à déterminer un intervalle dans lequel θ a une certaine probabilité de se trouver.

3.1 Estimation ponctuelle

3.1.1 Échantillonage

Définition 3.1 : n-échantillon

On appellen-échantillon d’une variableX, un n-uplet (X₁, X₂, . . . , X_n) de variables aléatoires mutuellement indépendantes et suivant toutes la même loi queX.

Définition 3.2 : Échantillon observé

Soit (X₁, X₂, . . . , X_n) un échantillon d’une variableX. Pourω ∈Ω, on appelle réalisation de cet échantillon (ou échantillon observé), len-uplet de réels

(X₁(ω), X₂(ω), . . . , X_n(ω)) = (x₁, x₂, . . . , x_n).

Remarque 3.3 : Évitons les confusions!

Attention, il ne faut pas confondre l’échantillon (X1, X2, . . . , Xn) qui est un n-uplet de variables aléatoires et l’échantillon observé (x₁, x₂, . . . , x_n) qui est unn-uplet de réels (appartient àRⁿ).

Pour obtenir un échantillon observé (x₁, x₂, . . . , x_n), on effectuenépreuves identiques et indépendantes, pour lesquelles la variable aléatoireX_k (associée à lak^e épreuve) a pris la valeur x_k.

Exemple 13. Prenons l’exemple d’un référendum où les électeurs français (44.6 millions : source INSEE) ne peuvent que répondre par "oui" ou "non" (les abstentions étant sans influence sur le résultat). Interrogeons n= 1000électeurs, et posons x_i = 1 si la i^e interrogée déclare savoir ce qu’elle ira voter et vouloir voter

"oui" et x_i = 0 si elle déclare vouloir voter "non".

(11)

3.1.2 Estimateur

Définition 3.4 : Estimateur

Soit (X₁, X₂, . . . , X_n) un échantillon d’une variableX dont la loi dépend d’un paramètreθ, avecθ∈Θ⊂R. On appelle estimateur deθ toute variable aléatoire fonction de X₁, X₂, . . . , X_n et à valeurs dans Θ.

Autrement dit, l’estimateurTn est de la forme

Tn=f(X1, X2, . . . , Xn) avec f une application deRⁿ dansR.

Remarque 3.5 : L’estimateur est une variable aléatoire

Un estimateur est une variable aléatoire dépendant de (X₁, X₂, . . . , X_n). Comme lesX_i suivent tous la loi deX, l’estimateurTnest une variable aléatoire dont la loi dépend deθ. Les valeurs observées grâce auxquelles on cherchera à évaluerθ sont des réalisations deT_n.

Définition 3.6 : Estimation

SoitT_n=f(X₁, X₂, . . . , X_n) un estimateur deθ. Une estimation deθ est une réalisation deT_n : tn=f(x1, x2, . . . , xn)

où (x1, x2, . . . , xn) est une réalisation de l’échantillon (X1, X2, . . . , Xn).

Remarque 3.7 : Estimation indépendante deθ

L’estimation ϕ(x1, x2, . . . , xn) ne dépend que de l’échantillon (x1, x2, . . . , xn) observé. L’estimation ϕ(x₁, x₂, . . . , x_n) ne dépend pas deθ.

Un estimateur souvent utilisé : la moyenne empirique Définition 3.8 : Moyenne empirique

Soit (X₁, X₂, . . . , X_n) un échantillon d’une variable X, on appelle moyenne empirique de l’échantillon, la variable aléatoire

X_n= X₁+X₂+· · ·+X_n

n .

La moyenne empirique est un estimateur deE(X).

Remarque 3.9 : Estimation de certains paramètres à l’aide de la moyenne empirique

On utilisera cet estimateur pour déterminer le paramètre p d’une loi de Bernoulli B(1, p), puisque l’espérance de cette loi estp. De même, on utilisera cet estimateur pour déterminer le paramètre λd’une loi de Poisson.

(12)

Propriété 3.10 : Moyenne empirique

SoientX une variable aléatoire d’espérance m et de varianceσ² et un n-échantillon (X1, X2, . . . , Xn) de la loi deX. Alors on a

E(X_n) =m et V(X_n) = σ² n .

Démonstration. Par linéarité de l’espérance, on a E(Xn) =E

Pn i=1Xi

n

= 1 n

n

X

i=1

E(Xi) = nm n =m.

Les variables aléatoires étant indépendantes, on obtient V(Xn) =V

Pn i=1Xi

n

= 1 n²

n

X

i=1

V (Xi) = nσ² n² = σ²

n.

Exemple 14. On trace ici deux estimateurs T¹ et T² dem, l’espérance de la variable aléatoire X.

X

T

¹

T

²

m m'

Les estimateurs sont des fonctions des échantillons : ce sont donc des variables aléatoires qui possèdent, le plus souvent, une espérance et une variance. Ces deux grandeurs permettent de comparer, dans une certaine mesure, les estimateurs entre eux.

3.1.3 Biais

Pour construire un estimateur permettant d’obtenir des évaluations de bonne qualité du paramètre étudié, il faut se donner des critères de qualité pour un estimateur. Si l’on veut estimerθ par les valeurs prises par la variable aléatoireT_n, il faut que les valeurs prises par T_n ne s’éloignent pas trop de θ.

Définition 3.11 : Biais

SoitT_n un estimateur deθ. Si pour tout θde Θ, T_n admet une espérance, on appelle biais de T_n le réel b_θ(T_n) =E_θ(T_n)−θ.

(13)

Remarque 3.12 : Notation

Rappelons que la loi de la variable aléatoireTndépend a priori deθ, son espérance dépend donc également deθ. C’est pourquoi cette espérance est souvent notéeE_θ(T_n).

Définition 3.13 : Estimateur sans biais

On dit queT_n est un estimateur sans biais deθ si, pour toutθ∈Θ E_θ(T_n) =θ.

Remarque 3.14 : Qualité de l’estimateur

Le biais d’un estimateurTn de θ donne l’éloignement entre la moyenne des valeurs prises par Tn et le paramètre θ à estimer. Plus le biais est proche de 0, meilleur est l’estimateur : en pratique on essaiera donc si possible de déterminer un estimateur sans biais deθ.

Exemple 15. En reprenant l’exemple précédent, on observe queT¹ est un estimateur sans biais dem. Alors que T² est un estimateur biaisé de m.

X

T

¹

T

²

m m'

Proposition 3.15 : Estimation de l’espérance d’une variable aléatoire

SoitX_n la moyenne empirique associée à un n-échantillon d’une variableX admettant une espérance m.

On a

E(Xn) =m.

La moyenne empiriqueX_n est un estimateur sans biais de l’espérancem.

Remarque 3.16 : Moyenne observée

Si (x1, x2, . . . , xn) est un échantillon observé, une estimation de E(X) est la moyenne observée m_e= x₁+· · ·+x_n

n .

Exemple 16. Reprenons l’exemple du référendum, Xn est alors un estimateur du paramètre p (on rappelle que si X ,→ B(1, p) alors E(X) =p).

(14)

Si on suppose que l’on a obtenu 630 "oui" et 370 "non", on peut estimer que la probabilité p d’obtenir

"oui" est la moyenne observé

m_e= x₁+· · ·+x₁₀₀₀

1000 = 630

1000 = 63%.

Méthode 3.17 : Comment déterminer le biais d’un estimateur ? SiT_n est un estimateur deθ, il suffit de calculer son espérance.

• SiE_θ(T_n) =θ, alors T_n est un estimateur sans biais deθ.

• SiEθ(Tn)6=θ, alors le biais de Tn est donné parbθ(Tn) =Eθ(Tn)−θ.

Exemple 17. Soient X une variable aléatoire d’espérance m et de variance σ² et un n-échantillon (X1, X2, . . . , Xn) de la loi de X. On suppose que m est connu, monter que

T_n= 1 n

n

X

i=1

(X_i−m)²

est un estimateur sans biais de σ².

En pratique,mest rarement connu exactement : on le remplace par un estimateur, la moyenne empirique, et on introduit la variance empirique.

Définition 3.18 : Variance empirique

SoientX une variable aléatoire d’espérance m et de varianceσ² et un n-échantillon (X1, X2, . . . , Xn) de la loi deX. On appelle variance empirique de l’échantillon, la variable aléatoire S_n²

S_n² = 1 n

n

X

i=1

Xi−Xn

2

.

Remarque 3.19

La notationS_n² ne désigne pas un carré, l’exposant 2 désigne la somme de carrés. On lit "S,n,2". Pour plus d’informations sur la variance empirique et son utilisation, vous pouvez lire l’annexe 4.

3.1.4 Estimateur asymptotiquement sans biais

Définition 3.20 : Estimateur asymptotiquement sans biais On dit qu’une suite (T_n)_n∈

N^∗ d’estimateurs de θ est asymptotiquement sans biais, si pour toutθ∈Θ E_θ(Tn) −→

n→+∞θ.

Par abus de langage, on dit aussi que l’estimateurTn est asymptotiquement sans biais.

(15)

3.1.5 Risque quadratique d’un estimateur

La qualité d’une estimateur ne dépend pas seulement de la proximité de son espérance avec la vraie valeur du paramètre à estimer, mais aussi de la dispersion des valeurs qu’il prend autour de cette valeur à estimer.

Définition 3.21 : Risque quadratique d’un estimateur

SoitT_n un estimateur de θ. Si pour toutθ de Θ,T_n admet une variance (ou un moment d’ordre 2), on appelle risque quadratique deT_n le réel

r_θ(T_n) =E_θ(T_n−θ)².

Proposition 3.22 : Décomposition biais - variance du risque quadratique

Si pour toutθde Θ, Tnadmet une variance (ou un moment d’ordre 2), alors on a r_θ(T_n) =b_θ(T_n)²+V_θ(T_n).

Démonstration. On écrit

(T_n−θ)² = (T_n−E_θ(T_n) +b_θ(T_n))²

= (Tn−E_θ(Tn))²+ 2b_θ(Tn) (Tn−E_θ(Tn)) +b_θ(Tn)² Par linéarité de l’espérance, on a

rθ(Tn) =Eθ

(Tn−Eθ(Tn))²+ 2bθ(Tn)Eθ(Tn−Eθ(Tn)) +bθ(Tn)² Or E_θ(T_n−E_θ(T_n)) = 0, donc

r_θ(Tn) =E_θ(Tn−E_θ(Tn))²+b_θ(Tn)² =V_θ(Tn) +b_θ(Tn)².

Proposition 3.23 : Risque quadratique d’un estimateur sans biais Si l’estimateurT_n est sans biais et s’il admet une variance, alors on a

r_θ(T_n) =V_θ(T_n).

Exemple 18. SiT¹ est un estimateur sans biais de m, Son risque quadratique se mesure en évaluant la variance de T¹.

X

T

¹

m m'

(16)

Exemple 19. Calculer le risque quadratique de la moyenne empirique d’une variable X admettant une varianceσ².

3.1.6 Estimateur convergent

Définition 3.24 : Estimateur convergent On dit qu’une suite (Tn)_n∈

N^∗ d’estimateurs de θ est convergente, si pour toutθ∈Θ

∀ε >0,P(|T_n−θ|> ε) −→

n→+∞0.

Par abus de langage, on dit aussi que l’estimateurT_n est convergent.

Remarque 3.25 : Interprétation

Un estimateur convergent s’écarte donc du paramètreθ avec une probabilité faible, lorsque la taille de l’échantillon est assez grande.

Proposition 3.26 : Condition suffisante de convergence d’un estimateur Si pour toutθde Θ, Tnadmet une variance (ou un moment d’ordre 2), si

rθ(Tn) −→

n→+∞0, alorsT_n est un estimateur convergent de θ.

Démonstration. Pour ε >0, on a

[|T_n−θ|> ε] =^h(Tn−θ)² > ε²ⁱ.

Comme (T_n−θ)² est une variable aléatoire positive admettant une espérance, on applique l’inégalité de Markov

P

(Tn−θ)² > ε²≤ E (Tn−θ)²

ε² = rθ(Tn) ε² . Ainsi par encadrement, on a

P(|T_n−θ|> ε) −→

n→+∞0.

Proposition 3.27 : Condition suffisante de convergence d’un estimateur asymptotiquement sans biais Si l’estimateurT_n est sans biais (ou asymptotiquement sans biais) et s’il admet une variance, si

V_θ(Tn) −→

n→+∞0, alorsTn est un estimateur convergent de θ.

Démonstration. D’après la décomposition biais-variance, on a r_θ(T_n) =b_θ(T_n)²+V_θ(T_n). Or, d’après les hypothèses, on a

(17)

Donc

r_θ(T_n) −→

n→+∞0.

Par conséquent, d’après la condition suffisante de convergence d’un estimateur, Tn est un estimateur convergent deθ.

Méthode 3.28 : Comment montrer qu’un estimateur est convergent ?

Pour monter queT_n est un estimateur convergent de θ, il suffit de calculer son risque quadratique et de montrer qu’il tend vers 0. On a également

• SiT_n est un estimateur sans biais : il faut montrer que rθ(Tn) =Vθ(Tn) −→

n→+∞0.

• SiTn est un estimateur asymptotiquement sans biais : commer_θ(Tn) =b_θ(Tn)²+V_θ(Tn) et que b_θ(T_n) −→

n→+∞0, il faut montrer que

Vθ(Tn) −→

n→+∞0.

Exemple 20. Montrer que la moyenne empirique est un estimateur convergent de l’espérance.

Exemple 21. Soit(X1, X2, . . . , Xn)unn-échantillon d’une variableXsuivant la loi uniforme sur l’intervalle [0, θ], avecθ >0 inconnu. On considère U_n= max(X₁, X₂, . . . , X_n).

1. Déterminer une densité de Un.

2. Montrer que U_n est un estimateur asymptotiquement sans biais deθ.

3. Montrer que Un est un estimateur convergent de θ.

3.1.7 Comparaison de deux estimateurs

Proposition 3.29 : Comparaison de deux estimateurs

Si l’on a deux estimateursT_n¹ et T_n² deθ, on considérera que T_n¹ est meilleur que T_n² si pour toutθ∈Θ et pourn assez grand

r_θT_n¹≤r_θT_n².

Remarque 3.30 : Qualité de l’estimateur

Le risque quadratique d’un estimateurT_n deθ traduit la fa¸on dont se dispersent les valeurs prises par T_n autour du paramètreθà estimer. Plus le risque quadratique est petit, plus les valeurs prises par T_n sont en moyenne proches deθ, donc meilleur est l’estimateur.

Exemple 22. Soit(X₁, X₂, . . . , X_n)unn-échantillon d’une variableXsuivant la loi uniforme sur l’intervalle [0, θ], avecθ >0 inconnu. La moyenne empirique X_n de l’échantillon vérifie

E_θ(X_n) =E_θ(X) = θ 2. On en déduit que2X_n est un estimateur sans biais de θ. De plus,

rθ(2Xn) =Vθ(2Xn) = 4 n

θ² 12 = θ²

3n.

On sait également que Un= max(X1, X2, . . . , Xn) est un estimateur convergent de θ avec rθ(Un) =

− θ n+ 1

2

+ n

(n+ 2)(n+ 1)²θ²= 2n+ 2

(n+ 2)(n+ 1)²θ² = 2θ² (n+ 2)(n+ 1). Déterminer le meilleur estimateur deθ.

(18)

3.2 Estimation par intervalle de confiance

Le résultat d’une estimation est une valeur approchée du paramètreθ que l’on cherche à évaluer. Si l’on effectue une autre estimation, on n’obtiendra en général pas le même résultat. Plutôt que de donner une (ou plusieurs) estimations numériques deθ, on peut chercher à déterminer un intervalle qui contienne, avec une certaine probabilité, le paramètre θ.

3.2.1 Définitions

Définition 3.31 : Intervalle de confiance, niveau de confiance

Soient (X₁, X₂, . . . , X_n) un échantillon etα ∈R. On suppose que U_n et V_n sont des estimateurs de θ. On dit que [Un, Vn] est un intervalle de confiance deθ au niveau de confiance 1−α(ou au risque α), si pour toutθ∈Θ

P(U_n≤θ≤V_n)≥1−α.

On a aussi

P(θ /∈[Un, Vn])≤α.

Remarque 3.32 : Intervalle de confiance réalisé

• Un intervalle de confiance est un intervalle dont les bornes sont aléatoires et qui contient, avec une probabilité donnée, la valeurθ que l’on cherche à évaluer.

• Si on considère un échantillon observé (x1, x2, . . . , xn), les réalisations de Un = φ(X1, X2, . . . , Xn) et Vn=ψ(X1, X2, . . . , Xn) sont donc

un=φ(x1, x2, . . . , xn) et vn=ψ(x1, x2, . . . , xn).

L’intervalle [u_n, v_n] est appelé intervalle de confiance réalisé (ou fourchette).

3.2.2 Utilisation de l’inégalité de Bienaymé-Tchebychev Remarque 3.33 : Rappel : Inégalité de Bienaymé-Tchebychev

SoitX une variable aléatoire réelle ayant un moment d’ordre 2, alors on a :

∀ε >0, P(|X−E(X)|> ε)≤P(|X−E(X)| ≥ε)≤ V(X) ε² . Ce qui s’écrit aussi

∀ε >0, P(|X−E(X)| ≤ε)≥1−V(X) ε² .

Proposition 3.34 : Inégalité de Bienaymé-Tchebychev pour un estimateur sans biais SoitT_n un estimateur sans biais deθ admettant un moment d’ordre 2, alors

∀ε >0, P(|T_n−θ| ≤ε)≥1−V_θ(Tn) ε² .

Démonstration. CommeE_θ(T_n) =θ, on utilise directement l’inégalité de Bienaymé-Tchebychev pour conclure.

Méthode 3.35 : Comment déterminer un intervalle de confiance grâce à l’inégalité de Bienaymé- Tchebychev ?

Pour trouver deux variables Un et Vn telles que P(Un ≤ θ ≤ Vn) ≥ 1−α, on applique l’inégalité de Bienaymé-Tchebychev à un estimateurTn sans biais de θ:

∀ε >0, P(|T_n−θ|< ε)≥1−V_θ(T_n) ε² .

On cherche alors à majorerVθ(Tn) pour tout θ∈Θ. S’il existe M >0 tel que ∀θ∈Θ, Vθ(Tn)≤M alors

∀ε >0, P(|T_n−θ|< ε)≥1− M ε².

Pour queα= M

ε² on pose ε= rα

M, afin d’avoir P

|T_n−θ| ≤ rα

M

≥1−α donc

T −

r α

≤θ≤T + rα

≥1−α.

18

(19)

Méthode 3.35 : Comment déterminer un intervalle de confiance grâce à l’inégalité de Bienaymé- Tchebychev ?

Pour trouver deux variables U_n et V_n telles que P(U_n ≤ θ ≤ V_n) ≥ 1−α, on applique l’inégalité de Bienaymé-Tchebychev à un estimateur T_n sans biais de θ :

∀ε >0, P(|T_n−θ|< ε)≥1−V_θ(Tn) ε² .

On cherche alors à majorerV_θ(T_n) pour tout θ∈Θ. S’il existe M >0 tel que ∀θ∈Θ,V_θ(T_n)≤M alors

∀ε >0, P(|T_n−θ|< ε)≥1−M ε².

Pour queα= M

ε² on pose ε= r α

M, afin d’avoir P

|T_n−θ| ≤ r α

M

≥1−α donc

P

Tn− rα

M ≤θ≤Tn+ rα

M

≥1−α.

L’intervalle

T_n− rα

M, T_n+ rα

M

est un intervalle de confiance pourθ au niveau 1−α.

Remarque 3.36 : Cas de la loi de Bernoulli

Dans le cas d’unn-échantillon d’une loi de Bernoulli de paramètre θ, on détermine M en montrant que, pour toutθ∈]0,1[,

V_θ(X_n) =θ(1−θ)≤ 1 4.

Exemple 23. Soit (X₁, X₂, . . . , X_n) unn-échantillon d’une loi de Bernoulli de paramètre θ. Déterminer un intervalle de confiance deθ au niveau de confiance 1−α.

Remarque 3.37 : Sondage d’opinions

Pour un risqueα = 0.05, si l’on effectue n= 1000 expériences, la probabilité que la valeur de θ soit dans l’intervalle

m_e− 1 2√

50, m_e+ 1 2√

50

≈[m_e−0.07, m_e+ 0.07] est supérieure à 0.95 avecm_e la moyenne observée.

3.2.3 Approximation de la loi binomiale par la loi normale

Exemple 24. Reprenons l’exemple précédent, déterminer un intervalle de confiance de θ au niveau de confiance 1−α avec n grand.

(20)

Remarque 3.38 : Calcul de Φ⁻¹(x) avec Scilab

Avec Scilab, pour calculer Φ⁻¹(x) on utilise la fonction cdfnor(’X’,0,1,x,1-x). Pour α = 0.05, on trouve

tα= Φ⁻¹

1−α 2

≈1.96

Remarque 3.39 : Sondage d’opinions

Pour α = 0.05, si l’on fait n= 1000 expériences (n grand), la probabilité que la valeur de θ soit dans l’intervalle

m_e− 1.96 2√

1000, m_e+ 1.96 2√

1000

≈ [m_e−0.03, m_e+ 0.03] est supérieure à 0.95 avec m_e la moyenne observée.

Remarque 3.40 : Amélioration de l’intervalle de confiance

En utilisant l’approximation de la loi binomiale par la loi normale plutôt que l’inégalité de Bienaymé- Tchebychev, on améliore nettement l’approximation de l’intervalle de confiance lorsque le nombre d’expériences devient grand.

Exemple 25. Les sondages d’opinions relatifs à l’élection présidentielle française (Ifop, Odoxa, TNS Sofres) s’effectuent généralement sur des échantillons d’environ 1000électeurs. La marge d’erreur de ces sondages d’opinions est estimée à environ 3.2% avec un niveau de confiance de 95%.

3.2.4 Intervalle de confiance asymptotique

Définition 3.41 : Intervalle de confiance asymptotique

Soient (X₁, X₂, . . . , X_n) un échantillon etα ∈R. On suppose que U_n et V_n sont des estimateurs de θ. On dit que ([U_n, V_n])_n∈

N^∗ est un intervalle de confiance asymptotique deθau niveau de confiance 1−α, s’il existe une suite de réels (αn)_n∈

N^∗ à valeurs dans [0,1], de limite α, telle que pour tout n≥1, pour tout θ∈Θ

P(U_n≤θ≤V_n)≥1−α_n.

Par abus de langage, on dit aussi que [U_n, V_n] est un intervalle de confiance asymptotique.

Proposition 3.42 : Caractérisation d’un intervalle de confiance asymptotique

[U_n, V_n] est un intervalle de confiance asymptotique de θau niveau de confiance 1−α si l’on a

n→+∞lim P(U_n≤θ≤V_n)≥1−α.

Exemple 26. Soit (X₁, X₂, . . . , X_n) un n-échantillon d’une variable X de loi d’espérance m et de variance σ². Déterminer un intervalle de confiance asymptotique dem au niveau de confiance 1−α pour α∈]0,1[.