• Aucun résultat trouvé

II. Intervalles de confiance

N/A
N/A
Protected

Academic year: 2022

Partager "II. Intervalles de confiance"

Copied!
5
0
0

Texte intégral

(1)

I. Estimation ponctuelle

L’objectif de cette partie est d’introduire le vocabulaire et la démarche de la statistique inférentielle en abordant, sur quelques cas simples, le problème de l’estimation, ponctuelle ou par intervalle de confiance. On se restreindra à une famille de lois de probabilités indexées par un paramètre scalaire (ou vectoriel) dont la valeur (scalaire ou vectorielle) caractérise la loi.

On cherche alors à estimer la valeur d’un paramètreθ(ou une fonction simpleg(θ)de ce paramètre) à partir de données disponibles.

Dans ce contexte, on considère un phénomène aléatoire et on s’intéresse à une variable aléatoire réelleXqui lui est liée, dont on suppose que la loi de probabilité n’est pas complètement spécifiée et appartient à une famille de lois dépendant d’un paramètreθdécrivant un sous-ensembleΘdeR(éventuellement deR2).

Le paramètreθest une quantité inconnue, fixée dans toute l’étude, que l’on cherche à déterminer ou pour laquelle on cherche une information partielle.

Le problème de l’estimation consiste alors à estimer la vraie valeur du paramètreθou deg(θ)(fonction à valeurs réelles du paramètreθ), à partir d’un échantillon de donnéesx1, ...,xn, obtenues en observantnfois le phénomène. Cette fonction du paramètre représentera en général une valeur caractéristique de la loi inconnue, comme son espérance, sa variance, son étendue...

On supposera que cet échantillon est la réalisation de n variables aléatoiresX1,..., Xn définies sur un même espace probabilisable(Ω;A)muni d’une famille de probabilités(Pθ)θ∈Θ.

Définition 1.

SoitXune variable aléatoire.

On appellen-échantillondeX toutn-uplet(X1, ..., Xn)de v.a. indépendantes et de même loi queX. Définition 2.

Uneréalisationde l’échantillon(X1, ..., Xn)est unn-uplet(x1, ..., xn), où ∀k∈[[1;n]], xk =Xk(ω) est la valeur prise par la v.a.Xk. Définition 3.

Soit(X1, ..., Xn)unn-échantillon d’une v.a.X.

Unestimateurdeg(θ)est une v.a.Tn=φ(X1, ..., Xn), oùφ:Rn 7−→Rest une fonction ne dépendant pas deθ, contruite dans le but d’évaluerg(θ).

Remarque.

Une suite d’estimateur sera souvent par abus de langage simplement appelée "estimateur".

Remarque.

La loi deTndépend a priori deθ.

Ce dernier étant inconnu, le statisticien utilise des notations modifiées, pour montrer que les quantités étudiées en dé- pendant. Par exemple, l’espérance sera notéeEθ(Tn)au lieu de simplementE(Tn).

Définition 4.

SoitTnun estimateur deg(θ). On suppose que ∀θ∈Θ, Eθ(Tn) existe. On appellebiaisdeTnle réel : bθ(Tn) =Eθ(Tn)−g(θ)

Définition 5.

Un estimateurTnest ditsans biais, si ∀θ∈Θ, Eθ(Tn) =g(θ), ie bθ(Tn) = 0.

(2)

Exemple 1.

La moyenne empiriqueXnest un estimateur sans biais de l’espérance.

Définition 6.

SoitTnun estimateur deg(θ). On suppose que ∀θ∈Θ, Eθ(Tn2) existe. On appellerisque quadratiquedeTnle réel : rθ(Tn) =Eθ (Tn−g(θ))2

Théorème 1. Décomposition biais-variance du risque quadratique Sous les hypothèses de la définition :

rθ(Tn) =Vθ(Tn) + (bθ(Tn))2

Démonstration.

On a :

rθ(Tn) =Eθ (Tn−g(θ))2

=Eθ Tn2−2g(θ)Tn+ (g(θ))2

=Eθ(Tn2)−2g(θ)Eθ(Tn) +Eθ(g(θ))2

=Eθ(Tn2)−(Eθ(Tn))2+ (Eθ(Tn))2−2g(θ)Eθ(Tn) +Eθ(g(θ))2

=Vθ(Tn) + (Eθ(Tn))−g(θ)2

=Vθ(Tn) + (bθ(Tn))2

Les quantités précédentes (biais et risque quadratique) n’étant pas toujours nulle (en principe jamais pour le risque), il est nécessaire de pouvoir envisager de faire varier la taille de l’échantillon. On est donc naturellement amené à considérer des suites d’estimateurs.

Définition 7.

On dit que(Tn)n∈Nest unesuite d’estimateursdeg(θ)si ∀n∈N, Tnn(X1, ..., Xn), où φn:Rn 7−→R.

Définition 8.

Soit(Tn)n∈Nune suite d’estimateur deg(θ), admettant une espérance.

On dit queTnest unestimateur asymptotiquement sans biaissi

n→+∞lim bθ(Tn) = 0

Remarque.

On effectue donc un léger abus de langage en parlant simplement de l’estimateurTn.

Définition 9.

Une suite d’estimateur(Tn)n∈Ndeg(θ)est diteconvergentesi :

∀θ∈Θ, ∀ >0, lim

n→+∞Pθ(|Tn−g(θ)|> ) = 0

Théorème 2. Condition suffisante de convergence Si ∀θ∈Θ, lim

n→+∞rθ(Tn) = 0, alors l’estimateurTnest convergent.

(3)

Exemple 2.

La moyenne empiriqueXnest un estimateur convergent de l’espérance.

Le résultat peut être obtenu à l’aide du risque quadratique, ou bien de la loi faibel des grands nombres.

II. Intervalles de confiance

S’il existe des critères pour juger des qualités d’un estimateur ponctuelTn deg(θ)(biais, risque, convergence), aucune certitude ne peut jamais être apportée quant au fait que l’estimation donne la vraie valeur à estimer.

La démarche de l’estimation par intervalle de confiance consiste à trouver un intervalle aléatoire qui contienneg(θ)avec une probabilité minimale donnée. L’utilisation dans certains cas du théorème limite central impose d’introduire la notion d’intervalle de confiance asymptotique.

Ce paragraphe a uniquement pour but de préciser le vocabulaire employé. Les situations seront étudiées sous forme d’exercices, aucune connaissance autre que ce vocabulaire n’est exigible sur les intervalles de confiance.

Dans tout ce paragraphe(Un)n∈Net(Vn)n∈Ndésignent des suites d’estimateurs deg(θ)telles que

∀θ∈Θ, ∀n∈N, Pθ(Un≤Vn) = 1. Définition 10.

Soitα∈[0; 1].

On dit que[Un;Vn]est unintervalle de confiancedeniveau de confiance1−αdeg(θ)si :

∀θ∈Θ, Pθ(Un≤g(θ)≤Vn)≥1−α.

Remarque.

On dit aussi intervalle de confiance deniveau d’erreurα.

Exemple 3.

Soit(Xn)n∈Nune suite de v.a. indépendantes de même loi de BernoulliB(p). On pose Xn= 1

n

n

X

k=1

Xk. Alors, par linéarité, E(Xn) = 1

n×nE(X1) =p, et, par indépendance, V(Xn) = 1

n2×nV(X1) = p(1−p) n . Donc, ∀ε >0, P(|Xn−E(Xn)| ≥ε)≤ V(Xn)

ε2 , ie P(|Xn−p| ≥ε)≤ p(1−p)

2 ≤ 1 4nε2.

Avec un échantillon de n réalisations de B(p), nous obtenons un intervalle de confiance de niveau de confiance 0.95 en résolvant :

1

4nε2 ≤0.05 ⇐⇒ ε2≥ 1

4n×0.05 ⇐⇒ ε2≥ 5

n ⇐⇒ ε≥ r5

n. Un intervalle de confiance pour le paramètrepest donc

"

Xn− r5

n;Xn+ r5

n

# . Par exemple, avecn= 10000, cela donne un rayonε= 0.0224.

Définition 11.

Soitα∈[0; 1].

On dit que[Un;Vn]est unintervalle de confiance asymptotiquede niveau de confiance1−αdeg(θ) s’il existe une suite de réels(αn)n∈Nde[0; 1]de limiteα, telle que :

∀θ∈Θ, Pθ(Un ≤g(θ)≤Vn)≥1−αn.

(4)

Exemple 4.

Soit(Xn)n∈Nune suite de v.a. indépendantes de même loi de BernoulliB(p), toujours avec Xn= 1 n

n

X

k=1

Xk.

Le théorème central limite dit que √

nXn−m σ

−→ NL (0,1), soit ici √

n Xn−p pp(1−p)

−→ NL (0,1). Donc, pour un intervalle de confiance de niveau de confiance 0.95 :

P −1.96≤√

n Xn−p

pp(1−p) ≤1.96

!

'P(−1.96≤Z ≤1.96)'0.95, oùZ ,→ N(0,1). Réécrivons :

−1.96≤√

n Xn−p

pp(1−p) ≤1.96 ⇐⇒ −1.96

rp(1−p)

n ≤Xn−p≤1.96

rp(1−p) n

⇐⇒ Xn−1.96

rp(1−p)

n ≤p≤Xn+ 1.96

rp(1−p) n

=⇒ Xn− 1

√n ≤p≤Xn+ 1

√n, car 0≤p(1−p)≤0.25

=⇒ p∈

Xn− 1

√n;Xn+ 1

√n

Un intervalle de confiance de niveau 0.95 pour le paramètrepest donc

Xn− 1

√n;Xn+ 1

√n

.

Remarque.

Pour d’autres niveaux de confianceα, il y a besoin d’utiliser une table de loi normale.

La fonction de répartitionΦde la loiN(0,1)étant une bijection deRdans]0,1[, il faut donc s’entrainer à déterminer grâce à la table des valeurs approchées deΦ−1

1−α 2

. En effet :

P(−a≤Z≤a) = 1−α ⇐⇒ Φ(a)−Φ(−a) = 1−α ⇐⇒ Φ(a)−(1−Φ(a)) = 1−α

⇐⇒ 2Φ(a)−1 = 1−α ⇐⇒ Φ(a) = 1−α 2

⇐⇒ a= Φ−1 1−α

2

III. Informatique

Le programme suivant permet d’illustrer la notion d’intervalle de confiance, en comparant les résultats obtenus pour l’estimation du paramètrep(en rouge) d’une binomiale avec l’inégalité de Bienaymé-Tchebychev (en vert) et avec le théorème central limite (en bleu). On voit bien que le TCL est plus précis. La théorie dit par ailleurs (avec raison) quep se trouve environ 95% du temps entre les courbes bleues.

p=0.6 n=100

t=1 :n

x=grand(1,n,’bin’,1,p) y=cumsum(x)./t z=(1)./sqrt(t)

clf() plot2d(t,y) plot2d(t,y+z,2) plot2d(t,y-z,2)

plot2d(t,y+z*sqrt(5),3)

(5)

Références

Documents relatifs

[r]

Le fait que l'aire d'une bande sphérique soit égale à sa projection sur le cylindre de même rayon implique qu'une répartition uniforme de la direction du

• Si on suppose le tube initialement vide (rempli d'air), la rotation du tourniquet (initialement immobile) pourrait commencer dès que du liquide entre à l'extrémité ; si

[r]

Écrire symboliquement l'énoncé : « La partie entière d'un réel est le plus grand entier relatif qui lui est inférieur ou égal.. Mettre entre les propriétés

Il en ressort, entre autres, que l’intervalle basé sur les rangs des observations est valide (niveau de confiance réel proche du nominal) et efficace (longueur moyenne

La fonction de Möbius est une fonction qui possède diverses propriétés et qui est utilisée dans différentes branches des mathématiques.. Nous montrons ici deux de ses propriétés

[r]