Probabilités Chapitre 1 : Inégalités de concentration classiques et intervalles de confiance

(1)

Probabilit´ es

Chapitre 1 : In´egalit´es de concentration classiques et intervalles de confiance

Lucie Le Briquer

Sommaire

1 Introduction 2

2 Concentration `a travers les moments 3

3 Exemple concrets, In´egalit´e d’Hoeffding, Bennett, Bernstein 7 4 Lemme d’applatissement de Johnson-Lindenstrauss 12

5 Intervalles de confiance 14

5.1 Introduction . . . 14 5.2 Estimateurs . . . 14 5.3 Intervalles de confiance . . . 15

(2)

1 Introduction

Pour la loi normale N(0,1), en tra¸cant le graphe de la densité on s’aper¸coit que la masse se trouve concentrée autour de la moyenne, dès que l’on s’en éloigne la masse décroˆıt très vite. En fait siX ∼ N(0,1) alorsP(|g|> t)∼e^−t

2 2 .

En revanche si on regarde une Bernoulli ξ∼ B(1/2). P(ξ= 0) =P(ξ= 1) = ¹₂, il n’y a pas de concentration (idem pour la loi uniforme).

Mais lorsque qu’on tensorise la loi (i.e. on prend des copies indépendantes de la même V.A.) ξ₁, ..., ξ_n indépendantes, ¹_nPn

i=1ξ_i →

n→∞E(ξ) =¹₂ d’apr`es LFGN.

Quand ndevient grand, on s’attend à revoir le phénomène de concentration i.e. la proportion de piles se concentre autour de la moyenne qui est ¹₂. Le TCL va aussi dans ce sens.

But : quantifier cette convergence et savoir `a partir de combien de lancers on peut presque garantir d’avoir le mˆeme nombre de piles et de faces.

SoitX une v.a. de moyenne met de varianceσ². Alors :

∀t >0, P(|X−m| ≥t)≤σ² t² Théorème 1 (Bienaymé-Chebychev)

Remarque.

Reprenons notre exemple. ξ₁, ..., ξ_n ∼ B(¹₂) et posonsX =_n¹Pn i=1ξ_i. E(X) = ¹₂ etV(X) = _4n¹ alors d’apr`es B-CP(|X−¹₂| ≥t)≤ _4nt¹₂.

n≥ _2ξ¹₂, on aProportion de piles ∈[¹₂−ξ,¹₂+ξ] avec une probabilit´e≥ ¹₂. On a juste utilis´e que notre v.a. a un moment d’ordre 2.

Si X₁, ..., X_n v.a. ind´ependantes tqE(X_i) =m∀i, M₄= sup

1≤i≤nE((X_i−m)⁴). Alors :

∀t >0, P 1 n

n

X

i=0

Xi−m

≥t

!

≤3M4

n²t⁴ Propri´et´e 2

(3)

Preuve.

P 1 n

n

X

i=0

Xi−m

≥t

!

≤ 1 n⁴t⁴E





n

X

i=0

(Xi−m)

4



E





n

X

i=0

(Xi−m)

4

=E





n

X

i,j,k,l=1

(Xi−m)(Xj−m)(Xk−m)(Xl−m)





Toutes les expressions contenant un terme d’ordre 1 s’annulent. Il reste dans la somme les expressions de la forme une puissance de 4 ou un produit de deux carr´es.

Notons que :

E((X_i−m)²(X_j−m)²) ≤

C.S.

[E((X_i−m)⁴)]¹²[E((X_j−m)⁴)]¹² ≤M₄ et :

E((Xi−m)⁴)≤M4

Mais on antermes puissances de 4 et 3n(n−1) termes de la forme un produit de carr´es. Ainsi :

E





n

X

i=1

Xi−m

4

≤M4(n+ 3n(n−1)) =nM4(3n−2)≤3M4n²

P 1 n

n

X

i=1

X_i−m

≥t

!

≤ 1

n⁴t⁴3M₄n²= 3M₄ n² t⁴

2 Concentration ` a travers les moments

Sur l’exemple précédent on a vu que si on était plus régulier on pouvait obtenir une meilleure inégalité de concentration. On va essayer de généraliser cette observation.

SoitX une v.a., sa fonction génératrice des moments est donnée parMX(λ) :=E(e^λX) Définition 1(fonction génératrice des moments)

Remarque.

MX permet de calculer les moments :

M_X⁰ (0) =E(X) M_X⁰⁰(0) =E(X²)

(4)

Exemple.

Fonction g´en´eratrice des moments de la loi normaleX ∼ N(0,1) MX(λ) =E(e^λX) =

Z +∞

−∞

e^λt 1

√2πe⁻^t

2

2dt= 1

√2π Z +∞

−∞

e⁻¹²^(t²^−2λt+λ²⁾e⁻^λ

2

2 dt=e^λ

2 2

Fonction g´en´eratrice de laloi de Rademacher : X ∼ R(1/2) M_X(λ) =e^λP(X = 1) +e^−λP(X =−1) = e^λ+e^−λ

2 =ch(λ)≤e^λ²^/2

SoitS une v.a r´eelle. Alors :

∀t∈R, P(S≥t)≤ inf

λ≥0{e^−λtMS(λ)}

Lemme 3(Borne de Chernoff)

Preuve.

Soitλ≥0.

P(S≥t) =P(λS≥λt) =P e^λS ≥e^λt

≤e^−λtE e^λS

=e^−λtMS(λ) D’où le résultat en passant à l’infimum.

Exemple.

Si on regardeX ∼ N(0,1). Soitt∈R⁺. Alors : P(X≥t)≤ inf

λ≥0{e^−λte^λ²^/2}=e^−t²^/2

On dit qu’une v.a centr´eeX est K-sous-Gaussienne si MX(λ)≤e^λ²^K²^/2 D´efinition 2(K-sous-Gaussienne)

Exemple.

Ainsi une variable gaussienne est 1-sous-gaussienne.

(5)

Remarque.

On peut enlever centrée de la définition car si M_X(λ) ≤ exp(λ²K²/2) alors forcément X est centrée etE(X²)≤K² :

MX(λ) =

+∞

X

n=0

λⁿ

n!E(Xⁿ)≤

+∞

X

n=0

λ²ⁿ 2ⁿn!K²ⁿ d’o`u :

λE(X) +λ²

2 E(X²) +o(λ²)≤ K²λ²

2 +o(λ²) On fait tendreλvers 0⁺ et 0⁻ pour obtenir les r´esultats.

SoitX une va centr´ee. Alors les assertions suivantes sont ´equivalentes : 1. ∃K tqX estK-sous-gaussienne.

2. ∃c >0, ∀t≥0, P(|X| ≥t)≤2e^−ct²

3. ∃a >0, E(eâX²)≤2 (cette inégalité est connue comme la condition Ψ₂) Théorème 4 (Bienaymé-Tchebychev)

Preuve.

(1) =⇒(2) : On sait que

MX(λ)≤e^(λ²^K²^)/2 ∀λ Le lemme de Chernoff donne alors :

∀t≥0, P(X ≥t)≤e^−t²^/2K² On fait le mˆeme travail pour−X :

P(−X≥t)≤e^−t²^/(2K²⁾ On en d´eduit :

P(|X| ≥t)≤P(X ≥t) +P(−X≥t)≤2e^−t²^/2K² Et on obtient (2) avecc:= 1/2K².

(2) =⇒(3) : On sait que

∀t≥0, P(|X| ≥t)≤2e^−ct² On aimerait trouveratel queE(e^aX²)≤2. Or

E(e^aX²) = Z ∞

0

P(e^aX² ≥u)du= Z 1

0

P(e^aX² ≥u)du+ Z ∞

1

P(e^aX² ≥u)du Soita < c:

E(e^aX²)≤1 + Z ∞

0

2ate^at²P(|X| ≥t)dt≤1 + 2a Z ∞

0

2te^−(c−a)t²dt= 1 + 2a

c−a = 2 (pour a=c/3) On obtient (3) aveca=c/3.

(6)

(3) =⇒(1) :

On sait queE(e^aX²)≤2 (?).

MX(λ) =E(e^λX) = 1 + Z 1

0

(1−y)E[(λX)²e^yλXdy]≤1 + λ²

2 E(X²e^|λX|) Or|λX| ≤ ^λ_2a² +^aX₂² (IAG). On obtient alors :

M_X(λ)≤1 +λ²

2 e^λ²^/2aE

X²e^aX²^/2

≤

CS

1 +λ² 2 e^λ²^/2a

E X⁴^1/2h E

e^aX²i1/2

On d´eduit du d´eveloppement de (?) queE X⁴

≤2/a². Ainsi : MX(λ)≤1 + λ²

2 e^λ²^/2a r 2

a²

√

2 = 1 +λ²

a e^λ²^/2a≤

1 + λ² a

e^λ²^/2a ≤e^λ²^/ae^λ²^/2a=e^λ

2 2

3 a

DoncX est q

3

a-Sous-Gaussienne.

Remarque.

Les d´ependances par rapport `a K sont (2)c=_2K¹2 et (3)a= _6K¹2

Soitξsous gaussienne de param`etreκ. Si on noteη=ξ². Alors

∀l∈N, E(η^l)≤2l!(6κ²)^l= 1

2l!(6K²)^l−2(12K²)² Corollaire 5

Remarque.

Seconde forme utile pour appliquer Bernstein.

Preuve.

D’après le théorème 4 (2), on a que E(e^ξ

2 6κ2)≤2 Donc E(e^6κ^η²)≤2 Alors E( η

6κ²)^l≤2l! ∀l en d´eveloppant l’exponentielle, (interversionX

−E)

(7)

Si (ξ1, . . . , ξn) v.a sous-gaussiennes ind´ependantes, de param`etres κi chacune. Alors P ξi

sous gaussienne de param`etrepP (κi)². En particulier,

∀t≤0, P

n

X

i=1

ξi≥t

!

≤exp

− t² 2Pn

i=1κ²_i Propri´et´e 6

Preuve.

Soitλ∈R, on a par d´efinition puis par ind´ependance.

M^P_ξ_i(λ) =E(e^λ^P^ξⁱ) =

n

Y

i=1

E(e^λξⁱ)≤

n

Y

i=1

e^λ

2κi 2

Ainsi

M^P_ξ_i(λ)≤e^λ

2 2

Pn i=1κ²_i

Et donc en utilisant le th´eor`eme 4, on obtient que P

ξi est sous-gaussienne de param`etre pPn

i=1κi.

De plus, siξsous-gaussienne de param`etreκalors P(ξ≥t)≤exp

−t 2κ²

Ce qui ach`eve la d´emonstration.

3 Exemple concrets, In´ egalit´ e d’Hoeffding, Bennett, Bern- stein

On va d´ej`a donner un exemple de v.a sous gaussienne.

Si X v.a `a valeur dans [a, b]. AlorsX−E(X) est sous gaussienne de param`etre ^b−a₂ . Lemme 7(Hoeffding)

Preuve.

On va supposer queX est centr´ee. On doit calculerM_X(λ) =E(e^λX).

Par convexit´e,

∀x∈[a, b], e^λx≤ b−x

b−ae^λa+x−a b−ae^λb

(8)

Commex= ^b−x_b−aa+^x−a_b−ab, on a alors MX(λ)≤ b

b−ae^λa− a

a−be^λb car X centr´ee On pose alorsu= (b−a)λ, Φ(u) = ln(f(λ)) etp= −a

b−a. Alors, 1−p= b b−a et Φ(u) =−pu+ ln(1−p+pe^u)

On a Φ(0) = Φ⁰(0) = 0 et

Φ⁰⁰(u) = (1−p)pe^u

(1−p+pe^u)² = αβ (α+β)² ≤1

4 D’apr`es la formule de Taylor-Lagrange :

Φ(u)≤ 1 4

u² 2 ce qui termine la preuve.

SoitX1, . . . , Xn v.a ind´ependantes telles queXi∈[ai, bi] presque sˆurement. Alors

∀t≥0, P

n

X

i=1

(Xi−E(Xi))≥t

!

≤exp

−2t² Pn

i=1(b_i−a_i)²

(1)

P

n

X

i=1

(X_i−E(X_i))≤ −t

!

≤exp

−2t² Pn

i=1(bi−ai)²

(2)

P

n

X

i=1

(Xi−E(Xi))

≥t

!

≤2 exp

−2t² Pn

i=1(bi−ai)²

(3) Th´eor`eme 8 (Hoeffding)

Preuve.

On a grâce au lemme 7 que, pour tout i,X_i−E(X_i) est sous-gaussienne de paramètre ^(bⁱ^−a₂ ⁱ⁾. Et d’après la propriété 6 on a quePn

i=1(Xi−E(Xi)) sous-gaussienne de param`etre qP

(^bⁱ^−a₂ ⁱ)². Et donc en utilisant la théorème 4, les majorations en découlent.

Remarque.

Le théorème précédent ne tient pas compte des lois des variables aléatoires en question. Par exemple il traite de la même manière des Bernoulli standards et des Bernoulli de paramètres très petits.

(9)

– En particulier, si l’on prend ξ v.a telle que P(ξ = 0) = 0,99 et P(ξ = 10¹⁰) = 0,01, on constate que le 10¹⁰fait exploser la majoration dans Hoeffding la rendant alors inutile.

– Si ξ1, ..., ξn ind´ependantes ∼ B(p), on sait que S =Pn

i=1ξi ∼ B(n, p). Or sip fixé et n devient grand, on aS approché parB(np, np(1−p)). On doit donc s’attendre à avoir

P

n

X

i=1

(ξ_i−np)

≥t

!

≤2 exp

−t² 2np(1−p)

Alors que Hoeffding (th´eor`eme 8) nous donne uniquement

P

n

X

i=1

(ξ_i−np)

≥t

!

≤2 exp −t²

n

Qui est moins bien carp(1−p)≤1/4.

– En prenant cette fois-ci pqui d´ecroit avec n, ie np →λ quand n→ ∞, alors S est bien approch´e parP(λ) et on a (cf TD 2 exo 2)

P(ξ−λ≥t)≤exp

−λH(t λ)

O`uH(x) = (1 +x) ln(1 +x)−xet ξ∼ P(λ).

Soitb≥0 etξune v.a centr´ee avecE(ξ²)≤σ² (σ≥0). Alors 1. Si|ξ| ≤b p.s, alors

Mξ(λ)≤exp σ²

b²(e^λb−λb−1)

2. Si∀k≥3, E(ξ^k)≤¹₂k!σ²b^k−2alors Mξ(λ)≤exp

λ²σ² 2(1−λb)

, ∀λ < b Lemme 9

Remarque.

Siξ v´erifie Lemme 9(1), alors elle v´erifie (2) car|ξ| ≤b, alors E(ξ^k)≤E(ξ²ξ^k−2)≤b^k−2E(ξ²)

| {z }

≤σ²

Ainsi (2) est beaucoup plus souple. On dit que c’est une condition de croissance exponentielle des moments.

Siξ sous gaussienne de param`etreκ, alorsξ² v´erifie (2) avecσ= 2√

6κet b= 6κ².

(10)

Preuve.

1. On a

Mξ(λ) =E(e^λξ) =E

∞

X

k=0

λ^k k!ξ^k

!

≤1 +

(car variable centr´ee)

z}|{0 +λ²σ²

2 +

∞

X

k=3

λ^k k!E(ξ^k)

≤1 +λ²σ²

2 +

∞

X

k=3

λ^k k!b^k−2σ²

≤1 +λ²σ² 2 +σ²

b²

∞

X

k=3

λ^kb^k k!

≤1 +σ²

b²(e^λb−λb−1) Puis on utilise le fait quee^x−(x+ 1)≥0.

2. On a

M_ξ(λ) =

∞

X

k=0

λ^k

k!E(ξ^k)≤1 + λ²σ² 2 +1

2 X

k≥3

λ^kσ²b^k−2

= 1 +λ²σ²

2 +λ²σ² 2

∞

X

k=3

(λb)^k−2

= 1 +λ²σ²

2 +λ²σ² 2

λb

1−λb si|λb|<1

= 1 + λ²σ² 2(1−λb)

Soientξ1, . . . , ξn v.a centr´ees ind´ependantes telles que pour touti,E(ξ_i²)≤σ_i², et

∃b≥0,∀k≥3, E(|ξi|^k)≤1

2k!σ_i²b^k−2 Alors,

∀t≥0, P

n

X

i=1

ξ_i

≥t

!

≤2 exp

− t² 2(σ²+tb)

O`uσ²=Pn i=1σ²_i.

Théorème 10(inégalité de Bernstein)

(11)

Remarque.

– Si t≤ ^σ_b² alorsP(|Pn

i=1ξi| ≥t)≤2 exp(−_4σ^t²2) et on voit le comportement sous-gaussien.

– Si t > ^σ_b² alorsP(|Pn

i=1ξi| ≥t)≤2 exp(−_4b^t) et on voit le comportement exponentiel.

Preuve.

SoitS=Pn

i=1ξiet soitλ≥0. Par ind´ependance, on aMS(λ) =Qn

i=1Mξi(λ).

Mais on sait que

Mξ_i(λ)≤exp

λ²σ_i² 2(1−λb)

, ∀λ≤ 1 b On a alors

MS(λ)≤exp

λ²σ² 2(1−λb)

La borne de Chernoff (lemme 3) nous donne que P(S≥t)≤inf

λ≥0

exp

−λt+ λ²σ² 2(1−λb)

On prendλ= _σ2^t+tb, et donc

P(S≥t)≤exp −t² σ²+tb+

t σ²+tb

² σ² 2(1−_σ2^tb+tb)

!

Puis tout se simplifie dans l’exponentielle. On obtient la majoration voulue en prenant la valeur absolue deS, nous donnant le facteur 2.

Soientξ₁, . . . , ξ_n v.a centr´ees ind´ependantes telles que pour touti,E(ξ_i²)≤σ_i², et|ξ_i| ≤b.

∀t≥0, P

n

X

i=1

ξi

≥t

!

≤2 exp

−σ² b H

tb σ²

O`uH(x) = (1 +x) ln(1 +x)−x.

Théorème 11(inégalité de Bennett)

Preuve.

On sait que

∀i≤n, Mξ_i(λ)≤exp σ_i²

Donc,

M_ξ(λ)≤exp σ²

(12)

Chernoff (lemme 3) nous donne

P(S ≥t)≤ inf

λ≥0

λt+σ²

Et on prendλ= ¹

bln(¹⁺_σ^tb2)

Remarque.

– On a H(x)≥₂₍₁₊^x²x

3), ainsi Bennett est une meilleure majoration par Bernstein.

– On a aussi deux régimes : quand x petit alors H(x) ∼ x=⇒ régime sous-gaussien. Et quand xgrand alorsH(x)∼xln(x) =⇒régime un peu mieux que l’exponentielle.

– On sait que|P

ξi| ≤nbp.s. Ainsi, l’in´egalit´e de concentration a un sens quandt≤nb.

4 Lemme d’applatissement de Johnson-Lindenstrauss

On a un ensemble T de n points dans un espace d’Hilbert, on peut naturellement les plonger dansRⁿ

But : on aimerait compresser l’espace i.e. placer ces points dans un espace de dimension beaucoup plus petite tout en gardant presque la disposition des points (c’est-`a-dire les distances qui les s´eparent).

On aimerait trouver :

A:Rⁿ −→R^N avecN << ntel que∀ x, y∈T, kA(x)−A(y)k₂∼ kx−yk₂ o`u k.k₂est la norme Euclidienne.

On va trouver unA lin´eaire.

On ne construira pas un A ”déterministe” mais on prendra plutôt A aléatoire et on montrera qu’il va bien, avec une grande probabilité, effectuer la compression. Aest une matrice de taille N×n. On va remplir la matrice par des v.a. indépendantes sous-Gaussienne (par exemple des Bernouilli).

Soitn∈Netε∈[0,1] etT un ensemble `anpoints dansRⁿ Alors∃N =N(n, ε)∼^log_ε₂ⁿ et∃ A:Rⁿ−→R^N tel que

∀x, y∈T, (1−ε)kx−yk₂≤ kA(x)−A(y)k₂≤(1 +ε)kx−yk₂ Th´eor`eme 12(Johnson-Lindenstrauss)

(13)

Preuve.

SoitN que l’on trouvera `a la fin de la preuve.

SoitB= (ξi,j)_1≤i,j≤nune matriceN×nà entrées indépendantes sous-Gaussiennes de paramètre K (à spécifier après). SoitL=E(ξ²)≤K²

Soitu∈Sⁿ⁻¹, oùSⁿ⁻¹est la sphère unité deRⁿ. kBuk²₂=

N

X

i=1

< lignei(B), u >²=

N

X

i=1

ηi

o`u ηi=< lignei(B), u >²

On a que lesηi sont ind´ependantes

E(ηi) =E(< lignei(B), u >²) =E











n

X

j=1

ξi,juj





2



=E





n

X

j,k=1

ξi,jξi,kujuk



=E





n

X

j=1

ξ_i,j² u²_j



=L

< lignei(B), n >=Pn

j=1ξi,juj est sous-Gaussienne de param`etreK (car c’est la somme de v.a.

sous-Gaussiennes ind´ependantes)

Doncη_i est le carré d’une sous-Gaussienne alors par le corollaire (juste après les propriétés de ss-Gauss)

∀L, E(η_i^l)≤ 1

2l!(6K²)^l−2(12K²)² Bernstein avecσ= 12K²et b= 6K² :

∀t >0, P

N

X

i=1

(ηi−E(ηi))

> t

!

≤2 exp

− t²

2(144K⁴+ 6K²t)

maisPN

i=1η_i=kBuk²₂, PN

i=1E(η_i) =N L

On vient de montrer que∀u∈Sⁿ⁻¹et ∀ε >0 on a : P(| kBuk²₂−N L|> N Lε)≤2 exp

− N²L²ε²

2(144K⁴N+ 6K²N Lε)

≤2 exp

− N²L²ε² 4×144K⁴N

On aurait du prendreK= 1 dès le début. Ainsi on a montré que∀u∈Sⁿ⁻¹, ∀ε >0 : P

1

N LkBuk²₂∈/[1−ε,1 +ε]

≤2 exp

− N ε² 4×144

∀x, y∈T Ex,y = (

ω | 1 N L

kB(x−y)k²₂

kx−yk₂ ∈/ (1−ε,1 +ε) )

P(Ex,y)≤2 exp

− N ε² 4×144

(14)

On veut queP T

x,y∈T

E_x,y^C

!

soit grande.

P



 [

x,y∈T

Ex,y



≤ X

x,y∈T

P(Ex,y)≤2|T|²

|{z}

n²

exp

− N ε² 4×144

= exp

ln(2n²)− N ε² 4×144

On choisitN =^ln(2n_ε2²⁾8×144 ⇐ P S

x,y∈T

Ex,y

!

est tr`es petite.

Il suffit de prendre une r´ealisationA=^√¹

NB(w) pour w∈ T

x,y∈T

E_x,y^C

5 Intervalles de confiance

5.1 Introduction

On se trouve avec loi inconnue que l’on observe sur des échantillons. Le but est de pouvoir estimer certains paramètres de cette loi à travers l’étude d’échantillons. Par exemple, estimer l’espérance et la variance.

On consid`ere un caract`ereX : ”avoir un accident”

Xi= 1 si l’individu ia un accident, 0 sinon.

Sur un ´echantillon denpersonnes, on a_n¹Pn

i=1X_iproportion d’accidents. Il est naturel d’estimer l’esp´erance par la moyenne empirique _n¹Pn

i=1X_i. On cherche un intervalle de confiance dont on peut s’assurer (avec une petite erreur) que l’esp´erance est dedans).

5.2 Estimateurs

Unn-échantillon aléatoire issu d’une v.a. réelleX est un ensemble (X1, ..., Xn) dencopies indépendantes deX.

Définition 3(n-échantillon aléatoire)

On a un paramètreθ associé à X et on aimerait l’estimer.

(15)

Un estimateurbθn deθest une fonction qui d´epend dun-´echantillon (X1, ..., Xn).

– On dit que l’estimateurθbn estconvergent ouconsistant s’il est proche deθau sens de la convergence en probabilit´e i.e. :

∀ε >0,P(|bθ_n−θ|> ε) −→

n→∞0 – fortement consistant sicθ_n converge presque sˆurement versθi.e.

P(lim

n |cθn−θ|= 0) = 1 D´efinition 4(estimateur)

On appelle le biais la quantit´eE(bθn−θ)

On dit que l’estimateur estsans biais si le biais est nul, sinon qu’il estbiais´e.

D´efinition 5(biais)

Exemple.

La moyenne empirique est un estimateur fortement consistant sans biais de l’esp´erance.

On peut aussi regarder l’´ecart quadratique E((bθn−θ)²) =V ar(bθn) + (biais)²

Pour réduire l’écart quadratique on a intérêt à trouver un estimateur sans biais et à faible variance.

5.3 Intervalles de confiance

Soitα∈[0,1] Un intervalle de confiance 1−αest un couple d’estimateur (θn, θn) tel que : P θ∈[θn ; θn]

≥1−α D´efinition 6(intervalle de confiance 1−α)

Soit α ∈ [0,1] Un intervalle de confiance asymptotique 1−α est un couple d’estimateur (θn, θn) tel que :

n→∞limP θ∈[θn ; θn]

= 1−α D´efinition 7(intervalle de confiance asymptotique 1−α)

Exemple.

Prenons l’exemple de la mesure Gaussienne (avec variance connue). (X₁, ..., X_n) unn-´echantillon de noiN(µ, σ²)

(16)

Xn =_n¹Pn

i=1Xi est un estimateur sans biais deµ

√n

Xn−µ σ

∼ N(0,1)

⇒P

−z₁₋^α

2 ≤√ n

Xn−µ σ

≤z₁₋^α

2

= 1−α o`u z_p est le quantile tel queF(z_p) =p=P( G

|{z}

∼N(0,1)

≤z_p) Ainsi, on a:

P(Xn− σ

√nz₁₋^α

2 ≤µ≤Xn+ σ

√nz₁₋^α

2) = 1−α On pose (θ_n, θ_n) = (X_n−^√^σ_nz₁₋^α

2, X_n+^√^σ_nz₁₋^α

2) (θ_n, θ_n) est ainsi un intervalle de confiance 1−α.

Si lavariance est inconnue :

Lavariance empirique d’un n-´echantilon est S_n²= 1

n−1

n

X

i=1

(Xi−X¯n)² D´efinition 8(variance empirique)

SoitY1, ..., Yn∼N(0,1).

Laloi du chi-deux à n degrès de liberté est la loi de la v.a. Pn

i=1Y_i². On la noteχ²(n).

D´efinition 9(loi du chi-deux)

Faits.

S_n² est un estimateur convergent deσ² sans biais. ⁿ⁻¹_σ₂ S_n² suit la loi du χ²(n−1).

On ne peut plus estimer µen consid´erant√

n^Xⁿ_σ^−µ. Au lieu ¸ca, on consid`ere √ n^X_Sⁿ^−µ

n . Mais celle ci ne suit pas une loi normale mais une loi dite de student àn−1 degrés de libertés que l’on noteτn−1 (sa densité est une fonction paire et on a aussi une table comme pour la loi normale).

Ainsi, comme pr´ec´edement : P

−t₁₋^α

2 6√

n

Xn−µ σ

6t₁₋^α

2

= 1−α On pose :

θn =Xn− Sn

√nt₁₋^σ

2, θn =Xn+ Sn

√nt₁₋^σ

2

(θ_n, θ_n) est un intervalle de confiance 1−α.

(17)

Cours du 24 f´evrier

Regardons siXi sont des Bernouilli ind´ependantes de param`etreθ TCL⇒

√n

√

θ(1−θ)( \θn

|{z}

moyenne empirique

−θ)−→ N(0,1)

Ceci se traduit par la convergence des fonctions de r´epartition.

n→+∞lim P

√n

pθ(1−θ)(cθn−θ)≤zα

!

= 1−α Cela nous donne un intervalle de confiance asymptotique 1−αqui est :



cθ_n−z_α/2 s

cθ_n(1−θc_n)

n ; cθ_n+z_α/2 s

θc_n(1−cθ_n) n





Si on veut un intervalle de confiance non-asymptotique on utilisera les in´egalit´es de concentration.

SiXi Bernouilli de param`etreθ,Sn=Pn

i=1Xi alors d’apr`es Hoeffding :

⇒ P(|Sn−nθ| ≥t)≤2 exp −2t²

n

On veut que cette probabilit´e soit≤α. Prenonst=q

n

2ln(_α²), on aurait : P |Sn−nθ| ≥

s n 2 ln

2 α

!

≤α

Ainsi on a un intervalle de confiance 1−αqui est :

"

cθn− r 1

2nln 2 α ; cθn+

r 1 2nln2

α

#