• Aucun résultat trouvé

1 Légende Pas de symbole : à lire. ⋆

N/A
N/A
Protected

Academic year: 2022

Partager "1 Légende Pas de symbole : à lire. ⋆"

Copied!
67
0
0

Texte intégral

(1)

1 Légende

Pas de symbole : à lire.

⋆: Passage utile mais pas obligatoire pour la compréhension de la suite.

⋆⋆: Passage difficile mais pas obligatoire pour la compréhension de la suite.

⋆: passage très important.

2 Chapitre 1 : variables aléatoires-Lois de proba- bilité

2.1 Rappels et approfondissement

2.1.1 Ensemble dénombrable et familles sommables

Ensemble dénombrable : Ensemble E tel qu’il existe une fonction f de N versE vérifiant :

– Pour toutx∈ E, il existe unn ∈N tel que x=f(n) (on dit que f est surjective).

– Pour toutn∈Net m∈Ntels quen6=m, on af(n)6=f(m)(on dit que f est injective).

Une fonction à la fois injective et surjective est dite “bijective”.

Les ensemblesN,ZetQsont dénombrables, maisRne l’est pas.

⋆Famille sommable : Soit(uk)kN une suite de réels (famille). On dit que la famille(uk)kN est sommable si et seulement si pour tout σ fonction bijective deNsurN, les suites

Xn

k=0

uσ(k)ont même limite (éventuellement infinie) lorsque ntend vers l’infini. La limite commune est alors notéeX

kN

uk. On a :

– Si les réelsuk sonttous positifs, alors(uk)k∈Nest sommable.

– Si les réelsuk sontde signe quelquonque, alors(uk)kN est sommable si et seulement si(|uk|)kN est sommable etX

kN

|uk|<+∞.

La définition des familles sommables se généralise aux autres espaces dénom- brables. SoitEun espace dénombrable etfune bijection deNdansE. La famille (uk)kE est sommable si et seulement si la famille (uf(k))kN est sommable, sa somme est alorsX

k∈N

uf(k) et est notéeX

k∈E

uk

2.1.2 Probabilités et tribus Sur un ensemble dénombrable :

⋆: SoitE un ensemble dénombrable, une probabilité surE est une famille de réels positifs(pk)kE telle que X

kE

pk= 1.

(2)

Toute partie d’un ensemble dénombrable étant dénombrable, on peut étendre la probabilité(pk)k∈E en une fonctionP de l’ensemble des parties de E (noté 2E) vers[0,1]par :

P(A) =X

kA

pk.

L’ensemble des parties dont on peut “mesurer” la probabilité est l’ensemble de toutes les parties deE, la probabilité d’une partie de E est donnée par P(A).

⋆:Sur un ensemble quelquonque :

Dans le cas précédent oùE est dénombrable, la fonction P et l’ensemble des parties2E vérifient les propriétés :

1. P(E) = 1.

2. P [

nN

An

!

=X

nN

P(An) pour tout (An)n∈N famille de parties deux à deux disjointes.

3. ∅ ∈2E.

4. SiA∈2E alors son complémentaire A¯∈2E. 5. Si(An)nNfamille d’éléments de2E, alors[

An∈2E.

Soit maintenantEun ensemble quelquonque, on appelera tribu un sous-ensemble T de2E (donc un sous-ensemble de parties deE) vérifiant :

1. ∅ ∈ T.

2. SiA∈ T alors son complémentaireA¯∈ T. 3. Si(An)nNfamille d’éléments deT, alors[

An ∈ T.

On appelera probabilité une fonction définie sur une tribuT à valeurs dans[0,1]

vérifiant : 1. P(E) = 1.

2. P [

n∈N

An

!

=X

n∈N

P(An) pour tout (An)n∈N famille d’ élements de T deux à deux disjointes.

⋆: On pourrait penser naïvement que pour n’importe quel ensembleE, on peut mesurer la probabilité de n’importe quelle partie deEet donc de poserT = 2E, cependant même dans le cas réel ce n’est pas le cas. Un contre-exemple, non obligatoire à connaître est donné dans le paragraphe suivant.

⋆:Sur R:

R n’étant pas dénombrable, on ne peut pas définir la notion de probabilité à partir d’une famille (non dénombrable)(pk)k∈R. En effet, les sommes infinies ne peuvent être définies pour un espace non dénombrable.

Sur R, une probabilité continue est définie à partir d’une fonction F dite de répartition vérifiant :

1. F est continue et croissante.

2. lim

x→−∞F(x) = 0 et lim

x+F(x) = 1.

(3)

On définit alors la probabilité des intervalles par :

P([a, b]) =P(]a, b]) =P([a, b[) =P(]a, b[) =F(b)−F(a), (1) pour a ≤b. En particulier, lorsque F est dérivable de dérivée f (ou plutôt si l’ensemble des points où ce n’est pas dérivable est au plus dénombrable), on a :

P([a, b]) = Z b

a

f(x)dx, (2)

f est appelée densité de probabilité, c’est une fonction positive (carF est croissante) et vérifiant :

Z +

−∞

f(x)dx= 1. (3)

⋆⋆: Lorsqu’une partie As’écrit comme une réunion dénombrable d’intervalles deux à deux disjointsA= [

n∈N

[an, bn], on prolongeP par : P(A) =X

n∈N

P([an, bn]). (4)

Afin de pouvoir raisonner comme dans le cas dénombrable, on se pose la ques- tion de savoir si toute partie de R peut s’écrire comme réunion dénombrable d’intervalles. Si cela était le cas, alorsP vérifierait :

P [

nN

An

!

=X

nN

P(An), (5)

pour tout(An)n∈N famille d’élements de 2R deux à deux disjoints, et alors P serait une probabilité sur l’ensemble des parties deR, on pourrait alors évaluer la probabilité de toutes les parties deR.

Cependant, ce n’est pas le cas. En effet, considérons la fonction de répartition F définie sur Rpar :

F(x) =

0six≤ −1

1

3(x+ 1) six∈[−1,2]

1 six≥2

(6) La probabilité définie parF vérifie en particulier : pour toute partieV de[0,1]

telle que l’on peut définir la probabilité et pour toutr∈[−1,1], on aP(V+r) = P(V).

Supposons que l’on puisse étendreP à toutes les parties deR. Pour tout x∈ [0,1], on définit l’ensemblex¯ ={y∈[0,1] :x−y∈Q}. (Attention : six6=x, il se peut que x¯ = ¯x lorsque x−x ∈ Q). Parmi les axiomes fondateurs des mathématiques, l’axiome du choix dit que de toute famille d’ensembles disjoints, on peut construire un ensemble en ne prenant qu’un seul élément dans chaque ensemble disjoint.

En utilisant l’axiome du choix, on construit l’ensemble V en prenant un seul élément dans chaque¯x. L’ensembleV vérifie en particulier :

(4)

– V ⊂[0,1].

– Pour toutx∈[0,1], il existe un uniquey∈V tel que x−y∈Q.

– Pour tout couple(x, y)d’éléments distincts deV,x−y /∈Q. Considérons l’ensemble :

A= [

r[1,1]Q

(V +r). (7)

Soitx∈(V +r)∩(V +r), alors il existe deux éléments y et y deV tels que x=y+r =y+r, ce qui entraîne y−y =r−r ∈Q et doncy =y d’où r=r. Ainsi l’ensembleAest réunion dénombrable de parties disjointes.

Supposons tout d’abord que P(V) = 0, alors d’après l’hypothèse comme quoi on peut mesurer la probabilité de tous les ensembles, on en déduit P(A) = 0.

Soitx∈[0,1], alors il existe y ∈ V tel que x−y =r∈ Qde plus r∈ [−1,1]

d’oùx∈V +r⊂A. Ainsi, [0,1]⊂A doncP([0,1]) = 0. Cependant, d’après la définition deP, on aP([0,1]) = 13 ainsi 13 = 0ce qui est contradictoire.

Supposons alors que P(V) > 0, alors par l’invariance par translation de P, P(A) = +∞, ce qui est contradictoire avec le fait queP est une probabilité.

On en déduit alors que l’on ne peut mesurer la probabilité deV.

⋆: D’après le contre-exemple précédent (qui n’est pas à retenir), on a vu qu’il existe des parties deR pour lesquelles on ne peut définir la probabilité. Mais quelles sont alors les parties deRpour lesquelles on peut définir la probabilité ? Ce sont :

1. Les intervalles :

P([a, b]) =P([a, b[) =P(]a, b]) =P(]a, b[) = Z b

a

f(x)dx, (8) 2. Complémentaire d’un intervalle :

P(R\[a, b]) = 1−P([a, b]). (9) 3. SiA =S

nNAn est une famille dénombrable d’ensembles disjoints telle queAn soit un intervalle ou complémentaire d’intervalle :

P(A) =X

nN

P(An). (10)

Plus généralement, on définit la tribu borélienneBRcomme la plus petite tribu contenant les intervalles. Les éléments de BR sont des réunions dénombrables d’ensembles vérifiant les points 1. 2. et 3. ainsi que de complémentaires d’en- sembles vérifiant 1. (complémentaire d’intervalle) 2. (intervalle) 3. (intersection dénombrable de complémentaires d’intervalles).

2.1.3 ⋆ Variables aléatoires et construction de variables aléatoires On définit :

Ωpopulation.

(5)

Aune tribu surΩ: l’ensemble des évênements.

P une probabilité définie surA.

SoitE un ensemble (ensemble de valeurs) et T une tribu surE. Une fonction X de Ωdans E est une variable aléatoire (à valeurs dansE) si et seulement si pour toutA∈ T, l’ensembleX1(A) ={ω∈Ω :X(ω)∈A} appartient àA. On noteraX ∈A l’ensembleX1(A) et la loi deX sera donnée par la proba- bilité des évênementsP(X ∈A)pour toutA∈ T.

⋆En général et même tout le temps : Ω et A sont “abstraits” et seront supposés de façon à ce queX soit une variable aléatoire. Seul E ensemble des valeurs de X, T ensemble des évênements de E et P définissant la loi de X seront pour nous intéressants.

⋆Exemples :

– Construction variable de Bernouilli de paramètrep∈[0,1], notéeB(1, p).

E = {0,1} qui est fini, donc l’ensemble des évênements est la tribu, en- semble des parties deE :2E={∅,{0},{1}, E}. Sur(Ω,A), on définitP de façon à ce queP(X = 0) = 1−pet P(X = 1) =p.

– Construction variable suivant loi binômiale de paramètrep∈[0,1]etn∈ N, notéeB(n, p).E={0, ..., n}qui est fini, donc l’ensemble des évênements est la tribu, ensemble des parties de E : 2E (il y a 2n évênements). Sur (Ω,A), on définitP de façon à ce queP(X =k) =Cnkpk(1−p)n−k pour tout0≤k≤n.

– Construction variable suivant loi de Poisson de paramètreλ >0.E =N qui est dénombrable, donc l’ensemble des évênements est la tribu2E. Sur (Ω,A), on définitP de façon à ce queP(X =k) = λk!ke−λ.

– Construction variable suivant loi normale de moyenne µ et variance σ2, notéeN(µ, σ2).E=R, donc l’ensemble des évênements est la tribu boré- lienne, notéeBR. Sur(Ω,A), on définitP de façon à ce que :

P(a < X < b) = 1

√2πσ Z b

a

exp

−(x−µ)22

dx.

2.1.4 ⋆ Propriétés de variables aléatoires

Indépendance :Des variables aléatoiresX1, . . . , Xndéfinies sur(Ω,A, P)et à valeurs respectivements dans (E1,T1), . . . ,(En,Tn)sont indépendantes si pour toutA1∈ T1, . . . , An∈ Tn, on a :

P((X1∈A1)∩. . .∩(Xn∈An)) =P(X1∈A1)×. . .×P(Xn∈An). (11) Ce qu’il faut comprendre est que la valeur d’un desXj n’influence pas la loi des autresXj.

Réalisation d’une variable aléatoire : C’est l’image X(ω). ω est “tiré au hazard”, plus P(X ∈ A) est grand et plus il y aura de chance que X(ω) soit dansA. Une réalisation=une expérience.

Echantillon d’une variable aléatoire :Plusieurs réalisations (indépendantes)

(6)

de la variable aléatoireX. Echantillon de taillen=nexpériences. On peut consi- dérer un échantillon comme un vecteur aléatoire(X1, . . . , Xn), oùX1, . . . , Xn

sont indépendantes et de même loi queX, X1, . . . , Xn est appelé “échantillon indépendant identiquement distribué” (i.i.d).

Erreur à ne SURTOUT PAS COMMETTRE :(X, . . . , X)n’est surtout pas un échantillon deXcar pour unω, toutes les composantes de(X(ω), . . . , X(ω)) ont même valeurX(ω), cela voudrait dire par exemple que toutes les personnes d’un groupe (choisi au hazard) ont exactement même taille.

A partir d’un échantillon, on peut estimer la moyenne et la variance par :la moyenne empirique et la variance empirique.

Xn = 1 n

Xn

j=1

Xj, (12)

Sn = 1 n

Xn

j=1

Xj2−X2n. (13)

⋆: Ce sont des variables aléatoires, en effetXn et Sn sont des fonctions deω.

Si on refait encorennouvelles expériences, on obtiendra une autre valeur.

Lorsquendevient grand,Xn etSn se rapprochent des vrais moyenne (ou espé- rance) et variance.

Cas discret, vrais moyenne et variance :Soit X variable aléatoire de loi donnée parP(X =k) =pk.

E(X) = X

kN

kpk. (14)

V(X) = X

kN

k2pk−µ2. (15)

Cas continu, vrais moyenne et variance :SoitXvariable aléatoire à valeurs réelles de densitéf :

E(X) =

Z +

−∞

xf(x)dx. (16)

V(X) =

Z +

−∞

x2f(x)dx−µ2. (17)

⋆:La moyenne d’une somme de variables aléatoires est la somme des moyennes,plus exactement :

E(a1X1+. . .+anXn) =a1E(X1) +. . .+anE(Xn).

⋆:La variance d’une somme de variables aléatoires INDEPENDANTES est la somme des variances,plus exactement :

V(a1X1+. . .+anXn) =a21V(X1) +. . .+a2nV(Xn).

(7)

ERREUR A NE SURTOUT PAS COMMETTRE :V(X−Y)n’est pas égal àV(X)−V(Y), en effetV(X−Y) =V(X+(−1)Y) =V(X)+(−1)2V(Y) = V(X) +V(Y).

2.1.5 ⋆ : Propriétés de la moyenne empirique

⋆: Si(X1, . . . , Xn)est un échantillon iid de loi de moyenneµet de variance σ2, alors :

E(Xn) = µ (18)

V(Xn) = σ2

n. (19)

Plus n est grand, plus la variance est faible et donc pour plusieurs jeux de n expériences, les valeurs de la moyenne empirique différeront peu et seront proches deµ.

2.1.6 ⋆ : Propriétés des lois normales

⋆ : Loi centrée-réduite : Fonction de répartition notée φ tabulée pour les valeurs positives. Ainsi φ(2.65) se lit dans la table (2.6 en ligne et 0.05 en colonne). Six <0, on utiliseφ(x) = 1−φ(−x). De plusP(X > x) = 1−φ(x).

⋆:Loi normale de moyenneµet varianceσ2: SiX suit une loi normale de moyenneµet varianceσ2, alorsZ= Xσµ suit une loi normale centrée-réduite.

On a alorsP(X < x) =φ

x−µ σ

et bien sûrP(X > x) = 1−φ(x).

Somme de normales: Si X1, . . . , Xn sont indépendantes de loi normales respectivesN(µ1, σ12), . . . ,N(µn, σn2), aloes la sommea1X1+. . .+anXnest une loi normale de moyenne et variance égales à :

µ = a1µ1+. . .+anµn

σ2 = a21σ12+. . .+a2nσn2. (20)

⋆:Moyenne empirique d’un échantillon d’une loi normale :Si(X1, . . . , Xn) est un échantillon iid deN(µ, σ2), alors la moyenne empirique Xn suit une loi normaleN(µ,σn2)MEME LORSQUE n EST PETIT.

2.1.7 Théorème limite-central et approximation par loi normale

⋆:Convergence en loi, cas discret :Soit(Xn)n∈Nune suite de variables aléatoires à valeurs dansNetX une variable aléatoire à valeurs dansN. On dit queXn convergeen loiversX si pour toutk∈N, on a :

nlim+P(Xn =k) =P(X=k). (21)

⋆:Convergence en loi, cas continu : Soit(Xn)nN une suite de variables aléatoires à valeurs dansR et X une variable aléatoire à valeurs dans R. Soit

(8)

Fn fonction de répartition deXn etF fonction de répartition deX. On dit que Xn convergeen loi versX si pour toutx∈R, on a :

nlim+Fn(x) =F(x). (22)

⋆ : Théorème limite-central (TLC), version somme : Soit X1, . . . , Xn

un échantillon iid de loi ayant une moyenneµet une varianceσ2 et soitY une variable aléatoire suivant une loi normaleN(nµ, nσ2). Alors la suite(X1+. . .+ Xn−Y)n∈Nconverge en loi vers0.

A retenir : Sous les hypothèses du TLC, à savoir indépendance, même loi, existence d’une variance, la somme peut être approximée par une normale de moyennenµet nσ2 lorsquenest grand (supérieur à30).

⋆:Théorème limite-central (TLC), version moyenne empirique: Soit X1, . . . , Xn un échantillon iid de loi ayant une moyenneµ et une variance σ2 et soitY une variable aléatoire suivant une loi normaleN(µ,σn2). Alors la suite (Xn−Y)nNconverge en loi vers0.

A retenir : Sous les hypothèses du TLC, à savoir indépendance, même loi, existence d’une variance, la moyenne empirique peut être approximée par une normale de moyenneµet σn2 lorsquenest GRAND (supérieur à30).

2.2 Exercice 1

1. Variable aléatoire définie sur(Ω,A). Ensemble des valeurs estE={0,1}, 0 si mal rempli, 1 si bien rempli. L’ensemble des valeurs étant fini, alors l’ensemble des évênements est la tribu2E: ensemble des parties deE. On définit sur(Ω,A), la probabilité P telle queP(Y = 0) = 1−p= 0.06 et P(Y = 1) = 0.94

2. La loi deY est la loi de Bernouilli de paramètre0.94, notéeB(1,0.94).

3. ATTENTION :Il est demandé de calculer et pas de donner la moyenne et la variance donc ne pas utiliser le formulaire et donner directement la réponse.

On est dans le cas discret avecp0= 0.06,p1= 0.94etpk= 0pourk≥2, d’où :

E(Y) = 0.06×0 + 0.94×1 = 0.94.

E(Y2) = 0.06×02+ 0.94×12= 0.94.

V(Y) = E(Y2)−E(Y)2= 0.94−0.942= 0.94×0.06 = 0.0564.

4. X = Xn

j=1

Yj, où Y1, . . . , Yn sont indépendantes de même loi de Bernouilli B(1,0.94). X est à valeurs dans F = {0, . . . , n} (ATTENTION DE NE PAS L’APPELER E DEJA UTILISE), F est fini, donc l’ensemble des évênements est l’ensemble des parties de F.X est une variable aléatoire définie sur(Ω,A)comme somme de variables aléatoires.

(9)

5. La somme de variables de Bernouilli indépendantes, de même paramètre, suit une loi binômiale, notéeB(n,0.94). On a :

P(X =k) =Cnk0.94k×0.06nk, pour0≤k≤n.

L’espérance d’une somme est la somme des espérance (ATTENTION : même si cela n’est pas indépendant : ajouter une hypothèse inutile = pas la totalité des points.), on a donc :

E(X) = 0.94×n.

La variance d’une somme de variables indépendantes est la somme des va- riances (ATTENTION : oubli de l’indépendance : conséquence plus grave que ajout d’hypothèse inutile), ainsi :

V(X) = 0.0564×n.

6. Pourn= 5,P(X = 0) = 0.065≃7.76×107 (aucun dossier).

P(X = 5) = 0.945≃0.74(tous les dossiers).

P(X >3) =P(X= 4) +P(X = 5) =C540.06×0.944+ 0.74≃0.97.

P(2< X <4) =P(X = 3) =C530.943×0.062≃0.029.

7. (a) Sin= 100, on remarque queX est somme de variables indépendantes de même loi ayant une variance. On an≥30. Utilisant le théorème limite-central,X peut être approximé par une normale de moyenne et de variance données par :

E(X) = 0.94×n= 94.

V(X) = 0.0564×n= 5.64.

ATTENTION : Les moyenne et variance n’ont aucune raison de différer de celles trouvées à la question 5).

(b) La variable aléatoireZ= X94

5.64 = X2.3894 suit approximativement une loi normale centrée-réduite.

P(X <95)≃ P(Z <0.42) =φ(0.42) = 0.6628.

P(X > 90) = 1− P(X < 90) ≃ 1− P(Z < −2.384 ) = 1− P(Z <

−1.68) = 1−(1−φ(1.68)) =φ(1.68) = 0.9535.

P(90< X <95) =P(−1.68< Z <0.42) =φ(0.42)−(1−φ(1.68)) = 0.6163.

P(85< X <90) =P(−3.79< Z <−1.68) =φ(3.79)−φ(1.68).

2.3 Exercice 2

1. Population=main d’oeuvre d’une entreprise.

Variable étudiée=résultats au test.

(10)

2. (a)

Population Echantillon

taille - 25

moyenne 150 154.7

écart-type 10 12.3

Vrais paramètres Estimation des paramètres (empirique et aléatoire) (b) Rappel important :Lorsque(X1, . . . , Xn)est un échantillon de va-

riables aléatoires indépendantes de loi normale de moyenneµ(vraie moyenne) et écart-typeσ(vrai écart-type), notéN(µ, σ)(ouN(µ, σ2) si on paramétrise par la variance), alors la moyenne empiriqueXn = 1 n

Xn

j=1

Xj

est une variable aléatoire qui suit une loi normale de moyenneµ et d’écart-type σ

n (ou variance σn2).

X25 suit une loi normale de moyenne 150et d’écart-type 10 25 = 2.

(Attention :154.7n’est surtout pas la moyenne deX25 mais sa réa- lisation ! ! !).

(c) On cherche P(X25>154.7), posons Z= X25−150

2 qui suit une loi normale centrée-réduite. On a alors :

P(X25>154.7) =P(Z > 4.7

2 ) =P(Z >2.35) = 1− φ(2.35)

| {z } se lit dans la table

.

= 1−0.9906 = 0.0094.

Attention :A l’examen, je ne veux surtout pas voir deP(2.35)(qui n’a aucun sens) à la place deP(Z >2.35).

3. Même question que pour 2. avec une taille plus grande.

Attention : Utiliser votre esprit critique, si la taille augmente, on se rapproche de la vraie moyenne et donc la probabilité d’observer une valeur plus grande que 154.7 devrait être encore plus petite.

IciX36suit loi normale de moyenne150et d’écart-type 10 36 =53. PosonsZ= 3 X36−150

5 , on trouve : P(X36>154.7) =P(Z > 4.7×3

5 ) =P(Z >2.82) = 1− φ(2.82)

| {z } se lit dans la table

.

= 1−0.9976 = 0.0024.

2.4 Exercice 3

1. Attention : La moyenne empirique (comme tout estimateur) étant une variable aléatoire, elle possède une moyenne (vraie moyenne) et un écart- type (vrai écart-type).

(11)

Rappel important :Si(X1, . . . , Xn)est un échantillon de variables aléa- toires indépendantes de même moyenneµ(vraie moyenne) et d’écart-type σ(vrai écart-type), alors la vraie moyenne de la moyenne empirique estµ et le vrai écart-type de la moyenne empirique est σ

√n. taille de l’échantillon moyenne empirique

loi moyenne écart-type

n= 4 ? 60 5

n= 8 ? 60 522

n= 32 normale 60 542

n= 100 normale 60 1

2. Lorsquen est grand, supérieur à30, on peut considérer que la moyenne empirique suit une loi normale. Ici,n= 100, la moyenne empiriqueX100

suit une loi normale de moyenne60et écart-type1. PosonsZ =X100−60, alors :

P(X100<56) = 1− φ(4)

|{z}

se lit dans la table .

= 1−0.99997 = 0.00003.

3 Chapitre 2, Estimation ponctuelle et méthode du maximum de vraisemblance

3.1 Rappels et approfondissement

3.1.1 ⋆ Statistiques, convergence et estimateurs

⋆ : Convergence en proba : Une suite de variables aléatoires (Xn)n≥0

converge en probabilité versX si pour toutǫ >0, lim

n→+P(|Xn−X|> ǫ) = 0.

⋆:Loi des grands nombres :Si(Xn)n1est une suite de variables aléatoires de même loi, ayant une moyenneµ, indépendantes, alors la moyenne empirique :

1 n

Xn

k=1

Xk, converge en probabilité versµ.

⋆ : On a vu : La moyenne (resp. variance) sur échantillon appelées aussi moyenne et variance empirique sont différentes de la moyenne (resp. variance) sur population qui sont les vrais paramètres. La moyenne et variance sur échan- tillon convergent en probabilité vers les paramètres théoriques : on dit que ce sont des estimateurs de la moyenne et de la variance.

Définition 1. Soit (X1, . . . , Xn) échantillon iid de loi donnée par une densité y→p(y;θ)dépendant d’un paramètre réelθ.

(12)

Une statistique est une variable aléatoire de la forme Tn = ϕn(X1, . . . , Xn), c’est un estimateur (convergent) deθs’il converge en probabilité vers θ lorsque ntend vers l’infini.

Un estimateur est sans biais si E(Tn) =θ.

Proposition 1(Inégalité de Bienaymé-Tchebytchev). Soit(X1, . . . , Xn)échan- tillon iid de loi dépendant d’un paramètreθ et soit Tnn(X1, . . . , Xn) une statistique. On a :

P(|Tn−θ|> ǫ)≤ E(|Tn−θ|2)

ǫ2 , (23)

et si le risque quadratique lim

n→+E(|Tn−θ|2) = 0, alors Tn converge en proba versθ et doncTn est un estimateur de θ.

⋆:Cas d’une statistique sans biais :SiE(Tn) =θ(sans biais), le risque quadratique est égal à la varianceV(Tn). Pour savoir siTnconverge, on regarde la limite deV(Tn).

⋆:Qualité d’un estimateur :Plus le risque quadratique est faible, meilleur est l’estimateur.

Lorsque l’estimateur est sans biais, plus la variance est faible, meilleur est l’es- timateur.

3.1.2 ⋆ Vraisemblance

D’une variable aléatoire discrète :SoitY une variable aléatoire discrète dontP(Y =k) =pk =pk(θ)est une fonction d’un paramètreθ (inconnu). La vraisemblance deY est une fonction qui àθ associe la variable aléatoirepY(θ).

On noteLθ(Y)la valeur de la vraisemblance enθ. (Lcomme “likelihood”).

Exemple : SiY suit une loi de Poisson de paramètreλ >0, alorspk(λ) =λk!keλ. D’où la vraisemblance est la fonction qui àλassocieLθ(Y) = λYY!eλ.

D’une variable aléatoire continue :Soit Y une variable aléatoire contnue de densitéy→p(y;θ)dépendant d’un paramètreθ. La vraisemblance deY est une fonction qui àθassocie la variable aléatoirep(Y, θ). On noteLθ(Y)la valeur de la vraisemblance enθ. (Lcomme “likelihood”).

D’un échantillon :Soit(Y1, . . . , Yn)un échantillon iid de loi dépendant d’un paramètreθ, la vraisemblance est la fonction qui àθassocieLθ(Y1)×. . .×Lθ(Yn).

3.1.3 ⋆ Log-vraisemblance

D’une variable aléatoire :C’est la fonction qui àθ associelogLθ(Y).

D’un échantillon :C’est la fonction qui àθassocielogLθ(Y1)+. . .+logLθ(Yn).

3.1.4 ⋆ Score et propriétés du score

Existe si la log-vraisemblance estdérivableet que l’ensemble des paramètres est unouvertdeR.D’une variable aléatoire :C’est la fonction qui àθassocie

d

logLθ(Y).

(13)

D’un échantillon : C’est la fonction qui à θ associe d logLθ(Y1) +. . . +

d

logLθ(Yn).

⋆:Support de la loi :Valeurs prises par la variable aléatoire. Si le support ne dépend pas du paramètreθ, alors :

E d

dθlogLθ(Y)

= 0. (24)

On en déduit alors que la variance du score est égale à : E

"

d

dθlogLθ(Y) 2#

, (25)

quantité appeléeinformation de Fisher de la variable aléatoireY et notée IY(θ).

Si de plus, la log-vraisemblance estdeux-fois dérivable, alors l’information de Fisher est égale à :

IY(θ) =−E d2

2logLθ(Y)

. (26)

3.1.5 ⋆ : Information de Fisher d’un échantillon et inégalité de Cramer-Rao

L’information de Fisher d’un échantillon(Y1, . . . , Yn), notéeIY1,...,Yn(θ), est définie comme :

IY1,...,Yn(θ) =E

"

d

dθlogLθ(Y1) +. . .+ d

dθlogLθ(Yn) 2#

. (27) Si le support ne dépend pas de θ, alorsIY1,...,Yn(θ)est égale à la variance du score de l’échantillon et donc :

IY1,...,Yn(θ) =IY1(θ) +. . .+IYn(θ) =nIY(θ). (28) Sous la condition du support et si l’information de Fisher est non nulle, on a également l’inégalité de Cramer-Rao : soit Tn un estimateur sans- biais deθ, alors :

V(Tn)≥ 1

IY1,...,Yn(θ). (29)

Interprétation :Si l’information de Fisher est très petite, alorsV(Tn)est très grande et donc aucun estimateur sans biais estime correctement. Par contre, si l’information de Fisher est très grande, on ne peut pas conclure car on a pu utiliser un estimateur de mauvaise qualité. Un estimateursans biaisde “bonne qualité” est un estimateurefficace, c’est à dire tel que :

V(Tn) = 1

IY1,...,Yn(θ). (30)

(14)

⋆:Pour ceux qui souhaitent aller plus loin.Tnest également une variable aléatoire, on peut donc définir son information de Fisher, notéeITn(θ). Lorsque le support de la loi desY1, . . . , Yn ne dépend pas de θ, on a alors :

ITn(θ)≤IY1,...,Yn(θ),

ce qui signifie que l’échantillon(Y1, . . . , Yn) porte toujours plus d’information surθ que tout estimateur fonction des (Y1, . . . , Yn). Un estimateur conservant l’information et donc tel que :

ITn(θ) =IY1,...,Yn(θ), s’appelle unestimateur exhaustif.

⋆⋆:Pour ceux qui souhaitent aller encore plus loin.Nous avons vu que si on utilise des estimateurs de la forme Tn = ϕn(Y1, . . . , Yn), l’information disponible sur le paramètre est limitée par l’information de Fisher IY1,...,Yn. Si celle-ci est faible, même si on utilise des estimateurs exhaustifs, on risque de récupérer peu d’information sur le paramètre, ce qui se traduit par un fort désordre (forte entropie) des estimations. Afin d’avoir une valeur plus fiable d’estimation, on peut incorporer de l’information a priori. Cela signifie que l’on connaît la valeur du paramètre avec une certaine imprécision au lieu de ne pas le connaître du tout. Cette connaissance a priori est modélisée en considérant que le paramètre lui-même suit une loi de probabilité : on entre dans le monde desstatistiques bayésiennes.

3.1.6 ⋆ Maximum de vraisemblance

Méthode pour obtenir un estimateur :Soit(Y1, . . . , Yn)un échantillon iid de loi dépendant d’un paramètre θ, soit θ0 la vraie valeur du paramètre.

Pour(y1, . . . , yn) = (Y1(ω), . . . , Yn(ω))réalisation de l’échantillon, le maximum de vraisemblance est le paramètreθ maximisant :

Lθ(y1, . . . , yn) =p(y1;θ)×. . .×p(yn;θ). (31) La fonction logarithme étant une fonction croissante, cela revient à maximiser : logLθ(y1, . . . , yn) = logp(y1;θ) +. . .+ logp(yn;θ). (32)

⋆ : Pour être sûr de ne pas se tromper : commencer par calculer logp(yj;θ)sur la densité et faire la somme ensuite.

Le maximum de vraisemblance peut être obtenu (pas toujours) en résolvant l’équation de vraisemblance :

d

dθlogLθ(y1, . . . , yn) = 0. (33) On noteθˆMV(y1, . . . , yn)la solution obtenue pour la réalisation(y1, . . . , yn). Fi- nalement, l’estimateur du maximum de vraisemblance est la variable aléatoire : ω∈Ω→θˆMV(Y1(ω), . . . , Yn(ω)), (34) que l’on noteθˆMV(Y1, . . . , Yn).

(15)

3.2 Exercice 1

1. On a :

Xn1 = 1 n1

n1

X

k=1

Xk, (35)

où (X1, . . . , Xn1) variables indépendantes de loi de Bernouilli P(Xk = 1) =p1. On a donc :

E(Xn1) = 1 n1

n1

X

k=1

E(Xk)

= 1

n1 n1

X

k=1

p1

= p1. (36)

il est sans biais.

Xn2 et Xn1+Xn2

2 sont également sans biais lorsquep1=p2=p.

2. Meilleur des trois :celui ayant le plus petit risque quadratique. Comme les estimateurs sont sans biais, le risque quadratique est égal à la variance.

Les variablesXk étant indépendantes on en déduit : V(Xn1) = 1

n1

p(1−p).

V(Xn2) = 1 n2

p(1−p).

(37) Les variablesXn1 et Xn2 étant indépendantes, donc :

V

Xn1+Xn2

2

= n1+n2

4n1n2 p(1−p).

Sin1=n2=n, alorsXn1 et Xn2 ont même variance et : V

Xn1+Xn2

2

= 1

2np(1−p).

donc le meilleur estimateur est Xn1+Xn2

2 .

Sin1< n2, alorsV(Xn1)> V(Xn2). Il reste alors à comparer Xn1+Xn2

2 avecXn2. On a :V

Xn1+Xn2

2

≤V(Xn2)si et seulement si : n1+n2

4n1n2 ≤ 1 n2

.

(16)

ce qui est équivalent à :

n1+n2≤4n1, donc, sous la conditionn1< n2,Xn1+Xn2

2 est le meilleur si et seulement si3n1≥n2. (Il est cependant toujours meilleur queV(Xn1)car3n2> n1.) Au final :

– Sin1=n2,Xn1 etXn2 ont même qualité etXn1+Xn2

2 est le meilleur.

– Sin1< n2 et si3n1=n2,Xn2 et Xn1+Xn2

2 ont même qualité et sont meilleurs queXn1.

– Si n1 < n2 et si3n1 > n2, alors Xn1+Xn2

2 est meilleur queXn2 qui est lui même meilleur queXn1.

– Si n1 < n2 et si 3n1 < n2, alors Xn2 est meilleur que Xn1+Xn2

2 ,

lui-même meilleur queXn1.

En inversant les rôles de n1 et n2 (on a le droit, ils sont quelquonques), on trouve aussi :

– Sin2< n1 et si3n2=n1,Xn1 et Xn1+Xn2

2 ont même qualité et sont meilleurs queXn2.

– Si n2 < n1 et si3n2 > n1, alors Xn1+Xn2

2 est meilleur queXn1 qui est lui même meilleur queXn2.

– Si n2 < n1 et si 3n2 < n1, alors Xn1 est meilleur que Xn1+Xn2

2 ,

lui-même meilleur queXn2.

3.3 Exercice 2

1. Z= Xn

j=1

Xj, où Xj vaut 1 si le foyer j possède une machine à laver, 0 sinon. Xj suit une loi de Bernouilli de paramètrep, ainsiZ suit une loi binômialeB(n, p). La moyenne desXj étant égale àp, on peut estimer p en utilisant la moyenne empirique desXj. Ainsi :

n = 1 n

Xn

j=1

Xj,

est un estimateur dep. On aE( ¯Xn) =p, il est donc sans biais etV( ¯Xn) =

p(1p)

n qui tend vers 0en l’infini, ce qui confirme la convergence de l’esti- mateur.

2. La suite( ¯Xn)n∈Nconverge en probabilité versp, ainsi la suite(Tn)n∈N, où

(17)

Tn= ¯Xn(1−X¯n)converge en probabilité versp(1−p). On a : E(Tn) = E(Xn)−E(X2n)

= E(Z)

n −E(Z2) n2

= E(Z)

n −V(Z) +E(Z)2 n2

= np

n −np(1−p) + (np)2 n2

= p(1−p)−p(1−p) n

= n−1

n p(1−p).

donc l’estimateur est biaisé.

3. Rn = n

n−1Tn est un estimateur sans biais dep(1−p).

4. Condition pour queU soit un estimateur : les suitesX¯n etY¯mconvergent en probabilité versp, doncUconverge en probabilité versap+bp= (a+b)p.

Uest donc un estimateur depsi et seulement sia+b= 1. Sous la condition a+b = 1, E(U) = aE( ¯Xn) +bE( ¯Ym) = ap+bp= (a+b)p= p, U est donc sans biais.

U étant sans biais, sa qualité est évaluée en observant sa variance.X¯n et Y¯métant indépendantes, on a :

V(U) = a2V( ¯Xn) +b2V( ¯Ym).

= (a2 n +b2

m)p(1−p).

= ma2+nb2

mn p(1−p).

On doit donc minimiser(a, b)→ma2+nb2sous la contraintea+b= 1.

En remplaçantbpar1−a, ceci est équivalent à minimiserf:a→ma2+ n(1−a)2= (m+n)a2−2na+n. Ceci est un polynôme de degré2dont le coefficient de plus grand degré (m+n) est positif, ainsi la minimisation est équivalente à résoudref(a) = 0, soit2(m+n)a−2nqui donnea=m+nn et doncb=m+nm .

AinsiU = 1

m+n(nX¯n+mY¯m)est un estimateur sans biais meilleur que X¯n etY¯m.

3.4 Exercice 3

1. ⋆ ATTENTION: On vous demande de calculer, donc ne pas répondre directement en faisant un copié-collé du formulaire.

(18)

REFLEXE A AVOIR : vous avez une loi continue, ce sont des intégrales.

Dans :

E(Xi) = Z +

0

1

θxexθdx, on effectue une intégration par partie (IPP).

⋆RAPPEL SUR L’IPP : Z b

a

u(x)v(x)dx=u(b)v(b)−u(a)v(a)− Z b

a

u(x)v(x)dx.

ATTENTION DE NE PAS OUBLIER dx dans l’intégrale car Z b

a

f(x) signifief(a) +f(b)ce qui n’a absolument rien à voir.

Ainsi, dans :

E(Xi) = Z +

0

1

θxexθdx,

on poseu(x) =x,v(x) = 1θexθ, d’oùu(x) = 1 etv(x) =−exθ, d’où : Z +

0

1

θxexθdx = lim

n+−nenθ + Z n

0

exθdx

=

Z + 0

exθdx.

Comme la fonctionf est une densité de probabilité, on en déduit que : Z +

0

exθdx=θ Z +

0

f(x)dx=θ.

AinsiE(Xi) =θ.

Pour la variance, on calcule : E(Xi2) =

Z + 0

1

θx2exθdx.

Pour l’intégration par parties, on poseu(x) =x2 et v(x) = 1θexθ, d’où u(x) = 2xetv(x) =−exθ, d’où :

Z + 0

1

θx2exθdx = lim

n+−n2enθ + 2 Z n

0

xexθdx

= 2 Z +

0

xexθdx

= 2θE(Xi) = 2θ2. On en déduit queV(Xi) =E(Xi2)−E(Xi)22.

Remarque :De part les expressions de l’espérance et de la variance, on en déduit deux façons d’estimer θ. Soit on utilise moyenne empirique qui donne un estimateur deθou bien la racine carrée de la variance empirique qui nous donne un autre estimateur deθ.

(19)

2. Fonction de vraisemblance de l’échantillon : produit des fonctions de vrai- semblance prises en chaqueXi, d’où :

Lθ(X1, . . . , Xn) = 1

θne1θPni=1Xi. 3. La log-vraisemblance (logarithme de la vraisemblance) est :

logLθ(X1, . . . , Xn) =−nlog(θ)−1 θ

Xn

i=1

Xi.

L’espace des paramètresΘ =]0,+∞[est un ouvert. La log-vraisemblance est bien dérivable sur l’espace des paramètres Θ =]0,+∞[ et sa dérivée, appelée score, est :

d

dθlogLθ(X1, . . . , Xn) =−n θ + 1

θ2 Xn

i=1

Xi.

L’estimateur du maximum de vraisemblanceθˆM V doit satisfaire :

− n θˆM V

+ 1 θˆM V2

Xn

i=1

Xi= 0, soit :

−nθˆM V + Xn

i=1

Xi= 0, d’où :

θˆM V = 1 n

Xn

i=1

Xi= ¯Xn.

C’est la moyenne empirique. La moyenne de la moyenne empirique est toujours égale à la moyenne de la variable aléatoire étudiée (cadXi), soit E( ¯Xn) =E(Xi) =θ, l’estimateur est donc sans biais.

La variance de la moyenne empirique vautV( ¯Xn) = V(Xni)= θn2 qui tend vers0lorsquentend vers l’infini, l’estimateur est donc convergent.

Pour connaître l’efficacité, on doit calculer l’information de Fisher.

⋆: Le support de la loi desXi; c’est à dire l’ensemble des valeurs prises par Xi ne dépend pas de θ. De plus, la log-vraisemblance est deux fois dérivable surΘ, ainsi l’information de Fisher est donnée par :

IX1,...,Xn =−E d2

2logLθ(X1, . . . , Xn)

. La dérivée seconde de la log-vraisemblance est égale à :

d2

2logLθ(X1, . . . , Xn) = n θ2 − 2

θ3 Xn

i=1

Xi,

et donc l’information de Fisher est égale àIX1,...,Xn(θ) = θn2. La variance deX¯n étant l’inverse de l’information de Fisher, il est donc efficace.

(20)

3.5 Exercice 5

1. La loi de Poisson est une loi discrète définie parpk=P(X =k) = λk!ke−λ pour toutk∈N. La vraisemblance de la variable aléatoireX est donc :

Lλ(X) = λX X!eλ, et donc la vraisemblance de l’échantillon est :

Lλ(X1, . . . , Xn) = λX1+...+Xn

X1!×. . .×Xn!e−nλ. La log-vraisemblance est :

logLλ(X1, . . . , Xn) =

 Xn

j=1

Xj

×logλ− Xn

j=1

log(Xj!)−nλ.

L’espace des paramètres est]0,+∞[qui est ouvert et la log-vraisemblance est dérivable sur cet espace, sa dérivée vaut :

d

dλlogLλ(X1, . . . , Xn) = 1 λ

Xn

j=1

Xj−n.

Ainsi l’estimateur du maximum de vraisemblanceˆλM V doit vérifier : 1

λˆM V

Xn

j=1

Xj−n= 0.

On en déduit que :

λˆM V = 1 n

Xn

j=1

Xj = ¯Xn, qui est la moyenne empirique.

2. La moyenne desXj est la moyenne d’une loi de Poisson de paramètreλ, elle vaut doncλ, ainsi la moyenne deX¯n estλ, l’estimateur est donc sans biais.

La variance des Xj est la variance d’une loi de Poisson de paramètreλ, elle vaut doncλ, ainsiV( ¯Xn) = λn, l’estimateur est donc convergent.

3. Le support de la loi de Poisson est N qui ne dépend pas de λ, de plus la log-vraisemblance est deux-fois dérivable. L’information de Fisher est alors égale à l’opposé de la moyenne de la dérivée seconde de la log- vraisemblance. La dérivée seconde de la log-vraisemblance étant égale à :

d2

2logLλ(X1, . . . , Xn) =−1 λ2

Xn

j=1

Xj,

on en déduit que l’information de Fisher est égale à IX1,...,Xn(λ) = nλ. L’estimateur X¯n est alors efficace (sa variance étant égale à l’inverse de l’information de Fisher).

(21)

3.6 Exercice 6

1. Pour toutx∈[0,1], 1−x≥0doncf est positive. De plus, la dérivée de la fonctionx → (1−x)1θ est la fonction x→ −1θ(1−x)1θ1, ainsi une primitive de 1θ(1−x)1θ1 est donnée par la fonction x→ −(1−x)θ. On en déduit :

Z +

−∞

f(x)dx = Z 1

0

1

θ(1−x)1θ1dx

= −(1−1)1θ

| {z }

0

−[−(1−0)1θ

| {z }

1

]

= 1.

f est bien une densité de probabilité.

2. Lavraisemblance de l’échantillon est donnée par : Lθ(X1, . . . , Xn) = 1

θn ×(1−X1)θ11×. . .×(1−Xn)1θ1. 3. La log-vraisemblance est donnée par :

logLθ(X1, . . . , Xn) =−nlog(θ) + 1

θ −1 n

X

j=1

log(1−Xj).

L’espace des paramètres est]0,+∞[qui est un ouvert et la log-vraisemblance est dérivable de dérivée :

d

dθlogLθ(X1, . . . , Xn) =−n θ − 1

θ2 Xn

j=1

log(1−Xj).

L’estimateur du maximum de vraisemblance doit satisfaire :

− n θˆM V

− 1 θˆM V2

Xn

j=1

log(1−Xj) = 0,

donc est donné par :

θˆM V =−1 n

Xn

j=1

log(1−Xj),

qui est la moyenne empirique des(−log(1−X1), . . . ,−log(1−Xn)).

4. ⋆ : ATTENTION :Avant de calculer une fonction de répartition, re- garder d’abord les valeurs prises par la variable aléatoire, comme ça pas d’erreur.

X prend ses valeurs dans [0,1] donc1−X prend également ses valeurs dans[0,1]ainsilog(1−X)prend ses valeurs dans]− ∞,0], ainsiZ prend

(22)

ses valeurs dans [0,+∞[. On en déduit que pour z ≤ 0, P(Z ≤z) = 0.

Soit alorsz≥0, on a :

P(Z≤z) = P(−log(1−X)≤z)

= P(log(1−X)≥ −z)

= P(1−X ≥e−z)

= P(X ≤1−ez)

=

Z 1e−z 0

1

θ(1−x)1θ1dx

= −[1−(1−ez)]1θ −[−(1−0)1θ]

= 1−ezθ,

dont la dérivée est la fonction qui àz associe 1θezθ si z positif, 0 sinon.

AinsiZ suit une loi exponentielle de paramètreθ.

5. La moyenne de Z est θ, donc la moyenne de l’estimateur (moyenne em- pirique d’un échantillon deZ) est égalementθ, ainsi l’estimateur est sans biais.

6. La variance deZestθ2donc la variance de l’estimateur est θn2. Le support deX est[0,1]qui ne dépend pas deθet la log-vraisemblance est deux fois dérivable de dérivée seconde égale à :

d2

2logLθ(X1, . . . , Xn) = n θ2 + 2

θ3 Xn

j=1

log(1−Xj).

L’information de Fisher est alors égale à : IX1,...,Xn(θ) = −n

θ2+2nθ θ3

= n

θ2. L’estimateur est donc efficace.

4 Chapitre 3 : Estimation par intervalle de confiance

4.1 Rappels de cours

4.1.1 Principe général

SoitTnn(X1, . . . , Xn)estimateur ponctuel d’un paramètreθ, on cherche intervalle (aléatoire)I1α contenantTn tel queP(θ∈ I1α) = 1−α, αest le risque.ATTENTION :La forme de l’intervalle ne doit dépendre en aucun cas d’un paramètre inconnu.

⋆: Estimateur ponctuel : Une variable aléatoireTn fonction des variables aléatoiresX1, . . . , Xn, soitTnn(X1, . . . , Xn). Une variable aléatoireX est

(23)

unefonctiondeΩ(muni d’une tribuA) dansE(espace des valeurs muni d’une tribuT) telle que pour toutA∈ T, l’ensemble(X∈A) ={ω∈Ω :X(ω)∈A} est un élément deA. L’ensembleΩest l’univers (ensemble de tous les possibles).

Uneestimation ponctuelleest uneréalisationdeTn, c’est à dire une image Tn(ω) =ϕn(X1(ω), . . . , Xn(ω)), on la notetn ouθˆn (si le paramètre à estimer est noté θ) et Xj(ω) est notéxj. Ainsi θˆnn(x1, . . . , xn). ω représente un tirage au hasard, et(x1, . . . , xn)sont les mesures obtenues, on effectue ensuite l’estimation ponctuelle sur ces mesures.

⋆:Estimateur par intervalle :L’estimateur est un intervalle aléatoireI1α, c’est à dire une fonction deΩdans l’ensemble des intervalles deR.

De manière analogue,l’intervalle de confiance observé est une réalisation deI1−α, cette réalisation dépend de la valeur de l’estimation ponctuelle.

4.1.2 ⋆: Quelques lois utiles

Définition 2 (Loi du Chi-deux). On appelle loi du Chi-deux à n degrés de liberté, notéeXn2, la loi de la variable aléatoire :

Rn= Xn

j=1

Xj2, (38)

oùX1, . . . , Xn sont des variables aléatoires indépendantes suivant une loi nor- male centrée-réduite.

La densité d’une loiXn2 a pour supportR+ et est donnée par : fXn2 :R → R+

r →



 1 Γn

2

2n2

rn21exp

−r 2

sir≥0 0sinon.

,

oùΓest la fonction eulérienne donnée par : Γ(a) =

Z + 0

xa−1exp(−x)dx, pour touta >0.

Remarque sur la fonction eulérienne :La fonctionΓvérifie les propriétés suivantes :

– Pour tout entiernnon nul,Γ(n) = (n−1)!.

– Γ 1

2

=√ π.

– Pour touta >1, on aΓ(a) = (a−1)Γ(a−1).

Cette remarque nous permet de calculer facilement la fonctionΓaux valeurs de la forme k

2. Par exemple,

(24)

Γ 7

2

=5 2 ×Γ

5 2

=5 2 ×3

2×Γ 3

2

= 5 2 ×3

2 ×1 2 ×Γ

1 2

= 15√π 8 . En exercice :CalculerΓ 112

, en déduire une expression plus explicite de la densité du Chi-deux à11degrés de liberté.

Définition 3 (Loi de Student). Soit Z et Rn deux variables aléatoires indé- pendantes de loi respective normale centrée-réduite et du Chi-deux àndegrés de liberté.

Alors la loi de :

Tn= Z qRn

n

, est appelée “loi de Student” àndegrés de liberté.

La densité d’une loi de Student àndegrés de liberté est donnée par : t∈R→ Γ n+12

√πnΓ n2× 1 1 +tn2n+12

.

⋆ Lecture dans la table : Pour α donné en colonne et le degré de liberté donné en ligne, la table donne le quantile d’ordre1−α2.

Définition 4(Loi de Fisher). La loi de Fisher ànetmdegrés de liberté, notée F(n, m) est la loi de la variable aléatoire :

Fn,m=m n × Rn

Rm

,

oùRn etRmsont indépendantes suivant respectivement des lois du Chi-deux à netm degrés de liberté.

La densité d’une loi de Fisher a pour supportR+ et est donnée par : fF(n,m):R → R+

t →





Γ n+m2 Γ n2

Γ m2×n m

n2

× tn21 1 +ntmn+m2

sir≥0 0 sinon.

,

4.1.3 ⋆ : Lois des estimateurs ponctuels des paramètres d’une loi normaleN(µ, σ2)

Soit(X1, . . . , Xn)échantillon iid d’une loi normaleN(µ, σ2).

Estimation de la moyenne : Dans le cas où la moyenne µ est inconnue, celle-ci est estimée par la moyenne empirique :

Xn = 1 n

Xn

j=1

Xj.

Pour déduire la loi deXn, nous utilisons la proposition suivante :

Références

Documents relatifs

Soit X la variable aléatoire égale au nombre de succès obtenus.. Alors la loi de probabilité de X est la loi

On appelle premier quartile d’une s´erie la plus petite valeur Q 1 de la s´erie pour laquelle au moins un quart (25%) des donn´ees sont inf´erieures ou ´egales `a Q 1.. On

Voici nalement une illustration de la taille des intervalles de uctuation en fonction de la valeur de p (en abscisse) pour des échantillons de taille 100 selon la méthode de

• Le premier quartile, noté Q 1 , est la plus petite valeur de la série telle qu’au moins 25% des valeurs lui soient inférieures ou égales.. • Le troisième quartile, noté Q 3

[r]

• Le troisième quartile Q 3 est la plus petite valeur pour laquelle on atteint ou dépasse 75% ; Exemple Imaginons que l’on ait le tableau statistique suivant :.. Valeurs 3 5 6 8 11

Définition Le premier quartile est la plus petite valeur du caractère notée Q 1 qui fait atteindre ou dépasser le quart des effectifs cummulés croissants.. Le troisième quartile est

Définition Le premier quartile est la plus petite valeur du caractère notée Q 1 qui fait atteindre ou dépasser le quart des effectifs cumulés croissants. Le troisième quartile est