• Aucun résultat trouvé

CHAPITRE VI INTRODUCTION AUX STATISTIQUES

N/A
N/A
Protected

Academic year: 2022

Partager "CHAPITRE VI INTRODUCTION AUX STATISTIQUES"

Copied!
17
0
0

Texte intégral

(1)

CHAPITRE VI

INTRODUCTION AUX STATISTIQUES

Contrairement aux probabilités où on connaît le modèle probabiliste le but des

statistiques est de déterminer précisément le modèle probabiliste (ou certains paramètres du modèle) à partir des observations. L'exemple suivant va illustrer cette différence entre probabilités et statistique.

Exemple: On jette une pièce n fois, e.g. n=9.

On suppose connaître la probabilité p d'obtenir pile lorsqu'on jette la pièce une fois. Une question typique des probabilités est " Quelle est la probabilité de voir la suite

PPFFFFPFP ? " dont la réponse est p4(1-p)5.

Si on ignore la valeur de p et on observe la suite PPFFFFPFP, on veut estimer p à partir de cette observation. Ce problème on appelle le problème de l'estimation. Une idée naturelle est de prendre p = 4/9.

On distingue deux types des problèmes statistiques:

a. Le problème de l’estimation: il s'agit d'estimer la valeur inconnue d'un paramètre comme la moyenne ou la variance d'une variable aléatoire.

b. Le problème des tests: par exemple, on veut décider s'il faut accepter ou rejeter une hypothèse sur un paramètre statistique.

(2)

VI.1 Le problème de l'estimation

Définition : n-Echantillon de distribution P

Soient n variables aléatoires X1,...,Xn, i.i.d. de distribution P. On appelle le n-uplet (X1,...,Xn) un n-échantillon de la distribution P.

Une réalisation de ce n-échantillon est donnée par un tirage aléatoire de n nombres (x1,...,xn) = (X1(ω),...,Xn(ω)) pour un (ω) dans l'ensemble fondamental.

Le problème de l'estimation consiste à fournir à partir des n observations (x1,...,xn) autant d'informations que possible sur la distribution P, a priori inconnue, ou partiellement connue. On rencontre deux types de situations.

a. P est totalement inconnue: c'est le cas de la statistique non paramétrique.

b. P est partiellement connue : P appartient à une classe de distributions connue (gaussienne, binomiale,...) mais ses paramètres sont inconnus. Il faut estimer ces paramètres pour connaître P complètement. C'est le cas de la statistique paramétrique.

Exemples :

On connaît le fait que P est gaussienne N(µ,σ2) mais on ignore la valeur de µ ou de σ ou de (µ,σ). Il faut donc estimer le paramètre θ = µ ou θ = σ ou θ = (µ,σ).

On sait que P est poisson mais on ignore le paramètre λ.

On sait que P est binomiale mais on ignore le paramètre p.

On sait que P est exponentielle mais on ignore le paramètre λ.

On écrit la distribution inconnue sous la forme Pθ, θ etant le paramètre inconnu à estimer.

Estimer θ veut dire trouver un estimateur θe qui est une fonction des observations (x1,...,xn) .

Définition : Un estimateur θe est une fonction des observations (x1,...,xn): θe = θe(x1,...,xn).

Pour un bon estimateur la distribution de θe lorsqu'on prend beaucoup de réalisations différentes est concentrée autour de θ.

(3)

VI.2 Qualité d'un estimateur

Pour un paramètre donné, on peut généralement construire différents estimateurs. Les critères ci-dessous permettent de comparer deux estimateurs et de dire ce que l’on entendra par bon estimateur.

VI.2.a. Biais

Définition : Le biais de l'estimateur θe est l'espérance sous Pθ (notée Eθ) de θe(x1,...,xn):

b(θe) = Eθe] - θ.

On dit qu'un estimateur est non-biaisé (ou sans biais) si b(θe) = 0, i.e. si Eθe] = θ.

VI.2.b. Risque quadratique

Définition : Le risque quadratique d'un estimateur θe est le carré de l'erreur R(θe) = Eθ [(θe - θ)2].

En particulier, si θe est sans biais le risque quadratique est égal à la variance de θe : R(θe) = Varθe].

VI.2.c. Efficacité et optimalité d'estimateurs

Dans la pratique on cherche plutôt des estimateurs sans biais et à faible risque. Si l’on a deux estimateurs de même paramètre θ, on va choisir celui avec un risque plus petit.

Donc l'efficacité et l'optimalité d'un estimateur sont déterminées par le risque quadratique.

Définition : Soient θe1 et θe2 deux estimateurs du même paramètre θ. θe1 est dit plus efficace que θe2 si

R(θe1) ≤≤≤≤ R(θe2) pour tout θ .

En particulier, si θe1 et θe2 sont des estimateurs sans biais, θe1 est plus efficace que θe2 si

Varθe1] ≤≤≤≤ Varθe2] . Exemple: Comparaison de deux estimateurs exercice 120.

Définition : On dit qu'un estimateur θe sans biais est optimal s'il est plus efficace que tous les estimateurs sans biais, i.e. si sa variance est minimale.

Remarque : Il n'existe pas toujours d'estimateur optimal.

(4)

VI.2.d. Estimateurs consistants

Définition : Un estimateur θe est consistant s'il converge en probabilité vers θ lorsque la taille n de l'échantillon tend vers l'infini :

lim n→∞→∞→∞→∞ Pθ (|θe - θ| > ε) = 0 pour tout ε > 0

VI.3. Le maximum de vraisemblance

La méthode du maximum de vraisemblance permet pour de trouver des estimateurs souvent performants.

VI.3.a. Le maximum de vraisemblance : variables aléatoires discrètes

On a un n-échantillon (x1,...,xn) de la distribution discrète Pθ. On estime θ par la valeur θe

du paramètre θ qui rend les valeurs observées (x1,...,xn) les plus vraisemblables.

On définit la vraisemblance par L(θ) = Pθ(X1 = x1,..., Xn =xn) = Pθ(X1 = x1)·... · Pθ(Xn = xn) En notant pθ(k) = Pθ(X = k) on a:

Définition : Etant donné (x1,...,xn), la fonction de vraisemblance est donnée par L(θ) = pθθθθ(x1)· ... · pθθθθ(xn) .

L'estimateur du maximum de vraisemblance est la valeur θe qui maximise la fonction de vraisemblance L(θ).

Exemple 1: Variable de Bernoulli du paramètre p

On observe N valeurs xi dans {0,1}. Le paramètre inconnu est θ = P(X = 1) = p. Soit k le nombre de " 1 " observés. Donc, pour la suite (x1,...,xN),

L(p) = P(X1 = x1,..., XN = xN) = pk·(1-p)N-k. Pour quel p la fonction L(p) est-elle maximale ? On a

dL(p)/dp = k·pk-1·(1-p)N-k - (N-k)·pk·(1-p)N-k-1 = pk-1·(1-p)N-k-1 ·[k·(1-p) - (N-k)·p]

= pk-1·(1-p)N-k-1 ·[k - N·p],

et dL(p)/dp = 0 si p = k/N = (x1 + ... +xN)/N. Donc l'estimateur du maximum de vraisemblance est égal à la moyenne empirique de l'échantillon.

(5)

Exemple 2: Variable de Poisson de paramètre λ

On observe N valeurs xi dans {0,1,2,...}. Pour une variable de Poisson de paramètre λ, la distribution des probabilités est donnée par

P(X = k) = λk exp(-λ)/k!

Le paramètre inconnu est λ. Pour la suite (x1,...,xN) on a,

ln[L(λ)] = ln[P(X1 = x1,..., XN = xN)] = (x1 + ... +xN)ln[λ] - Nλ - ln[x1!· ... · xN!]

et

dln[L(λ)]/dλ = (x1 + ... +xN)/λ - N.

On trouve dln[L(λ)]/dλ = 0 si λ = (x1 + ... +xN)/N.

Donc l'estimateur de maximum de vraisemblance est égal à la moyenne empirique de l'échantillon.

Exemple 3: Variable géométrique de paramètre p

On observe N valeurs xi dans {1,2,3,...}. Pour une variable géométrique du paramètre p,

P(X = k) = (1-p)k-1p.

Le paramètre inconnu est p. On cherche à estimer 1/p. Pour la suite (x1,...,xN) on a ln[L(p)] = ln[P(X1 = x1,..., XN = xN)] = (x1 + ... +xN - N)ln[1-p] + Nln[p]

et

dln[L(p)]/dp = -(x1 + ... +xN - N)/(1 - p) + N/p = [N - p(x1 + ... +xN)]/[(1 - p)p].

On trouve dln[L(p)]/dp = 0 si p = N/(x1 + ... +xN), i.e. 1/p = (x1 + ... +xN)/N.

Dans tous les exemples précédents, l'estimateur du maximum de vraisemblance est sans biais, optimal et consistant.

(6)

IV.3.b. Le maximum de vraisemblance : variables aléatoires continues

Soit (x1,...,xn) un n-échantillon de la distribution continue Pθ de densité fθ(x). On estime θ par la valeur θe du paramètre θ qui rend les valeurs observées (x1,...,xn) les plus

vraisemblables.

On définit la vraisemblance par L(θ) = Pθ(X1 = x1,..., Xn =xn) = Pθ(X1 = x1)·,...,· Pθ(Xn = xn) Définition : Pour (x1 ... xn) fixé la fonction de vraisemblance est donnée par

L(θ) = fθθθθ(x1)· ... · fθθθθ(xn)

L'estimateur de maximum de vraisemblance est la valeur θe qui maximise la fonction de vraisemblance L(θ).

Exemple 1: Variable gaussienne - Variance connue

L'estimateur du maximum de vraisemblance pour µ est égal à la moyenne empirique de l'échantillon. Cet estimateur est sans biais, optimal et consistant.

Exemple 2: Variable gaussienne - Variance inconnue

Pour (x1 ... xn) fixé le logarithme de la fonction de vraisemblance est donné par ln[L(µ,σ2)] = ½n·ln[2π] - ½n·ln[σ2] - [(x1 - µ)2 + ... + (xn - µ)2]/(2σ2) On pose ∂ ln[L(µ,σ2)]/∂µ = 0 et ∂ ln[L(µ,σ2)]/∂σ2 = 0 et on obtient:

L'estimateur du maximum de vraisemblance pour µ est égal à la moyenne empirique m = (x1 + ... +xn)/n de l'échantillon. Cet estimateur est sans biais, optimal et consistant.

L'estimateur du maximum de vraisemblance pour σ2 est égal à [(x1 - m)2 + ... +(xn - m)2]/n. Cet estimateur est biaisé: on obtient un estimateur sans biais en faisant l'ajustement

s2 = [(x1 - m)2 + ... +(xn - m)2]/(n-1)

Cet estimateur (la variance empirique de l'échantillon) est sans biais, optimal et consistant.

(7)

VI.4. Estimation de la moyenne et de la variance pour un échantillon quelconque

Soit (x1,...,xn) un n-échantillon d'une loi de probabilité quelconque. Pour estimer la moyenne µ et la variance σ2 on prend les deux estimateurs naturels m et s2 définis par

m = (x1 + ... +xn)/n et

s2 = [(x1 - m)2 + ... +(xn - m)2]/(n-1)

Proposition : Ces estimateurs sont sans biais et consistants.

Démonstration : Evidemment E[m] = µ, donc l'estimateur m est sans biais. Le risque quadratique est

E[(m - µ)2] = Var[m] = σ2/n On en déduit, par l'inégalité de Tchebychev, que pour tout ε > 0:

P(|m - µ| > ε) ≤≤≤≤ Var[m]/ε2 = σ2/(nε2)

C'est la loi faible des grands nombres: la suite m = mn = (x1 + … +xn)/n tend vers µ en probabilité. L'estimateur m est consistant.

L'estimateur s2 satisfait

(n-1)·E[s2] = E[(x1 - m)2 + … +(xn - m)2]

= E[x12

+ … +xn2

- 2·n·m2 + n·m2]

= n·E[X2] - n·E[m2]

= n·(σ2 + µ2) - n·E[m2] = n·σ2 - n·(E[m2] - µ2)

= n·σ2 - n·Var[m] = n·σ2 - n·σ2/n = (n - 1)·σ2.

Donc l'estimateur s2 est sans biais. Notons que (n-1)·s2 = x12 + … +xn2 - n·m2. Alors s2 converge vers E[X12] - µ2 = σ2 presque sûrement. Donc l'estimateur s est consistant.

(8)

VI.5. Echantillons gaussiens

V.5.a. Loi des estimateurs naturels

Soit (x1,…,xn) un n-échantillon d'une loi normale (ou gaussienne) N(µ,σ2). Pour estimer la moyenne µ et la variance σ2 on prend les deux estimateurs naturels m et s2 définis par

m = (x1 + … +xn)/n et

s2 = [(x1 - m)2 + … +(xn - m)2]/(n-1)

On a vu que ces estimateurs naturels sont des estimateurs optimaux et consistants.

On va étudier la loi du couple (m, s2).

Théorème : (Loi du couple (m, s2))

Les estimateurs m et s2 sont indépendants.

L'estimateur m est une variable gaussienne de paramètres µ et σ2/n.

L'estimateur s2 est une variable Chi-deux à n-1 degrés de liberté (notation:χ2(n-1)).

Plus précisément: la variable aléatoire (n-1)s22 suit la loi Chi-deux à n-1 degrés de liberté.

Remarque : La densité de la variable χ2(d) est donnée par

fd(x) = x(d-2)/2·exp(-x/2)/(2d/2·Γ(d/2)).

La loi Chi-deux à d degré de liberté est la loi de la somme des carrés de d variables indépendantes N(0,1).

La loi de Student

Soit X une variable aléatoire N(0,1) et Y une variable aléatoire Chi-deux à d degrés de liberté. Si X et Y sont indépendants alors la variable Z := X/(Y/d)½ = d½X/Y½ suit une loi de Student à d degrés de liberté. Sa densité est

fd(x) = Cd(1 + x2/d)-(d+1)/2 avec Cd = Γ(½d+½) /[Γ(½d)(dπ)½].

(9)

V.5.b. Intervalles de confiance

Exemple : Intervalle de confiance pour la moyenne d'un échantillon gaussien si la variance est connue.

Soit (x1,…,xn) un n-échantillon d'une loi normale (ou gaussienne) N(µ,σ2). Pour estimer la moyenne µ on prend l'estimateur naturel m défini par

m = (x1 + … +xn)/n

Le problème consiste à donner un intervalle dans lequel on affirme que se trouve la moyenne µ, avec un risque d'erreur petit fixé à l'avance. On cherche donc un intervalle Iα tel que

P(µ∈ Iα) = 1 - α .

On appelle Iα intervalle de confiance de niveau 1-α pour l'estimateur m. La valeur α est la probabilité que la vrai valeur (de la moyenne) µ ne soit pas couverte par la fourchette (par analogie avec les fourchettes d'un institut de sondage). Le choix de α dépend du

problème ; typiquement on prend α = 0.05, α = 0.01 ou α = 0.001.

Une recette pour construire Iα

Soit U une variable aléatoire N(0,1). On choisit α et on définit λ par la condition

P(|U| ≤≤≤≤λ) = 1 - α .

Soit λα défini comme α-quantile de la distribution gaussienne N(0,1), i.e λα défini par P(U > λα) = α ou P(U ≤≤≤≤ λα) = 1 - α.

Alors λα est la solution unique de l'équation

erf(λ/2½) = 1 - 2·α .

où erf dénote la fonction définie par erf(x) = ∫[0,x] 2·exp(-t2)/π½ dt (Errorfunction).

On peut montrer que la condition P(|U| ≤≤≤≤ λ) = 1 - α est équivalente à erf(λ/2½) = 1 - α = 1 - 2·α/2. Donc λ = λα/2.

Ou : Prenons λ = λα/2 on trouve en utilisant la symétrie de la distribution N(0,1) P(|U| ≤≤≤≤ λα/2) = P(-λα/2≤≤≤≤U ≤≤≤≤ λα/2) = P(U ≤≤≤≤ λα/2) - P(U ≤≤≤≤ -λα/2)

= P(U ≤≤≤≤ λα/2) - P(U >λα/2) = 1 - α/2 - α/2 = 1 - α.

(10)

On construit l'intervalle de confiance Iαααα comme suit.

Iα = [m - λα/2·σ/n½ , m + λα/2·σ/n½]

Où P(|U| ≤≤≤≤ λα/2) = erf(λα/2/2½) = 1 - α . Evidemment P(µ ∈∈∈∈ Iα) = 1 - α puisque n½(m-µ)/σ suit la loi N(0,1) et P(µ ∈∈∈∈ Iα) = P(|U| ≤≤≤≤ λα/2).

quantiles de N(0,1) α λα/2

0.05 1.959963985 0.01 2.575829304 0.001 3.290526731

On peut diminuer la longueur d’un intervalle de confiance si on augment la taille n de l’échantillon ou si on diminue la dispersion de la variable aléatoire, ou encore si on choisit un niveau de confiance moins élevé.

Exemple : On sait que le diamètre X d’un certain type de vis est distribué suivant une loi normale d’écart type σ = 0.09mm. Un échantillon de 25 vis a donné comme moyenne empirique la valeur m = 5,03 mm. Donner l’intervalle de confiance de µ à 99%.

Solution : Avec α = 0.01 l’intervalle est donné par

[5.03-2.575829304⋅0.09/5 , 5.03+2.575829304⋅0.09/5] ≅ [4.984,5.076]

(11)

VI.5.c. Cas où la variance est inconnue

Soit (x1,…,xn) un n-échantillon d'une loi normale (ou gaussienne) N(µ,σ2), µ et σ2 inconnus. Il est naturel de considérer la variable aléatoire

T = (m - µ)/(s/n½)

La variable T suit une loi de Student à n-1 degrés de liberté: En effet, n½(m-µ)/σ suit la loi N(0,1) et (n-1)s22 suit la loi Chi-deux à n-1 degrés de liberté, donc T suit une loi de Student à n-1 degrés de liberté.

L'intervalle de confiance pour la moyenne

L'intervalle de confiance de niveau 1-α pour la moyenne µ est donné par

Iα = [m - tα/2·s/n½ , m + tα/2·s/n½]

où tα/2 est le α/2 - quantile de la loi de Student à (n - 1) degrés de liberté et s est l'estimateur de σ.

Si n est grand la taille de la loi de Student à n degrés de liberté, notée t(n), se confond avec celle de la loi normale. En effet, on a le

Théorème : Lorsque n tend vers l’infinie, la loi de t(n) converge vers la loi N(0,1).

Pratiquement on peut remplacer tα/2 par λα/2 si n ≥ 60.

Exemple : On sait que le diamètre X d’un certain type de vis est distribué suivant une loi normale. Un échantillon de taille 25 a donné les valeurs m = 5,03 mm et s = 0.09mm.

Donner l’intervalle de confiance de µ au niveau 99%.

Solution : Avec α = 0.01 et n = 25 on a tα/2 = 2.796939505. Donc l’intervalle est donné par

[5.03-2.796939505⋅0.09/5, 5.03+2.796939505⋅0.09/5] ≅ [4.980, 5.080]

(12)

L'intervalle de confiance pour la variance

On cherche un intervalle Iα construit à partir des observations tel que

P(σ2∈∈∈∈ Iα) = 1 - α. L'estimateur s2 de la variance suit une loi Chi-deux à n-1 degrés de liberté. L'intervalle de confiance de niveau 1-α pour la variance σ2 est donné par

Iα = [(n-1)·s2/k1 , (n-1)·s2/k2]

où k1 est le α/2 - quantile de χ2(n-1) et k2 le (1-α/2) - quantile de χ2(n-1).

Si n →∞, on peut calculer k1 et k2 à partir des quantiles gaussiens.

[(n-1)/k1]½≅≅≅≅ 1 - λα/2/[2(n-1)]½ [(n-1)/k2]½≅≅≅≅ 1 + λα/2/[2(n-1)]½

Exemple : On sait que le diamètre X d’un certain type de vis est distribué suivant une loi normale. Un échantillon de taille 25 a donné les valeurs m = 5,03 mm et s = 0.09mm.

Donner l’intervalle de confiance de σ au niveau 95%.

Solution : Avec α = 0.05 et n = 25 on a k1 = 39.364 et k2 = 12.401. Donc l’intervalle pour la variance σ2 est donné par

[0.0081⋅24/39.364, 0.0081⋅24/12.401] ≅ [0.0049,0.0157]

i.e. pour l’écart type σ on trouve l’intervalle [0.070, 0.125]

(13)

VI.5.d. Comparaison de deux moyennes

On considère deux échantillons gaussiens (x1,…,xn1) de loi N(µ112

) et (y1,…,yn2) de loi N(µ222). On veut construire un intervalle de confiance pour µ1 - µ2.

Intervalle de confiance pour µ1 - µ2 si les variances sont connues

Soient m1 l'estimateur de µ1 et m2 l'estimateur de µ2. Par la stabilité des lois gaussiennes l'estimateur m1 - m2 est une variable gaussienne de paramètres µ = µ1 - µ2 et σ2 = σ12

/n1 + σ22

/n2.

L'intervalle de confiance de niveau 1-α pour µ1 - µ2 est donné par Iα = [(m1 - m2) - λα/2·σ , (m1 - m2) + λα/2·σ]

où erf(λα/2/2½) = 1 - α, i.e. λα/2 est le α/2-quantile de la distribution gaussienne N(0,1).

Si la taille des deux échantillons gaussiens est grande et si les variances sont inconnues on peut remplacer les variances par les variances empiriques. Dans ce cas l’intervalle de confiance de niveau 1-α pour µ1 - µ2 est donné par

Iα = [(m1 - m2) - λα/2·s , (m1 - m2) + λα/2·s]

2 2

2 1 2

1 2

s s s = n +n .

Exemple : Les résistances X resp. Y de deux types d’équipements électriques sont comparées. On suppose que X et Y suit une loi normale. Un échantillon de n = 100 équipements de chaque type est testé, les tests étant indépendants l’un de l’autre. On obtient les résultats suivantes :

m1 = 6.52 ohm , s1 = 0.05 ohm , m2 = 6.55 ohm , s2 = 0.04 ohm Donner l’intervalle de confiance de µ1 - µ2 au niveau 99,9%.

Solution :

[6.52-6.55-3.2905·0.0064, 6.52-6.55-3.2905·0.0064] = [-0.051, -0.009]

(14)

VI.6. Le problème des tests

On dispose d'un échantillon (x1,...,xn) de loi Pθ inconnue. On veut tester si les

observations permettent de rejeter une hypothèse H0 (hypothèse nulle) sur la distribution inconnue, avec une probabilité faible (disons α) d'erreur, i.e. rejeter H0 alors qu'elle est vraie.

On appelle α le niveau du test. Si les observations permettent de rejeter H0, on dit que le test est significatif au niveau α.

Attention : Ne pas rejeter l'hypothèse ne veut pas dire accepter l'hypothèse.

Soit H0 = " l'animal est un cheval ". Si l'animal observé n'a pas 4 pattes, alors H0 est rejeté. Par contre, si l'animal observé a 4 pattes, alors H0 n'est pas rejeté et n'est pas accepté non plus.

Procédure de test

On choisit une statistique de test T, i.e. une fonction des observations. On choisit dans l'ensemble des valeurs possibles de T un sous-ensemble C, la zone de rejet.

On rejet H0 si T est dans C.

Nous choisissons T et C tels que si H0 est vraie, alors la probabilité que T soit dans C soit égale à α:

P(T ∈∈∈∈ C) = α.

Généralement l'hypothèse H0 est confrontée à une hypothèse H1 dont le choix dépend de la nature du problème considéré. H1 présente souvent une information a priori, et le rejet de H0 est équivalent a l'acceptation de H1.

(15)

V.7. Test sur la moyenne d'un échantillon gaussien

Soit (x1,…,xn) un n-échantillon d'une loi normale (ou gaussienne) N(µ,σ2). On veut tester l'hypothèse H0 : µ = µ0 pour une valeur µ0 donnée.

Exemple : On mesure le taux de sucre 60 betteraves. On note ces valeurs par (x1,…,x60).

On veut tester l'hypothèse H0 : µ = 17. On commence par estimer la moyenne; on obtient m = 16.51 et une variance empirique

s2 = [(x1 - m)2 + … +(x60 - m)2]/59 = 89.69/59 = 1.52...

On construit un intervalle de confiance Iαααα. Si µ0 ∉ Iα alors on rejette H0 avec un risque α.

Si la variance est connue: Supposons σ = 1.2. Donc

Iα = [m - λα/2·σ/n½ , m + λα/2·σ/n½]

= [16.51 - λα/2·1.2/60½ , 16.51 + λα/2·1.2/60½] où λα/2 dénote le α/2-quantile de la distribution N(0,1).

Pour α = 0.01 on a λα/2 = 2.575829304 et

I0.01 = [16.11 , 16.91]

On rejette H0.

Si la variance est inconnue: L'intervalle de confiance est donné par Iα = [m - tα/2·s/n½ , m + tα/2·s/n½]

= [16.51 - tα/2·1.23/60½ , 16.51 + tα/2·1.23/60½] où tα/2 est le α/2 - quantile de la loi de Student à 59 degrés de liberté. Pour α = 0.01 on a tα/2 = 2.66 et

I0.01 = [16.09 , 16.93]

donc le test est significatif et on rejette H0. Pour α = 0.001 on a tα/2 = 3.29 et

I0.001 = [15.93 , 17.03]

donc le test n'est plus significatif. Il faudrait augmenter la taille de l'échantillon.

(16)

VI.8. Le cas binomial

Soit (x1,...,xn) un n-échantillon de Bernoulli. On veut tester l'hypothèse H0 : p = p0 pour une valeur p0 donnée contre l'hypothèse p ≠≠≠≠ p0. Soit pe = (x1 +...+ xn)/n l'estimateur de p.

Le statistique du test est T = (pe - p0)/[pe(1-pe)/n]½. Pour n grand, on peut utiliser

l'approximation par la loi normale. Le problème est symétrique, donc la zone de rejet au niveau α pour un α donné est |T| > λα/2 avec λα/2 le α/2-quantile de la distribution gaussienne N(0,1).

VI.9. Test du Chi-deux

Le test du chi-deux nous permet de tester si une variable aléatoire X obéit à une distribution donnée (hypothèse H0).

Exemple : On jette un dé 96 fois et on observe les résultats suivants.

face 1 2 3 4 5 6

fréquence Nk 15 7 9 20 26 19

Peut-on rejeter l'hypothèse H0 le dé est honnête, i.e. H0: p1 = p2 = ... =p6 = 1/6 ?

Si H0 était vrai en devrait obtenir chaque face environ 96·1/6 = 16 fois. On introduit une quantité Q qui est une distance entre la loi uniforme et la répartition empirique par

Q = (N1 – np1)2/ np1 + (N2 – np2)2/ np2+... + (N6 – np6)2/ np6.

ou les Nk représentent les fréquences aléatoires et E[Nk] = npk les fréquences théoriques calculées sous l’hypothèse H0. Donc

Q = (15 - 16)2/16 + (7 - 16)2/16 +... + (19 - 16)2/16 =16.

On rejette H0 si Q est trop grand. Le seuil de rejet est donné par la distribution Chi-deux à (6-1) degrés de liberté. Si α = 0.01 on trouve la valeur 15.1 pour le quantile de la

distribution Chi-deux à 5 degrés de liberté. Donc, puisque Q > 15.1, on rejette H0. Donc, avec 1% de chances de se tromper on peut affirmer que le dé n'est pas honnête.

(17)

Une recette pour un test χ2

Soit (A1,..., Ar) un système complet des évènements et des observations des nombres de réalisations (x1,..., xr).

Tester H0: p(A1) = p1,..., p(Ar) = pr et p1 + ...+ pr = 1.

Calculer

Q = (x1 - np1)2/(np1) + ... + (xr - npr)2/(npr)

On rejette H0 (au niveau α)si Q est plus grand que le α-quantile de la distribution Chi- deux à (r-1) degrés de liberté.

Remarque : La loi de Q dépend de la loi (p1,..., pr). Cependant, si n est grand, elle tend une limite indépendante de (p1,..., pr).

Références

Documents relatifs

On retrouve le problème pour l’estimation des probabilités de plusieurs autres classes d’âge comme représenté sur la figure 5 qui compare les estimations obtenues respectivement

Informatiquement, on utilise donc la notion de liste ; l'objet à construire, appelé dans cet algorithme « classe » est déclaré à la ligne 3 dans la catégorie « liste » et,

A l'aide d'un test que l'on précisera, au seuil de risque de 5%, déterminer la valeur minimale de n qui permet au chercheur de conclure que les résultats avec le nouveau traitement

De mani`ere g´en´erale, on d´efinit le niveau (ou seuil) d’un test comme P (rejeter H 0 | H 0 vraie), la probabilit´e de rejeter l’hypoth`ese nulle dans le cas o` u elle est

Source : base de données Ameco.. 3) Les évolutions des coûts salariaux unitaires ont été très différentes dans le secteur abrité et dans le secteur exposé. 4) La trajectoire

Il est intéressant d'étendre à l'analyse des données qualitatives, groupées sous forme de table de contingence, les modèles d'analyse de variance à effets aléatoires, en

- la cinétique de la production en fonction du nombre de passages d’une culture à une autre culture, dans notre exemple 5 passages sont tes- tés.. Le critère de

Mais, ce n’est pas sans tristesse qu’il nous faut le constater : notre pays n’a pas poursuivi ses efforts dans ce domaine, et nous avons laissé finalement nos