Statistique descriptive, estimation et tests d’hypothèses

(1)

Statistique descriptive, estimation et tests d’hypothèses

Licence d’Excellence en Génomique

Pr. Zouhair El Hadri

Faculté des sciences, Université Mohamed V, Rabat

2019-2020

(2)

Statistique descriptive

(3)

Population, individu et variable

Population : C’est l’ensemble des éléments sur lesquelles porte une étude particulière. Chaque élément de cet ensemble est appelé individu.

I On s’intéresse par exemple à la note du Baccalauréat des étudiants de la licence d’excellence en génomique. L’ensemble des étudiants constitue la population alors que chaque

étudiant est un individu.

I Une variable statistique est une grandeur qui prend des valeurs (ou des modalités) sur les individus de la population. Dans l’exemple précédent, la note du Baccalauréat représente une variable statistique.

(4)

Variable quantitative Vs variable qualitative

On dispose de deux familles de variables statistiques :

I Variable qualitative : Elle prend des valeurs non numériques appelées modalités. On distingue deux types :

I variable ordinale, lorsqu’on peut établir un ordre pour les modalités. On peut citer l’exemple de l’appréciation vis à vis la qualité d’un produit consommé : excellente, bonne, moyen, mauvaise.

I variable nominale, lorsqu’on ne peut pas établir un tel ordre.

On peut citer l’exemple la couleur : jaune, bleue, verte, rouge.

I Variable quantitative : Elle prend des valeurs numériques. On distingue deux types :

I Une variable discrète prend des valeurs dans l’ensemble des entiers naturelsN. Le nombre d’enfants d’un couple en est un exemple.

I Une variable continue prends des valeurs dans l’ensemble des nombres réelsR. Le poids d’un nouveau né en est un exemple.

(5)

Moyenne

La moyenne ne peut être définie que pour une variable quantitative.

I Dans le cas discret, la moyenne est la somme des valeurs divisée par le nombre de ces valeurs.

I dans le cas continu, on fait le même calcul en remplaçant chaque valeur par le centre de la classe associée (voir l’exemple 2 ci dessous).

Exemple 1 :

Le nombre de frères et sœurs de 20 étudiants d’une classe sont : 2 ;3 ;2 ;0 ;4 ;2 ;2 ;3 ;2 ;0 ;0 ;1 ;3 ;4 ;1 ;2 ;2 ;3 ;1 ;1. On commence par construire le tableau des effectifs suivant :

Valeurx_i 0 1 2 3 4 Effectifn_i 3 4 7 4 2 Ensuite, on calcule la moyenne :

¯

x= 3×0 + 4×1 + 7×2 + 4×3 + 2×4

20 = 38

20 = 1,9.

(6)

Moyenne

Exemple 2 :

Les poids en Kg de 20 étudiants d’une classe sont donnés le tableau suivant :

Poids (Kg) [50 ;60[ [60 ;70[ [70 ;80[ [80 ;90]

Effectifni 2 8 7 3

On calcule d’abord les centres des 4 classes : c₁= 50 + 60

2 = 55,c₂ = 65, c₃ = 75 etc₄= 85.

Ensuite, on calcule la moyenne :

¯

x= 2×55 + 8×65 + 7×75 + 3×85

20 = 70,5.

(7)

Variance et écart-type :

On noten=^Pn_i l’effectif total de la population.

I Dans le cas discret, la variance est définie par V =S² = 1

n[^Pni(xi−¯x)²] = 1 n

Pnix_i²−x¯². I Dans le cas continu, la variance est définie par

V =S² = 1

n[^Pni(ci −x¯)²] = 1 n

Pnix_i²−¯x².

(8)

Variance et écart-type :

Exemple 1 :

I Dans l’exemple 1 ci dessus, on a V = 1

20(3×0²+4×1²+7×2²+4×3²+2×4²)−(1,9)² = 1,39.

Et l’écart-type estS =√

1,39 = 1,1789.

I Dans l’exemple 2 ci dessus, on a V = 1

20(3×55²+8×65²+7×75²+3×85²)−(70,5)² = 74,75.

Et l’écart-type estS =√

74,75 = 8,6458.

(9)

Estimation

(10)

Échantillonnage

Dans la pratique, il est généralement impossible de mener l’étude statistique sur toute la population concernée. On procède alors à prélever un échantillon, puis d’en extraire (Estimation) les informations (En général, la moyenne et la variance d’une loi de probabilité donnée) et de les considérer pour toute la population (Inférence).

Dans la suite, on adopte les notations suivantes : Population Échantillon

Moyenne µ x¯

Variance σ² S²

Écart-type σ S

(11)

Estimation ponctuelle

On suppose donnée une loi de probabilité. On noteµ etσ²

l’espérance et la variance d’une telle loi. L’estimation ponctuelle de µetσ² consiste à déterminer une valeur de chacun de ces deux paramètres à partir des valeurs prise par une VAX suivant la loi considérée. Ces valeurs sont obtenus sur la base d’un échantillon de tallen.

Formellement, on considèren VA X1,X2, ...,Xn iid d’espéranceµ et de varianceσ². Alors :

I X¯_n= Pk=n

k=1X_k

n est un estimateur sans biais de µ.

I S²= Pk=n

k=1(Xk−X¯n)²

n est un estimateur biaisé deσ². I S_c²=

Pk=n

k=1(X_k−X¯_n)²

n−1 est un estimateur sans biais deσ². Définition

Un estimateur ˆθdeθ est sans biais si E(ˆθ) =θ.

(12)

Estimation ponctuelle

Exemple : On dispose de 8 prélèvements de prises de sang sur une personne. On obtient alors le dosage de cholestérol engr suivant : 246; 243; 247; 248; 245; 249; 242 et 245. Alors,

I Une estimation sans biais de µest

¯ x =

Pk=8 k=1xk

8 = 246 +...+ 245

8 = 1965

8 = 245,625.

I Une estimation biaisée deσ² est s²=

Pk=8

k=1(x_k −x)¯ ²

8 = 39,875

8 = 4,9843.

I Une estimation sans biais de σ² est s_c²=

Pk=8

k=1(x_k −x)¯ ²

7 = 39,875

7 = 5,6964.

(13)

Estimation par intervalle de confiance

Au lieu d’utiliser l’estimation ponctuelle pour donner une valeur au paramètreθ (µ ouσ²) on peut utiliser un

intervalle de confiance (IC) de la façon suivante :

I l’IC pour l’espéranceµd’une loi normale avec variance connue s’écrit [¯x−z₁₋^α

2

√σ

n; ¯x+z₁₋^α

2

√σ n].

I l’IC pour l’espérance µd’une loi normale avec variance inconnue s’écrit [¯x−t_(n−1,1−^α

2)√sc

n; ¯x+t_(n−1,1−^α

2)√sc

n].

où :

I x¯ est la moyenne de l’échantillon,

I σ est l’écart-type de la population supposé connu, I n est la taille de l’échantillon,

I z^α

2 est le quantile de la loiN(0,1) d’ordre 1−^α₂, c’est à dire Φ(z^α

2) = 1−^α₂,

I s_c est l’écart-type de l’échantillon, I t_(n−1,^α

2) est le quantile de la loi de Student àn−1 degrés de liberté (ddl) et d’ordre 1−^α₂,

I α est le risque de prière espèce.

(14)

Estimation par intervalle de confiance

Exemple 1 :

On s’intéresse à la teneur en potassium d’une substance donnée.

On admet que cette teneur est une VA suivant une normale N(µ, σ²). On suppose que la variance et connue :σ² = 1 mg. On considère un échantillon de 5 mesures indépendantes et on obtient les résultats suivants (en mg) : 74,0 ; 71,6 ; 73,4 ; 74,3 ; 72,2. On propose de déterminer un IC pourµau risque 5%.

I On calcule la moyenne empirique de l’échantillon :

¯

x = 74.0 + 71.6 + 73.4 + 74.3 + 72.2

5 = 74,

I La varianceσ² = 1,

I La variance est connue donc on utilise la loi normale. Or

α

2 = 0,025. Et d’après la table de cette loi on a

=z_0,975= 1,96,

I La taille de l’échantillon estn = 5.

(15)

Estimation par intervalle de confiance

Exemple 1 :

On s’intéresse à la teneur en potassium d’une substance donnée.

On admet que cette teneur est une VA suivant une normale N(µ, σ²). On suppose que la variance et connue :σ² = 1 mg. On considère un échantillon de 5 mesures indépendantes et on obtient les résultats suivants (en mg) : 74,0 ; 71,6 ; 73,4 ; 74,3 ; 72,2. On propose de déterminer un IC pourµau risque 5%.

Donc l’IC pourµ est : [¯x−z1−^α

2

√σ

n; ¯x+z1−^α

2

√σ

n] = [74−1,96×^√¹

5; 74 + 1,96×^√¹

5] = [73,1234; 74,8765].

(16)

Estimation par intervalle de confiance

Exemple 2 : On considère le même exemple ci dessus, mais on suppose que la varianceσ² et inconnue. Dans ce cas, on doit l’estimer à partir de l’échantillon.

I L’estimation sans biais de σ² est : s_c²= (74,0−74)²+...+ (72,2−74)²

5−1 = 1.6875

I Puisque la variance est estimé à partir de l’échantillon, on utilise la loi de Student à 4 (5-1) ddl. Or d’après la table de cette loi on at_(4;0,975)= 2,7764,

Donc l’IC pour µest : [¯x−t(n−1,1−^α

2)√sc

n; ¯x+t(n−1,1−^α

2)√sc

n] = [74−2,7764×^1.2990^√

5 ; 74+2,7764×^1.2990^√

5 ] = [69.2207; 78.7792]

(17)

Estimation par intervalle de confiance

Remarque importante :

On peut estimer l’espérance d’une loi quelconque (pas

nécessairement la loi normale) à condition d’avoir échantillon de taillen assez grande (n≥30). En effet, en appliquant le théorème centrale limite (Voir chapitre précédent) on peut approximer une loi quelconque par une loi normale.

Exemple :

Lors d’un test pharmaceutique, on a administré à 64 rats un dosage d’un produit chimique contre une certaine maladie. Le temps avant le premier symptôme n’apparaisse au niveau des globules a été mesurée. On obtient alors les valeurs suivantes :

¯

x = 2,13 min et s_c² = 0,37 min².

(18)

Estimation par intervalle de confiance

Un IC du temps moyenµau niveau de confiance 95% peut s’obtenir par :

[¯x−z₁₋^α

2

sc

√n; ¯x+z₁₋^α

2

sc

√n]

= [2,13−1,96×^0,37^√

64; 2,13−1,96×^0,37^√

64]

= [1.9809; 2.2790].

(19)

Tests d’hypothèses

(20)

Test de conformité

Test bilatéral de la moyenne d’une loi normale avec variance connue : On souhaite tester au niveau de confiance 95% (au risque 5%) que le diamètre d’une pièce fabriquée par une certaine machine est égale à 8 cm. On suppose que le diamètre suit une loi

N(µ, σ²= 1,2²).

I On formule les deux hypothèses suivantes : H0:µ=µ0 = 8 : hypothèse nulle,

H1:µ6=µ0 = 8 : hypothèse alternative,

I Un échantillon de taille 20 a donné ¯x = 8,2 cm, I On calcule lerapport critique suivant :

RC = ^¯^x−µ_σ ⁰

X¯ = ^8,2−8√1,2 20

= 0.7453, I On compare RC avecz1−^α

2 =z0,975 = 1,96 et

−z₁₋^α

2 =−z_0,975 =−1,96 : −z₁₋^α

2 ≤RC ≤z₁₋^α

2,

I On décide d’accepter H0 : au risque 5%, le diamètre n’est pas significativement différent de 8 cm.

(21)

Test de conformité

Test bilatéral de la moyenne d’une loi normale avec variance connue :

(22)

Test de conformité

Test bilatéral de la moyenne d’une loi normale avec variance inconnue : On reprend le même exemple ci dessus mais au risque 10% et on suppose que la variance n’est pas connue. On suppose donc que le diamètre suit une loiN(µ, σ²).

I On formule les deux hypothèses suivantes : H₀:µ=µ₀ = 8 : hypothèse nulle,

H1:µ6=µ0 = 8 : hypothèse alternative,

I Un échantillon de taille 20 a donné ¯x = 8,2 cm ets_c² = 0,5², I On calcule lerapport critique suivant :

RC = ^¯^x−µ_σ_ˆ ⁰

X¯ = ^8,2−8√0,5 20

= 1,7888, I On compare RC avect(n−1;1−^α

2)=t_(19;0,95)= 1,7291 et

−t_(n−1;1−^α

2) =−t_(19;0,95)=−1,7291 :RC >tn−1;1−^α

2, I On décide de rejeter H0 : au risque 10%, le diamètre est

significativement différent de 8 cm.

(23)

Test de conformité

Test bilatéral de la moyenne d’une loi normale avec variance inconnue :

(24)

Test de conformité

Test bilatéral de la moyenne d’une loi normale : Méthode I formuler les hypothèses nulle H0 :µ=µ0 et alternative

H₁:µ6=µ₀,

I noter x1, ...xn les valeurs obtenues à partir d’un échantillon (de taille n) avec les (X_k)_k sontiid de loi N(µ, σ²), I calculer le rapport critique RC par :

I siσest connu, calculer ¯x= Pk=n

k=1x_k

n puisRC =^x^¯^−µ√σ ⁰ n

, I siσest inconnu calculer ¯x=

Pk=n k=1xk

n ets_c²= Pk=n

k=1(xk−¯x)²

n−1 puis

RC =^x^¯^−µ√sc ⁰ n

,

I Déterminer le quantile théorique QT au risque α fixé : I QT =z₁₋^α

2 (Loi normale centrée réduite) siσest connu, I QT =t_(n−1;1−^α

2) (loi de Student àn−1 ddl) siσest inconnu, I comparerRC àQT et −QT :

I accepterH₀si−QT ≤RC ≤QT

I rejeterH₀(accepterH₁) siRC <−QT ouRC >QT.

(25)

Test de conformité

Test unilatéral droit de la moyenne d’une loi normale :

variance connue On souhaite tester au niveau de confiance 95%

que le temps de passage dans une chaîne de fabrication n’excède pas 20 min. On suppose que ce temps suit une loiN(µ, σ² = 3²).

I On formule les deux hypothèses suivantes : H0:µ=µ0 = 20 : hypothèse nulle, H₁:µ > µ₀ = 20 : hypothèse alternative,

I Un échantillon de taille 25 a donné ¯x = 20,72 min, I On calcule lerapport critique suivant :

RC = ^¯^x−µ_σ ⁰

X¯ = ^20,72−20√3 25

= 1,2,

I On compare RC avecz1−α=z_0,95= 1,6448 :RC ≤z_0,95, I On décide d’accepter H₀ : au risque 5%, le temps n’excède

pas significativement 20 min.

(26)

Test de conformité

Test unilatéral droit de la moyenne d’une loi normale : variance connue

(27)

Test de conformité

Test unilatéral droit de la moyenne d’une loi normale :

variance inconnue On souhaite tester au niveau de confiance 95%

que le temps de passage dans une chaîne de fabrication n’excède pas 20 min. On suppose que ce temps suit une loiN(µ, σ²).

I On formule les deux hypothèses suivantes : H0:µ=µ0 = 20 : hypothèse nulle, H1:µ > µ0 = 20 : hypothèse alternative,

I Un échantillon de taille 25 a donné ¯x = 22 min et sc = 5 min, I On calcule lerapport critique suivant :

RC = ^¯^x−µ_σ ⁰

X¯ = ²²⁻²⁰√5 25

= 2,

I On compare RC avect_{(n−1;1−α)}=t_24;0,95= 1,711 : RC ≥t_24;0,95,

I On décide de rejeter H₀ : au risque 5%, le temps excède significativement 20 min.

(28)

Test de conformité

Test unilatéral droit de la moyenne d’une loi normale : variance inconnue

(29)

Test de conformité

Test unilatéral gauche de la moyenne d’une loi normale : variance connue On souhaite tester au niveau de confiance 95%

que les flacons d’une marque de parfum contiennent une quantité minimale de 40 ml. On suppose que cette quantité suit une loi N(µ, σ²= 4²).

I On formule les deux hypothèses suivantes : H0:µ=µ0 = 40 : hypothèse nulle, H₁:µ < µ₀ = 40 : hypothèse alternative, I Un échantillon de taille 20 a donné ¯x = 39 ml, I On calcule lerapport critique suivant :

RC = ^¯^x−µ_σ ⁰

X¯ = ³⁹⁻⁴⁰√4 20

=−1.1180,

I On compare RC avec−z_1−α=−z_0,95=−1,6448 : RC ≥ −z_0,95,

I On décide d’accepter H₀ : au risque 5%, la quantité n’est pas significativement plus petite que 40 ml.

(30)

Test de conformité

Test unilatéral gauche de la moyenne d’une loi normale : variance inconnue

(31)

Test de conformité

Test unilatéral gauche de la moyenne d’une loi normale :

variance inconnue On souhaite tester au niveau de confiance 99%

que les flacons d’une marque de parfum contiennent une quantité minimale de 40 ml. On suppose que cette quantité suit une loi N(µ, σ²).

I On formule les deux hypothèses suivantes : H0:µ=µ0 = 40 : hypothèse nulle, H1:µ < µ0 = 40 : hypothèse alternative,

I Un échantillon de taille 20 a donné ¯x = 36,4 ml et sc = 5,7, I On calcule lerapport critique suivant :

RC = ^¯^x−µ_σ ⁰

X¯ = ^36,4−40√5,7 20

=−2.8245,

I On compare RC avec−t_(49,1−α)=−t_(49;0,99)=−2,4049 : RC ≤ −t_(49;0,99),

I On décide de rejeter H0 : au risque 1%, la quantité est significativement plus petite que 40 ml.

(32)

Test de conformité

Test unilatéral gauche de la moyenne d’une loi normale : variance inconnue

(33)

Test de conformité

Test bilatéral de comparaison de deux moyennes d’une loi normale : variance inconnue On souhaite tester au niveau de confiance 95%

si les salaires de deux catégories de fonctionnaires ne sont pas différents. Les observations donnent :

Catégorie 1. 2800 3000 2600 3400 2700 3100 3000 3300 2700 2900 3000 2800,

Catégorie 2. 3400 3200 2900 2700 3000 2900 3200 3400 3000 3100 2900 3200 2800 3000 2800.

On suppose que les deux salaires suivent respectivement les lois N(µ1, σ₁² = 250²) et N(µ2, σ²₂ = 200²).

I On formule les deux hypothèses suivantes : H0:µ1 =µ2 : hypothèse nulle,

H₁:µ₁ 6=µ₂ : hypothèse alternative,

I Les deux échantillons donnent ¯x1= 2941,667 et

¯

x₂= 3033,333 donc ¯x₂−x¯₁= 91,6667,

(34)

Test de conformité

Test bilatéral de comparaison de deux moyenne d’une loi normale : variance inconnue On souhaite tester au niveau de confiance 95%

si les salaires de deux catégories de fonctionnaires ne dont pas différents.

I On calcule aussi σX¯2−X¯1 =

r

σ²₂ n2 + ^σ_n²¹

1 =

q200²

15 +²⁵⁰₁₂² = 88,74, I On calcule lerapport critique suivant :

RC = _σ^x^¯²⁻^x^¯¹

X¯2−X¯1

= ^91,6667_88,74 = 1,03, I On compare RC avecz1−^α

2 =z0,975 = 1,96 et

−z₁₋^α

2 =−z_0,975 =−1,96 : −z₁₋^α

2 ≤RC ≤z₁₋^α

2,

I On décide d’accepter H0 : au risque 5%, les salaires des deux catégories ne sont pas significativement différents.

(35)

Test de conformité

Test unilatéral de comparaison de deux moyenne d’une loi normale : variance inconnue On souhaite tester au niveau de confiance 95%

que la quantité de nicotine dans une cigarette d’une marque B dépasse celle dans une marque A. Les données donnent : Marque A : 22 23 25 24 23 24 22,

Marque B : 21 26 29 24 27.

On suppose que les deux quantités suivent respectivement les lois N(µ₁, σ₁²) etN(µ₂, σ₂²).

I On formule les deux hypothèses suivantes : H₀:µ₁ =µ₂ : hypothèse nulle,

H1:µ1 < µ2 : hypothèse alternative,

I Les deux échantillons donnent ¯x1= 23,2857 et ¯x2= 25,4 donc ¯x2−x¯1 = 2,1143,

(36)

Test de conformité

Test unilatéral de comparaison de deux moyennes d’une loi normale : variance inconnue

I On calcule aussi s_c1² = P_(x

1i−x¯1)²

n1−1 = 1,2380 et s_c2² =

P(x2i−x¯2)²

n2−1 = 9,30 donc ˆ

σX¯2−X¯1 = r

s_c2² n2 + ^s

2 c1

n1 = q9,30

5 +^1,24₇ = 1,4272, I On calcule lerapport critique suivant :

RC = _ˆ_σ^x^¯²⁻^x^¯¹

¯

x2−x¯1 = ^2,1143_1,4272 = 1,4814, I On calcule le ddl :

ddl = (n₁−1) + (n₂−1) = (7−1) + (5−1) = 10 I On compare RC avect_(10;1−α)=t_(10;0,95)= 1,8124 :

RC ≤t_(10;0,95),

I On décide d’accepter H₀ : au risque 5%, la quantité dans la marque B ne dépasse pas celle dans la marque A.

(37)

Test d’adéquation

On souhaite tester au niveau de confiance 95% que le nombre de naissances par jour dans un hôpital est le même pendant les jours de la semaine. Les données sont :

Jour Lun Mar Mer Jeu Vend Sam Dim n_i 598 636 635 662 563 607 530 I On formule les deux hypothèses suivantes :

H₀:Loi =U({¹₇}) : hypothèse nulle (Loi uniforme discrète), H1:Loi 6=U({¹₇}) : hypothèse alternative,

I On calcule les valeurs théoriques : p₁ =...=p₇ = ¹₇, n =^Pni = 598 +...+ 530 = 4231 et npi = 604,4286 donc

Jour Lun Mar Mer Jeu Ven Sam Dim

npi 604,4 604,4 604,4 604,4 604,4 604,4 604,4

(38)

Test d’adéquation

I On calcule leχ² observé par χ²_obs =^P(np_i −n_i)²

npi

= (604,4−598)²

604,4 +...+ (604,4−530)²

604,4 = 20,76

I On calcule le ddl parddl = 7−1 = 6 puis on détermine le χ²_the théorique χ²(6; 0,95) = 12,5916,

I On compare χ²_obs et χ²_the :χ²_obs > χ²_the

I On décide de rejeter H0, le nombre de naissance n’est pas le même pendant les jours de la semaine.

(39)

Test d’adéquation

(40)

Test d’adéquation

On souhaite tester au niveau de confiance 99% que la variable aléatoire (VA)X qui représente le taux de lecture d’un journal pendant une durée donnée suit une loi binomialeBin(4,p). Les résultats concernant 5201 enquêtés donnent :

x_i 0 1 2 3 4

n_i 2632 1957 612 87 7 I On formule les deux hypothèses suivantes :

H0:Loi =Bin(4,p) : hypothèse nulle, H₁:Loi 6=Bin(4,p) : hypothèse alternative, I On estime le paramètre p par :

ˆ

p = E(X)

Pn_i = 0×2632 +...+ 4×7

5201 = 0,6672,

(41)

Test d’adéquation

I On calcule les valeurs théoriques :

I p0=C₄⁰×0,6672⁰×0,3328⁴= 0,4820 doncnp0= 2506,88,

I p1=C₄¹×0,6672¹×0,3328³= 0,3859 doncnp1= 2007,06,

I p2=C₄²×0,6672²×0,3328²= 0,1159 doncnp2= 602,79,

I p3=C₄³×0,6672³×0,3328¹= 0,0155 doncnp3= 80,61,

I p4=C₄⁴×0,6672⁴×0,3328⁰= 0,0008 doncnp4= 4,16,

x_i 0 1 2 3 4

np_i 2506,88 2007,06 602,79 604,4 4,16

(42)

Test d’adéquation

I On calcule leχ² observé par χ²_obs =^P^(npⁱ_np⁻ⁿⁱ⁾²

i =

(2506,88−2632)²

2505,88 +...+(4,16−7)²

4,16 = 10,48

I On calcule le ddl parddl = 5−2 = 3 car on a perdu un ddl en estimant le paramètre p, puis on détermine le χ²_the théorique χ²(3; 0,99) = 11,34,

I On compare χ²_obs et χ²_the :χ²_obs ≤χ²_the

I On décide d’accepter H0, le taux de lecture suit au risque 1%

la loi Bin(4; 0,6672).

(43)

Test d’indépendance

On souhaite tester au niveau de confiance 95% l’indépendance entre l’efficacité d’un traitement médical et le genre (sexe : homme/femme). Les résultats d’une expérience ont donné les valeurs suivantes :

Rétablis Non rétablis

Homme 6 22

Femme 15 17

I On formule les deux hypothèses suivantes : H0:Indépendance : hypothèse nulle,

H₁:Non indépendance : hypothèse alternative,

I On calcule les valeurs marginales puis le nombre total et on obtient la table suivante :

Rétablis Non rétablis Total

Homme 6 22 28

Femme 15 17 32

Total 21 39 60

(44)

Test d’indépendance

I On calcule les valeurs théoriques suivantes : I ^21×28₆₀ = 9,8 ; ^21×32₆₀ = 18,2 ;

I ^39×28₆₀ = 11,2 ; ^39×32₆₀ = 20,8 ;

I On obtient la table théorique suivante :

Rétablis Non rétablis Total

Homme 9,8 11,2 28

Femme 18,2 20,8 32

Total 21 39 60

I On calcule leχ² observé par χ²_obs = (9,8−6)²

9,8 +...+(20,8−17)²

20,8 = 13,1446 I On calcule le ddl parddl = (2−1)×(2−1) = 1 puis on

détermine leχ²_the théorique χ²(1; 0,95) = 3,84, I On compare χ²_obs et χ²_the :χ²_obs > χ²_the

I On décide de rejeter H0, l’efficacité du traitement dépend au risque 5% du genre.

(45)

Test d’indépendance

On souhaite tester au niveau de confiance 90% l’indépendance entre le niveau de scolarité le plus haut et le genre. Les résultats d’une expérience ont donné les valeurs suivantes :

Secondaire Collégial Universitaire

Homme 10 7 8

Femme 13 11 9

I On formule les deux hypothèses suivantes : H₀:Indépendance : hypothèse nulle,

H₁:Non indépendance : hypothèse alternative,

I On calcule les valeurs marginales puis le nombre total et on obtient la table suivante :

Secondaire Collégial Universitaire Total

Homme 10 7 8 25

Femme 13 11 9 33

Total 23 18 17 58

(46)

Test d’indépendance

I On calcule les valeurs théoriques suivantes : I ^23×25₅₈ = 9,91 ; ... ;

I ^23×33₅₈ = 13,09 ; ... ;

I On obtient la table théorique suivante :

Secondaire Collégial Universitaire Total

Homme 9,91 7,76 7,33 25

Femme 13,09 10,24 9,67 33

Total 23 18 17 58

I On calcule leχ² observé par χ²_obs = (9,91−10)²

9,91 +...+(9,67−9)²

9,67 = 0,24

I On calcule le ddl parddl = (2−1)×(3−1) = 2 puis on détermine leχ²_the théorique χ²(2; 0,9) = 4,60,

I On compare χ²_obs et χ²_the :χ²_obs ≤χ²_the,

I On décide d’accepterH0, le niveau de scolarité le plus haut ne dépend pas au risque 10% du genre.