Statistique descriptive, estimation et tests d’hypothèses
Licence d’Excellence en Génomique
Pr. Zouhair El Hadri
Faculté des sciences, Université Mohamed V, Rabat
2019-2020
Statistique descriptive
Population, individu et variable
Population : C’est l’ensemble des éléments sur lesquelles porte une étude particulière. Chaque élément de cet ensemble est appelé individu.
I On s’intéresse par exemple à la note du Baccalauréat des étudiants de la licence d’excellence en génomique. L’ensemble des étudiants constitue la population alors que chaque
étudiant est un individu.
I Une variable statistique est une grandeur qui prend des valeurs (ou des modalités) sur les individus de la population. Dans l’exemple précédent, la note du Baccalauréat représente une variable statistique.
Variable quantitative Vs variable qualitative
On dispose de deux familles de variables statistiques :
I Variable qualitative : Elle prend des valeurs non numériques appelées modalités. On distingue deux types :
I variable ordinale, lorsqu’on peut établir un ordre pour les modalités. On peut citer l’exemple de l’appréciation vis à vis la qualité d’un produit consommé : excellente, bonne, moyen, mauvaise.
I variable nominale, lorsqu’on ne peut pas établir un tel ordre.
On peut citer l’exemple la couleur : jaune, bleue, verte, rouge.
I Variable quantitative : Elle prend des valeurs numériques. On distingue deux types :
I Une variable discrète prend des valeurs dans l’ensemble des entiers naturelsN. Le nombre d’enfants d’un couple en est un exemple.
I Une variable continue prends des valeurs dans l’ensemble des nombres réelsR. Le poids d’un nouveau né en est un exemple.
Moyenne
La moyenne ne peut être définie que pour une variable quantitative.
I Dans le cas discret, la moyenne est la somme des valeurs divisée par le nombre de ces valeurs.
I dans le cas continu, on fait le même calcul en remplaçant chaque valeur par le centre de la classe associée (voir l’exemple 2 ci dessous).
Exemple 1 :
Le nombre de frères et sœurs de 20 étudiants d’une classe sont : 2 ;3 ;2 ;0 ;4 ;2 ;2 ;3 ;2 ;0 ;0 ;1 ;3 ;4 ;1 ;2 ;2 ;3 ;1 ;1. On commence par construire le tableau des effectifs suivant :
Valeurxi 0 1 2 3 4 Effectifni 3 4 7 4 2 Ensuite, on calcule la moyenne :
¯
x= 3×0 + 4×1 + 7×2 + 4×3 + 2×4
20 = 38
20 = 1,9.
Moyenne
Exemple 2 :
Les poids en Kg de 20 étudiants d’une classe sont donnés le tableau suivant :
Poids (Kg) [50 ;60[ [60 ;70[ [70 ;80[ [80 ;90]
Effectifni 2 8 7 3
On calcule d’abord les centres des 4 classes : c1= 50 + 60
2 = 55,c2 = 65, c3 = 75 etc4= 85.
Ensuite, on calcule la moyenne :
¯
x= 2×55 + 8×65 + 7×75 + 3×85
20 = 70,5.
Variance et écart-type :
On noten=Pni l’effectif total de la population.
I Dans le cas discret, la variance est définie par V =S2 = 1
n[Pni(xi−¯x)2] = 1 n
Pnixi2−x¯2. I Dans le cas continu, la variance est définie par
V =S2 = 1
n[Pni(ci −x¯)2] = 1 n
Pnixi2−¯x2.
Variance et écart-type :
Exemple 1 :
I Dans l’exemple 1 ci dessus, on a V = 1
20(3×02+4×12+7×22+4×32+2×42)−(1,9)2 = 1,39.
Et l’écart-type estS =√
1,39 = 1,1789.
I Dans l’exemple 2 ci dessus, on a V = 1
20(3×552+8×652+7×752+3×852)−(70,5)2 = 74,75.
Et l’écart-type estS =√
74,75 = 8,6458.
Estimation
Échantillonnage
Dans la pratique, il est généralement impossible de mener l’étude statistique sur toute la population concernée. On procède alors à prélever un échantillon, puis d’en extraire (Estimation) les informations (En général, la moyenne et la variance d’une loi de probabilité donnée) et de les considérer pour toute la population (Inférence).
Dans la suite, on adopte les notations suivantes : Population Échantillon
Moyenne µ x¯
Variance σ2 S2
Écart-type σ S
Estimation ponctuelle
On suppose donnée une loi de probabilité. On noteµ etσ2
l’espérance et la variance d’une telle loi. L’estimation ponctuelle de µetσ2 consiste à déterminer une valeur de chacun de ces deux paramètres à partir des valeurs prise par une VAX suivant la loi considérée. Ces valeurs sont obtenus sur la base d’un échantillon de tallen.
Formellement, on considèren VA X1,X2, ...,Xn iid d’espéranceµ et de varianceσ2. Alors :
I X¯n= Pk=n
k=1Xk
n est un estimateur sans biais de µ.
I S2= Pk=n
k=1(Xk−X¯n)2
n est un estimateur biaisé deσ2. I Sc2=
Pk=n
k=1(Xk−X¯n)2
n−1 est un estimateur sans biais deσ2. Définition
Un estimateur ˆθdeθ est sans biais si E(ˆθ) =θ.
Estimation ponctuelle
Exemple : On dispose de 8 prélèvements de prises de sang sur une personne. On obtient alors le dosage de cholestérol engr suivant : 246; 243; 247; 248; 245; 249; 242 et 245. Alors,
I Une estimation sans biais de µest
¯ x =
Pk=8 k=1xk
8 = 246 +...+ 245
8 = 1965
8 = 245,625.
I Une estimation biaisée deσ2 est s2=
Pk=8
k=1(xk −x)¯ 2
8 = 39,875
8 = 4,9843.
I Une estimation sans biais de σ2 est sc2=
Pk=8
k=1(xk −x)¯ 2
7 = 39,875
7 = 5,6964.
Estimation par intervalle de confiance
Au lieu d’utiliser l’estimation ponctuelle pour donner une valeur au paramètreθ (µ ouσ2) on peut utiliser un
intervalle de confiance (IC) de la façon suivante :
I l’IC pour l’espéranceµd’une loi normale avec variance connue s’écrit [¯x−z1−α
2
√σ
n; ¯x+z1−α
2
√σ n].
I l’IC pour l’espérance µd’une loi normale avec variance inconnue s’écrit [¯x−t(n−1,1−α
2)√sc
n; ¯x+t(n−1,1−α
2)√sc
n].
où :
I x¯ est la moyenne de l’échantillon,
I σ est l’écart-type de la population supposé connu, I n est la taille de l’échantillon,
I zα
2 est le quantile de la loiN(0,1) d’ordre 1−α2, c’est à dire Φ(zα
2) = 1−α2,
I sc est l’écart-type de l’échantillon, I t(n−1,α
2) est le quantile de la loi de Student àn−1 degrés de liberté (ddl) et d’ordre 1−α2,
I α est le risque de prière espèce.
Estimation par intervalle de confiance
Exemple 1 :
On s’intéresse à la teneur en potassium d’une substance donnée.
On admet que cette teneur est une VA suivant une normale N(µ, σ2). On suppose que la variance et connue :σ2 = 1 mg. On considère un échantillon de 5 mesures indépendantes et on obtient les résultats suivants (en mg) : 74,0 ; 71,6 ; 73,4 ; 74,3 ; 72,2. On propose de déterminer un IC pourµau risque 5%.
I On calcule la moyenne empirique de l’échantillon :
¯
x = 74.0 + 71.6 + 73.4 + 74.3 + 72.2
5 = 74,
I La varianceσ2 = 1,
I La variance est connue donc on utilise la loi normale. Or
α
2 = 0,025. Et d’après la table de cette loi on a
=z0,975= 1,96,
I La taille de l’échantillon estn = 5.
Estimation par intervalle de confiance
Exemple 1 :
On s’intéresse à la teneur en potassium d’une substance donnée.
On admet que cette teneur est une VA suivant une normale N(µ, σ2). On suppose que la variance et connue :σ2 = 1 mg. On considère un échantillon de 5 mesures indépendantes et on obtient les résultats suivants (en mg) : 74,0 ; 71,6 ; 73,4 ; 74,3 ; 72,2. On propose de déterminer un IC pourµau risque 5%.
Donc l’IC pourµ est : [¯x−z1−α
2
√σ
n; ¯x+z1−α
2
√σ
n] = [74−1,96×√1
5; 74 + 1,96×√1
5] = [73,1234; 74,8765].
Estimation par intervalle de confiance
Exemple 2 : On considère le même exemple ci dessus, mais on suppose que la varianceσ2 et inconnue. Dans ce cas, on doit l’estimer à partir de l’échantillon.
I L’estimation sans biais de σ2 est : sc2= (74,0−74)2+...+ (72,2−74)2
5−1 = 1.6875
I Puisque la variance est estimé à partir de l’échantillon, on utilise la loi de Student à 4 (5-1) ddl. Or d’après la table de cette loi on at(4;0,975)= 2,7764,
Donc l’IC pour µest : [¯x−t(n−1,1−α
2)√sc
n; ¯x+t(n−1,1−α
2)√sc
n] = [74−2,7764×1.2990√
5 ; 74+2,7764×1.2990√
5 ] = [69.2207; 78.7792]
Estimation par intervalle de confiance
Remarque importante :
On peut estimer l’espérance d’une loi quelconque (pas
nécessairement la loi normale) à condition d’avoir échantillon de taillen assez grande (n≥30). En effet, en appliquant le théorème centrale limite (Voir chapitre précédent) on peut approximer une loi quelconque par une loi normale.
Exemple :
Lors d’un test pharmaceutique, on a administré à 64 rats un dosage d’un produit chimique contre une certaine maladie. Le temps avant le premier symptôme n’apparaisse au niveau des globules a été mesurée. On obtient alors les valeurs suivantes :
¯
x = 2,13 min et sc2 = 0,37 min2.
Estimation par intervalle de confiance
Un IC du temps moyenµau niveau de confiance 95% peut s’obtenir par :
[¯x−z1−α
2
sc
√n; ¯x+z1−α
2
sc
√n]
= [2,13−1,96×0,37√
64; 2,13−1,96×0,37√
64]
= [1.9809; 2.2790].
Tests d’hypothèses
Test de conformité
Test bilatéral de la moyenne d’une loi normale avec variance connue : On souhaite tester au niveau de confiance 95% (au risque 5%) que le diamètre d’une pièce fabriquée par une certaine machine est égale à 8 cm. On suppose que le diamètre suit une loi
N(µ, σ2= 1,22).
I On formule les deux hypothèses suivantes : H0:µ=µ0 = 8 : hypothèse nulle,
H1:µ6=µ0 = 8 : hypothèse alternative,
I Un échantillon de taille 20 a donné ¯x = 8,2 cm, I On calcule lerapport critique suivant :
RC = ¯x−µσ 0
X¯ = 8,2−8√1,2 20
= 0.7453, I On compare RC avecz1−α
2 =z0,975 = 1,96 et
−z1−α
2 =−z0,975 =−1,96 : −z1−α
2 ≤RC ≤z1−α
2,
I On décide d’accepter H0 : au risque 5%, le diamètre n’est pas significativement différent de 8 cm.
Test de conformité
Test bilatéral de la moyenne d’une loi normale avec variance connue :
Test de conformité
Test bilatéral de la moyenne d’une loi normale avec variance inconnue : On reprend le même exemple ci dessus mais au risque 10% et on suppose que la variance n’est pas connue. On suppose donc que le diamètre suit une loiN(µ, σ2).
I On formule les deux hypothèses suivantes : H0:µ=µ0 = 8 : hypothèse nulle,
H1:µ6=µ0 = 8 : hypothèse alternative,
I Un échantillon de taille 20 a donné ¯x = 8,2 cm etsc2 = 0,52, I On calcule lerapport critique suivant :
RC = ¯x−µσˆ 0
X¯ = 8,2−8√0,5 20
= 1,7888, I On compare RC avect(n−1;1−α
2)=t(19;0,95)= 1,7291 et
−t(n−1;1−α
2) =−t(19;0,95)=−1,7291 :RC >tn−1;1−α
2, I On décide de rejeter H0 : au risque 10%, le diamètre est
significativement différent de 8 cm.
Test de conformité
Test bilatéral de la moyenne d’une loi normale avec variance inconnue :
Test de conformité
Test bilatéral de la moyenne d’une loi normale : Méthode I formuler les hypothèses nulle H0 :µ=µ0 et alternative
H1:µ6=µ0,
I noter x1, ...xn les valeurs obtenues à partir d’un échantillon (de taille n) avec les (Xk)k sontiid de loi N(µ, σ2), I calculer le rapport critique RC par :
I siσest connu, calculer ¯x= Pk=n
k=1xk
n puisRC =x¯−µ√σ 0 n
, I siσest inconnu calculer ¯x=
Pk=n k=1xk
n etsc2= Pk=n
k=1(xk−¯x)2
n−1 puis
RC =x¯−µ√sc 0 n
,
I Déterminer le quantile théorique QT au risque α fixé : I QT =z1−α
2 (Loi normale centrée réduite) siσest connu, I QT =t(n−1;1−α
2) (loi de Student àn−1 ddl) siσest inconnu, I comparerRC àQT et −QT :
I accepterH0si−QT ≤RC ≤QT
I rejeterH0(accepterH1) siRC <−QT ouRC >QT.
Test de conformité
Test unilatéral droit de la moyenne d’une loi normale :
variance connue On souhaite tester au niveau de confiance 95%
que le temps de passage dans une chaîne de fabrication n’excède pas 20 min. On suppose que ce temps suit une loiN(µ, σ2 = 32).
I On formule les deux hypothèses suivantes : H0:µ=µ0 = 20 : hypothèse nulle, H1:µ > µ0 = 20 : hypothèse alternative,
I Un échantillon de taille 25 a donné ¯x = 20,72 min, I On calcule lerapport critique suivant :
RC = ¯x−µσ 0
X¯ = 20,72−20√3 25
= 1,2,
I On compare RC avecz1−α=z0,95= 1,6448 :RC ≤z0,95, I On décide d’accepter H0 : au risque 5%, le temps n’excède
pas significativement 20 min.
Test de conformité
Test unilatéral droit de la moyenne d’une loi normale : variance connue
Test de conformité
Test unilatéral droit de la moyenne d’une loi normale :
variance inconnue On souhaite tester au niveau de confiance 95%
que le temps de passage dans une chaîne de fabrication n’excède pas 20 min. On suppose que ce temps suit une loiN(µ, σ2).
I On formule les deux hypothèses suivantes : H0:µ=µ0 = 20 : hypothèse nulle, H1:µ > µ0 = 20 : hypothèse alternative,
I Un échantillon de taille 25 a donné ¯x = 22 min et sc = 5 min, I On calcule lerapport critique suivant :
RC = ¯x−µσ 0
X¯ = 22−20√5 25
= 2,
I On compare RC avect(n−1;1−α)=t24;0,95= 1,711 : RC ≥t24;0,95,
I On décide de rejeter H0 : au risque 5%, le temps excède significativement 20 min.
Test de conformité
Test unilatéral droit de la moyenne d’une loi normale : variance inconnue
Test de conformité
Test unilatéral gauche de la moyenne d’une loi normale : variance connue On souhaite tester au niveau de confiance 95%
que les flacons d’une marque de parfum contiennent une quantité minimale de 40 ml. On suppose que cette quantité suit une loi N(µ, σ2= 42).
I On formule les deux hypothèses suivantes : H0:µ=µ0 = 40 : hypothèse nulle, H1:µ < µ0 = 40 : hypothèse alternative, I Un échantillon de taille 20 a donné ¯x = 39 ml, I On calcule lerapport critique suivant :
RC = ¯x−µσ 0
X¯ = 39−40√4 20
=−1.1180,
I On compare RC avec−z1−α=−z0,95=−1,6448 : RC ≥ −z0,95,
I On décide d’accepter H0 : au risque 5%, la quantité n’est pas significativement plus petite que 40 ml.
Test de conformité
Test unilatéral gauche de la moyenne d’une loi normale : variance inconnue
Test de conformité
Test unilatéral gauche de la moyenne d’une loi normale :
variance inconnue On souhaite tester au niveau de confiance 99%
que les flacons d’une marque de parfum contiennent une quantité minimale de 40 ml. On suppose que cette quantité suit une loi N(µ, σ2).
I On formule les deux hypothèses suivantes : H0:µ=µ0 = 40 : hypothèse nulle, H1:µ < µ0 = 40 : hypothèse alternative,
I Un échantillon de taille 20 a donné ¯x = 36,4 ml et sc = 5,7, I On calcule lerapport critique suivant :
RC = ¯x−µσ 0
X¯ = 36,4−40√5,7 20
=−2.8245,
I On compare RC avec−t(49,1−α)=−t(49;0,99)=−2,4049 : RC ≤ −t(49;0,99),
I On décide de rejeter H0 : au risque 1%, la quantité est significativement plus petite que 40 ml.
Test de conformité
Test unilatéral gauche de la moyenne d’une loi normale : variance inconnue
Test de conformité
Test bilatéral de comparaison de deux moyennes d’une loi normale : variance inconnue On souhaite tester au niveau de confiance 95%
si les salaires de deux catégories de fonctionnaires ne sont pas différents. Les observations donnent :
Catégorie 1. 2800 3000 2600 3400 2700 3100 3000 3300 2700 2900 3000 2800,
Catégorie 2. 3400 3200 2900 2700 3000 2900 3200 3400 3000 3100 2900 3200 2800 3000 2800.
On suppose que les deux salaires suivent respectivement les lois N(µ1, σ12 = 2502) et N(µ2, σ22 = 2002).
I On formule les deux hypothèses suivantes : H0:µ1 =µ2 : hypothèse nulle,
H1:µ1 6=µ2 : hypothèse alternative,
I Les deux échantillons donnent ¯x1= 2941,667 et
¯
x2= 3033,333 donc ¯x2−x¯1= 91,6667,
Test de conformité
Test bilatéral de comparaison de deux moyenne d’une loi normale : variance inconnue On souhaite tester au niveau de confiance 95%
si les salaires de deux catégories de fonctionnaires ne dont pas différents.
I On calcule aussi σX¯2−X¯1 =
r
σ22 n2 + σn21
1 =
q2002
15 +250122 = 88,74, I On calcule lerapport critique suivant :
RC = σx¯2−x¯1
X¯2−X¯1
= 91,666788,74 = 1,03, I On compare RC avecz1−α
2 =z0,975 = 1,96 et
−z1−α
2 =−z0,975 =−1,96 : −z1−α
2 ≤RC ≤z1−α
2,
I On décide d’accepter H0 : au risque 5%, les salaires des deux catégories ne sont pas significativement différents.
Test de conformité
Test unilatéral de comparaison de deux moyenne d’une loi normale : variance inconnue On souhaite tester au niveau de confiance 95%
que la quantité de nicotine dans une cigarette d’une marque B dépasse celle dans une marque A. Les données donnent : Marque A : 22 23 25 24 23 24 22,
Marque B : 21 26 29 24 27.
On suppose que les deux quantités suivent respectivement les lois N(µ1, σ12) etN(µ2, σ22).
I On formule les deux hypothèses suivantes : H0:µ1 =µ2 : hypothèse nulle,
H1:µ1 < µ2 : hypothèse alternative,
I Les deux échantillons donnent ¯x1= 23,2857 et ¯x2= 25,4 donc ¯x2−x¯1 = 2,1143,
Test de conformité
Test unilatéral de comparaison de deux moyennes d’une loi normale : variance inconnue
I On calcule aussi sc12 = P(x
1i−x¯1)2
n1−1 = 1,2380 et sc22 =
P(x2i−x¯2)2
n2−1 = 9,30 donc ˆ
σX¯2−X¯1 = r
sc22 n2 + s
2 c1
n1 = q9,30
5 +1,247 = 1,4272, I On calcule lerapport critique suivant :
RC = ˆσx¯2−x¯1
¯
x2−x¯1 = 2,11431,4272 = 1,4814, I On calcule le ddl :
ddl = (n1−1) + (n2−1) = (7−1) + (5−1) = 10 I On compare RC avect(10;1−α)=t(10;0,95)= 1,8124 :
RC ≤t(10;0,95),
I On décide d’accepter H0 : au risque 5%, la quantité dans la marque B ne dépasse pas celle dans la marque A.
Test d’adéquation
On souhaite tester au niveau de confiance 95% que le nombre de naissances par jour dans un hôpital est le même pendant les jours de la semaine. Les données sont :
Jour Lun Mar Mer Jeu Vend Sam Dim ni 598 636 635 662 563 607 530 I On formule les deux hypothèses suivantes :
H0:Loi =U({17}) : hypothèse nulle (Loi uniforme discrète), H1:Loi 6=U({17}) : hypothèse alternative,
I On calcule les valeurs théoriques : p1 =...=p7 = 17, n =Pni = 598 +...+ 530 = 4231 et npi = 604,4286 donc
Jour Lun Mar Mer Jeu Ven Sam Dim
npi 604,4 604,4 604,4 604,4 604,4 604,4 604,4
Test d’adéquation
I On calcule leχ2 observé par χ2obs =P(npi −ni)2
npi
= (604,4−598)2
604,4 +...+ (604,4−530)2
604,4 = 20,76
I On calcule le ddl parddl = 7−1 = 6 puis on détermine le χ2the théorique χ2(6; 0,95) = 12,5916,
I On compare χ2obs et χ2the :χ2obs > χ2the
I On décide de rejeter H0, le nombre de naissance n’est pas le même pendant les jours de la semaine.
Test d’adéquation
Test d’adéquation
On souhaite tester au niveau de confiance 99% que la variable aléatoire (VA)X qui représente le taux de lecture d’un journal pendant une durée donnée suit une loi binomialeBin(4,p). Les résultats concernant 5201 enquêtés donnent :
xi 0 1 2 3 4
ni 2632 1957 612 87 7 I On formule les deux hypothèses suivantes :
H0:Loi =Bin(4,p) : hypothèse nulle, H1:Loi 6=Bin(4,p) : hypothèse alternative, I On estime le paramètre p par :
ˆ
p = E(X)
Pni = 0×2632 +...+ 4×7
5201 = 0,6672,
Test d’adéquation
I On calcule les valeurs théoriques :
I p0=C40×0,66720×0,33284= 0,4820 doncnp0= 2506,88,
I p1=C41×0,66721×0,33283= 0,3859 doncnp1= 2007,06,
I p2=C42×0,66722×0,33282= 0,1159 doncnp2= 602,79,
I p3=C43×0,66723×0,33281= 0,0155 doncnp3= 80,61,
I p4=C44×0,66724×0,33280= 0,0008 doncnp4= 4,16,
xi 0 1 2 3 4
npi 2506,88 2007,06 602,79 604,4 4,16
Test d’adéquation
I On calcule leχ2 observé par χ2obs =P(npinp−ni)2
i =
(2506,88−2632)2
2505,88 +...+(4,16−7)2
4,16 = 10,48
I On calcule le ddl parddl = 5−2 = 3 car on a perdu un ddl en estimant le paramètre p, puis on détermine le χ2the théorique χ2(3; 0,99) = 11,34,
I On compare χ2obs et χ2the :χ2obs ≤χ2the
I On décide d’accepter H0, le taux de lecture suit au risque 1%
la loi Bin(4; 0,6672).
Test d’indépendance
On souhaite tester au niveau de confiance 95% l’indépendance entre l’efficacité d’un traitement médical et le genre (sexe : homme/femme). Les résultats d’une expérience ont donné les valeurs suivantes :
Rétablis Non rétablis
Homme 6 22
Femme 15 17
I On formule les deux hypothèses suivantes : H0:Indépendance : hypothèse nulle,
H1:Non indépendance : hypothèse alternative,
I On calcule les valeurs marginales puis le nombre total et on obtient la table suivante :
Rétablis Non rétablis Total
Homme 6 22 28
Femme 15 17 32
Total 21 39 60
Test d’indépendance
I On calcule les valeurs théoriques suivantes : I 21×2860 = 9,8 ; 21×3260 = 18,2 ;
I 39×2860 = 11,2 ; 39×3260 = 20,8 ;
I On obtient la table théorique suivante :
Rétablis Non rétablis Total
Homme 9,8 11,2 28
Femme 18,2 20,8 32
Total 21 39 60
I On calcule leχ2 observé par χ2obs = (9,8−6)2
9,8 +...+(20,8−17)2
20,8 = 13,1446 I On calcule le ddl parddl = (2−1)×(2−1) = 1 puis on
détermine leχ2the théorique χ2(1; 0,95) = 3,84, I On compare χ2obs et χ2the :χ2obs > χ2the
I On décide de rejeter H0, l’efficacité du traitement dépend au risque 5% du genre.
Test d’indépendance
On souhaite tester au niveau de confiance 90% l’indépendance entre le niveau de scolarité le plus haut et le genre. Les résultats d’une expérience ont donné les valeurs suivantes :
Secondaire Collégial Universitaire
Homme 10 7 8
Femme 13 11 9
I On formule les deux hypothèses suivantes : H0:Indépendance : hypothèse nulle,
H1:Non indépendance : hypothèse alternative,
I On calcule les valeurs marginales puis le nombre total et on obtient la table suivante :
Secondaire Collégial Universitaire Total
Homme 10 7 8 25
Femme 13 11 9 33
Total 23 18 17 58
Test d’indépendance
I On calcule les valeurs théoriques suivantes : I 23×2558 = 9,91 ; ... ;
I 23×3358 = 13,09 ; ... ;
I On obtient la table théorique suivante :
Secondaire Collégial Universitaire Total
Homme 9,91 7,76 7,33 25
Femme 13,09 10,24 9,67 33
Total 23 18 17 58
I On calcule leχ2 observé par χ2obs = (9,91−10)2
9,91 +...+(9,67−9)2
9,67 = 0,24
I On calcule le ddl parddl = (2−1)×(3−1) = 2 puis on détermine leχ2the théorique χ2(2; 0,9) = 4,60,
I On compare χ2obs et χ2the :χ2obs ≤χ2the,
I On décide d’accepterH0, le niveau de scolarité le plus haut ne dépend pas au risque 10% du genre.