• Aucun résultat trouvé

5.1 DISTRIBUTION CONJOINTE ET TEST D’INDÉPENDANCE

N/A
N/A
Protected

Academic year: 2022

Partager "5.1 DISTRIBUTION CONJOINTE ET TEST D’INDÉPENDANCE"

Copied!
31
0
0

Texte intégral

(1)

cours 27

5.1 DISTRIBUTION

CONJOINTE ET TEST

D’INDÉPENDANCE

(2)

Il arrive souvent qu’on veuille savoir s’il y a un lien entre deux ou plusieurs variables statistiques sur une même population.

Par exemple, si on fait une enquête on pourrait s’intéresser à l’âge, le sexe, le salaire, l’état civil, le niveau de scolarité, la langue maternelle,

etc.

Ensuite on pourrait s’intéresser à voir s’il y a un lien entre le salaire et le sexe par exemple.

Pour des raisons de simplicité, nous n’allons que regarder deux variables statistiques à la fois.

(3)

Considérons une population ou un échantillon.

Intéressons-nous à deux variables statistiques

X Y

pouvant être des variables statistiques qualitatives ou quantitatives.

Ayant comme modalités X = {x1, x2, . . . , xk}

Y = {y1, y2, . . . , yp}

Si les variables sont continues, on les regroupera par classes pour n’avoir qu’un nombre fini de modalités.

(4)

Par exemple on pourrait prendre comme population les enseignants d’un cégep.

X = {[20, 30[, [30, 40[, [40, 50[, [50, 60[}

Y = {Mari´e, C´elibataire, Divorc´e, Veuf, Autre} : L’état civil

: L’âge Y X

Dans ce cas on pourrait avoir comme modalités

Avec les données recueillies pour ces variables, on les présente dans un tableau qu’on nomme tableau de contingence

(5)

[20, 30[

[30, 40[

[40, 50[

[50, 60[

Marié Célibataire Veuf Divorcé Autre Totaux

Totaux

4 22 30 22

41 15 12 10

0 0 4 12

0 17 25 16

0 0 2 4

57 92 74 27

78 108 16 58 6 250

(6)

Tableau de contingence

le nombre d’individus ayant la modalité pour la variable statistique et la modalité pour la variable statistique

yi xi

Y X

Effectifs partielles de et xi yi

y1 y2 . . . yj . . . yp Totaux x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np N ou n

(7)

Tableau de contingence

n2 =

Xk

t=1

nt2 n2 =

Xp

t=1

n2t

Effectifs marginaux de Y Effectifs marginaux de X y1 y2 . . . yj . . . yp Totaux x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np N ou n

(8)

Distribution de X Distribution de Y

Tableau de contingence

y1 y2 . . . yj . . . yp Totaux x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np N ou n

(9)

Tableau de contingence

y1 y2 . . . yj . . . yp Totaux x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np N ou n

fij = nij

Fréquence relative partielle N fij = nij n

(10)

Tableau de contingence

y1 y2 . . . yj . . . yp Totaux x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np N ou n

fxi|yj = nij nj Fréquences relatives conditionnelles

fyj|xi = nij ni

(11)

Tableau de contingence

y1 y2 . . . yj . . . yp Totaux x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np N ou n

fj = nj N fi = ni

N Fréquences relatives marginales

fj = nj n fi = ni

n

(12)

Faites les exercices suivants

#5.1

(13)

Test d’indépendance

(14)

y1 y2 . . . yj . . . yp Totaux x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np N ou n

est indépendante de si pour tous

fyj|x1 = fyj|x2 = · · · = fyj|xk = fj

Y X j

(15)

y1 y2 . . . yj . . . yp Totaux x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np N ou n

et est indépendante de si pour tousX Y

fxi|y1 = fxi|y2 = · · · = fxi|yp = fi i

Naturellement, si est indépendante de alors est indépendante Y X X Y

(16)

Supposons que les deux variables statistiques sont indépendantes.

alors pour tous et pour tous i j nij

ni = nj N

nij = ninj N

On nomme ces effectifs les effectifs théoriques puisque ce sont les effectifs qu’on devrait avoir si les variables sont indépendantes

= Tij

(17)

C’est donc en comparant les effectifs partiels aux effectifs théoriques qu’on peut mesurer à quels points nos variables dépendent l’une de

l’autre

Dans les faits, on travaille avec des échantillons plutôt qu’avec la population au complet.

Donc les écarts entre les effectifs partiels observés et les effectifs

théoriques peuvent être imputés au fait qu’on est dans un échantillon.

On va donc faire un test d’hypothèse sur l’indépendance des variables statistiques.

(18)

y1 y2 . . . yj . . . yp Totaux x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np n

Oij = nij Effectif observé

Tij = ninj n

Effectif théorique

Si les variables sont indépendantes Tij = Oij

(19)

Par contre si les Tij 6= Oij

c’est peut-être dû au hasard d’échantillonnage

Pour vérifier si l’écart est dû au hasard d’échantillonnage ou au fait que les variables sont interdépendantes, on fait un test

d’indépendance en utilisant comme hypothèse nulle : et sont indépendantes

H0 X Y

Comment obtenir la zone d’acceptation?

2 =

Xk

i=1

Xp

j=1

(Oij Tij)2 Tij

On calcule une statistique qu’on nomme le 2

(20)

2 =

Xk

i=1

Xp

j=1

(Oij Tij)2 Tij

C’est bien beau calculer cette grosse somme, mais on doit savoir quoi faire avec le résultat.

Naturellement plus le est grand plus on doit s’attendre à rejeter l’hypothèse nulle.

2

Par contre on doit tenir en compte la taille du tableau de contingence, car plus il est gros plus on additionne des écarts et donc plus grand

sera le .2

On va donc regardé dans une table de avec degré de liberté2 d

(21)

On va donc regardé dans une table de avec degré de liberté2 d y1 y2 . . . yj . . . yp Totaux

x1 n11 n12 . . . n1j . . . n1p n1 x2 n21 n22 . . . n2j . . . n2p n2

... ... ... ... ... ... ...

xi ni1 ni2 . . . nij . . . nip ni

... ... ... ... ... ... ...

xk nk1 nk2 . . . nkj . . . nkp nk

Totaux n1 n2 . . . nj . . . np n

d = (k 1)(p 1)

(22)

Donc on peut faire un test d’indépendance entre deux variables statistique.

Lorsqu’on rejette l’hypothèse, ça veut dire que les variables sont interdépendantes.

Mais à quel point?

Il existe plusieurs façons de mesurer l’interdépendance en fonction du contexte. On nomme ces mesures les coefficients d’association.

Le plus courant et le seul que nous verrons est le coefficient de contingence

C =

s 2

2 + n

(23)

Le plus courant et le seul que nous verrons est le coefficient de contingence

C =

s 2

2 + n

On peut aisément vérifier que 0  C < 1

0 1

Indépendant interdépendance forte

C

(24)

Faites les exercices suivants

#5.2 à 5.7

(25)

On peut aussi utiliser le test du 2

pour vérifier si une distribution donnée suit une certaine loi.

Mais pour ça, commençons par préciser comment on trouve le degré de liberté à utiliser dans la loi du 2

Le degré de liberté d’une loi du est le nombre de termes de la somme

2

moins le nombre de paramètres provenant des données observées qu’on doit utiliser dans le calcul des effectifs théoriques

Test d’ajustement

Xk

i=1

(Oi Ti)2 Ti

(26)

Exemple

Supposons qu’on ait une liste de 250 chiffres qu’on dit aléatoire. Si ces chiffres sont vraiment aléatoires, il est naturel de supposer que la fréquence de ces chiffres soit distribuée uniformément.

H0 : X ⇠ U H1 : X ⌧ U ↵ = 0, 05

Il y a 10 chiffres donc il y aura 10 termes dans le calcul du 2

Pour calculer la fréquence théorique, on n’a besoin que d’un nombre soit 250

Donc le degré de liberté est 9.

Donc si 2 > 16, 92 on rejettera H0

(27)

Exemple

Supposons qu’on ait une liste de 250 chiffres qu’on dit aléatoire. Si ces chiffres sont vraiment aléatoires, il est naturel de supposer que la fréquence de ces chiffres soit distribuée uniformément.

01 2 34 5 6 78 9

2829 25 2621 34 20 1724 26

2525 25 2525 25 25 2525 25 Ti

Oi Oi Ti 34

0 -41

9 -5 -8-1 1

(Oi Ti)2 169

0 161 81 25 641

1 Donc si

2 > 16, 92

(28)

Exemple

Supposons qu’on ait une liste de 250 chiffres qu’on dit aléatoire. Si ces chiffres sont vraiment aléatoires, il est naturel de supposer que la fréquence de ces chiffres soit distribuée uniformément.

(Oi Ti)2 169

0 161 81 25 641

1 Donc si

2 > 16, 92

(29)

Exemple

Supposons qu’on ait une liste de 250 chiffres qu’on dit aléatoire. Si ces chiffres sont vraiment aléatoires, il est naturel de supposer que la fréquence de ces chiffres soit distribuée uniformément.

(Oi Ti)2

9 16 0 1 16 81 25 64 1 1

2 = 9

25 + 16

25 + 0

25 + 1

25 + 16

25 + 81

25 + 25

25 + 64

25 + 1

25 + 1 25

= 214

25 = 8, 56 < 16, 92

Donc on accepte H0 Donc si

2 > 16, 92

(30)

Faites les exercices suivants

#5.8 à 5.11

(31)

Devoir:

# 5.1 à 5.11

Références

Documents relatifs

Si deux variables sont statistiquement indépendantes (aucun lien), la corrélation est nulle, mais l’inverse est faux : il peut exister un lien autre que linéaire entre elles...

On trace au jugé une droite D (on peut s’aider du point moyen) en s’efforcant d’équilibrer le nombre de points situés de part et d’autre. Ensuite on détermine par

le coefficient de corrélation dont la valeur absolue est la plus proche de 1 est le coefficient r 2 qui correspond au modèle de régression exponentielle.. C'est ce modèle qui

• Montrons que toutes les solutions de l’équation y′= ky so nt des fo nctio ns d e la forme x→ Ae kx avec A un réel.. On considère à présent une fonction g solution

Calculer de deux manière différentes, à l'aide des tableaux suivants, sa moyenne, sa variance et son écart-type. Puis retrouver ses résultats à l'aide de

Les statistiques à deux variables doivent avoir été paramétrées comme indiqué ci-dessus Choisissez le menu STAT.. Choisissez CALC en appuyant sur F2 Choisissez REG en appuyant sur F3

alors le critère concorGM de type procruste (toutes les métriques Mi et Nj sont les métriques identité), et les modifications successives des tableaux Xi sont

5) Ecrire l’équation cartésienne de la droite passant par les deux points moyens On trouve ainsi l’équation de la droite de Mayer. On doit remplacer x par 14 pour répondre à