C
HAPITRE2. S
TATISTIQUES DESCRIPTIVES BIVARIÉESJulie Scholler - Bureau B246
Novembre 2020
I. Introduction
Précédemment
• uniquement étude univariée des variables
• une fois selon les groupes définis par une variable qualitative
L1 L2 L3
4 8 12 16 20
Note totale selon l’année
I. Introduction
Observation des données brutes
Sexe Femme Femme Homme Femme Femme Homme Femme Homme
Année L1 L1 L1 L1 L1 L2 L1 L3
Sexe Femme Femme Homme Femme Femme Homme Femme Homme Bac Bac ES Bac S Bac ES Bac ES Bac ES Bac ES Bac S Bac S Année L1 L1 L1 L1 L1 L2 L1 L2 L2 L3 L1 L3 L3 L3 L3
Éco n juste 9 5 5 8 5 7 6 9 8 9 8 9 8 9 9
Année L1 L1 L1 L1 L1 L2 L1 L2 L3
Note éco [16,20] [8,12[ [8,12[ [16,20] [8,12[ [12,16[ [12,16[ [16,20] [12,16[
II. Notations
Tableau de contingence
• x1,x2, . . . ,xp : les p modalités de X
• y1,y2, . . . ,yq : les q modalités de Y
• ni,j : l’effectif des individus ayant pour caractère (xi,yj)
y1 y2 · · · yj · · · yq
x1 n1,1 n1,2 · · · n1,j · · · n1,q
x2 n2,1 n2,2 · · · n2,j · · · n2,q ... ... ... . .. ... ... xi ni,1 ni,2 · · · ni,j · · · ni,q
... ... ... ... . .. ... xp np,1 np,2 · · · np,j · · · np,q
II. Notations
Quelques exemples
Sexe
Année
L1 L2 L3 Homme 41 25 17 Femme 25 9 12
Année
Éco n juste
2 3 4 5 6 7 8 9 10 L1 1 2 2 11 7 16 15 12 0 L2 0 0 0 2 8 4 7 12 1
L3 0 0 2 2 2 3 9 8 3
Bac
Année
L1 L2 L3 Bac ES 39 16 15 Bac S 24 18 13 Bac STMG 2 0 1
Bac pro. 1 0 0
Année
Note éco
[0,4[ [4,8[ [8,12[ [12,16[ [16,20]
L1 0 4 17 26 19
L2 0 0 4 16 14
L3 0 2 3 7 17
II. Notations
Tableau de contingence
• n•j : effectif des individus prenant la modalité yj pour Y
• ni• : effectif des individus prenant la modalité xi pour X
• n•• = n : effectif total de la population
y1 y2 · · · yj · · · yq Total
x1 n1,1 n1,2 · · · n1,j · · · n1,q n1•
x2 n2,1 n2,2 · · · n2,j · · · n2,q n2•
... ... ... . .. ... ... ... xi ni,1 ni,2 · · · ni,j · · · ni,q ni•
... ... ... ... . .. ... ... xp np,1 np,2 · · · np,j · · · np,q np•
Total n•1 n•2 · · · n•j · · · n•q n••
II. Notations
L1 L2 L3 Total
Bac ES 39 16 15 70
Bac S 24 18 13 55
Bac STMG 2 0 1 3
Bac pro. 1 0 0 1
Total 66 34 29 129
Remarques
• n•• = 129, n•,3 = 29, n1,• = 70
• ni• =
q
X
j=1
nij et n•j =
p
X
i=1
nij
• n =
p
X
i=1
ni• =
q
X
i=1
n•j
II. Notations
Représentations graphiques
0 20 40 60
ES S STMG Pro.
Baccalauréat
Effectifs
0 10 20 30 40
ES S STMG Pro.
Baccalauréat
Effectifs
Année
L1 L2 L3
0 20 40 60
L1 L2 L3
Année
Effectifs
0 10 20 30 40
L1 L2 L3
Année
Effectifs
Bac
Bac ES Bac S Bac STMG Bac pro.
III. Distribution
Distribution jointe de (X,Y)
fréquences d’observations des différents couples de modalités fi,j = ni,j
n
Tableau des fréquences
y1 y2 · · · yj · · · yq
x1 f1,1 f1,2 · · · f1,j · · · f1,q ... ... ... . .. ... ... xi fi,1 fi,2 · · · fi,j · · · fi,q
... ... ... ... . .. ... xp fp,1 fp,2 · · · fp,j · · · fp,q
III. Distribution
Tableau des fréquences
Bac ES Bac S Bac STMG Bac pro.
L1 0.302 0.186 0.016 0.008
L2 0.124 0.140 0 0
L3 0.116 0.101 0.008 0
Tableau des fréquences avec marges
Bac ES Bac S Bac STMG Bac pro. Total
L1 0.302 0.186 0.016 0.008 0.512
L2 0.124 0.140 0 0 0.264
L3 0.116 0.101 0.008 0 0.225
Total 0.543 0.426 0.023 0.008 1
III. Distribution
Tableau des fréquences avec marges
y1 y2 · · · yj · · · yq Total
x1 f1,1 f1,2 · · · f1,j · · · f1,q f1•
... ... ... . .. ... ... ... xi fi,1 fi,2 · · · fi,j · · · fi,q fi•
... ... ... ... . .. ... ... xp fp,1 fp,2 · · · fp,j · · · fp,q fp•
Total f•1 f•2 · · · f•j · · · f•q f••
On a fi• =
q
X
j=1
fi,j f•j =
p
X
i=1
fi,j f•• =
q
X
j=1
f•j =
p
X
i=1
fi• = 1
III. Distribution
Distribution marginale de X
Il s’agit de la distribution univariée de X. Elle correspond aux fréquences suivantes :
fi• = ni•
n•• = ni• n
Distribution marginale de Y
Il s’agit de la distribution univariée de Y. Elle correspond aux fréquences suivantes :
f•j = n•j
n•• = n•j n
III. Distribution
Tableau des fréquences avec distributions marginales
Bac ES Bac S Bac STMG Bac pro. Marginale
L1 0.302 0.186 0.016 0.008 0.512
L2 0.124 0.140 0 0 0.264
L3 0.116 0.101 0.008 0 0.225
Marginale 0.543 0.426 0.023 0.008 1
III. Distribution
Distributions conditionnelles
Distribution conditionnelle de X sachant Y = yj
Il s’agit de la distribution de X parmi les individus prenant la modalité yj pour la variable Y.
Elle correspond aux fréquences suivantes : fi|yj = ni,j
n•j
X Y Bac ES Bac S Bac STMG Bac pro. Marginale
L1 0.557 0.436 0.667 1 0.512
L2 0.229 0.327 0 0 0.264
L3 0.214 0.236 0.333 0 0.225
Total 1 1 1 1 1
III. Distribution
Distribution conditionnelle de Y sachant X = xi
Il s’agit de la distribution de Y parmi les individus prenant la modalité xi pour la variable X.
Elle correspond aux fréquences suivantes : fj|xi = nij
ni•
X Y Bac ES Bac S Bac STMG Bac pro. Total
L1 0.591 0.364 0.030 0.015 1
L2 0.471 0.529 0 0 1
L3 0.517 0.448 0.034 0 1
Marginale 0.543 0.426 0.023 0.008 1
III. Distribution
Représentations graphiques
0.00 0.25 0.50 0.75 1.00
ES S STMG Pro.
Baccalauréat
Année L1 L2 L3
0.00 0.25 0.50 0.75 1.00
L1 L2 L3
Année
Bac
Bac ES Bac S
Bac STMG Bac pro.
IV. Cas avec une variable quantitative
Nombre de bonnes réponses en maths et bac
Bac
Nb. 0 1 2 3 4 5 6 7 8 9 10 Total
ES 1 4 5 8 15 13 12 3 9 0 0 70
S 0 0 1 1 6 8 14 17 5 1 2 55
STMG 0 1 0 1 0 0 0 0 0 0 1 3
Pro. 0 0 0 0 0 0 1 0 0 0 0 1
Total 1 5 6 10 21 21 27 20 14 1 3 129
Bac
Nb. 0 1 2 3 4 5 6 7 8 9 10 Total
ES 0.008 0.031 0.039 0.062 0.116 0.101 0.093 0.023 0.070 0 0 0.543 S 0 0 0.008 0.008 0.047 0.062 0.109 0.132 0.039 0.008 0.016 0.426
STMG 0 0.008 0 0.008 0 0 0 0 0 0 0.008 0.023
Pro. 0 0 0 0 0 0 0.008 0 0 0 0 0.008
Total 0.008 0.039 0.047 0.078 0.163 0.163 0.209 0.155 0.109 0.008 0.023 1
IV. Cas avec une variable quantitative
Nombre de bonnes réponses en maths et bac
Bac
Nb. 0 1 2 3 4 5 6 7 8 9 10 Total
ES 0.014 0.057 0.071 0.114 0.214 0.186 0.171 0.043 0.129 0 0 1 S 0 0 0.018 0.018 0.109 0.145 0.255 0.309 0.091 0.018 0.036 1
STMG 0 0.333 0 0.333 0 0 0 0 0 0 0.333 1
Pro. 0 0 0 0 0 0 1 0 0 0 0 1
Total 0.008 0.039 0.047 0.078 0.163 0.163 0.209 0.155 0.109 0.008 0.023 1
Bac
Nb. 0 1 2 3 4 5 6 7 8 9 10 Total
ES 1 0.8 0.833 0.8 0.714 0.619 0.444 0.15 0.643 0 0 0.543 S 0 0.0 0.167 0.1 0.286 0.381 0.519 0.85 0.357 1 0.667 0.426
STMG 0 0.2 0 0.1 0 0 0 0 0 0 0.333 0.023
Pro. 0 0 0 0 0 0 0.037 0 0 0 0 0.008
Total 1 1 1 1 1 1 1 1 1 1 1 1
IV. Cas avec une variable quantitative
Modalités de la variable qualitative
→ découpage en groupes de la population totale
Nouveaux outils pour l’étude du lien entre les deux variables
• comparaison des différents indicateurs des sous-groupes
• comparaison de diagrammes en boîte
Bac ES Bac S
0.0 2.5 5.0 7.5 10.0
Nombre de bonnes réponses en Maths
Série du b a c
IV. Cas avec une variable quantitative
Vidéos de Risque Alpha à propos de la variance expliquée (7 premières minutes)
https://www.youtube.com/watch?v=MSuFckow8ms&list=
PLjD7j1kR73YQiYXgVRhmQH56dRnN6UEIV&index=6
IV. Cas avec une variable quantitative
Moyennes marginale et conditionnelles
Moyenne marginale de X x = 1
n
p
X
i=1
ni•xi =
p
X
i=1
fi•xi
Moyenne conditionnelle de X conditionnée par Y = yj xj = 1
n•j
p
X
i=1
nijxi =
p
X
i=1
fi|yjxi
Dans notre exemple, parmi les bacs S et ES, on a : x = 669
125 ' 5.35 xES = 328
70 ' 4.69 xS = 341
55 = 6.2
IV. Cas avec une variable quantitative
Moyennes marginale et conditionnelles
Moyenne marginale de X x = 1
n
p
X
i=1
ni•xi =
p
X
i=1
fi•xi
Moyenne conditionnelle de X conditionnée par Y = yj xj = 1
n•j
p
X
i=1
nijxi =
p
X
i=1
fi|yjxi
Formule de décomposition de la moyenne x = 1
n
p
X
i=1
ni•xi
IV. Cas avec une variable quantitative
Variances marginale et conditionnelles
Variance marginale de X
V(X) = σX2 = 1 n
p
X
i=1
ni•(xi −x)2 =
p
X
i=1
fi•(xi −x)2
Variance conditionnelle de X conditionnée par Y = yj
Vyj(X) = 1 n•j
p
X
i=1
nijxi2 − x2j =
p
X
i=1
fi|yjxi2 −x2j
Dans notre exemple, parmi les bacs S et ES, on a :
V(X) ' 3.8601 V(XES) ' 3.9869 V(XS) ' 2.4145 σX ' 1.9647 σX,ES ' 1.9967 σX,S ' 1.5539
IV. Cas avec une variable quantitative
Décomposition de la variance
V(X) = 1 n
p
X
i=1
ni•Vi(X)
| {z }
variance intra-groupes
+ 1 n
p
X
i=1
ni•(xi −x)2
| {z }
variance inter-groupes
Variance inter-groupes
correspond à la variance de X si dans chaque groupe tous les individus prenaient comme valeur la moyenne au sein du groupe
• on parle aussi de variance expliquée par le découpage en groupe
Variance intra-groupes
correspond à la moyenne des variance des sous-groupes
• on parle aussi de variance résiduelle
IV. Cas avec une variable quantitative
Décomposition de la variance
V(X) = 1 n
p
X
i=1
ni•Vi(X)
| {z }
variance intra-groupes
+ 1 n
p
X
i=1
ni•(xi −x)2
| {z }
variance inter-groupes
Interprétation
• Si les variables sont liées, alors les groupes déterminés par la variable qualitative sont plus homogènes par rapport à la variable quantitative que la population totale.
• Plus les variables sont liées, plus la variance intra-groupes est faible et plus la variance inter-groupes est grande.
IV. Cas avec une variable quantitative
Mesure de lien
Rapport de corrélation
Le rapport de corrélation entre les variables X quantitative et Y qualitative la valeur suivante
ηX2|Y = Vinter VX
Propriétés
• 0 6 ηX2|Y 6 1
• Si η2X|Y = 0, alors Vinter = 0.
• Si η2X|Y = 1, alors Vintra = 0.
IV. Cas avec une variable quantitative
Propriétés
• Si ηX2|Y = 0, alors Vinter(X) = 0, tous les groupes ont la même moyenne.
Il n’y a pas de différence entre les groupes. La variance est uniquement due aux disparités au sein de chaque groupe.
• Si ηX2|Y = 1, alors Vintra = 0. Au sein de chaque groupe il n’y a pas de variation.
La variation de X est entièrement due à la différence entre groupes.
Interprétation
• Plus ηX2|Y est proche de 0, plus c’est la variation au sein de chaque groupe et non la différence entre les groupes qui influe sur les variations de X.
• Plus ηX2|Y est proche de 1, plus c’est la différence entre les groupes qui explique la variation du caractère X.
IV. Cas avec une variable quantitative
Retour au lien baccalauréat-bonnes réponses en maths
Bac ES Bac S
0.0 2.5 5.0 7.5 10.0
Nombre de bonnes réponses en Maths
Série du bac
ES S ES et S
Effectifs 70 55 125
Moyenne 4.69 6.2 5.35
Variance 3.9869 2.4145 3.8601
Vintra ' 3.2951 Vinter ' 0.5650 ηX2|Y ' 0.1464
IV. Cas avec une variable quantitative
Lien entre bonnes réponses en maths et note finale
Maths
Note totale
[0,4[ [4,8[ [8,10[ [10,12[ [12,16[ [16,20]
[0,4[ 0 11 5 6 0 0
[4,6[ 0 3 16 16 7 0
[6,8[ 0 4 12 14 17 0
[8,10] 0 0 0 0 16 2
ηX2|Y ' 44%
[0,4[
[4,6[
[6,8[
[8,10]
4 8 12 16 20