DESCRIPTIVES BIVARIÉES SUITE
Julie Scholler - Bureau B246
Novembre 2019
IV. Cas avec une variable quantitative
Lien baccalauréat-bonnes réponses en maths
Bac ES Bac S
0.0 2.5 5.0 7.5 10.0
Nombre de bonnes réponses en Maths
Sériedubac
ES S ES et S
Effectifs 70 55 125
Moyenne 4.69 6.2 5.35
Variance 3.9869 2.4145 3.8601
Vintra ' 3.2951
Vinter ' 0.5650
ηX2|Y ' 0.1464
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths
-20 -10 0 10
20 30 40 50 60
Sur estimation selon le nombre de bonnes réponses
4 8 12 16 20
20 30 40 50 60
Note selon le nombre de bonnes réponses
2 4 6 8 10
1.0 1.5 2.0 2.5 3.0
Nombre de bonnes réponses en éco selon l’année
0 5 10 15 20
5 10 15 20
Note en littérature selon la note en éco
0 5 10 15 20
0 5 10 15 20
Note en littérature selon la note en géo
V. Deux caractères quantitatifs
Note totale et année de Licence
• x : nombre de bonnes réponses au thème Maths
• y : note au thème économie obtenue au QCM de culture générale
Nb juste maths
Note totale
[0,4[ [4,8[ [8,12[ [12,16[ [16,20]
[0,4[ 0 11 11 0 0
[4,6[ 0 3 32 7 0
[6,8[ 0 4 26 17 0
[8,10] 0 0 0 16 2
Distributions conditionnelles et marginales
x
y [0,4[ [4,8[ [8,12[ [12,16[ [16,20] Marginale
[0,4[ 0 11 11 0 0 22
[4,6[ 0 3 32 7 0 42
[6,8[ 0 4 26 17 0 47
[8,10] 0 0 0 16 2 18
Marginale 0 18 69 40 2 129
V. Deux caractères quantitatifs
Distributions conditionnelles et marginales
x
y [0,4[ [4,8[ [8,12[ [12,16[ [16,20] Moy. condi. Var. condi.
[0,4[ 0 11 11 0 0 8 4
[4,6[ 0 3 32 7 0 10.381 3.664
[6,8[ 0 4 26 17 0 11.106 5.925
[8,10] 0 0 0 16 2 14.444 1.580
Marginale 0 18 69 40 2 10.806 7.536
Vintra ' 4.254 et Vinter ' 3.282 η2 = Vinter
Vtotale ' 44%
Lien entre bonnes réponses en maths et note finale
ηX2|Y ' 44%
[0,4[
[4,6[
[6,8[
[8,10]
4 8 12 16 20
Note totale
Bonnesréponses
V. Deux caractères quantitatifs
Covariance
Observations : (x1,y1),(x2,y2), . . . ,(xi,yi), . . . ,(xn,yn) Covariance de X et Y
Cov(x,y) = 1 n
n
X
i=1
(xi − x)(yi −y) En pratique, on utilise
Cov(x,y) = 1 n
n
X
i=1
(xiyi) −x ×y
Variance de X
V(x) = 1 n
n
X
i=1
(xi − x)2 = 1 n
n
X
i=1
xi2
!
−x2
x
y [0,4[ [4,8[ [8,12[ [12,16[ [16,20] Marginale
[0,4[ 0 11 11 0 0 22
[4,6[ 0 3 32 7 0 42
[6,8[ 0 4 26 17 0 47
[8,10] 0 0 0 16 2 18
Marginale 0 18 69 40 2 129
x = 669.5
129 ' 5.345 y ' 10.806
129
X
i=1
xiyi ' 7959
Cov(x,y) = 1 129
129
X
i=1
xiyi − x × y ' 3.9396
V. Deux caractères quantitatifs
Nombre de bonnes réponses et sur-estimation
• x : nombre de bonnes réponses en tout
• y : différence entre le nombre de bonnes réponses obtenues et le nombre de bonnes réponses estimées
129
X
i=1
xi = 4 350
129
X
i=1
yi = −139
129
X
i=1
xiyi = −6 728 Cov(x,y) ' −16
x y
(xi −x) (yi −y)> 0 (xi −x) (yi −y)< 0
(xi −x) (yi −y)< 0 (xi −x) (yi −y)> 0
+ +
+
+ +
+ +
+ +
+ +
+
+
+ +
+
+
+
+
+
++
+
+ + ++
+
+ +
+ +
+
+
+ +
+ +
+ +
+
+ +
+
+ +
+
+
+
+
Covariance positive
V. Deux caractères quantitatifs
+ + +
+ +
+ +
+
+ +
+ +
+
+ + +
+
+ + + +
+ +
+ ++
+
+ + +
+ + +
+ +
+ + + + +
+
+ +
+ +
+ + +
+ +
Covariance négative
x y
(xi −x) (yi −y)> 0 (xi −x) (yi −y)< 0
(xi −x) (yi −y)< 0 (xi −x) (yi −y)> 0
+ +
+
+ +
+
+ +
+ +
+
+
+
+
+
+ +
+ +
+
+ +
+ +
+
+
+
+ +
+ +
+
+
+
+ +
+
+
+
+
+ +
+ +
+ +
+
+ +
+ +
+ +
+ +
+ + +
+
+ +
+
+
+
+
+
+
+
+ +
++
+
+
+ +
+ +
+
+ +
+
+
+ +
+ +
+
+ +
+
+ +
+
+ +
+
+
+ +
Covariance nulle
y
x
(xi −x) (yi −y)> 0 (xi −x) (yi −y)< 0
(xi −x) (yi −y)< 0 (xi −x) (yi −y)> 0
V. Deux caractères quantitatifs
+
+
+ +
+ + +
+
+
+ +
+ +
+ +
+
+ +
+ +
+ +
+ +
+
+ +
+
+ +
+ + + +
+
+
+
+ + +
+ +
+
+
+ + + +
+
+
+ +
+
+
+ +
+ +
+ +
+
+ + +
+
+ +
+ +
+ +
+ +
+ +
+
+ +
+ +
+
+ +
+ +
+
+ +
+ +
+
+ + +
+
+
+ +
+ + + +
+ + + +
+
+ +
+
+
+ + +
+ +
+ + + +
+ +
+ + + +
+ + +
+
+
+ +
+ +
+ +
+ + +
+
+ +
+
+
+
+ + +
+
+ +
+ +
+ +
+
+
+ +
+ +
+ + +
+
+
+
+ +
+
+
+ +
+
+ +
+
+
+ +
+ +
+ +
+
+ +
+
+ +
+
+ + + +
+ +
+
+ +
+
+
+ +
+ + +
+ +
+
+
+
+ +
+
+ +
+ + +
+ +
+
+
+
+ +
+ +
+ +
+ +
+
+
+
+ ++
+ + +
+
+ +
+
+
+
+ +
+
+
+ + +
+ +
+
+ + +
+
+ +
+
+ +
+
+ + +
+
+
+ +
+ + +
+ + +
+ +
+ +
+
+
+ + +
+
+
+
+
+ +
+ + +
+
+ +
+
+
+ +
+
+ +
+
+
+ +
+
+ +
+ +
+ +
+ +
+ +
+
+
+ + +
+ +
+ +
+ +
+ + +
+ +
+ +
+
+ + +
+ +
+ + +
+ +
+ +
+ + +
+
+ + +
+
+ +
+ +
+ +
+ +
+
+
+ + +
+
+ +
+ +
+
+ +
+
+
+ +
+ +
+
+ + +
+
+ + +
+ +
+ +
+
+ + +
+
+ +
+ +
+
+
+
+ +
+
+ +
+ +
+ +
+ + +
+
+ + +
+ + +
+ +
+
+ +
+ + + +
+ +
+ +
+ +
+
+ +
+ +
+
+ +
+ +
+ +
+
+ +
+
+ +
+
+ + +
+
+ +
+
+ +
+ +
+ +
+ +
+
+
+ +
+ + +
+ +
+ +
+ +
+ +
+
+
Covariance nulle
y
x
(xi −x) (yi −y)>0 (xi −x) (yi −y)< 0
(xi −x) (yi −y)< 0 (xi −x) (yi −y) >0
Remarque sur la covariance
• la covariance ne « mesure bien » que les liens linéaires.
• si Cov(x,y) > 0, on dit que les variables sont corrélées positivement :
« quand x augmente, y a tendance à augmenter également ».
• si Cov(x,y) < 0, on dit que les variables sont corrélées négativement :
« quand x augmente, y a tendance à diminuer également ».
• sa valeur dépend fortement des unités.
V. Deux caractères quantitatifs
Coefficient de corrélation linéaire ρx,y = Cov(x,y)
σxσy = Cov(x,y) pV(x)V(y)
Propriétés
• −1 6 ρx,y 6 1
• plus ρx,y est proche de 1 ou de -1, plus le lien entre les variables est fort.
x
y [0,4[ [4,8[ [8,12[ [12,16[ [16,20] Marginale
[0,4[ 0 11 11 0 0 22
[4,6[ 0 3 32 7 0 42
[6,8[ 0 4 26 17 0 47
[8,10] 0 0 0 16 2 18
Marginale 0 18 69 40 2 129
Cov(x,y) = 1 129
129
X
i=1
xiyi − x × y ' 3.94
V(x) ' 5.10 et V(y) ' 7.54 ρx,y ' 0.64 (' 0.70)
V. Deux caractères quantitatifs
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
-20 -10 0 10
20 30 40 50 60
Sur estimation selon le nombre de bonnes réponses :ρ=-0.30
4 8 12 16 20
20 30 40 50 60
Note selon le nombre de bonnes réponses :ρ=0.99
2 4 6 8 10
1.0 1.5 2.0 2.5 3.0
Nombre de bonnes réponses en éco selon l’année :ρ=0.24
5 10 15 20
5 10 15 20
Note en littérature selon la note en éco :ρ=0.12
0 5 10 15 20
0 5 10 15 20
Note en littérature selon la note en géo :ρ=0.48
Devinez le coefficient de corrélation linéaire :
https://gallery.shinyapps.io/correlation_game/
V. Deux caractères quantitatifs
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
Ajustement linéaire
Recherche d’une droite (d’équation y = ax + b) passant
« au milieu » du nuage de point
au milieu : minimisant les écarts yi −ybi au carré avec ybi = axi +b
V. Deux caractères quantitatifs
X
i
(y
i− y ˆ
i)
2minimale
(y1−yˆ1)
(y2−yˆ2)
(y3−yˆ3) (y4−yˆ4)
(y5−yˆ5)
Trouvez la droite de régression linéaire à tâtons :
http://shinyapps.org/showapp.php?app=https:
//tellmi.psy.lmu.de/felix/lmfit&by=Felix%20Sch%C3%
B6nbrodt&title=Find-a-fit!&shorttitle=Find-a-fit!
V. Deux caractères quantitatifs
Méthode d’obtention de la droite de régression linéaire
On veut minimiser la somme :
n
X
i=1
(yi −yˆi)2
Cela revient à déterminer le minimum de la fonction F de deux variables a et b définie par :
F(a,b) =
n
X
i=1
(yi − axi − b)2
(x,y) : couple de variables statistiques quantitatives Droite de régression linéaire (des moindres carrés) Il s’agit de la droite d’équation y = ax + b avec
a = Cov(x,y)
V(x) = Cov(x,y) σx2 b = y −ax
V. Deux caractères quantitatifs
Application
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
Application - Note totale et bonnes réponses en maths
x ' 5.345, y ' 10.806, V(x) ' 5.10, Cov(x,y) ' 3.9396
a = Cov(x,y)
V(x) ' 0.78 et b = y − ax ' 6.64
D : y = 0.78x + 6.64
V. Deux caractères quantitatifs
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
-20 -10 0 10
20 30 40 50 60
Sur estimation selon le nombre de bonnes réponses :ρ=-0.30
V. Deux caractères quantitatifs
Application
Nombre de bonnes réponses et sur estimation
129
X
i=1
xi = 4 350
129
X
i=1
yi = −139
129
X
i=1
xiyi = −6 728
129
X
i=1
xi2 = 155 068
129
X
i=1
yi2 = 5713
x ' 33.72, y ' −1.08, V(x) ' 64.98, Cov(x,y) ' −16
a = Cov(x,y)
V(x) ' −0.25 et b = y − ax ' 7.35 D : y = −0.25x + 7.35
-20 -10 0 10
20 30 40 50 60
Sur estimation selon le nombre de bonnes réponses :ρ=-0.30
V. Deux caractères quantitatifs
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
-20 -10 0 10
20 30 40 50 60
Sur estimation selon le nombre de bonnes réponses :ρ=-0.30
5 10 15 20
20 30 40 50 60
Note selon le nombre de bonnes réponses :ρ=0.99
2 4 6 8 10
1.0 1.5 2.0 2.5 3.0
Nombre de bonnes réponses en éco selon l’année :ρ=0.24
5 10 15 20
5 10 15 20
Note en littérature selon la note en éco :ρ=0.12
0 5 10 15 20
0 5 10 15 20
Note en littérature selon la note en géo :ρ=0.48
X
i
(yi − yˆi)2 minimale
(y1−yˆ1) (y2−yˆ2) (y3−yˆ3) (y4−yˆ4)
(y5−yˆ5)
X
i
(xi −xˆi)2 minimale
(x1−ˆx1) (x2−xˆ2) (x3−xˆ3)
(x4−xˆ4)
(x5−ˆx5)