Diapos-CM 4

(1)

DESCRIPTIVES BIVARIÉES SUITE

Julie Scholler - Bureau B246

Novembre 2019

IV. Cas avec une variable quantitative

Lien baccalauréat-bonnes réponses en maths

Bac ES Bac S

0.0 2.5 5.0 7.5 10.0

Nombre de bonnes réponses en Maths

Sériedubac

ES S ES et S

Effectifs 70 55 125

Moyenne 4.69 6.2 5.35

Variance 3.9869 2.4145 3.8601

V_intra ' 3.2951

V_inter ' 0.5650

η_X²_|Y ' 0.1464

(2)

4 8 12 16 20

0.0 2.5 5.0 7.5 10.0

Note totale selon la réussite en maths

-20 -10 0 10

20 30 40 50 60

Sur estimation selon le nombre de bonnes réponses

4 8 12 16 20

20 30 40 50 60

Note selon le nombre de bonnes réponses

2 4 6 8 10

1.0 1.5 2.0 2.5 3.0

Nombre de bonnes réponses en éco selon l’année

0 5 10 15 20

5 10 15 20

Note en littérature selon la note en éco

0 5 10 15 20

Note en littérature selon la note en géo

V. Deux caractères quantitatifs

Note totale et année de Licence

• x : nombre de bonnes réponses au thème Maths

• y : note au thème économie obtenue au QCM de culture générale

Nb juste maths

Note totale

[0,4[ [4,8[ [8,12[ [12,16[ [16,20]

[0,4[ 0 11 11 0 0

[4,6[ 0 3 32 7 0

[6,8[ 0 4 26 17 0

[8,10] 0 0 0 16 2

(3)

Distributions conditionnelles et marginales

x

y [0,4[ [4,8[ [8,12[ [12,16[ [16,20] Marginale

[0,4[ 0 11 11 0 0 22

[4,6[ 0 3 32 7 0 42

[6,8[ 0 4 26 17 0 47

[8,10] 0 0 0 16 2 18

Marginale 0 18 69 40 2 129

Distributions conditionnelles et marginales

x

y [0,4[ [4,8[ [8,12[ [12,16[ [16,20] Moy. condi. Var. condi.

[0,4[ 0 11 11 0 0 8 4

[4,6[ 0 3 32 7 0 10.381 3.664

[6,8[ 0 4 26 17 0 11.106 5.925

[8,10] 0 0 0 16 2 14.444 1.580

Marginale 0 18 69 40 2 10.806 7.536

V_intra ' 4.254 et V_inter ' 3.282 η² = V_inter

V_totale ' 44%

(4)

Lien entre bonnes réponses en maths et note finale

η_X²_|Y ' 44%

[0,4[

[4,6[

[6,8[

[8,10]

4 8 12 16 20

Note totale

Bonnesréponses

Covariance

Observations : (x₁,y₁),(x₂,y₂), . . . ,(x_i,y_i), . . . ,(x_n,y_n) Covariance de X et Y

Cov(x,y) = 1 n

n

X

i=1

(x_i − x)(y_i −y) En pratique, on utilise

Cov(x,y) = 1 n

n

X

i=1

(x_iy_i) −x ×y

Variance de X

V(x) = 1 n

n

X

i=1

(x_i − x)² = 1 n

n

X

i=1

x_i²

!

−x²

(5)

x

y [0,4[ [4,8[ [8,12[ [12,16[ [16,20] Marginale

[0,4[ 0 11 11 0 0 22

[4,6[ 0 3 32 7 0 42

[6,8[ 0 4 26 17 0 47

[8,10] 0 0 0 16 2 18

Marginale 0 18 69 40 2 129

x = 669.5

129 ' 5.345 y ' 10.806

129

X

i=1

x_iy_i ' 7959

Cov(x,y) = 1 129

129

X

i=1

x_iy_i − x × y ' 3.9396

Nombre de bonnes réponses et sur-estimation

• x : nombre de bonnes réponses en tout

• y : différence entre le nombre de bonnes réponses obtenues et le nombre de bonnes réponses estimées

129

X

i=1

xi = 4 350

129

X

i=1

yi = −139

129

X

i=1

xiyi = −6 728 Cov(x,y) ' −16

(6)

x y

(x_i −x) (y_i −y)> 0 (x_i −x) (y_i −y)< 0

(x_i −x) (y_i −y)< 0 (x_i −x) (y_i −y)> 0

+ +

+

+ +

+

+ +

+

++

+

+ + ++

+

+ +

+

+ +

+

+ +

+

+ +

+

Covariance positive

+ + +

+ +

+

+ +

+

+ + +

+

+ + + +

+ +

+ ++

+

+ + +

+ +

+ + + + +

+

+ +

+ + +

+ +

Covariance négative

x y

(x_i −x) (y_i −y)> 0 (x_i −x) (y_i −y)< 0

(x_i −x) (y_i −y)< 0 (x_i −x) (y_i −y)> 0

(7)

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+ + +

+

+ +

+

+ +

++

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

Covariance nulle

y

x

(x_i −x) (y_i −y)> 0 (x_i −x) (y_i −y)< 0

(x_i −x) (y_i −y)< 0 (x_i −x) (y_i −y)> 0

+

+ +

+ + +

+

+ +

+

+ +

+

+ +

+

+ +

+ + + +

+

+ + +

+ +

+

+ + + +

+

+ +

+

+ +

+

+ + +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ + +

+

+ +

+ + + +

+

+ +

+

+ + +

+ +

+ + + +

+ +

+ + + +

+ + +

+

+ +

+ + +

+

+ +

+

+ + +

+

+ +

+

+ +

+ + +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ + + +

+ +

+

+ +

+

+ +

+ + +

+ +

+

+ +

+

+ +

+ + +

+ +

+

+ +

+

+ ++

+ + +

+

+ +

+

+ +

+

+ + +

+ +

+

+ + +

+

+ +

+

+ +

+

+ + +

+

+ +

+ + +

+ +

+

+ + +

+

+ +

+ + +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ + +

+ +

+ + +

+ +

+

+ + +

+ +

+ + +

+ +

+ + +

+

+ + +

+

+ +

+

+ + +

+

+ +

+

+ +

+

+ +

+

+ + +

+

+ + +

+ +

+

+ + +

+

+ +

+

+ +

+

+ +

+ + +

+

+ + +

+ +

+

+ +

+ + + +

+ +

+

+ +

+

+ +

+

+ +

+

+ +

+

+ + +

+

+ +

+

+ +

+

+ +

+ + +

+ +

+

Covariance nulle

y

x

(x_i −x) (y_i −y)>0 (x_i −x) (y_i −y)< 0

(x_i −x) (y_i −y)< 0 (x_i −x) (y_i −y) >0

(8)

Remarque sur la covariance

• la covariance ne « mesure bien » que les liens linéaires.

• si Cov(x,y) > 0, on dit que les variables sont corrélées positivement :

« quand x augmente, y a tendance à augmenter également ».

• si Cov(x,y) < 0, on dit que les variables sont corrélées négativement :

« quand x augmente, y a tendance à diminuer également ».

• sa valeur dépend fortement des unités.

Coefficient de corrélation linéaire ρ_x_,y = Cov(x,y)

σ_xσ_y = Cov(x,y) pV(x)V(y)

Propriétés

• −1 6 ρ_x_,y 6 1

• plus ρ_x_,y est proche de 1 ou de -1, plus le lien entre les variables est fort.

(9)

x

y [0,4[ [4,8[ [8,12[ [12,16[ [16,20] Marginale

[0,4[ 0 11 11 0 0 22

[4,6[ 0 3 32 7 0 42

[6,8[ 0 4 26 17 0 47

[8,10] 0 0 0 16 2 18

Marginale 0 18 69 40 2 129

Cov(x,y) = 1 129

129

X

i=1

x_iy_i − x × y ' 3.94

V(x) ' 5.10 et V(y) ' 7.54 ρ_x_,y ' 0.64 (' 0.70)

4 8 12 16 20

0.0 2.5 5.0 7.5 10.0

Note totale selon la réussite en maths :ρ=0.70

-20 -10 0 10

20 30 40 50 60

Sur estimation selon le nombre de bonnes réponses :ρ=-0.30

4 8 12 16 20

20 30 40 50 60

Note selon le nombre de bonnes réponses :ρ=0.99

2 4 6 8 10

1.0 1.5 2.0 2.5 3.0

Nombre de bonnes réponses en éco selon l’année :ρ=0.24

5 10 15 20

Note en littérature selon la note en éco :ρ=0.12

0 5 10 15 20

Note en littérature selon la note en géo :ρ=0.48

(10)

Devinez le coefficient de corrélation linéaire :

https://gallery.shinyapps.io/correlation_game/

4 8 12 16 20

0.0 2.5 5.0 7.5 10.0

(11)

Ajustement linéaire

Recherche d’une droite (d’équation y = ax + b) passant

« au milieu » du nuage de point

au milieu : minimisant les écarts y_i −y_b_i au carré avec y_b_i = ax_i +b

X

i

(y

_i

− y ˆ

_i

)

²

minimale

(y₁−yˆ₁)

(y₂−yˆ₂)

(y₃−yˆ₃) (y4−yˆ4)

(y5−yˆ5)

(12)

Trouvez la droite de régression linéaire à tâtons :

http://shinyapps.org/showapp.php?app=https:

//tellmi.psy.lmu.de/felix/lmfit&by=Felix%20Sch%C3%

B6nbrodt&title=Find-a-fit!&shorttitle=Find-a-fit!

Méthode d’obtention de la droite de régression linéaire

On veut minimiser la somme :

n

X

i=1

(y_i −yˆ_i)²

Cela revient à déterminer le minimum de la fonction F de deux variables a et b définie par :

F(a,b) =

n

X

i=1

(y_i − ax_i − b)²

(13)

(x,y) : couple de variables statistiques quantitatives Droite de régression linéaire (des moindres carrés) Il s’agit de la droite d’équation y = ax + b avec







a = Cov(x,y)

V(x) = Cov(x,y) σ_x² b = y −ax

Application

4 8 12 16 20

0.0 2.5 5.0 7.5 10.0

(14)

Application - Note totale et bonnes réponses en maths

x ' 5.345, y ' 10.806, V(x) ' 5.10, Cov(x,y) ' 3.9396

a = Cov(x,y)

V(x) ' 0.78 et b = y − ax ' 6.64

D : y = 0.78x + 6.64

4 8 12 16 20

0.0 2.5 5.0 7.5 10.0

(15)

-20 -10 0 10

20 30 40 50 60

Application

Nombre de bonnes réponses et sur estimation

129

X

i=1

x_i = 4 350

129

X

i=1

y_i = −139

129

X

i=1

x_iy_i = −6 728

129

X

i=1

x_i² = 155 068

129

X

i=1

y_i² = 5713

x ' 33.72, y ' −1.08, V(x) ' 64.98, Cov(x,y) ' −16

a = Cov(x,y)

V(x) ' −0.25 et b = y − ax ' 7.35 D : y = −0.25x + 7.35

(16)

-20 -10 0 10

20 30 40 50 60

4 8 12 16 20

0.0 2.5 5.0 7.5 10.0

-20 -10 0 10

20 30 40 50 60

5 10 15 20

20 30 40 50 60

Note selon le nombre de bonnes réponses :ρ=0.99

2 4 6 8 10

1.0 1.5 2.0 2.5 3.0

Nombre de bonnes réponses en éco selon l’année :ρ=0.24

5 10 15 20

Note en littérature selon la note en éco :ρ=0.12

0 5 10 15 20

Note en littérature selon la note en géo :ρ=0.48

(17)

X

i

(y_i − yˆ_i)² minimale

(y1−yˆ1) (y₂−yˆ₂) (y3−yˆ3) (y₄−yˆ₄)

(y₅−yˆ₅)

X

i

(x_i −xˆ_i)² minimale

(x1−ˆx1) (x2−xˆ2) (x3−xˆ3)

(x₄−xˆ₄)

(x5−ˆx5)