DESCRIPTIVES BIVARIÉES SUITE ET FIN
Julie Scholler - Bureau B246
Décembre 2019
V. Deux caractères quantitatifs
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
-20 -10 0 10
20 30 40 50 60
Sur estimation selon le nombre de bonnes réponses :ρ=-0.30
4 8 12 16 20
20 30 40 50 60
Note selon le nombre de bonnes réponses :ρ=0.99
2 4 6 8 10
1.0 1.5 2.0 2.5 3.0
Nombre de bonnes réponses en éco selon l’année :ρ=0.24
5 10 15 20
5 10 15 20
Note en littérature selon la note en éco :ρ=0.12
0 5 10 15 20
0 5 10 15 20
Note en littérature selon la note en géo :ρ=0.48
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
V. Deux caractères quantitatifs
X
i
(y
i− y ˆ
i)
2minimale
(y1−yˆ1)
(y2−yˆ2)
(y3−yˆ3) (y4−yˆ4)
(y5−yˆ5)
Ajustement linéaire
(x,y) : couple de variables statistiques quantitatives Droite de régression linéaire (des moindres carrés) Il s’agit de la droite d’équation y = ax + b avec
a = Cov(x,y)
V(x) = Cov(x,y) σx2 b = y −ax
Note totale selon le nombre de bonnes réponses en maths DY/X : y = 0.78x + 6.64
V. Deux caractères quantitatifs
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
X
i
(yi − yˆi)2 minimale
(y1−yˆ1) (y2−yˆ2) (y3−yˆ3) (y4−yˆ4)
(y5−yˆ5)
X
i
(xi −xˆi)2 minimale
(x1−ˆx1) (x2−xˆ2) (x3−xˆ3)
(x4−xˆ4)
(x5−ˆx5)
V. Deux caractères quantitatifs
Ajustement linéaire
(x,y) : couple de variables statistiques quantitatives Droite de régression linéaire de Y selon X
Il s’agit de la droite d’équation y = ax + b avec
a = Cov(x,y)
V(x) = Cov(x,y) σx2 b = y −ax
Droite de régression linéaire de X selon Y Il s’agit de la droite d’équation x = a0y +b0 avec
a0 = Cov(x,y)
V(y) = Cov(x,y) σy2 b0 = x −a0y
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
V. Deux caractères quantitatifs
On a toujours
(x,y) ∈ DY/X et (y,x) ∈ DX/Y
Propriété
DY/X et DX/Y s’intersectent au point moyen.
Choix entre les deux droites selon le contexte
4 8 12 16 20
0.0 2.5 5.0 7.5 10.0
Note totale selon la réussite en maths :ρ=0.70
-20 -10 0 10
20 30 40 50 60
Sur estimation selon le nombre de bonnes réponses :ρ=-0.30
5 10 15 20
20 30 40 50 60
Note selon le nombre de bonnes réponses :ρ=0.99
2 4 6 8 10
1.0 1.5 2.0 2.5 3.0
Nombre de bonnes réponses en éco selon l’année :ρ=0.24
5 10 15 20
0 5 10 15 20
Note en littérature selon la note en éco :ρ=0.12
5 10 15 20
0 5 10 15 20
Note en littérature selon la note en géo :ρ=0.48
V. Deux caractères quantitatifs
Quand est-il justifié de faire une régression linéaire ?
• expérience, allure générale du nuage
• méthode de statistique inférentielle (économétrie)
• angle entre les deux droites de régression
• + il est fermé + la liaison est intense
• attention à l’échelle des axes
• observations des résidus (écarts à la droite)
Qualité de la régression
• (x,y) : couple de variables statistiques quantitatives
• (xi,yi) : couples d’observations
• DY/X : y = ax +b
• ybi = axi + b Question
Que gagne-t-on à estimer une valeur de y par la droite de régression plutôt que par la valeur moyenne ?
Erreur si estimation par la moyenne : yi − y Erreur si estimation via la droite : yi −ybi
V. Deux caractères quantitatifs
Qualité de la régression
Somme des carrés des résidus : SCR =
n
X
i=1
(yi − byi)2
Somme des carrés totaux : SCT =
n
X
i=1
(yi − y)2(= nV(y))
Part des écarts à la moyenne non expliquée par la droite de régression linéaire
SCR SCT =
Pn
i=1(yi −ybi)2 Pn
i=1 (yi − y)2
Part des écarts à la moyenne expliquée par la droite de régression linéaire
SCT − SCR
SCT = Cov(x,y)2
V(x)V(y) = ρ2xy
→ coefficient de détermination Propriétés
• 0 6 ρ2xy 6 1
• ρ2xy = a × a0
• Quand ρ2 = 1, a = 1
a0. Les deux droites sont confondues.
V. Deux caractères quantitatifs
Exemple 3 Exemple 4
Exemple 1 Exemple 2
5 10 15 5 10 15
5.0 7.5 10.0 12.5
5.0 7.5 10.0 12.5
Pour tous : ρ '0.82 et ρ2 ' 0.67
Exemple 3 Exemple 4
Exemple 1 Exemple 2
5 10 15 5 10 15
5.0 7.5 10.0 12.5
5.0 7.5 10.0 12.5
Pour tous : ρ '0.82 et ρ2 ' 0.67
V. Deux caractères quantitatifs
Observation des résidus
https://gallery.shinyapps.io/slr_diag/
Corrélation n’est pas causalité.
Murders by steam
Age of Miss America
Age of Miss America
correlates with
Murders by steam, hot vapours and hot objects
Murders by steam Age of Miss America
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
2 murders 4 murders 6 murders 8 murders
18.75 yrs 20 yrs 21.25 yrs 22.5 yrs 23.75 yrs 25 yrs
tylervigen.com
V. Deux caractères quantitatifs
Margarine consumed
Divorce rate in Maine
Divorce rate in Maine
correlates with
Per capita consumption of margarine
Margarine consumed Divorce rate in Maine
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
2lbs 4lbs 6lbs 8lbs
3.96 per 1,000 4.29 per 1,000 4.62 per 1,000 4.95 per 1,000
tylervigen.com
Uranium US power plants
Math doctorates
Math doctorates awarded
correlates with
Uranium stored at US nuclear power plants
Uranium US power plants Math doctorates
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
40 million pounds 60 million pounds 80 million pounds 100 million pounds
800 degrees 1200 degrees 1600 degrees 2000 degrees
tylervigen.com
Régression non linéaire
• Le lien n’est pas toujours linéaire.
• On cherche une relation parmi les fonctions classiques
• exponentielles
• puissances
• logarithmes
• Comment choisir : observation, multiples essais puis observation
V. Deux caractères quantitatifs
Exemple
200 400 600
10 20 30 40
y selon x :ρ= 0.97
5.0 5.5 6.0 6.5
10 20 30 40
ln(y) selon x : ρ= 0.98
Cas exponentiel
Modèle de la forme : y = β × αx Relation linéaire entre : ln(y) et x
y = β × xα ⇐⇒ ln(y) = ln(β) + ln(α)x
• Le logarithme de y est fonction linéaire de x.
V. Deux caractères quantitatifs
On part de la relation : ln(y) = ax + b.
20
X
i=1
xi = 462
20
X
i=1
xi2 = 14392
20
X
i=1
ln(yi) = 114.2279
20
X
i=1
ln(yi)xi = 2819.005
On obtient a ' 0.04848 et b ' 4.5915 : ln(y) ' 0.04848x + 4.5915.
D’où
y ' 98.64× 1.05x
200 400 600
10 20 30 40
y selon x
200 400 600
0 10 20 30 40
y selon x
V. Deux caractères quantitatifs
Cas puissance
Modèle de la forme : y = β × xα Relation linéaire entre : ln(y) et ln(x)
y = β ×xα ⇔ ln(y) = ln(β) +αln(x)
• Le logarithme de y est fonction linéaire du logarithme de x.
• Cas des fonctions à élasticité constante.
• Contient plein de cas selon la valeur de a.
xkcd.com