• Aucun résultat trouvé

C.Tuleau-Malot Probabilit´esetobservations´economiques

N/A
N/A
Protected

Academic year: 2022

Partager "C.Tuleau-Malot Probabilit´esetobservations´economiques"

Copied!
47
0
0

Texte intégral

(1)

egression lin´eaire simple test d’ad´equation

Probabilit´es et observations ´economiques

C. Tuleau-Malot

Universit´e de Nice - Sophia Antipolis

1/48

(2)

Plan

1 R´egression lin´eaire simple

2 test d’ad´equation

2/48

(3)

egression lin´eaire simple test d’ad´equation

Contexte

Exemple :

num´ero de l’observation X Y

population ´etudiante ventes trimestrielles

1 2 58

2 6 105

3 8 88

4 8 118

5 12 117

6 16 137

7 20 157

8 20 169

9 22 149

10 26 202

3/48

(4)

Contexte

Exemple :

Ces donn´ees sont des donn´ees relev´ees sur le terrain par une chaˆıne de fast food qui souhaite estimer le chiffre d’affaire d’un nouveau restaurant implant´e aux alentours d’un campus universitaire.

L’id´ee est d’essayer de regarder s’il existe un lien entre les ventes trimestrielles et la population ´etudiante.

4/48

(5)

egression lin´eaire simple test d’ad´equation

Vocabulaire

Cadre :

On cherche `a expliquer un ph´enom`ene Y (variable `a expliquer) `a l’aide d’une variableX (variable explicative).

5/48

(6)

Vocabulaire

Cadre :

On cherche `a expliquer un ph´enom`ene Y (variable `a expliquer) `a l’aide d’une variableX (variable explicative).

On dispose d’observations (x1,y1), . . . ,(xn,yn) qui sont des r´ealisations de variables (X1,Y1), . . . ,(Xn,Yn) qui sont des respectivement des variables ind´ependantes et identiquement distribu´ees de mˆeme loi que X et Y.

6/48

(7)

egression lin´eaire simple test d’ad´equation

Vocabulaire

Cadre :

On cherche `a expliquer un ph´enom`ene Y (variable `a expliquer) `a l’aide d’une variableX (variable explicative).

On dispose d’observations (x1,y1), . . . ,(xn,yn) qui sont des r´ealisations de variables (X1,Y1), . . . ,(Xn,Yn) qui sont des respectivement des variables ind´ependantes et identiquement distribu´ees de mˆeme loi que X et Y.

on veut regarder s’il existe une fonction f telle que : Y ≈f(X)

7/48

(8)

Vocabulaire (2)

1 2 3 4 5

−14−12−10−8−6−4−20

x

y

−3 −2 −1 0 1 2 3

051015202530

x

y

1 2 3 4 5

12345

x

y

8/48

(9)

egression lin´eaire simple test d’ad´equation

R´egression lin´eaire simple

Cadre :

on se limite au cadre des fonctions f qui sont lin´eaires⇒ f(x) =a.x+b

1 2 3 4 5

−12−10−8−6−4−20

y

9/48

(10)

R´egression lin´eaire simple

Cadre :

on se limite au cadre des fonctions f qui sont lin´eaires⇒ f(x) =a.x+b

1 2 3 4 5

−12−10−8−6−4−20

y

10/48

(11)

egression lin´eaire simple test d’ad´equation

R´egression lin´eaire simple

Cadre :

on se limite au cadre des fonctions f qui sont lin´eaires⇒ f(x) =a.x+b

1 2 3 4 5

−12−10−8−6−4−20

y

11/48

(12)

R´egression lin´eaire simple

Cadre :

on se limite au cadre des fonctions f qui sont lin´eaires⇒ f(x) =a.x+b

comment trouver aet b ⇒ estimation

12/48

(13)

egression lin´eaire simple test d’ad´equation

R´egression lin´eaire simple (2)

Mod`ele :

Yi =a+b.xii a etb : inconnus

ε1, . . . , εn: variables al´eatoires d’esp´erance nulle (bruit)

⇒ E[Yi] =a+b.xi

13/48

(14)

R´egression lin´eaire simple (2)

Objectifs :

estimer aet b

donner un intervalle de confiance pourb tester b= 0

faire des pr´evisions

14/48

(15)

R´egressionlin´eairesimpletestd’ad´equation

M oin d re s ca rr´e s

Principe:

12345

−12 −10 −8 −6 −4 −2 0

x

y

12345

−12 −10 −8 −6 −4 −2 0

12345

−12 −10 −8 −6 −4 −2 0

12345

−12 −10 −8 −6 −4 −2 0

12345

−12 −10 −8 −6 −4 −2 0

12345

−12 −10 −8 −6 −4 −2 0

12345

−12 −10 −8 −6 −4 −2 0

12345

−12 −10 −8 −6 −4 −2 0

12345

−12 −10 −8 −6 −4 −2 0

12345

−12 −10 −8 −6 −4 −2 0

15/48

(16)

Moindres carr´es

Formule :

F(a,b) =

n

X

i=1

(Yi−a−b.xi)2

on veut minimiser F fonction de deux variables

16/48

(17)

egression lin´eaire simple test d’ad´equation

Moindres carr´es

Formule :

F(a,b) =

n

X

i=1

(Yi−a−b.xi)2

on veut minimiser F fonction de deux variables solution :

(Bˆn=

Pn

i=1P(xni−¯xn).(YiY¯n)

i=1(xi−¯xn)2

n= ¯Yn−bˆn.¯xn

17/48

(18)

Moindres carr´es

Formule :

F(a,b) =

n

X

i=1

(Yi−a−b.xi)2 on veut minimiser F fonction de deux variables solution :

(Bˆn=

Pn

i=1P(xni−¯xn).(YiY¯n)

i=1(xi−¯xn)2

n= ¯Yn−bˆn.¯xn

n et ˆAn : estimateurs deb et a(variables al´eatoires) (bˆn=

Pn

i=1P(xni−¯xn).(yi−¯yn)

i=1(xi−¯xn)2

ˆ

an = ¯yn−bˆn.¯xn

estimations de b et a

18/48

(19)

egression lin´eaire simple test d’ad´equation

Coefficient de d´etermination

somme des carr´es des r´esidus : SCRres=

n

X

i=1

(yi−yˆi)2

19/48

(20)

Coefficient de d´etermination

somme des carr´es des r´esidus : SCRres=

n

X

i=1

(yi−yˆi)2 somme des carr´es totaux :

SCT =

n

X

i=1

(yi−y¯n)2

20/48

(21)

egression lin´eaire simple test d’ad´equation

Coefficient de d´etermination

somme des carr´es des r´esidus : SCRres=

n

X

i=1

(yi−yˆi)2 somme des carr´es totaux :

SCT =

n

X

i=1

(yi−y¯n)2 somme des carr´es de la r´egression :

SCRreg=

n

X

i=1

(ˆyi −y¯n)2

21/48

(22)

Coefficient de d´etermination

somme des carr´es des r´esidus : SCRres=

n

X

i=1

(yi−yˆi)2 somme des carr´es totaux :

SCT =

n

X

i=1

(yi−y¯n)2 somme des carr´es de la r´egression :

SCRreg=

n

X

i=1

(ˆyi −y¯n)2 SCT = SCRres+ SCRreg

22/48

(23)

egression lin´eaire simple test d’ad´equation

Coefficient de d´etermination (2)

Coefficient de d´etermination : R2= SCRreg

SCT = 1−SCRres SCT

23/48

(24)

Coefficient de d´etermination (2)

Coefficient de d´etermination : R2= SCRreg

SCT = 1−SCRres SCT

R2 = (rxy)2 avec : rxy =

Pn

i=1(xi−¯xn).(yi−¯yn)

Pn

i=1(xi−¯xn)2.Pn

i=1(yi−¯yn)2.

24/48

(25)

egression lin´eaire simple test d’ad´equation

Coefficient de d´etermination (2)

Coefficient de d´etermination : R2= SCRreg

SCT = 1−SCRres

SCT

R2 = (rxy)2 avec : rxy =

Pn

i=1(xi−¯xn).(yi−¯yn)

Pn

i=1(xi−¯xn)2.Pn

i=1(yi−¯yn)2.

le coefficient de d´etermination permet de dire `a quel point les points sont proches de la droite

le coefficient de d´etermination ne permet pas de conclure sur la significativit´e des r´esultats obtenus ⇒ intervalle de

confiance; tests

25/48

(26)

intervalle de confiance et test sur b

Pour faire un intervalle de confiance pour b ou un test surb, il faut des hypoth`eses suppl´ementaires sur la variable de loi!

εi : variable centr´ee

la variance des εi est la mˆeme pour toutes. On la noteσ2 les εi sont des variables ind´ependantes

les εi ont une distribution normale

26/48

(27)

egression lin´eaire simple test d’ad´equation

intervalle de confiance et test sur b

Pour faire un intervalle de confiance pour b ou un test surb, il faut des hypoth`eses suppl´ementaires sur la variable de loi!

εi : variable centr´ee

la variance des εi est la mˆeme pour toutes. On la noteσ2 les εi sont des variables ind´ependantes

les εi ont une distribution normale

⇒ les Yi sont des variablesN(a+b.xi, σ2)!

27/48

(28)

intervalle de confiance sur b

On admet le r´esultat suivant :

n∼ N(b, σ2 Pn

i=1(xi −x¯n)2

28/48

(29)

egression lin´eaire simple test d’ad´equation

intervalle de confiance sur b

On admet le r´esultat suivant :

n∼ N(b, σ2 Pn

i=1(xi −x¯n)2 il faut estimer σ2

ˆ σn2 =

Pn

i=1(yi −yˆi)2

n−2 = SCRres n−2

29/48

(30)

intervalle de confiance sur b

On admet le r´esultat suivant :

n∼ N(b, σ2 Pn

i=1(xi −x¯n)2) il faut estimer σ2

ˆ σn2 =

Pn

i=1(yi −yˆi)2

n−2 = SCRres n−2 on peut montrer que

(n−2)ˆσ2n

σ2 ∼χ2(n−2)

30/48

(31)

egression lin´eaire simple test d’ad´equation

intervalle de confiance sur b (2)

intervalle de confiance pour b : [ ˆBn−c; ˆBn+c]

⇒ identifierc

31/48

(32)

intervalle de confiance sur b (2)

intervalle de confiance pour b : [ ˆBn−c; ˆBn+c]

⇒ identifierc

on utilise le fait que : Bˆn−b

ˆ σn

Pn

i=1(xi−¯xn)2

∼ T(n−2)

32/48

(33)

egression lin´eaire simple test d’ad´equation

intervalle de confiance sur b (2)

intervalle de confiance pour b : [ ˆBn−c; ˆBn+c]

⇒ identifierc

on utilise le fait que : Bˆn−b

ˆ σn

Pn

i=1(xi−¯xn)2

∼ T(n−2)

on trouve c =t1−α/2.√Pn ˆσn i=1(xi−¯xn)2

33/48

(34)

Test sur b (2)

Test :

H0 :b= 0 Ha :b6= 0

34/48

(35)

egression lin´eaire simple test d’ad´equation

Test sur b (2)

Test :

H0 :b= 0 Ha :b6= 0 M´ethode :

on utilise le fait que sousH0, √PnBσˆˆnn i=1(xi−¯xn)2

∼ T(n−2)

35/48

(36)

Test sur b (2)

Test :

H0 :b= 0 Ha :b6= 0 M´ethode :

on utilise le fait que sousH0,Tn= √PnBσˆˆnn i=1(xi−¯xn)2

∼ T(n−2) r´egion de rejet : quand|Tn|trop grand ⇒

{Tn∈]− ∞,t1−α/2]∪[t1−α/2,+∞[}

36/48

(37)

egression lin´eaire simple test d’ad´equation

Test sur b (2)

Test :

H0 :b= 0 Ha :b6= 0 M´ethode :

on utilise le fait que sousH0,Tn= √PnBσˆˆnn i=1(xi−¯xn)2

∼ T(n−2) r´egion de rejet : quand|Tn|trop grand ⇒

{Tn∈]− ∞,−t1−α/2]∪[t1−α/2,+∞[}

p-valeur : P(|T(n−2)|>=tn) avectn la valeur observ´ee de Tn

37/48

(38)

V´erification des hypoth`eses

Caract`ere de normalit´e : on trace l’histogramme des r´esidus et on le compare `a la densit´e d’une loi normale

Histogram of E

Density

−0.4 −0.2 0.0 0.2 0.4

01234

−0.4 −0.2 0.0 0.2 0.4

01234

x

y

38/48

(39)

egression lin´eaire simple test d’ad´equation

V´erification des hypoth`eses

Caract`ere de normalit´e : on trace l’histogramme des r´esidus et on le compare `a la densit´e d’une loi normale

caract`ere centr´e

−12 −10 −8 −6 −4 −2

−0.10−0.050.000.050.10

predict(L)

res

39/48

(40)

V´erification des hypoth`eses

Caract`ere de normalit´e : on trace l’histogramme des r´esidus et on le compare `a la densit´e d’une loi normale

caract`ere centr´e

caract`ere homosc´edastique

40/48

(41)

egression lin´eaire simple test d’ad´equation

Test d’ad´equation

Objectif :

Tester une hypoth`ese sur la distribution compl`ete d’une population.

41/48

(42)

Test d’ad´equation

Objectif :

Tester une hypoth`ese sur la distribution compl`ete d’une population.

Cadre :

Variable discr`ete

42/48

(43)

egression lin´eaire simple test d’ad´equation

Test d’ad´equation (2)

Exemple :

La Roma a encaiss´e 38 buts cette saison. L’entraineur aimerait savoir si la r´epartition des buts au cours des matchs est compatible avec une probabilit´e uniforme au cours du temps d’encaisser un but.

H0 : 1/3 des buts la 1`ere 1/2h, 1/3 des buts la 2nd 1/2h et 1/3 des buts la derni`ere 1/2h

Ha : autre r´epartition

43/48

(44)

Test d’ad´equation (2)

Exemple :

La Roma a encaiss´e 38 buts cette saison. L’entraineur aimerait savoir si la r´epartition des buts au cours des matchs est compatible avec une probabilit´e uniforme au cours du temps d’encaisser un but.

H0 : 1/3 des buts la 1`ere 1/2h, 1/3 des buts la 2nd 1/2h et 1/3 des buts la derni`ere 1/2h

Ha : autre r´epartition Cadre g´en´eral :

On consid`ere une variable discr`ete X qui prend les valeurs a1, . . . ,aK.

H0 : les probabilit´es queX prennent les valeursa1, . . . ,aK sont p1, . . . ,pK

Ha : ces probabilit´es ne sont pas p1, . . . ,pK

44/48

(45)

egression lin´eaire simple test d’ad´equation

Test d’ad´equation (3)

Nos donn´ees :

valeurs a1 a2 . . . aK

effectifs n1 n2 . . . nK

45/48

(46)

Test d’ad´equation (3)

Nos donn´ees :

valeurs a1 a2 . . . aK

effectifs n1 n2 . . . nK

Si on posen le nombre d’observations, on devrait observer sous H0

valeurs a1 a2 . . . aK

effectifs n1 n2 . . . nK th´eorie e1 e2 . . . eK avec : ei =n∗pi

46/48

(47)

egression lin´eaire simple test d’ad´equation

Test d’ad´equation (3)

Nos donn´ees :

valeurs a1 a2 . . . aK effectifs n1 n2 . . . nK

Si on posen le nombre d’observations, on devrait observer sous H0

valeurs a1 a2 . . . aK effectifs n1 n2 . . . nK th´eorie e1 e2 . . . eK avec : ei =n∗pi

⇒ on va privil´egier H0 si tous les ni sont proches des ei

47/48

Références

Documents relatifs

Pour un oscillateur harmonique dans l’espace ` a trois dimensions, quelles sont les valeurs propres de l’hamiltonien et quels sont leurs degr´es de d´eg´en´erescence..

Un ´electron se d´epla¸cant sur le plan xOy est soumis ` a un champ magn´etique B ~ constant dirig´e suivant l’axe Oz.. Ces niveaux portent le nom de niveaux

[r]

Si PILE apparaît on gagne 10 euros, si FACE apparaît on perd 5 euros.. Déterminer toutes les

Afin de répondre à la question posée dans l'énoncé ci-dessus, mettons en œuvre un test relativement à cette variance.. • La variable aléatoire d’échantillonnage de

[r]

1. On lance 5 fois successivement un d´e `a jouer non truqu´e, et on note X la variable al´eatoire ´egale au nombre de 2 obtenus parmi ces lancers... 2. On lance 5 fois

[r]