2. Re la tion dé te rm ini st e

(1)

Myriam Maumy-Bertrand MarieChion Master 1 –2019/2020

Ré fé re nc es

«Analyse de régression appliquée» de Y. Dodgeet V. Rousson, aux éditions Dunod, 2004. «Régression non linéaire et applications» de A. Antoniadis, J. Berruyer, R. Carmona, éditions Economica, 1992. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020

In tr oduc tion

But :rechercherunerelation stochastiquequi lie deuxouplusieursvariables Domaines: Physique, chimie, astronomie Biologie, médecine Géographie Economie … Myriam Maumy-Bertrand et Marie Chion -M1 2019/20203

1. Re la tio n en tr e de ux va ria bl es

ConsidéronsXetYdeuxvariables. Exemple:la taille(X) et le poids(Y) But : savoir commentYvarieen fonctiondeX Dansla pratique: Échantillondenindividus Relevéde la tailleet du poidspour l’individui Tableau d’observationsoudonnéespairées. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020

(2)

1. R el at io n en tr e de ux va ria bl es

Myriam Maumy-Bertrand et Marie Chion -M1 2019/20205 72,61 1907 7

74,1185

6 6 6

67,41805

67,41754

72,71703

68,51652

57,91601

PoidsTailleObservations 01020304050607080 155160165170175180185190195 Taille (cm)

Poid s ( kg )

2. Re la tion dé te rm ini st e

Danscertainscas, la relation estexacte. Exemples: Xen euros, Yen dollars X distance ferroviaire,Yprix du billet. Y = f(X) oùfestunefonctiondéterminée. Exemplespour f:fonctionslinéaires, fonctions affines... Myriam Maumy-Bertrand et Marie Chion -M1 2019/20206

2. Re la tion dé te rm ini st e

Remarque importante: Nous utiliseronsle termede fonction«linéaire» pour désignerunefonction«affine» oùb0etb1sontdes réelsfixés. Myriam Maumy-Bertrand et Marie Chion -M1 2019/20207

XXf10)(bb+=

2. Re la tion dé te rm ini st e

Exemple:Xen Celsius,Yen Farenheit Y=32 + 9/5 X. Icinous avonsen identifiant: b0 = 32 et b1 = 9/5. Souventnous savonsquela relation entre XetYest linéairemaisles coefficients sontinconnus. Myriam Maumy-Bertrand et Marie Chion -M1 2019/20208

(3)

2. Re la tion dé te rm ini st e

En pratiquecomment faisons-nous ? Échantillondendonnées Vérifierqueles donnéessontalignées. Si cecasestvérifié, alorsnous avons: unmodèle linéairedéterministe. Myriam Maumy-Bertrand et Marie Chion -M1 2019/20209

2. Re la tion dé te rm ini st e

Si cecasn’estpas vérifié, alorsnous allonschercher: la droitequi ajustele mieuxl’échantillon, c’est-à- dire nous allonschercherunmodèlelinéairenon déterministe. Les nobservations vontpermettrede vérifiersila droitecandidate estadéquate. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020

3. Re la tion st oc ha sti que La pl u par t de s ca s ne sont pas d e s mo d è le s li n é a ir e s dé te rm in is te s !

(la relation entreXetYn’estpas exacte) Exemple:Xla tailleetYle poids. A 180 cm peuventcorrespondreplusieurspoids: 75 kg, 85 kg, … Les donnéesne sontplus alignées. Pour deuxpoidsidentiques, nous avonsdeuxtailles différentes. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202011

3. Re la tion st oc ha sti que

Unehypothèseraisonnable:XetYsontliés Dansl’exempleprécédent: plus un individuest grand, plus ilestlourd : estunevariable qui représentele comportement individuel. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020

ebb++=XY10

e

(4)

3. Re la tion st oc ha sti que

Exemple: 70 individusqui sontrépartisde la façonsuivante: 10 individus/taille 7 tailles(de 160 à 190 cm, pas de 5 cm). Myriam Maumy-Bertrand et Marie Chion -M1 2019/202013

3. Re la tion st oc ha sti que

Myriam Maumy-Bertrand et Marie Chion -M1 2019/202014

01020

3040

50

6070

8090 155160165170175180185190195 taille

poids

65,816515

66,316514

58,516513

69,816512

68,516511

57,716010

62,91609

58,01608

67,11607

64,51606

66,81605

56,81604

63,31603

58,91602

57,91601

PoidsTailleObservations

3. Re la tion st oc ha sti que

Commentaires: PlusieursYpour unemêmevaleurdeX. Modèlelinéairedéterministeinadéquat. CependantYaugmentequandX augmente. Modèlelinéairestochastique envisageable. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202015

3. Re la tion st oc ha sti que

Définitiondu modèlelinéairestochastique: : moyennedeYmesuréesurtousles individus pour lesquelsXvautx. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202016

xx Y10)(bbµ+= )(xY

µ

(5)

3. Re la tion st oc ha sti que

Remarques: Commeε, μY(x)n’estniobservable, nicalculable. Pour calculerμY(x), ilfaudraitrecensertousles individusde la population. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202017

3. Re la tion st oc ha sti que

Dansla pratique: Nous estimonsla moyennethéoriqueμY(x) par la moyenneempiriquedeYdéfiniepar : Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020

å

=

n iin

x y n x y

1

) ( 1 ) ( 3. Re la tion st oc ha sti que

010

20

30

40

50

60

70

80

90 155160165170175180185190195 Taille

Poid s m oye n

Retour à l’exemple: 77,28 190

71,58 185

71,76180

69,29175

68,34170

66,16165

61,39160

PoidsTaille

3. Re la tion st oc ha sti que

La droitequenous venonsde tracer s’appelle: la droitede régression. XetYne jouentpas un rôleidentique. XexpliqueY Xestunevariable indépendante (ouexplicative) etYestunevariable dépendante (ouexpliquée). Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020

(6)

3. Re la tion st oc ha sti que

En analyse de régressionlinéaire: xiestfixé yiestaléatoire la composantealéatoired’unyiestleεi correspondant. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202021

3. Re la tion st oc ha sti que

Pour l’instant, la droitede régressionestinconnue. Tout le problèmeestd’estimerβ0 etβ1à partird’un échantillonde données. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202022

3. Re la tion st oc ha sti que

Choixdes paramètres: droitequi approchele mieuxles données introduction deet qui sontdes estimateursdeβ0et de β1. L’estimationde la droitede régression: Myriam Maumy-Bertrand et Marie Chion -M1 2019/202023

0ˆ b1ˆ b xxy10ˆˆ )(ˆbb+=

3. Re la tion st oc ha sti que

Remarques: estun estimateurdeμY(x) Si le modèleestbon, estplus précis que Myriam Maumy-Bertrand et Marie Chion -M1 2019/202024

å

=

n iin

x y n x y

1

) ( 1 ) (

)(ˆxy)(ˆxy

(7)

3. Re la tion st oc ha sti que

Lorsquex =xi, alors, c’est-à-dire : estappeléela valeurestiméepar le modèle. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202025

iyˆ

iiyxyˆ)(ˆ= ii

x y

10

ˆ ˆ ˆ b b + =

3. Re la tion st oc ha sti que

Cesvaleursestimentles quantitésinobservables: par les quantitésobservables : Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020

iiiyyeˆ-=

iiixy10bbe--=

3. Re la tion st oc ha sti que

Cesquantitései= les résidusdu modèle. La plupartdes méthodesd’estimation: estimerla droitede régressionpar unedroitequi minimise unefonctionde résidus. La plus connue: la méthodedes moindrescarrés ordinaires. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202027

4. M ét ho de de s m oi ndr es c ar ré s or di na ire s å å å

=== --=

-= n iii

n iii

n ii xy

yye 1

2 10

1

2 1

2 )ˆˆ (

)ˆ( bb Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020

Méthode :Définir des estimateurs qui minimisent la somme des carrés des résidus

(8)

Les estimateurs sont donc les coordonnées du minimum de la fonction à deux variables : Cette fonction est appelée la fonction objectif.

4. M ét ho de de s m oi ndr es c ar ré s or di na ire s

2 10 110)(),(i

n iixyfzbbbb--==

å

= Myriam Maumy-Bertrand et Marie Chion -M1 2019/202029

4. M ét ho de de s m oi ndr es c ar ré s or di na ire s å

---= ¶¶ )(2 10 0iixyz bb b Myriam Maumy-Bertrand et Marie Chion -M1 2019/202030

Les estimateurs correspondent aux valeurs annulant les dérivées partielles de cette fonction :

å

---= ¶¶ )(210 1iiixyxz bb b

4. M ét ho de de s m oi ndr es c ar ré s or di na ire s 0 ) ( 2

10

= - - - å

ii

x y b b

Les estimateurs sont les solutions du système : Soient :0)(2 10=---

å

iiixyx

b b å å å

+=2 10ˆˆ )2.4( iiiixxyx

b b å å + =

ii

x n y

10

ˆ ˆ ) 1. 4( b b

4. M ét ho de de s m oi ndr es c ar ré s or di na ire s

Nous notons : ny y nx xi ni n

å å

==et nnxy10ˆˆ bb-= Myriam Maumy-Bertrand et Marie Chion - M1 2019/202032

D’après (4.1), nous avons :

(9)

4. M ét ho de de s m oi ndr es c ar ré s or di na ire s

A partir de (4.2), nous avons : 2 1

02 1 )(ˆ

ˆˆ nnnii

niii xnyxnyxxnyxx bbb +-=

-=

å å å

221 )(ˆ ni

nnii xnxyxnyx -- =

å å

b Myriam Maumy-Bertrand et Marie Chion - M1 2019/202033

Ainsi nous obtenons :

4. M ét ho de de s m oi ndr es c ar ré s or di na ire s

Comme nous avons : 222 )()(

))(( nini

nniinini xnxxx

yxnyxyyxx -=--=--

å å å å å å

--- = 21 )())(( ˆ ni

nini xxyyxx

b

Myriam Maumy-Bertrand et Marie Chion M1 2019/202034

Ainsi nous obtenons :

4. M ét ho de de s m oi ndr es c ar ré s or di na ire s

Dans la pratique, nous calculons

x x y

10

ˆ ˆ ) (ˆ b b + =

Myriam Maumy-Bertrand et Marie Chion - M1 2019/202035

01

ˆ

pu is ˆ b b

Nous obtenons une estimation de la droite de régression, appelée la droite des moindres carrés ordinaires :

4. M ét ho de de s m oi ndr es c ar ré s or di na ire s

Coefficients de la droite de moindres carrés : pente=0,442 ; ordonnée à l’origine=-8,012 0102030405060708090 155160165170175180185190195 Poid

s m oye n

Taille Myriam Maumy-Bertrand et Marie Chion M1 2019/202036

(10)

5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e

But d’un modèle de régression linéaire : expliquer une partie de la variation de la variable expliquéeY. La variation de Yvient du fait de sa dépendance à la variable explicativeX. Variation expliquée par le modèle. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202037

5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e

Dans l’exemple «taille-poids»,nous avons remarqué que lorsque nous mesuronsYavec une même valeur de X, nous observons une certaine variation sur Y. Variation inexpliquée par le modèle. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202038

5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e

Variation totale deY = Variation expliquée par le modèle + Variation inexpliquée par le modèle Myriam Maumy-Bertrand et Marie Chion -M1 2019/202039

5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e

ny Myriam Maumy-Bertrand et Marie Chion -M1 2019/202040

Pour mesurer la variation deY:nous introduisons

) ˆ ( ) ˆ(

) (

iinini

y y y y y y - + - = -

Différence expliquée par le modèleDifférence inexpliquée par le modèle ou résidu du modèle

(11)

5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e å å å - + - = -

222

) ˆ ( ) ˆ(

) (

iinini

y y y y y y

Pourquoi la méthode des moindres carrés ? Un propriété remarquable : elle conserve une telle décomposition en considérant la somme des carrés de ces différences :

5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e å å å - + - = -

222

) ˆ ( )

ˆ(

) (

iinini

y y y y y y

Somme des carrés totale (SCtot) Somme des carrés due à la régression (SCreg)

Somme des carrés des résidus (SCres)

5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e

Mesure du pourcentage de la variation totale expliquée par le modèle : Introduction d’uncoefficient de détermination tot

R SC SC to ta le Va ri at io n ex pl iq uée Va ri at io n

reg2

= =

Myriam Maumy-Bertrand et Marie Chion - M1 2019/202043

5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e

Quelques remarques : R2 est compris entre 0 et 1. R2 =1 : cas où les données sont parfaitement alignées (comme c’est le cas pour un modèle déterministe). R2 =0 : cas où la variation de Yn’est pas due à la variation deX. Les données ne sont pas du tout alignées. Plus R2 est proche de 1, plus les données sont alignées sur la droite de régression. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020