Myriam Maumy-Bertrand MarieChion Master 1 –2019/2020
Ré fé re nc es
«Analyse de régression appliquée» de Y. Dodgeet V. Rousson, aux éditions Dunod, 2004. «Régression non linéaire et applications» de A. Antoniadis, J. Berruyer, R. Carmona, éditions Economica, 1992. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020In tr oduc tion
But :rechercherunerelation stochastiquequi lie deuxouplusieursvariables Domaines: Physique, chimie, astronomie Biologie, médecine Géographie Economie … Myriam Maumy-Bertrand et Marie Chion -M1 2019/202031. Re la tio n en tr e de ux va ria bl es
ConsidéronsXetYdeuxvariables. Exemple:la taille(X) et le poids(Y) But : savoir commentYvarieen fonctiondeX Dansla pratique: Échantillondenindividus Relevéde la tailleet du poidspour l’individui Tableau d’observationsoudonnéespairées. Myriam Maumy-Bertrand et Marie Chion -M1 2019/20201. R el at io n en tr e de ux va ria bl es
Myriam Maumy-Bertrand et Marie Chion -M1 2019/20205 72,61 1907 774,1185
6 6 6
67,41805
67,41754
72,71703
68,51652
57,91601
PoidsTailleObservations 01020304050607080 155160165170175180185190195 Taille (cm)
Poid s ( kg )
2. Re la tion dé te rm ini st e
Danscertainscas, la relation estexacte. Exemples: Xen euros, Yen dollars X distance ferroviaire,Yprix du billet. Y = f(X) oùfestunefonctiondéterminée. Exemplespour f:fonctionslinéaires, fonctions affines... Myriam Maumy-Bertrand et Marie Chion -M1 2019/202062. Re la tion dé te rm ini st e
Remarque importante: Nous utiliseronsle termede fonction«linéaire» pour désignerunefonction«affine» oùb0etb1sontdes réelsfixés. Myriam Maumy-Bertrand et Marie Chion -M1 2019/20207XXf10)(bb+=
2. Re la tion dé te rm ini st e
Exemple:Xen Celsius,Yen Farenheit Y=32 + 9/5 X. Icinous avonsen identifiant: b0 = 32 et b1 = 9/5. Souventnous savonsquela relation entre XetYest linéairemaisles coefficients sontinconnus. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202082. Re la tion dé te rm ini st e
En pratiquecomment faisons-nous ? Échantillondendonnées Vérifierqueles donnéessontalignées. Si cecasestvérifié, alorsnous avons: unmodèle linéairedéterministe. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202092. Re la tion dé te rm ini st e
Si cecasn’estpas vérifié, alorsnous allonschercher: la droitequi ajustele mieuxl’échantillon, c’est-à- dire nous allonschercherunmodèlelinéairenon déterministe. Les nobservations vontpermettrede vérifiersila droitecandidate estadéquate. Myriam Maumy-Bertrand et Marie Chion -M1 2019/20203. Re la tion st oc ha sti que La pl u par t de s ca s ne sont pas d e s mo d è le s li n é a ir e s dé te rm in is te s ! (la relation entreXetYn’estpas exacte) Exemple:Xla tailleetYle poids. A 180 cm peuventcorrespondreplusieurspoids: 75 kg, 85 kg, … Les donnéesne sontplus alignées. Pour deuxpoidsidentiques, nous avonsdeuxtailles différentes. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202011
3. Re la tion st oc ha sti que
Unehypothèseraisonnable:XetYsontliés Dansl’exempleprécédent: plus un individuest grand, plus ilestlourd : estunevariable qui représentele comportement individuel. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020ebb++=XY10
e
3. Re la tion st oc ha sti que
Exemple: 70 individusqui sontrépartisde la façonsuivante: 10 individus/taille 7 tailles(de 160 à 190 cm, pas de 5 cm). Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020133. Re la tion st oc ha sti que
Myriam Maumy-Bertrand et Marie Chion -M1 2019/20201401020
3040
50
6070
8090 155160165170175180185190195 taille
poids
65,816515
66,316514
58,516513
69,816512
68,516511
57,716010
62,91609
58,01608
67,11607
64,51606
66,81605
56,81604
63,31603
58,91602
57,91601
PoidsTailleObservations
3. Re la tion st oc ha sti que
Commentaires: PlusieursYpour unemêmevaleurdeX. Modèlelinéairedéterministeinadéquat. CependantYaugmentequandX augmente. Modèlelinéairestochastique envisageable. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020153. Re la tion st oc ha sti que
Définitiondu modèlelinéairestochastique: : moyennedeYmesuréesurtousles individus pour lesquelsXvautx. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202016xx Y10)(bbµ+= )(xY
µ
3. Re la tion st oc ha sti que
Remarques: Commeε, μY(x)n’estniobservable, nicalculable. Pour calculerμY(x), ilfaudraitrecensertousles individusde la population. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020173. Re la tion st oc ha sti que
Dansla pratique: Nous estimonsla moyennethéoriqueμY(x) par la moyenneempiriquedeYdéfiniepar : Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020å
==
n iin
x y n x y
1) ( 1 ) ( 3. Re la tion st oc ha sti que Myriam Maumy-Bertrand et Marie Chion -M1 2019/202019
010
20
30
40
50
60
70
80
90 155160165170175180185190195 Taille
Poid s m oye n
Retour à l’exemple: 77,28 190
71,58 185
71,76180
69,29175
68,34170
66,16165
61,39160
PoidsTaille
3. Re la tion st oc ha sti que
La droitequenous venonsde tracer s’appelle: la droitede régression. XetYne jouentpas un rôleidentique. XexpliqueY Xestunevariable indépendante (ouexplicative) etYestunevariable dépendante (ouexpliquée). Myriam Maumy-Bertrand et Marie Chion -M1 2019/20203. Re la tion st oc ha sti que
En analyse de régressionlinéaire: xiestfixé yiestaléatoire la composantealéatoired’unyiestleεi correspondant. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020213. Re la tion st oc ha sti que
Pour l’instant, la droitede régressionestinconnue. Tout le problèmeestd’estimerβ0 etβ1à partird’un échantillonde données. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020223. Re la tion st oc ha sti que
Choixdes paramètres: droitequi approchele mieuxles données introduction deet qui sontdes estimateursdeβ0et de β1. L’estimationde la droitede régression: Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020230ˆ b1ˆ b xxy10ˆˆ )(ˆbb+=
3. Re la tion st oc ha sti que
Remarques: estun estimateurdeμY(x) Si le modèleestbon, estplus précis que Myriam Maumy-Bertrand et Marie Chion -M1 2019/202024å
==
n iin
x y n x y
1) ( 1 ) (
)(ˆxy)(ˆxy
3. Re la tion st oc ha sti que
Lorsquex =xi, alors, c’est-à-dire : estappeléela valeurestiméepar le modèle. Myriam Maumy-Bertrand et Marie Chion -M1 2019/202025iyˆ
iiyxyˆ)(ˆ= ii
x y
10ˆ ˆ ˆ b b + =
3. Re la tion st oc ha sti que
Cesvaleursestimentles quantitésinobservables: par les quantitésobservables : Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020iiiyyeˆ-=
iiixy10bbe--=
3. Re la tion st oc ha sti que
Cesquantitései= les résidusdu modèle. La plupartdes méthodesd’estimation: estimerla droitede régressionpar unedroitequi minimise unefonctionde résidus. La plus connue: la méthodedes moindrescarrés ordinaires. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020274. M ét ho de de s m oi ndr es c ar ré s or di na ire s å å å
=== --=-= n iii
n iii
n ii xy
yye 1
2 10
1
2 1
2 )ˆˆ (
)ˆ( bb Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020
Méthode :Définir des estimateurs qui minimisent la somme des carrés des résidus
Les estimateurs sont donc les coordonnées du minimum de la fonction à deux variables : Cette fonction est appelée la fonction objectif.
4. M ét ho de de s m oi ndr es c ar ré s or di na ire s
2 10 110)(),(in iixyfzbbbb--==
å
= Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020294. M ét ho de de s m oi ndr es c ar ré s or di na ire s å
---= ¶¶ )(2 10 0iixyz bb b Myriam Maumy-Bertrand et Marie Chion -M1 2019/202030Les estimateurs correspondent aux valeurs annulant les dérivées partielles de cette fonction :
å
---= ¶¶ )(210 1iiixyxz bb b4. M ét ho de de s m oi ndr es c ar ré s or di na ire s 0 ) ( 2
10= - - - å
iix y b b
Myriam Maumy-Bertrand et Marie Chion -M1 2019/202031Les estimateurs sont les solutions du système : Soient :0)(2 10=---
å
iiixyxb b å å å
+=2 10ˆˆ )2.4( iiiixxyxb b å å + =
iix n y
10ˆ ˆ ) 1. 4( b b
4. M ét ho de de s m oi ndr es c ar ré s or di na ire s
Nous notons : ny y nx xi ni nå å
==et nnxy10ˆˆ bb-= Myriam Maumy-Bertrand et Marie Chion - M1 2019/202032D’après (4.1), nous avons :
4. M ét ho de de s m oi ndr es c ar ré s or di na ire s
A partir de (4.2), nous avons : 2 102 1 )(ˆ
ˆˆ nnnii
niii xnyxnyxxnyxx bbb +-=
-=
å å å
221 )(ˆ ninnii xnxyxnyx -- =
å å
b Myriam Maumy-Bertrand et Marie Chion - M1 2019/202033Ainsi nous obtenons :
4. M ét ho de de s m oi ndr es c ar ré s or di na ire s
Comme nous avons : 222 )()())(( nini
nniinini xnxxx
yxnyxyyxx -=--=--
å å å å å å
--- = 21 )())(( ˆ ninini xxyyxx
b
Myriam Maumy-Bertrand et Marie Chion M1 2019/202034Ainsi nous obtenons :
4. M ét ho de de s m oi ndr es c ar ré s or di na ire s
Dans la pratique, nous calculonsx x y
10ˆ ˆ ) (ˆ b b + =
Myriam Maumy-Bertrand et Marie Chion - M1 2019/20203501
ˆ
pu is ˆ b b
Nous obtenons une estimation de la droite de régression, appelée la droite des moindres carrés ordinaires :4. M ét ho de de s m oi ndr es c ar ré s or di na ire s
Coefficients de la droite de moindres carrés : pente=0,442 ; ordonnée à l’origine=-8,012 0102030405060708090 155160165170175180185190195 Poids m oye n
Taille Myriam Maumy-Bertrand et Marie Chion M1 2019/202036
5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e
But d’un modèle de régression linéaire : expliquer une partie de la variation de la variable expliquéeY. La variation de Yvient du fait de sa dépendance à la variable explicativeX. Variation expliquée par le modèle. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020375. V ar ia tio n e xp liq ué e e t i ne xp liq ué e
Dans l’exemple «taille-poids»,nous avons remarqué que lorsque nous mesuronsYavec une même valeur de X, nous observons une certaine variation sur Y. Variation inexpliquée par le modèle. Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020385. V ar ia tio n e xp liq ué e e t i ne xp liq ué e
Variation totale deY = Variation expliquée par le modèle + Variation inexpliquée par le modèle Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020395. V ar ia tio n e xp liq ué e e t i ne xp liq ué e
ny Myriam Maumy-Bertrand et Marie Chion -M1 2019/202040Pour mesurer la variation deY:nous introduisons
) ˆ ( ) ˆ(
) (
iininiy y y y y y - + - = -
Différence expliquée par le modèleDifférence inexpliquée par le modèle ou résidu du modèle5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e å å å - + - = -
222) ˆ ( ) ˆ(
) (
iininiy y y y y y
Myriam Maumy-Bertrand et Marie Chion -M1 2019/202041Pourquoi la méthode des moindres carrés ? Un propriété remarquable : elle conserve une telle décomposition en considérant la somme des carrés de ces différences :
5. V ar ia tio n e xp liq ué e e t i ne xp liq ué e å å å - + - = -
222) ˆ ( )
ˆ(
) (
iininiy y y y y y
Myriam Maumy-Bertrand et Marie Chion -M1 2019/2020Somme des carrés totale (SCtot) Somme des carrés due à la régression (SCreg)
Somme des carrés des résidus (SCres)