(1)Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017

Texte intégral

(1)Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. But : rechercher une relation stochastique qui lie deux ou plusieurs variables Domaines : Physique, chimie, astronomie Biologie, médecine Géographie Economie …. Introduction. Frédéric Bertrand Myriam Maumy-Bertrand Master 1 – 2016/2017. 3. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Considérons X et Y deux variables. Exemple : la taille (X) et le poids (Y) But : savoir comment Y varie en fonction de X Dans la pratique : Échantillon de n individus Relevé de la taille et du poids pour l’individu i Tableau d’observations ou données pairées.. 1. Relation entre deux variables. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. de Y. Dodge et V. Rousson, aux éditions Dunod, 2004. « Régression non linéaire et applications » de A. Antoniadis, J. Berruyer, R. Carmona, éditions Economica, 1992.. « Analyse de régression appliquée ». Références. 4. 2.

(2) 67,4. 74,1. 165. 170. 175. 180. 185. 190. 2. 3. 4. 5. 6. 7. 0 155. 10. 20. 30. 40. 50. 60. 70. 80. 160. 180. 185. 7. 190. 195. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. où b0 et b1 sont des réels fixés.. f ( X ) = b0 + b1 X. 7. 5. 6 6 1. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. où f est une fonction déterminée. Exemples pour f : fonctions linéaires, fonctions affines.... Y = f(X). Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Souvent nous savons que la relation entre X et Y est linéaire mais les coefficients sont inconnus.. Exemple : X en Celsius, Y en Farenheit Y=32 + 9/5 X. Ici nous avons en identifiant : b0 = 32 et b1 = 9/5.. Taille (cm). 175. Remarque importante : Nous utiliserons le terme de fonction « linéaire » pour désigner une fonction « affine ». 170. 2. Relation déterministe. 165. Dans certains cas, la relation est exacte. Exemples : X en euros, Y en dollars X distance ferroviaire, Y prix du billet.. 2. Relation déterministe. 2. Relation déterministe. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 72,6. 67,4. 72,7. 68,5. 57,9. 160. 1. Poids. Taille. Observations. 1. Relation entre deux variables. Poids (kg). 8. 6.

(3) 9. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Exemple : X la taille et Y le poids. A 180 cm peuvent correspondre plusieurs poids : 75 kg, 85 kg, … Les données ne sont plus alignées. Pour deux poids identiques, nous avons deux tailles différentes.. 11. e. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. : est une variable qui représente le comportement individuel.. Y = b 0 + b1 X + e. Dans l’exemple précédent : plus un individu est grand, plus il est lourd. Une hypothèse raisonnable : X et Y sont liés. La plupart des cas ne sont pas des modèles linéaires déterministes !. (la relation entre X et Y n’est pas exacte). 3. Relation stochastique. 3. Relation stochastique. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Les n observations vont permettre de vérifier si la droite candidate est adéquate.. Si ce cas est vérifié, alors nous avons : un modèle linéaire déterministe.. Échantillon de n données. En pratique comment faisons-nous ?. Vérifier que les données sont alignées.. 2. Relation déterministe Si ce cas n’est pas vérifié, alors nous allons chercher : la droite qui ajuste le mieux l’échantillon, c’est-àdire nous allons chercher un modèle linéaire non déterministe.. 2. Relation déterministe. 12. 10.

(4) 160 160 160 160 160 160 160 165 165 165 165 165. 4 5 6 7 8 9 10 11 12 13 14 15. 65,8. 66,3. 58,5. 69,8. 68,5. 57,7. 62,9. 58,0. 67,1. 64,5. 66,8. 56,8. 63,3. 58,9. 0 155. 10. 20. 30. 40. 50. 60. 70. 80. 90. 160. 170. 175 taille. 180. 185. 190. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 195. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. pour lesquels X vaut x.. µY (x) : moyenne de Y mesurée sur tous les individus. µY ( x) = b0 + b1 x. Définition du modèle linéaire stochastique :. 165. Commentaires : Plusieurs Y pour une même valeur de X. Modèle linéaire déterministe inadéquat. Cependant Y augmente quand X augmente. Modèle linéaire stochastique envisageable.. 15. 160. 3. 57,9. 3. Relation stochastique. 13. 160. Poids. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 160. 2. Taille. 1. Observations. 3. Relation stochastique. 3. Relation stochastique. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Exemple : 70 individus qui sont répartis de la façon suivante : 10 individus/taille 7 tailles (de 160 à 190 cm, pas de 5 cm).. 3. Relation stochastique. poids. 16. 14.

(5) 66,16. 68,34. 69,29. 71,76. 165. 170. 175. 180. 190. 185. 61,39. 160. 0 155. 10. 20. 30. 40. 50. 60. 70. 80. 90. 160. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 77,28. 71,58. Poids. Taille. Retour à l’exemple :. 165. 170. Taille. 175. 3. Relation stochastique. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 180. 185. 190. 19. 195. 17. Dans la pratique : Nous estimons la moyenne théorique μY (x) par la moyenne empirique de Y définie par :. Remarques : Comme ε, μY (x) n’est ni observable, ni calculable. Pour calculer μY (x), il faudrait recenser tous les individus de la population.. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. X et Y ne jouent pas un rôle identique. X explique Y X est une variable indépendante (ou explicative) et Y est une variable dépendante (ou expliquée).. La droite que nous venons de tracer s’appelle : la droite de régression.. 3. Relation stochastique. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 1 n y n ( x ) = å yi ( x ) n i =1. 3. Relation stochastique. 3. Relation stochastique. Poids moyen. 20. 18.

(6) Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. yˆ ( x) = bˆ0 + bˆ1 x. L’estimation de la droite de régression :. 23. Remarques : yˆ ( x ) est un estimateur de μY(x) Si le modèle est bon, yˆ ( x ) est plus précis que. Choix des paramètres : droite qui approche le mieux les données introduction de bˆ0 et b̂1qui sont des estimateurs de β0 et de β1.. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 1 n y n ( x ) = å yi ( x ) n i =1. 3. Relation stochastique. 3. Relation stochastique. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Tout le problème est d’estimer β0 et β1 à partir d’un échantillon de données.. xi est fixé yi est aléatoire la composante aléatoire d’un yi est le εi correspondant.. 21. Pour l’instant, la droite de régression est inconnue.. En analyse de régression linéaire :. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 3. Relation stochastique. 3. Relation stochastique. 24. 22.

(7) Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. droite de régression par une droite qui minimise une fonction de résidus. La plus connue : la méthode des moindres carrés ordinaires.. La plupart des méthodes d’estimation : estimer la. Ces quantités ei = les résidus du modèle.. 3. Relation stochastique. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. ŷi est appelée la valeur estimée par le modèle.. 27. 25. i. - yˆ i ) 2. i =1. = å ( yi - bˆ0 - bˆ1 xi ) 2. n. i =1. n. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. i =1. 2 i. åe = å(y. n. Méthode : Définir des estimateurs qui minimisent la somme des carrés des résidus. 4. Méthode des moindres carrés ordinaires. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. ei = yi - yˆ i. par les quantités observables :. e i = yi - b 0 - b1 xi. Ces valeurs estiment les quantités inobservables :. Lorsque x = xi, alors yˆ ( xi ) = yˆ i , c’est-à-dire :. yˆ i = bˆ0 + bˆ1 xi. 3. Relation stochastique. 3. Relation stochastique. 28. 26.

(8) Soient :. i. (4.2). i. 0. 0. 1. i. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. i. (4.1) i. 1. 2 i. å y = nbˆ +bˆ å x å x y = bˆ å x +bˆ å x. - 2å ( yi - b0 - b1 xi ) = 0 - 2å xi ( yi - b 0 - b1 xi ) = 0. Les estimateurs sont les solutions du système :. 4. Méthode des moindres carrés ordinaires. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Cette fonction est appelée la fonction objectif.. i =1. z = f ( b 0 , b1 ) = å ( yi -b 0 - b1 xi ) 2. n. Les estimateurs sont donc les coordonnées du minimum de la fonction à deux variables :. 4. Méthode des moindres carrés ordinaires. 31. 29. 32. n. i. åx. et yn =. bˆ0 = yn - bˆ1 xn. D’après (4.1), nous avons :. xn =. Nous notons : n. i. Frédéric Bertrand et Myriam MaumyBertrand - M1 2016/2017. åy. 4. Méthode des moindres carrés ordinaires. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. ¶z = -2å xi ( yi - b 0 - b1 xi ) ¶b1. ¶z = -2å ( yi - b 0 - b1 xi ) ¶b 0. Les estimateurs correspondent aux valeurs annulant les dérivées partielles de cette fonction :. 4. Méthode des moindres carrés ordinaires. 30.

(9) 35. 33. i. n. n 2. 2 i. n Frédéric Bertrand et Myriam MaumyBertrand - M1 2016/2017. bˆ1 puis bˆ0. Frédéric Bertrand et Myriam MaumyBertrand - M1 2016/2017. yˆ ( x) = bˆ0 + bˆ1 x. Nous obtenons une estimation de la droite de régression, appelée la droite des moindres carrés ordinaires :. Dans la pratique, nous calculons. 4. Méthode des moindres carrés ordinaires. 1. bˆ. i. å x y - nx y = å x - n( x ). Ainsi nous obtenons :. = å xi yi - nxn yn + bˆ1n( xn ) 2. bˆ1 å xi2 = å xi yi - bˆ0nxn. A partir de (4.2), nous avons :. 4. Méthode des moindres carrés ordinaires. 36. 34. n. i. i. n. n. 2. i. i. n. i. i. i. 2. n. n. n. 2. Frédéric Bertrand et Myriam MaumyBertrand - M1 2016/2017. å ( x - x )( y - y ) å(x - x ) n. 2 i. n. 0. 10. 20. 30. 40. 50. 60. 70. 80. 90. 155. 160. 165. 170. Taille. 175. 180. 190. 195. Frédéric Bertrand et Myriam MaumyBertrand - M1 2016/2017. 185. Coefficients de la droite de moindres carrés : pente=0,442 ; ordonnée à l’origine=-8,012. 4. Méthode des moindres carrés ordinaires. bˆ1 =. Ainsi nous obtenons :. i. å ( x - x )( y - y ) = å x y - nx y å ( x - x ) = å x - n( x ). Comme nous avons :. 4. Méthode des moindres carrés ordinaires. Poids moyen.

(10) Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Variation totale de Y = Variation expliquée par le modèle + Variation inexpliquée par le modèle. 5. Variation expliquée et inexpliquée. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 39. 37. Dans l’exemple « taille-poids », nous avons remarqué que lorsque nous mesurons Y avec une même valeur de X, nous observons une certaine variation sur Y.. But d’un modèle de régression linéaire : expliquer une partie de la variation de la variable expliquée Y. La variation de Y vient du fait de sa dépendance à la variable explicative X. Variation expliquée par le modèle.. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Différence expliquée par le modèle. 38. 40. Différence inexpliquée par le modèle ou résidu du modèle. ( yi - yn ) = ( yˆ i - yn ) + ( yi - yˆ i ). Pour mesurer la variation de Y : nous introduisons y n. 5. Variation expliquée et inexpliquée. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. Variation inexpliquée par le modèle.. 5. Variation expliquée et inexpliquée. 5. Variation expliquée et inexpliquée.

(11) 43. i. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. - yn ) = å ( yˆ i - yn ) + å ( yi - yˆ i ) 2. 2. R2 =. Frédéric Bertrand et Myriam MaumyBertrand - M1 2016/2017. Variation expliquée SC reg = Variation totale SC tot. Mesure du pourcentage de la variation totale expliquée par le modèle : Introduction d’un coefficient de détermination. 5. Variation expliquée et inexpliquée. å( y. 2. Pourquoi la méthode des moindres carrés ? Un propriété remarquable : elle conserve une telle décomposition en considérant la somme des carrés de ces différences :. 5. Variation expliquée et inexpliquée. 41. i. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. (SCres). (SCreg). 42. Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017. 44. Quelques remarques : R2 est compris entre 0 et 1. R2 =1 : cas où les données sont parfaitement alignées (comme c’est le cas pour un modèle déterministe). R2 =0 : cas où la variation de Y n’est pas due à la variation de X. Les données ne sont pas du tout alignées. Plus R2 est proche de 1, plus les données sont alignées sur la droite de régression.. 5. Variation expliquée et inexpliquée. (SCtot). Somme des carrés des résidus. Somme des carrés due à la régression. - yn ) 2 = å ( yˆ i - yn ) 2 + å ( yi - yˆ i ) 2. Somme des carrés totale. å( y. 5. Variation expliquée et inexpliquée.

(12)

(1)Fr&eacute;d&eacute;ric Bertrand et Myriam Maumy-Bertrand M1 2016/2017

(1)Frédéric Bertrand et Myriam Maumy-Bertrand M1 2016/2017