• Aucun résultat trouvé

Capes de Mathématiques 2012/2013. Régression linéaire

N/A
N/A
Protected

Academic year: 2022

Partager "Capes de Mathématiques 2012/2013. Régression linéaire"

Copied!
5
0
0

Texte intégral

(1)

Capes de Mathématiques 2012/2013 Régression linéaire

Table des matières

A Droites de régression 1

B Régression linéaire avec Geogebra 4

A Droites de régression

Cadre général

Soit N un nuage de n (n ≥ 2) points résultant de l’observation dans une certaine population de deux caractères quantitatifs X et Y. Les valeurs observées sont données par un tableau en lignes ayant la forme suivante :

Numéro de l’individu 1 ... n Valeurs de X x1 ... xn Valeurs de Y y1 ... yn Notations

- x = n1 Pn

i=1xi, y = n1 Pn i=1yi - σx2 = n1 Pn

i=1(xi −x)2 = n1 Pn

i=1x2i −x2, σy2 = n1 Pn

i=1(yi−y)2 - Sx2 = n−11 Pn

i=1(xi−x)2, Sy2 = n1 Pn

i=1(yi −y)2 - cov(X, Y) = n1 Pn

i=1(xi −x)(yi −y) = (1nPn

i=1xiyi)−xy

On suppose dans la suite que σx 6= 0 et σy 6= 0, et l’on pose r(X, Y) = cov(X,Yσ )

xσy . 1) Droite de régression de Y en X

Cette droite, notée Dy/x et appelée droite de régression de X en Y, est l’unique droite d’équation y = ax+ b, a, b ∈ R, minimisant la distance verticale du nuage à cette droite.

(2)

Définition 1

La distance verticale d’un point Pi = (xi, yi) du nuage à une droite D d’équation y = ax+b est prise égale à [yi−(axi+b)]2 = MiPi2, où Pi est le point de D d’abscisse xi. Cette distance est donc le carré de la différence entre la valeur observéeyi et la valeur axi+b prédite par le modèle affine.

Définition 2

La distance moyenne du nuage N à une droite d’équation y = ax+ b est la somme des distances des points du nuage à cette droite divisée parn, soitS(a, b) = n1 Pn

i=1[yi−(axi+b)]2. On constate que S est un polynôme du second degré en a et b.

Proposition 3

Il existe une unique droite d’équation y = ax + b minimisant la distance S(a, b). Cette droite passe par le point moyen (x, y) du nuage et a pour pente cov(X,Yσ2 )

X .

Preuve

On pose c = (ax+b)−y, et l’on remplace b par c+y−ax dans S, ce qui a pour effet de remplacer le polynôme S(a, b) par le polynôme T(a, c) qui ne contient pas de terme en ac.

En développant T on obtient : T(a, c) = 1

n

n

X

i=1

(yi−y)−a(xi−x)−c2

= 1 n

n

X

i=1

(yi −y)2 + a21 n

n

X

i=1

(xi −x)2 +c2 −2a1 n

n

X

i=1

(yi −y)(xi−x)

= σ2Y +a2σ2X +c2 −2acov(X, Y)

= σ2X[a− cov(X, Y)

σX2 ]2 +c2Y2 − cov(X, Y)2 σX2

= σ2X[a− cov(X, Y)

σX2 ]2 +c2Y2[1−r(X, Y)2].

On a utilisé les égalités

n

X

i=1

(yi −y) =

n

X

i=1

yi

n

X

i=1

y = ny−y

n

X

i=1

1 = ny −ny = 0

et n

X

i=1

(xi −x) = 0.

Le minimum de T est atteint pour l’unique couple (cov(X,Yσ2 ) X

,0), de sorte que le minimum de S est atteint pour l’unique couple (a0, b0) = (cov(X,Yσ2 )

X

, y − cov(X,Yσ2 ) X

x), i.e. a0 = cov(X,Yσ2 ) X

et b0 = y −a1x.

(3)

Remarque 4

Les coefficients de la droite de régression se mémorisent en remarquant que a0 doit avoir la dimension de Y /X et que le point moyen du nuage (x, y) appartient à la droite de régression.

Conséquence 5

On a l’inégalité r(X, Y)2 ≤ 1.

Il suffit d’écrire que

0 ≤T(a0,0) = S(a0, b0) = σY2[1−r(X, Y)2] (1) pour obtenir l’inégalité 1−r(X, Y)2 ≥0 qui équivaut à 1 ≥ r(X, Y)2.

Définition 6

La quantité σr2 = σ2Y[1 − r(X, Y)2] est appelée variance résiduelle ; σe2 = σ2Y − σr2 = σY2r(X, Y)2 est appelée variance expliquée.

2) Droite de régression de X en Y

La droite de régression de X en Y, notée Dx/y, est l’unique droite d’équation x = a1y+b1 minimisant l’expression S0(a0, b0) = n1 Pn

i=1[xi−(a0yi+b0)]2 qui représente la ”distance horizontale” du nuage de points à une droite d’équation x = a0y+ b0. En permutant les rôles de x et y dans A) on obtient a1 = cov(X,Yσ2 )

y et b1 = x−a01y.

3) Comparaison des droites de régression

1. Les droites de régression sont orthogonales si et seulement si cov(X, Y) = 0.

En effet si cov(X, Y) = 0 Dy/x est la droite horizontale d’équation y = y et Dx/y est la droite verticale d’équation x = x.

Si cov(X, Y) 6= 0 Dx/y a pour équation y = a1

1x− ab1

1. Les deux droites Dy/x et Dx/y ont donc des pentes de même signe, et ne peuvent de ce fait être orthogonales.

On supposera dans la suite que cov(X, Y) 6= 0.

2. Comme 0 < a0a1 = cov(X,Yσ2 )2

xσ2y = r(X, Y)2 ≤ 1, les coefficients a0 et a1 ont même signe.

Dans le cas où cov(X, Y) > 0, a0a1

1, ce qui signifie que la droite de régression Dx/y a une pente plus grande que Dy/x. On a un résultat analogue lorsque cov(X, Y) < 0.

3. Les droites Dy/x et Dx/y passant toutes les deux par le point moyen du nuage, elles sont égales si et seulement si elles ont la même pente, c’est-à-dire si a0 = a1

1, ou encore si a0a1 = 1. Les droites de régression sont donc égales si et seulement si r(X, Y)2 = 1.

(4)

D’après l’égalité (1) ceci revient à dire que S(a0, b0) = 0, i.e. que le nuage de points est inclus dans une droite d’équation y = ax+ b, avec a 6= 0 (i.e. une droite ni horizontale, ni verticale).

4) Compléments Résidus

Pour la régression de Y en X, on appelle ie résidu le réel ri = yi −a0xi−b0; le nuage des résidus est le nuage constitué des points (xi, ri), 1 ≤ i ≤ n. Le point moyen de ce nuage est (x,0) et la variance de la série (r1, ..., rn) est la variance résiduelle σr2. Ces points doivent se répartir de façon aléatoire de part et d’autre de l’axe des abscisses, faute de quoi le modèle affine est à rejeter.

Coefficient de corrélation des rangs

Le tableau ci-dessous donne deux classements sans ex-æquo de n individus selon un certain critère.

Numéro de l’individu 1 ... n Premier classement a2 ... an Deuxième classement b1 ... bn

Les suites a2, ..., an et b1, ..., bn représentent donc des permutations des entiers de 1 à n.

On appelle coefficient de corrélation des rangs de ces deux suites leur coefficient de corréla- tion linéaire. Sa valeur est 1−6

Pn

i=1(ai −bi)2 n(n2 −1) .

B Régression linéaire avec Geogebra On considère une série statistique double

Numéro de l’individu 1 ... n Valeurs de X x1 ... xn Valeurs de Y y1 ... yn

On suppose que la colonne A du tableur contient la suite x1 ,... , xn et la colonne B la liste y1 , ... ,yn

Une fois sélectionné Statistiques à deux variables, puis Analyse, et enfin le Modèle d’ajustement affine, on obtient les résultats suivants :

- équation de la droite de régression de Y en X : y = a0x+b0

(5)

- n : nombre de lignes - Moyenne X : x - Moyenne Y : x

- Sx : variance empirique de X= q 1

n−1

Pn

i=1(xi−x)2 - Sy : variance empirique de Y

- r : coefficient de corrélation linéaire =cov(X,Yσ )

xσy

- ρ: coefficient de corrélation des rangs des classements associés aux listes X etY, à condition qu’il n’y ait pas d’ex-æquo

- nVarX : n fois la variance population de X = Pn

i=1x2i −x2 - nVarY : n fois la variance population de Y

- nCov : n fois la covariance de X et Y

- R2 : carré du coefficient de corrélation linéaire = r2

- SSE (Sum of squared errors of prediction) : somme de carrés des résidus

n

X

i=1

ri2 =

n

X

i=1

(yi −a0xi −b0)2

Références

Documents relatifs

guer plusieurs notions fondamentales concernant la liaison en probabilité, notions qui dans le modèle particulier de Galton se trouvent soit confondues soit

donc ici d’un terme &#34;respiration de floraison&#34; omis dans le modèle de McCREE et utilisé dans d’autres modèles (ONDOK et GLOSER, 1978). - la période

La question qui se pose est de savoir, pour prendre un exemple, si les ventes dépendent ou non du budget publicitaire, et si oui, quelle est la relation entre l'importance du

Équations du second degré à coefficients réels ou complexes.. Module et argument d’un

L'exposé porte sur le niveau choisi lors de l'inscription mais lors de l'entretien, le candidat peut être interrogé sur l'ensemble des programmes de mathématiques en vigueur de la

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme

En régression multiple (toutes les variables expli- catives quantitatives), le modèle complet est considéré comme étant celui de faible biais mais en analyse de covariance quels

Les choix : présence ou non d’une interaction entre deux variables, présence ou non d’un terme qua- dratique se traitent alors avec les mêmes outils que ceux des choix de variable