• Aucun résultat trouvé

Leçon 8 Séries statistiques à deux variables numériques. Nuage de points associé. Ajustement affine par la méthode des moindres carrés. Droite de régression. Applications. (Calculatrice)

N/A
N/A
Protected

Academic year: 2022

Partager "Leçon 8 Séries statistiques à deux variables numériques. Nuage de points associé. Ajustement affine par la méthode des moindres carrés. Droite de régression. Applications. (Calculatrice)"

Copied!
7
0
0

Texte intégral

(1)

Leçon 8

Séries statistiques à deux variables numériques. Nuage de points associé. Ajustement affine par la méthode des moindres carrés. Droite

de régression. Applications. (Calculatrice)

Pré-requis : - Séries statistiques à une variable.

Pré-requis : - Trinôme du second degré.

Pré-requis : - L’inégalité de Cauchy-Schwarz.

Introduction

Les études statistiques permettent en général d’analyser et de prévoir une tendance. Il arrive fréquemment que l’on observe conjointement deux caractères statistiques pour déterminer s’il existe une corrélation entre les deux (par exemple âge et taille des enfants de 0 à 20 ans, prix du m² et année, etc…).

On a regroupé dans un tableau la taille et le poids de 8 élèves de terminale. Voici les résultats : Taille (en cm) 158 159 165 165 172 174 180 182

Poids (en kg) 54 53 58 53 63 69 81 84 A la calculatrice : On entre (xi) et (yi)

dans les deux premières colonnes de l’éditeur de listes de la calculatrice, et on trace le nuage de points associé à cette série statistique double.

Il est intéressant de savoir s’il existe un lien de dépendance entre les caractères que nous étudierons simultanément, puis de voir s’il est possible de faire un ajustement affine des résultats obtenus ; ce qui va permettre de faire des prévisions ou des interpolations (dans le cas ou l’un des caractères est le temps).

Ce qui sera l’objet de la leçon.

On utilisera cet exemple dans la suite de la leçon.

1 – Séries statistiques à deux variables

Définition : Soit n ∈ IN*. On appelle série statistique à deux variables numériques une suite de couples d’observations (xi,yi)1in.

C’est-à-dire que l’on observe pour chaque individu i de la population deux caractères ; et les suites (xi)1in et (yi)1in sont deux séries statistiques à une variable.

Dans la suite de la leçon, on considère un entier naturel n non nul et une série statistique à deux variables (xi,yi)1in, et on note x = (x1,…,xn) et y = (y1,…,yn).

Notation : On note x la moyenne de x et σx l’écart type de x.

(2)

Remarque : σx = 0 ⇔ x1 = … = xn.

Définition : ♣ Dans un repère orthogonal, on appelle nuage de points associé à la série (xi,yi)1≤i≤n l’ensemble des points Mi(xi,yi) pour i variant de 1 à n.

On appelle point moyen du nuage de points associé à cette série le point G de coordonnées ( x , y ).

Remarque : G est l’isobarycentre des points du nuage.

Dans la suite, on considère un repère orthogonal.

Exemple : Le point moyen 

 1355

8 , 515

8 ≈ (169,375 ; 64,375) et on a : σx≈ 8,4 ; σy≈ 11,7.

Définition : On appelle covariance de la série (xi,yi)1in le réel noté cov(x,y) et défini par : cov(x,y) = 1

n

i=1

n

(

xi – x

) (

yi – y

)

Interprétation : La covariance permet de mesurer la dispersion des points du nuage autour du point moyen.

Remarque : ♠ cov(x,y) = cov(y,x).

♠ cov(x,x) = V(x) = variance de x.

Proposition 1 : 1) cov(x,y) =



 1

n

i=1 n

xiyi – x y .

2) |cov(x,y)| ≤≤≤≤ σσσσx σσσσy et l’égalité a lieu si et seulement si les points du nuage sont alignés.

Preuve : 1) x= 1 n

i=1 n

xi donc

i=1 n

xi = nx. De même,

i=1 n

yi = ny. cov(x,y) = 1

n

i=1

n

(

xix

) (

yiy

)

= 1n

i=1

n

(

xiyi – xiy– yix+ x y

)

= 1n

i=1 n

xiyi – ny x– nx y+ nx y = 1 n

i=1 n

xiyix y. 2) cov(x,y) = 1

n

i=1

n

(

xix

) (

yiy

)

. D’après l’inégalité de Cauchy-Schwarz, on a :





i=1

n

(

xix

) (

yiy

)

2

≤≤≤≤





i=1

n

(

xix

)

2

i=1

n

(

yiy

)

2 .

D’où en multipliant cette inégalité par 1

, on a : cov²(x,y) ≤≤≤≤



1 n

i=1

n

(

xix

)

2 n1

i=1 n

(

yiy

)

2 où encore cov²(x,y) ≤≤≤≤σσσσx² σσσσy².

Donc |cov(x,y)| ≤≤≤≤σσσσxσσσσy puisque σσσσx et σσσσy sont par définition des réels positifs.

On a l’égalité dans l’inégalité de Cauchy-Schwarz si et seulement si il existe un couple de réels (αααα,ββββ) tel que pour tout i compris entre 1 et n, αααα

(

xix

)

+ ββββ

(

yiy

)

= 0, c’est-à-dire si et seulement si les point du nuage sont alignés (car cette égalité est l’équation d’une droite). ■

Exemple : cov(x,y) = 755,875

8 = 94,4844 et σxy = 98,28 ; on a bien |cov(x,y)| ≤ σxy.

2 – Ajustement affine par la méthode des moindres carrés

Introduction : Parfois, le nuage de points associé à une série statistique à deux variables a une forme

« allongée » : il semble que l’on peut tracer une droite (et même plusieurs) autour de laquelle sont situés les points du nuage.

On dit que chacune de ces droites réalise un ajustement affine du nuage.

Il convient alors de se demander si une droite est « meilleure » qu’une autre et si oui, selon quel critère.

C’est l’objet de ce paragraphe.

Remarque : Si les points du nuage sont alignés, la droite est évidente. Dans la suite, on considère que les points du nuage ne sont pas alignés.

(3)

Problème si tous les points sont alignés verticalement (on aura σx = 0) car il existe une infinité de droite qui passe par G et qui vérifie l’existence du théorème mais pas l’unicité.

Principe de la méthode des moindres carrés

La méthode des moindres carrés consiste à chercher s’il existe une droite ∆, et si oui, en déterminer une équation, réalisant un ajustement affine du nuage et minimisant la somme des carrés des distances MiHi (ce qui justifie la terminologie utilisée) où, pour i variant de 1 à n, Hi est le projeté du point Mi sur la droite ∆ parallèlement à l’axe des ordonnées.

Autrement dit :

On cherche a et b tels que S =

i=1 n

(yi – axi – b)2 soit minimale.

Dans (O,→i ,→j ) si l’on se donne la droite ∆ d’équation y = ax + b et Hi le projeté de Mi sur la droite ∆ parallèlement à l’axe (Oy) pour tout i entre 1 et n, alors on a : S =

i=1 n

(MiHi)².

On considère une droite ∆ d’équation y = ax + b ; avec (a,b) ∈ IR².

Définition : On appelle somme des résidus associée à la droite ∆, le nombre réel S défini par : S =

i=1 n

(

yi – (axi + b)

)

2.

Définition : On appelle méthode des moindres carrés la méthode qui consiste à déterminer les coefficients a et b de ∆ de sorte que S soit minimale.

Théorème : Il existe une unique droite ∆∆∆∆ réalisant un ajustement affine du nuage de points Mi(xi,yi) par la méthode des moindres carrés. Cette droite passe par le point moyen G et a pour coefficient directeur a = cov(x,y)

σσσσx

2 .

Preuve : Soit ∆∆∆∆ une droite d’équation y = ax + b où a et b sont deux réels, on a S =

i = 1 n

(yi – (axi + b)².

Recherche de b : On suppose que a est fixé et on considère S comme une fonction polynôme du second degré en b. Il vient alors : S =

i = 1 n

((yi – axi ) – b)² = nb² – 2b

i = 1 n

(yi – axi ) +

i = 1 n

(yi – axi)². On cherche S minimale.

Or un polynôme du second degré ααααx² + ββββ x + γγγγ ; avec αααα > 0 est minimum lorsque x = – ββββ

2αααα (lorsqu’il y a une racine double).

Ainsi S est minimale lorsque : b = 2

i = 1 n

(yi – axi ) 2n = 1

n

i = 1 n

(yi – axi ) = 1 n

i = 1 n

yia n

i = 1 n

xi = y – ax. La droite recherchée a donc pour équation : y = ax + y−ax y – y = a(x – x).

Donc parmi les droites de coefficient directeur a, celle qui rend minimale S est celle qui passe par le point moyen G puisque les cordonnées de G vérifient l’équation de la droite. C’est une condition nécessaire.

Recherche de a : On ne considère que les droites qui passent par G. On se place dans le repère (G,→i ,→j ). Les droites ∆∆∆∆ ont pour équation Y = aX avec les formules de changements de repères définies par : ∀∀ i ∈∈ |[1, n]|, Xi = xix et Yi = yiy. Donc S =

i = 1 n

((Yi +y – a(Xi +x) – (y – ax))² =

i = 1 n

(Yi – aXi )² = a²

i = 1 n

Xi² – 2a

i = 1 n

XiYi +

i = 1 n

Yi².

S est un polynôme du second degré en a, donc S est minimum lorsque a = 2

i = 1 n

XiYi 2

i = 1 n

Xi² .

On revient aux séries statistiques initiales : a =

i = 1 n

(xix)(yiy)

i = 1 n

(xix =

1 n

i = 1 n

(xix)(yiy) 1

n

i = 1 n

(xix

= cov(x,y) σσσσx² .

(4)

Définition : ∆ est appelée droite de régression de y par rapport à x, ou aussi parfois appelée droite des moindres carrés.

Exemple : Calculatrice : Dans l’éditeur de liste, la possibilité de calculer l’équation d’une droite de régression et de la mémoriser dans la variable se fait via le menu F5.

a ≈ 1,312 et b ≈ –157,941

Remarque : ♠ On peut définir la droite ∆’ de régression de x en y, ∆’ a pour équation : x = a’(y – y ) + x où a’ = cov(x,y)

σy² .

♠ La décision d’ajuster un nuage par une droite se prend à la seule vue du nuage de points.

Les statisticiens ont éprouvé le besoin de quantifier cette prise de décision, c’est l’objet de la définition suivante :

Définition : On appelle coefficient de corrélation linéaire du couple (x,y), le nombre réel noté R(x,y) et défini par R = R(x,y) = cov(x,y)

σxσy

.

Interprétation : Il mesure l’intensité de la liaison linéaire entre x et y.

Proposition 2 : Le réel R vérifie : –1 ≤≤≤≤ R ≤≤≤≤ 1.

De plus si R = 1 ou –1 alors les points sont alignés.

Preuve : D’après la proposition 1.

Remarque : ♠ On dit que la corrélation entre (xi)1≤i≤n et (yi)1≤i≤n est dite très forte lorsque |R| ≥ 3

2 et dans ce cas, on estime que le nuage de points est suffisamment allongé pour mettre en œuvre la méthode des moindres carrés.

Exemple : On trouve R = 0,957, d’où une bonne « corrélation » entre le poids et la taille.

3 – Applications

Exercice 1 : En reprenant notre exemple de la leçon ; on cherche à comparer 4 méthodes d’ajustements affine.

1/ Droite arbitraire passant par le point moyen

Déterminer l’équation de la droite D passant par G et de coefficient directeur 1,3. Tracer D.

2/ Droite joignant les points M1 et M8

Calculer l’équation de la droite (M1M8). Le point G appartient-il à cette droite ? 3/ Droite de Mayer

a) Déterminez les coordonnées du point moyen G1 des quatre premiers points du nuage et du point moyen G2 des quatre derniers.

b) Placer ces deux points dans le repère précédent puis tracer la droite (G1G2). Cette droite est appelée Droite de Mayer.

c) Déterminer l’équation de la droite (G1G2).

d) Vérifier que le point G appartient à (G1G2).

4/ Droite de régression

Déterminer l’équation de la droite de régression ∆ de y en x par la méthode des moindres carrés.

(5)

5/ Comparaison des ajustements Calculer la somme des résidus S =

i = 1 n

(yi – axi – b)² pour chacune des droites précédentes.

Quelle est la droite pour laquelle cette somme est minimale ?

Solution : 1/ D a une équation de la forme y = 1,3x + b et passant par G =



 1355

8 , 515

8 , on obtient b = – 2491

16 – 155,69.

On vérifie que G n’appartient pas à D : 1,3 ×1355 8 2491

16 = 64,5 515 8 . 2/ (M1M8) : y = ax + b ; a = yM8 – yM1

xM8 – xM1 = 84 – 54 182 – 158 = 5

4. Donc y = 5

4 x+ b. Or M1 (M1M8), 54 = 5

4× 158 + b ⇒ b = – 287

2 – 143,5.

On vérifie que G n’appartient pas à D : 5 4 × 1355

8 287

2 68,2 ≠ 515 8 . 3/ G1



647 4 , 109

2 = (161,75 ; 54,5) et G2



177 , 297

4 = (177 ; 74,25).

La droite (G1G2) a une équation de la forme : y = ax + b. Avec a = yG1 – yG2

xG1 – xG2 ≈ 1,295. Donc b ≈ – 154,98.

Finalement (G1G2) a pour équation : y = 1,295 x – 154,98.

G appartient à la droite de Mayer ? G =

 1355

8 , 515

8 . D’où :

79 61× 1355

8 37815 244 = 515

8 . Finalement G appartient à la droite de Mayer.

4/ A la calculatrice : y = 1,313 x – 157,941. Et on trouve que G . 5/ Comparaison : S1 99,95 ; S2 220,19 ; S3 99,92 ; S4 99,78.

Exercice 2 :

Le déficit budgétaire (en pourcentage) du PIB d’un pays de 2001 à 2006 est représenté dans le tableau suivant (avec 1 correspond à 2001, 2 à 2002, etc…) :

Rang de l’année : xi 1 2 3 4 5 6 Déficit en % : yi 1,2 1,5 2,1 3,8 5,5 9,2 1/ Tracer le nuage de points.

2/ Droite de régression

A la calculatrice, tracer le nuage de points, calculer le coefficient de corrélation et expliquer pourquoi un ajustement affine est justifié.

Donner l’équation de la droite de régression puis la tracer.

3/ Ajustement exponentielle

On introduit donc la nouvelle série statistique (Yi) définie par Yi = ln(yi). Compléter le tableau suivant : xi 1 2 3 4 5 6

Yi = ln(yi)

Calculer le coefficient de corrélation. Comparer avec le résultat obtenu précédemment ; et donner l’équation de la droite de régression. Prévoir le déficit de l’année 2010.

Solution : 2/ Droite de régression

Aux vues du graphique on peut faire une approximation affine. Confirmons notre intuition en calculant R (il est donné par la calculatrice en faisant RegLin x,y puis affstat).

On trouve R = 0,94.

La droite de régression a pour équation : y = 1,53x – 1,49

RegLin x,y : regeq(x) → y1(x).

(6)

On va essayer maintenant d’améliorer ces résultats :

Il semble au vu du nuage de points que l’on puisse tracer une courbe ayant l’allure de celle de la fonction exponentielle et passant par

« presque » tous les points.

On introduit donc la nouvelle série statistique (Yi) définie par Yi = ln(yi). On obtient :

xi 1 2 3 4 5 6

Yi = ln(yi) 0,18232156 0,40546511 0,74193734 1,33500107 1,70474809 2,21920348 De la même manière que précédemment, on obtient :

Le coefficient de corrélation a été nettement amélioré, ici R = 0,99 qui est très proche de 1. L’ajustement affine est plus que justifié ici. La droite de régression de Y en x a pour équation : Y = 0,419x – 0,370.

On revient à la série initiale : Puisque Yi = ln (yi) on a yi = exp(Yi). Ainsi, une meilleur approximation que celle des parties précédentes est donnée par la courbe d’équation : y = e0,419x – 0,370

.

C’est l’équation d’une fonction exponentielle : on a réalisé un ajustement exponentiel.

On pourrait prévoir en 2010 un déficit d’environ e0,419 × 10 – 0,370 = 45,8% de déficit.

Conclusion : Comme on l’a vu dans notre application, il existe d’autres ajustements, par exemple l’ajustement logarithmique, l’ajustement polynomial, l’ajustement sinusoïdal.

Il existe aussi plusieurs méthodes d’ajustement affines, comme on l’a vu avec la droite de Mayer, la droite des « extrêmes » (qui consiste à ajuster le nuage par la droite (M1Mn)).

Pour conclure, l’étude des séries statistiques à deux variables permet de mettre en rapport deux caractères afin de pouvoir déterminer une valeur manquante (interpolation) ou de pouvoir prévoir une tendance (extrapolation).

Néanmoins, deux caractères peuvent avoir un très fort coefficient de corrélation sans pour autant être réellement liés. Un exemple est l’accroissement simultané des divorces dans les familles d’Italie du nord et l’acquisition d’un ordinateur. La conclusion serait que les hommes préfèrent leur ordinateur à leur femme…

4 – Compléments

Vocabulaire

* On appelle statistique l’ensemble des méthodes ou de techniques permettant d’analyser ou de traiter des observations ou des données.

* La statistique c’est l’étude de variations observables : réunir les données, les analyser, et les interpréter.

* Population : Ensemble qu’on observe et qui sera soumis à une étude statistique. Un élément est appelé individu.

* Echantillon : C’est un sous ensemble de la population considérée. La taille de l’échantillon est le nombre d’individus formant l’échantillon.

* Caractère : C’est la propriété qu’on cherche à observer et à analyser : c’est la variable statistique.

Pourquoi n’utilise-t-on pas la projection orthogonale ?

* Calculs plus durs et moins bon pour l’optimisation.

* En statistique, on veut exprimer une variable en fonction d’une autre (y en fonction de x) : calcul d’erreur (résiduel).

* Dans beaucoup d’exercices, x et y ne jouent pas des rôles symétriques.

(7)

Relation entre ∆ et ∆’

(∆) : y = a(x – x ) + y insiste sur le fait que G ∈ ∆ ; on aurait pu écrire (∆) : y = ax + b avec a = .. et b = … La droite de régression de x en y minimise la distance en projetant parallèlement à (Ox) à la place de parallèlement à (Oy). Ces deux droites passent par G.

Pourquoi utiliser ’ au lieu de ∆ : Dans l’exemple, on aurait le poids en fonction de la taille.

Relation entre a et a’ : si |R| ≈ 1, ∆ et ∆’ sont très voisines.

Si les points sont alignés, a = 1/a’ car aa’ = cov(X,Y)/σX² × cov(X,Y)/σY² = cov²(X,Y)/σX²σY² = R² ; et si |R| = 1 alors aa’ = 1.

Plus l’ajustement est pertinent, plus ∆ et ∆’ sont voisines.

Autre preuve de l’existence/unicité de la droite de régression

Théorème : Il existe une unique droite ∆∆∆∆ réalisant un ajustement affine du nuage de points Mi(xi,yi) par la méthode des moindres carrés. Cette droite a pour équation y = a(x – x ) + y où a = cov(x,y)

σσσσx

2 .

Preuve : Soit ∆∆∆∆ une droite d’équation y = ax + b où a et b sont deux réels. On désigne, pour i allant de 1 à n, par Hi le projeté de Mi parallèlement à (Oy) sur ∆∆∆∆.

i=1 n

MiHi² =

i=1 n

(yi – axi – b)² car la distance MiHi ne dépend que des ordonnées des points.

i=1 n

MiHi² =

i=1 n

(yi – axi )² – 2b

i=1 n

(yi – axi ) +nb² =

i=1 n

yi² – 2a

i=1 n

xiyi + a²

i=1 n

xi² – 2bn

(

y– ax

)

+ nb²

=

i=1 n

yi² – 2a

i=1 n

xiyi + a²

i=1 n

xi² + n

(

b –

(

y– ax

) )

2 – n

(

y– ax

)

2

=





i=1 n

yi² – ny² – 2a





i=1 n

xiyi – nx y + a²





i=1 n

xi² – nx² + n

(

b –

(

y– ax

) )

2

= n

[

σσσσy² – 2a cov(x,y) + a² σσσσx² +

(

b –y+ ax

)

2

]

= n 



(

b –y+ ax

)

2 + aσσσσxcov(x,y)σσσσ

x 2

+ σσσσy² σσσσx² – cov²(x,y) σσσσx² avec σσσσx et σσσσy non nul car les xi et les yi sont deux à deux distincts.

σσσσy²σσσσx² – cov²(x,y)

σσσσx² est un nombre positif indépendant de a et de b.

Donc

i=1 n

MiHi² ≥≥≥≥σσσσy²σσσσx² – cov²(x,y)

σσσσx² et on a l’égalité si et seulement si :



b – y+ ax= 0 aσσσσxcov(x,y)

σσσσx

= 0 i.e



b =y– ax a = cov(x,y)

σσσσx² .

Autres ajustements

* Ajustement exponentielle : On détermine une droite de régression y = mx + p = ln(a)x + lnλ (a et λ existent dans IR+* car ln : IR+*→ IR est une bijection) du nuage de points associé à la série double (xi,ln(yi)). Alors le nuage de points initial est ajusté par y

* Ajustement par une fonction puissance : Si les points Mi(xi,yi) sont proche de la courbe d’équation y = λxa, alors les points (ln xi,ln yi) sont proches de la droite d’équation y = ax + ln λ, et réciproquement.

* Autres ajustements :

• Droite de Mayer : Pour chaque sous nuage, calculer les coordonnées du point moyen, on obtient la droite (G1G2).

• Droite des extrêmes (M1Mn).

• Droite arbitraire passant par G.

On peut demander de comparer ces méthodes en calculant la somme des résidus.

Références

Documents relatifs

Séries statistiques à deux variables : nuage de points ; ajustement affine (méthode des moindres carrés) ; ajustements, qui par un changement de variable, se ramènent à un

[r]

À l’aide de la calculatrice, on donne une équation de la droite réalisant un ajustement affine de ce nuage de points, obtenue par la méthode des moindres carrés avec les

Généralement, la variation des constantes à déterminer donnera lieu à une déformation et à un déplacement non parallèle aux ordonnées ; il est clair alors que la surface à

On admettra dans la suite de l’exercice que la fonction f peut-être considérée comme une modélisation valable des ventes de boissons énergisantes jusqu’en 2020, l’année

Exemple 4 En utilisant la droite de régression (trouvée à l’exemple précédent), déterminer la charge à laquelle peut résister une pièce dont la teneur en carbone est 0,72.

commun du modele statistique linéaire (1) ces trois methodes que cons- tituent la regression lineaire, la methode des moindres carres et l’estima- tion bayesienne.. On

Bien d'autres méthodes pourraient encore être proposées; mais il nous a semblé légitime d'appliquer ici la méthode des moindres carrés de Gauss, qui, universellement employée