• Aucun résultat trouvé

A Ajustement affine

N/A
N/A
Protected

Academic year: 2022

Partager "A Ajustement affine"

Copied!
6
0
0

Texte intégral

(1)

Chapitre 15 : Résumé Statistique.

I Statistique descriptive univariée

SoitX une série statistique en modalitétx1, x2, ..., xpud’effectif totaln. Les effectifs de chaque modalité seront noténi et les fréquencefini

n :

xi x1 x2 ... xp ni n1 n2 ... np

p

ÿ

j“1

njn et

p

ÿ

j“1

fj“1 Proposition 1(Effectif total)

@jPJ1, pK, ncj

j

ÿ

k“1

nk, et fjc

c

ÿ

k“1

fk

donc nc1ďnc2ď ¨ ¨ ¨ ďncpn et f1cďf2cď ¨ ¨ ¨ ďfpc“1 Proposition 2(effectifs et fréquences cumulés croissants)

On appelle mode de la série statistiquex toute modalité dexdont l’effectif est maximal parmi les effectifs de toutes les modalités.

Lorsque les modes correspondent à des classes on appelle alors classe modale la classe dont l’effectif est maximal.

Définition 1(mode)

Si les modalitéspa1,¨ ¨ ¨, apqsont ponctuelles alors

¯ x“ 1

n

p

ÿ

j“1

njaj

p

ÿ

j“1

fjaj

Proposition 3(moyenne)

Soit xet y deux séries statistiques quantitatives dont les modalités sont à valeurs dans le même ensemble et d’effectifs respectifsnet m.

— Soitpa, bq PR2et soitula série statistique définie par

@iPJ1, nK, uiaxi`b Alors ¯ua¯x`b

— Soitz la série statistique obtenue en concaténant les sériesxet y (on donc z“ px1,¨ ¨ ¨ , xn, y1,¨ ¨ ¨ , ymq).

Alors

¯

zn¯x`m¯y n`m Proposition 4(Transformation affine d’une série statistique)

(2)

On appelle médiane d’une série statistique de taillentout réelmtel que CardptiPJ1, nK, xiďmuq ě n

2 et CardptiPJ1, nK, xi ěmuq ě n 2

En pratique on prend souvent comme médiane la valeur d’une modalité. Dans ce cas, un individu dont le caractère correspond à la médiane est dit être un individu médian.

Définition 2(Médiane)

Soitxune série statistique de taillendont les modalités sont données dans l’ordre croissanta1ăa2ă ¨ ¨ ¨ ăan.

— Sinest impair alorsan`1 2

est une médiane.

— Sinest pair alors tout nombre de l’intervalleran

2, an

2`1sest une médiane.

Proposition 5(Médiane)

Soitxune série statistique de taillenà valeurs réelles. On appelle premier quartile de la sériextout réelQ1tel que

CardptiPJ1, nK, xiďQ1uq ě n

4 et CardptiPJ1, nK, xiěQ1uq ě 3n 4 De même on appelle troisième quartile de la sériextout réelQ3 tel que

CardptiPJ1, nK, xiďQ3uq ě 3n

4 et CardptiPJ1, nK, xiěQ3uq ě n 4 La médiane de la sériexest aussi appelée deuxième quartile.

Définition 3(Quantiles)

Soitxune série statistique de taillenà valeurs réelles. On appelle

— écart interquartile la différenceQ3´Q1.

— intervalle interquartile l’intervallerQ1, Q3s Définition 4(Écart inter-quartile)

Vx“ 1 n

p

ÿ

j“1

njpaj´xq¯ 2

p

ÿ

j“1

fjpaj´xq¯ 2x¯2´x¯2

On définit l’écart-type d’une série statistique quantitative réelle, notéσx comme la racine carré de la variance σx“a

Vx

Définition-Proposition 6(Variance et écart-type)

Soitxune série statistique quantitative réelle,pa, bq PRety la série statistiqueyax`b. On a alors Proposition 7

(3)

II Statistique descriptive bivariée

SoitpX, Yqune série statistique bivariée :

xi x1 x2 ... xp

yi y1 y2 ... yp

On définit

¯ x“ 1

n

n

ÿ

k“1

xk et y¯“ 1 n

n

ÿ

k“1

yk Le point de coordonnéesp¯x,yq¯ est appelé point moyen du nuage.

Définition 5

On définit

Vx“ 1 n

n

ÿ

k“1

pxk´xq¯ 2x¯2´x¯2 Idem pourY.

Définition 6(Variance)

On définit la covariance dexet dey noté Covpx, yqouσx,y par Covpx, yq “ 1

n

n

ÿ

k“1

pxk´xqpy¯ k´yq “¯ xy´¯x¯y Définition 7

(4)

Exemple :

LorsqueVx‰0 etVy ‰0, on définit le coefficient de covariance notéρx,y ourx,y par ρx,y “Covpx, yq

aVxVy

σx,y σxσy

rhox,yP r´1,1s Définition 8

A Ajustement affine

L’idée de l’ajustement affine est la suivante : On dispose de séries de données (souvent expérimentales) x et y et on soupçonne qu’il existe une relation les liant de la formeyax`b.

Remarque1. Parfois on sait que la relation existe et on veut déterminera etb

On veut alors chercher la droite d’équationyax`bqui passe « le mieux »par notre nuage de points.

Le problème est : Comment définir « le mieux » ?

On retient le critère suivant : la somme des carrés des écarts verticaux entre les valeurs yi observés et celles prédites axi`b doit être minimale : c’est la méthode des moindres carrés.

Ainsi, on veutpa, bq PR2 rendant minimale la somme Spa, bq “

n

ÿ

k“1

paxk`b´ykq2

Soitpx, yqune série statistique double constituée d’une suite de couplesppxk, ykqq1ďkďn. La droite de régression par la méthode des moindres carrés dey enxa pour équation :

yσx,y

σx2 px´xq `¯ y¯ Théorème 8

Démonstration. Avec les hypothèses ci-dessus :

(5)

On remplace b pary´ax. On peut remarquer que cela signifie que la droite de régression passe par le point moyen de coordonnéespx, yq.

fpaq “Spa, y´axq “

n

ÿ

k“1

rapxk´xq ´ pyk´yqs2a2

n

ÿ

k“1

pxk´xq2´2a

n

ÿ

k“1

pxk´xqpyk´yq `

n

ÿ

k“1

pyk´yq2

On procède à l’étude de la fonctionf.

f1paq “2a

n

ÿ

k“1

pxk´xq2´2

n

ÿ

k“1

pxk´xqpyk´yq ôa

n

ř

k“1

pxk´xqpyk´yq

n

ř

k“1

pxk´xq2

σx,y σx2

On a donc déterminer le coefficient directeur de la droite de régression qui passe par le point moyen donc yσx,y

σx2 px´xq `¯ y¯

Remarque 2. — Cette droite passe par le point moyen du nuage de coordonnées p¯x,yq¯

— Selon la forme du nuage, nos connaissances et notre intuition on considérera parfois les échantillons lnpxq,x2, etc

— Pourquoi parle-t-on de « régression linéaire » ? La réponse est une erreur de traduction. Le mathématicien anglais Sir Galton étudiait les tailles des fils pyj en fonction de la taille de leur père pxj et a noté un « retour à la moyenne » : Les grands individus ont en moyenne des enfants plus petits qu’eux et les petits individus ont des enfants plus grand qu’eux.

En anglais le terme pour « retour à la moyenne »est « regression to the mean », ce terme a ensuite été mal transposé au français.

— Cette méthode nous permet d’établir un lien de corrélation entre xety. C’est une erreur fondamentale de logique que de confondre lien de corrélation et lien de causalité. Par exemple la régression linéaire suivante entre taux d’équipement en téléviseurs de la population (en %) et taux de malades mentaux (nombre pour mille habitants) sur des données de Grande Bretagne ou encore l’article du Monde en fin de chapitre.

Comment évaluer la « justesse »d’un ajustement ? La réponse n’est pas simple. Pour y répondre on définit un nouvel indicateur statistique : le coefficient de détermination.

(6)

On définit le coefficient de déterminationr2 par

r2

n

ÿ

k“1

paxk`b´yq¯ 2

n

ÿ

k“1

pyk´yq¯ 2

“1´ Spa, bq

n

ÿ

k“1

pyk´yq¯ 2

aσx,y

σ2x by¯´σx,y

σ2x x¯ Définition 9

Le coefficient de détermination est le carré du coefficient de corrélation, c’est-à-dire r2ρ2x,y “Covpx, yq2

VxVy

Théorème 9

Démonstration.

r2

n

ÿ

k“1

paxk`b´yq¯ 2

n

ÿ

k“1

pyk´yq¯ 2

n

ÿ

k“1

ˆσx,y

σx2 xk`y¯´σx,y

σx2 x¯´y¯

˙2

y2

“ 1 n

ˆσx,y

σ2x

˙2 n

ÿ

k“1

pxk´xq¯ 2 σ2y

σx,y2 σx2 σx4σ2y

σx,y2 σx2σy2

ρ2x,y

On a

r2ď1

r2“1 correspond à une adéquation parfaite tandis quer2 proche de 0 indique une faible liaison linéaire ce qui peut signifier qu’il n’y a pas de lien entrexety ou bien quexet y sont liés par une relation non-affine.

Proposition 10

Références

Documents relatifs

- Déterminer l'expression algébrique d'une fonction affine à partir de la donnée de deux nombres et de leurs images.. - Représenter graphiquement une

Et les autres vous en ont voulu et ils ont délimité votre communauté pour l'enfermer dans un ghetto.. - Mais il a fallu le terrible boule- versement de mai pour

Controles : Fils et aiguille => Largeur, diamètre, rupture de nœud, sertissage et stérilité, Conditionnement => doit conserver la stérilité et les paramètres physiques et

Exécutez puis commentez le résultat de l’exécution de ce code.. Que représente la valeur de returnWait et celle

L’objet de l’exercice est de faire des pr´ evisions sur l’effectif de la population d’´ el´ ephants de cette r´ eserve pour l’ann´ ee 2000.. Ces pr´ evisions seront

Cette méthode permet d’obtenir une droite qui minimise la somme des carrés des distances verticales des points à la

Le récit du père, Fernand Malraux, constitue un mystère dont nous ne saurons jamais rien, le point vraisemblablement originel mais aveugle d’un roman organisé autour de

Propriété : La représentation de la fonction affine ( ) est une droite parallèle à la représentation graphique de la fonction linéaire