• Aucun résultat trouvé

IVocabulaire,représentationgraphique Chapitre16:Statistique.

N/A
N/A
Protected

Academic year: 2022

Partager "IVocabulaire,représentationgraphique Chapitre16:Statistique."

Copied!
15
0
0

Texte intégral

(1)

Chapitre 16 : Statistique.

Il existe trois types de mensonges : les mensonges simples, les sacrés mensonges et les statistiques Mark Twain

I Vocabulaire, représentation graphique

L’objectif de la statistique descriptive est d’être capable de donner une information synthétique sur la répartition d’un caractère au sein d’une population. Il s’agit donc de donner des grandeurs caractéristiques pertinentes pour avoir un bon aperçu de la répartition dudit caractère.

On se retrouvera, en statistique,face à deux types de situations différentes mais menant à des traitement mathématiques similaires :

— La répétition d’une expérience dont le résultat, du fait d’un aléa dans l’expérience ou des incer- titudes de mesure, n’est pas toujours le même. C’est la situation qui se présente le plus souvent dans les sciences expérimentales (SVT, Physique-Chimie)

— La considération d’un échantillon dans un population. On recueille des informations sur des per- sonnes tirées au hasard dans le but d’obtenir le sentiment général (e.g. sondage), cette approche est plus proche de celle pratiquée par les économistes.

Une population

Remarque1.

Population ne signifie pas que l’on considère des personnes. Si vous réaliser plusieurs titrages pour votre T.I.P.E. vous aurez une population de concentrations

est un ensemble fini dont les éléments sont appelés des individus. Le nombre d’individus d’une population est appelé sa taille.

Définition 1

Très souvent on ne mène pas notre étude sur la population entière mais sur une sous-partie que l’on espère représentative

Un sous-ensemble d’une population est appelé un échantillon de cette population Définition 2

Un caractèrexde la population est une donnée qualitative ou quantitative attachée à chaque individu de la population. On noteraxi la valeur du caractèrexpour un individui.

La donnée des valeurs d’un caractère pour les individus d’un échantillon de taille n est une série statistique de taille n. Une série statistique associée au caractère x sera notée px1,¨ ¨ ¨ , xnq.

— Un caractère est dit quantitatif s’il prend des valeurs quantifiables, souvent des réels mais éventuellement desp-uplets ou des matrices.

— Un caractère est dit qualitatif s’il correspond à une propriété qui ne se quantifie pas (e.g. couleur des cheveux, opinion politique, etc.)

Définition 3

On appelle modalités d’un caractère les valeurs possibles qu’il peut prendre Définition 4

Exemple 1. Le tableau ci-dessous regroupe les diamètres en cm de 48 pièces prélevées dans la production d’une machine.

1,19 1,26 1,23 1,20 1,22 1,24 1,20 1,24

1,22 1,20 1,21 1,19 1,21 1,22 1,19 1,20

1,21 1,21 1,22 1,21 1,23 1,22 1,21 1,24

1,25 1,23 1,22 1,19 1,20 1,26 1,24 1,25

1,23 1,26 1,25 1,25 1,21 1,22 1,25 1,24

1,23 1,22 1,24 1,24 1,25 1,23 1,25 1,22

BCPST 1 2019-2020 1

(2)

Il s’agit d’un échantillon statistique de taille 48 dans la population des pièces fabriquées par la ma-

chine. Le caractère étudié est le diamètre de la pièce en centimètres. Les modalités sont 1.19,1.20,1.21,1.22,1.23,1.24,1.25 et 1.26.

A Effectifs, regroupements en classes

Une série statistique peut être donnée sous plusieurs formes.

On peut simplement donner la valeur du caractère pour chaque individu Par exemple, une série de masse des personnes

Individu 1 2 ¨ ¨ ¨ n Masse 62 80 ¨ ¨ ¨ 74

Si la taille de l’échantillon est trop grande on préfèrera donner les nombres d’individus associés à chaque modalité. On appelle cela l’effectif associé à ladite modalité

Par exemple,

Nombre d’enfants 0 1 ¨ ¨ ¨ 5 Effectif 20 31 ¨ ¨ ¨ 3

Parfois le nombre de modalités est trop grand pour ce faire, voire infini pour des modalités dites continues (e.g. à valeurs réelles).

Il est alors pertinent de regrouper les modalités en classes disjointes, souvent on regroupe les modalités en des intervalles qui ne sont pas forcément de tailles égales.

Inversement les modalités non regroupées en classe sont dites ponctuelles. Il peut également arriver que nos modalités comportent des classes et des modalités ponctuelles

Par exemple, lorsque l’on étudie la démographie urbaine française on va regrouper les communes en classes selon leur nombre d’habitants :

— Hameaux de 1 à 99 habitants,

— Village de 100 à 1999 habitants,

— Ville de 200 à 99999 habitants,

— Agglomération à partir de 100000 habitants

Les salaires dans une entreprise peuvent aussi donner lieu à un regroupement en classes, par exemple

Salaire mensuel en euros 1173 s1173,1300s s1300,1500s ¨ ¨ ¨ s4000,`8r Effectifs

Considérons une série statistique de taillenadmettant une nombre fini de modalités (ce qui est toujours possible quitte à faire des regroupements de classes) notées a1,¨ ¨ ¨ , an.

— Pour j P J1, pK, on définit l’effectif nj associé à la valeur aj comme étant le nombre d’individusipour lesquelsxiaj..

— PourjPJ1, pK, on définit l’effectifnj associé à la valeuraj comme étant la proportion d’individusipour lesquelsxiaj, c’est-à-direfjnnj

Définition 5

On a p

ÿ

j“1

njn et

p

ÿ

j“1

fj“1 Proposition 1

Dans le cas où les caractères étudiés sont des réels (ils peuvent donc être ordonnés) on va introduire les effectifs cumulés croissants et les fréquences cumulées croissantes

BCPST 1 2019-2020 2

(3)

On suppose ici les modalitésa1,¨ ¨ ¨ , ap rangées dans l’ordre croissant (a1ăa2ă ¨ ¨ ¨ ăap).

Pour des intervallessa, bs etsc, dscela correspond à aăbďcăd.

SoitjPJ1, pK.

— On définit l’effectif cumulé croissant associé à la modalité aj comme le nombre d’in- dividusipour lesquelsxiďaj, c’est-à-dire

ncj“CardptiPJ1, nK, xiďajuq

— On définit la fréquence cumulée (croissante) associée à la modalité aj comme la pro- portion d’individusi pour lesquelsxiďaj, c’est-à-dire

fjcncj

n Définition 6

On a alors

@jPJ1, pK, ncj

j

ÿ

k“1

nk, et fjc

c

ÿ

k“1

fk et

nc1ďnc2ď ¨ ¨ ¨ ďncpn f1cďf2cď ¨ ¨ ¨ ďfpc “1 Proposition 2

B Représentation graphique

Comme un bon dessin vaut parfois mieux qu’un long discours on peut vouloir donner une représen- tation graphique d’une série statistique. Il y a plusieurs manières usuelles de ce faire que l’on adaptera à la situation à illustrer

‚ Diagramme en bâtons

Pour établir un diagramme en bâtons on va tracer pour chaque modalité une bâton (un rectangle long et fin) centré enaj et de hauteur fj ounj (le choix de tracer en fonction des effectifs ou des fréquences se fera pour des questions de renormalisation)

Ce type de graphique est adapté aux données ponctuelles et aux données qualitatives.

‚ Histogramme

Ce type de graphique n’est utilisé que pour des données quantitatives regroupées en classes.

Pour chaque classe on va alors tracer un rectangle ont la largeur vaut l’amplitude de l’intervalle et dont l’aire

Remarque2. C’est l’aire du rectangle qui est importante, pas sa hauteur

est proportionnelle à la fréquence ou à l’effectif de la classe.

‚ Polygone des fréquences cumulées croissantes

La procédure est différente pour des modalités ponctuelles ou regroupées par classes.

— Pour des modalités ponctuelles, on place les pointsAide coordonnéespai, ficq. On va alors relier les pointsAipai, ficBipai`1, ficqpuis Bi à Ai`1pai`1, fi`1c q. Schématiquement on trace un trait horizontal puis un trait vertical.

— Pour des modalités regroupées en classe sαi, αi`1s on place les pointsAi de coordonnées pαi`1, ficq. (à la droite de l’intervalle donc). On relie ensuite simplement les pointsAi par une ligne brisée.

Remarque3. Cette représentation est pertinente si les individus sont répartis uniformément au sein de la classe. Si vous avez des raisons de penser que ce n’est pas le cas alors il faut séparer votre classe en plusieurs classes

PourcPRon va alors pouvoir lire simplement la proportion d’individusipour lesquelsxiďc en lisant l’ordonnée du point de la courbe d’abscissec.

Exemple 2. — On considère la série :

xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

ni 3 5 6 5 6 7 7 10 13 20 25 21 23 12 10 5 7 5 3 2 1

Et la même regroupée en classe :

BCPST 1 2019-2020 3

(4)

xi r0,5r r5,10r r10,15r r15,20s

ni 25 57 91 23

On obtient les diagrammes en bâtons et histogramme.

— Une étude portant sur les salaires mensuels des employés en CDI à temps complet d’une entre- prise a permis d’établir l’histogramme ci-dessous.

On peut alors retrouver la série statistique associée

xi r1000,1200r r1200,1300r r1300,1400r r1400,1500r r1500,1900r r1900,2200s

ni 28 24 20 18 24 6

nci 28 52 72 80 104 110

D’où le polygone des fréquences cumulées croissantes.

BCPST 1 2019-2020 4

(5)

— On considère la série :

Caractère 0 1 2 3 4 5 6 7 8 9 10

Effectif 3 5 6 5 6 7 7 10 11 20 20

Fréquence 0.015 0.025 0.03 0.025 0.03 0.035 0.035 0.05 0.065 0.1 0.125

Effectif cumulé 3 8 14 19 25 32 39 49 60 80 100

Fréquence cumulée 0.03 0.08 0.14 0.19 0.25 0.32 0.39 0.49 0.6 0.8 1 On obtient la courbe de fréquences cumulées

II Caractéristiques de position

L’idée des caractéristiques de position est de donner une grandeur dont on espère qu’elle résume bien la série statistique.

A Mode(s)

On appelle mode de la série statistique x toute modalité de xdont l’effectif est maximal parmi les effectifs de toutes les modalités.

Lorsque les modes correspondent à des classes on appelle alors classe modale la classe dont l’effectif est maximal.

Remarque4. Si vos classes sont de tailles différentes alors la classe modale n’est pas forcément la classe qui a le « plus haut »rectangle dans l’histogramme

Définition 7

Remarque 5. — Il est possible qu’une série statistique admette plusieurs modes ou classes modales.

— Il est très facile de déterminer le mode mais son utilité est pratiquement nulle.

BCPST 1 2019-2020 5

(6)

B Moyenne

Soitx“ px1,¨ ¨ ¨, xnqune série statistique quantitative. La moyenne de la série, notée ¯x, est définie par

¯ x“ 1

n

n

ÿ

i“1

xi

Définition 8

Si les modalitéspa1,¨ ¨ ¨ , apqsont ponctuelles alors

Remarque6. On peut interpréter la moyenne comme le barycentre des modalités affectés de poids

proportionnels aux effectifs

¯ x“ 1

n

p

ÿ

j“1

njaj

p

ÿ

j“1

fjaj

Proposition 3

Quand on travaille avec des données regroupées par classes cette définition n’est pas utilisable. Dans ce situation on va alors considérer que les valeurs sont uniformément réparties dans les intervalles et prendre pour moyenne de la série la moyenne des milieux des intervalles pondérés par les effectifs

Dans la situation où les modalitéspajqjPJ1,pKcorrespondent à des intervallesrbj, cjron définit alors la moyenne par

Remarque7. Il s’agit d’une approximation pour la situation où on ne dispose que des effectifs par classe, en général on n’a pas

1 n

řn i“1xi

1 n

řp j“1nj

´b

j`cj 2

¯

¯ x“ 1

n

p

ÿ

j“1

nj

ˆbj`cj 2

˙

p

ÿ

j“1

fj

ˆbj`cj 2

˙ Définition 9

Soit xet y deux séries statistiques quantitatives dont les modalités sont à valeurs dans le même ensemble et d’effectifs respectifsnetm.

— Soit pa, bq PR2 et soitula série statistique définie par

@iPJ1, nK, uiaxi`b Alors ¯ua¯x`b

— Soit z la série statistique obtenue en concaténant les séries x et y (on donc z “ px1,¨ ¨ ¨, xn, y1,¨ ¨ ¨, ymq). Alors

¯

zn¯x`m¯y n`m

Remarque8. Si on voit les moyennes comme des barycentres alors ce résultat est simplement l’associativité du barycentre

Proposition 4

C Médiane

On suppose ici que nos modalités sont des réels

On appelle médiane d’une série statistique de taillentout réelmtel que

Remarque9. Il y a en général plusieurs médianes

CardptiPJ1, nK, xi ďmuq ě n

2 et CardptiPJ1, nK, xiěmuq ě n 2

Remarque10. m partage la série en deux parties comportant chacune au moins la moitié des individus

En pratique on prend souvent comme médiane la valeur d’une modalité. Dans ce cas, un individu dont le caractère correspond à la médiane est dit être un individu médian.

Définition 10

BCPST 1 2019-2020 6

(7)

Soitxune série statistique de taillendont les modalités sont données dans l’ordre croissant a1ăa2ă ¨ ¨ ¨ ăan.

— Sinest impair alorsan`1

2 est une médiane.

— Sinest pair alors tout nombre de l’intervalleran

2, an

2`1sest une médiane.

Remarque11. En particulier

an 2`an

2`1

est une médiane mais2

ce n’est pas la seule.

Proposition 5

Remarque 12. — La médiane a, sur la moyenne, l’avantage d’être peu influencée par les valeurs extrêmes. Elle est alors plus représentative que la moyenne lorsque la série comporte des valeurs très grandes ou très petites.

Par exemple, en France en 2014 le salaire moyen mensuel était de 1934 euros pour les femmes et 2389 euros pour les hommes tandis que le salaire médian mensuel était de 1619 euros pour les femmes et 1882 euros pour les hommes. La différence s’explique par le fait que les très hauts salaires, même s’ils sont peu nombreux, tirent la moyenne vers la haut.

— Sur le polygone des fréquences cumulées croissantes on lit une médiane assez simplement. Il suffit de chercher l’abscisse du point de la courbe d’ordonnée 12.

Soit x une série statistique dont les modalités sont regroupées en classes. On définit la médiane de xcomme l’abscisse du point de la courbe des fréquences cumulées croissantes d’ordonnée 12.

Définition 11

III Caractéristique de dispersion

L’idée des caractéristiques de dispersion est de donner une idée de la répartition de la série autour de sa moyenne ou de sa médiane. Les valeurs sont elles relativement proches de la moyenne ou existe-t-il des valeurs très grandes et très petites ?

A Valeurs extrêmes et étendue

Soit xune série statistique de taille nà valeurs réelles. On appelle valeurs extrêmes de la série xles nombres miniPJ1,n

Kxi et maxiPJ1,n

Kxi. Il s’agit donc des modalités maximales et minimales.

Si on travaille avec des données regroupées en classes on prendra comme valeurs extrémales la borne supérieure de la classe maximale et la borne inférieure de la classe minimale.

On appelle étendue de la série statistique la différence entre la valeur maximale et la valeur minimale.

Définition 12

Remarque 13. L’étendue est facile à déterminer mais ne délivre que très peu d’informations car elle est très fortement affectée par les valeurs extrêmes. Par exemple en France le revenu annuel se situe entre 0 euros et environ 7 millions, ce qui ne nous donne pas vraiment une idée de la répartition des salaires dans la population.

BCPST 1 2019-2020 7

(8)

B Quantiles

Soit xune série statistique de taille n à valeurs réelles. On appelle premier quartile de la série xtout réelQ1tel que

CardptiPJ1, nK, xiďQ1uq ě n

4 et CardptiPJ1, nK, xiěQ1uq ě 3n 4

Remarque14. Q1

partage la série en deux parties

comportant, d’un coté au moins un quart de la population, et de l’autre coté au moins trois quarts de la population

De même on appelle troisième quartile de la sériextout réelQ3 tel que CardptiPJ1, nK, xiďQ3uq ě 3n

4 et CardptiPJ1, nK, xiěQ3uq ě n 4 La médiane de la série xest aussi appelée deuxième quartile.

Définition 13

On peut définir la notion de décile de manière similaire

Soit x une série statistique de taillen à valeurs réelles. Pour j PJ1,9K, on appelle j-ème décile de la série xtout réeldj tel que

CardptiPJ1, nK, xiďdjuq ě jn

10 et CardptiPJ1, nK, xiědjuq ě p10´jqn 10

Remarque15. dj

partage la série en deux parties

comportant, d’un coté au moinsjdixièmes de la population, et de l’autre coté au moins 10-j dixièmes de la population

Définition 14

Ces deux notions se généralisent avec la notion de quantiles

Soitxune série statistique de taillenà valeurs réelles. Soit tP r0,1s, on appellet-quantile de la sériextout réelqttel que

Remarque16. Comme pour les quartiles et les déciles il n’y pas unicité dut-quantile

CardptiPJ1, nK, xiďqtuq ěnt et CardptiPJ1, nK, xiěqtuq ě p1´tqn Définition 15

Remarque 17. — Le premier quartile est alors un 14 quantile, etc. Si la série statistique est donnée via un regroupements en classes alors on déterminera unt-quantile en prenant l’abscisse d’un point du polygone des fréquences cumulées croissantes d’ordonnéet.

Soitxune série statistique de taillenà valeurs réelles. On appelle

— écart interquartile la différenceQ3´Q1.

— intervalle interquartile l’intervallerQ1, Q3s

Remarque18. La moitié au moins de la population se trouve dans l’intervalle interquartile

De même on appelle

— écart interdécile la différence d9´d1.

— intervalle interdécile l’intervalle rd1, d9s

Remarque19. Au moins 80% de la population se trouve dans l’intervalle interdécile

Définition 16

On peut représenter de manière graphique l’étendue, les quartiles et la médiane en dessinant un diagramme dit « boite à moustaches »conçu de la manière suivante :

— au centre une boite allant du premier au troisième quartile, séparée en deux par la médiane ;

— de chaque côté une moustache allant du minimum au premier quartile pour l’une, et du troisième quartile au maximum pour l’autre.

BCPST 1 2019-2020 8

(9)

C Variance et écart-type

La variance d’une série statistique quantitative à valeurs réelles x“ px1, x2, . . . , xnqest le nombreVxdéfini par :

Vx“ 1 n

n

ÿ

i“1

pxi´xq¯ 2

Vxest la moyenne des carrés des écarts à la moyenne

On a également

Vx“ 1 n

p

ÿ

j“1

njpaj´¯xq2

p

ÿ

j“1

fjpaj´¯xq2 Définition 17

Remarque 20. — La variance est toujours positive.

— Dans la cas d’une série regroupée en classes on prendra pour valeurs aj les centres des classes.

— Plus la variance est grande et plus la série est « étalée ». Inversement, plus la variance est proche de zéro et plus la série est concentré autour de sa moyenne.

— La variance ne donne pas d’informations sur une éventuelle asymétrie de la série (par exemple dans le cas de la répartition des salaires en France).

— On trouve parfois la notations2x pour la variance.

Soitxune série statistique quantitative à valeurs réelles. On a Vxx¯2´x¯2

Remarque21. Vxest donc la moyenne des carrés moins le carré de la moyenne

Proposition 6

Démonstration. On a

Vx“ 1 n

n

ÿ

i“1

pxi´xq¯ 2

“ 1 n

n

ÿ

i“1

`x2i `x¯2´2xix¯˘

“ 1 n

n

ÿ

i“1

x2i ` 1 n

n

ÿ

i“1

¯ x2´2x¯

n

n

ÿ

i“1

xi

x¯2`x¯2´2¯x2

x¯2´x¯2

Remarque 22. — Cette formule n’est pas la définition de la variance mais c’est celle que l’on utilisera la plupart du temps pour calculer la variance

— Certains français (essentiellement dans les milieu des CPGE) appellent cette formule la formule de Koenig-Huygens. Les allemands l’appellent plutôt théorème de translation de Steiner. On trouve aussi l’appellation formule de Leibniz. Pour l’essentiel des mathématiciens il s’agit d’une formule triviale qui ne mérite pas de nom.

On définit l’écart-type d’une série statistique quantitative réelle, noté σx comme la racine carré de la variance

Remarque23. On trouve parfois la notationsx

σx“a Vx

Définition 18

BCPST 1 2019-2020 9

(10)

Remarque 24. L’intérêt de l’écart-type par rapport à la variance est que l’écart-type s’exprime dans les mêmes unités que les modalités de la série. On pourra alors faire des calculs faisant intervenir modalités, moyenne et écart-type (par exemple dans des situations d’estimation de paramètres ou de test statistique d’hypothèses).

Soitxune série statistique quantitative réelle,pa, bq PRety la série statistiqueyax`b.

On a alors

Vya2Vx

et donc

σy“ |a|σx Proposition 7

Démonstration. On a

Vy“ 1 n

n

ÿ

i“1

pyi´yq¯2

“ 1 n

n

ÿ

i“1

paxi`b´ pa¯x`bqq2

“ 1 n

n

ÿ

i“1

a2pxi´xq¯ 2

a2Vx

IV Statistique descriptive bivariée

On a vu dans le chapitre précédent diverses manières d’extraire de l’information d’un échantillon statistique. Lorsque l’on ne dispose plus d’un seul mais de plusieurs échantillons statistiques, on peut, au delà de la simple étude des échantillons, étudier les éventuels liens entre eux, c’est l’objet de ce chapitre. Pour des raisons de simplicité on se limitera à deux échantillons.

A Contexte

On va s’intéresser ici à deux caractères quantitatifs d’une même population. On noteranla taille de l’échantillon étudié etpx, yqles deux caractères étudiés. L’observation des valeurs des caractères se traduit par un échantillon d’éléments deR2

ppx1, y1q,px2, y2q,¨ ¨ ¨ ,pxn, ynqq

Notons pa1,¨ ¨ ¨, ap les modalités du caractère x (éventuellement des classes) et (b1,¨ ¨ ¨ , bqq les modalités du caractèresy (idem).

Le plus souvent on regroupe les individus par modalités, on obtient alors le tableau d’effectifs suivant :

b1 ¨ ¨ ¨ bj ¨ ¨ ¨ bq Totaux a1 n1,1 ¨ ¨ ¨ n1,j ¨ ¨ ¨ n1,q n1‚

... ... ... ... ...

ai ni,1 ¨ ¨ ¨ ni,j ¨ ¨ ¨ ni,q ni‚

... ... ... ... ...

ap np,1 ¨ ¨ ¨ np,j ¨ ¨ ¨ np,q np‚

Totaux n‚1 ¨ ¨ ¨ n‚j ¨ ¨ ¨ n‚q n

ni,j est le cardinal de l’ensemble des individus présentant à la fois les modalitésai etbj. Pourpi, jq PJ1, pKˆJ1, qK, on pose

n‚,1

`

ÿ

j“1

ni, j etnj,‚“ÿ

i“1kni,j

BCPST 1 2019-2020 10

(11)

On a alors

n

p

ÿ

i“1 q

ÿ

j“1

ni,j

p

ÿ

i“1

ni,‚

q

ÿ

j“1

n‚,j

Pour pi, jq PJ1, pKˆJ1, qKon définit

— Les fréquences des couples de modalitéspai, bjqparfi,jnni,j.

— La fréquence marginale de la modalitéai parfi,‚nni,‚

— La fréquence marginale de la modalitéai parf‚,jn‚,jn Définition 19

On a alors

p

ÿ

i“1 q

ÿ

j“1

fi,j

p

ÿ

i“1

fi,‚

q

ÿ

j“1

f‚,j “1

On appelle nuage point associé à l’échantillonpx, yqle tracé de tous les points de coordonnées Mpxk, ykqpour kPJ1, nK.

Définition 20

B Indicateurs statistiques

On définit les moyennes et variances de manière similaire au cas univarié.

On définit

¯ x“ 1

n

n

ÿ

k“1

xk

On a encore

¯ x“ 1

n

p

ÿ

i“1

ni,‚ai

p

ÿ

i“1

fi,‚ai

Remarque25. Si les données sont regroupées en classes, on prend les centres des classes pourai. On n’a par contre pas

1 n

řn k“1xk

1 n

řp i“1ni,‚ai

et

y¯“ 1 n

n

ÿ

k“1

yk “ 1 n

q

ÿ

j“1

n‚,jbj

q

ÿ

j“1

f‚,jbj

Le point de coordonnées p¯x,yq¯ est appelé point moyen du nuage.

Définition 21

On définit

Vx“ 1 n

n

ÿ

k“1

pxk´xq¯ 2“ 1 n

p

ÿ

i“1

ni,‚pai´xq¯ 2

p

ÿ

i“1

fi,‚pai´xq¯ 2

Remarque26. aussi, si les données sont regroupées en classes on prend pour aietbjles centres des classes

et

Vy “ 1 n

n

ÿ

k“1

pyk´yq¯ 2“ 1 n

q

ÿ

j“1

n‚,jpbj´yq¯ 2

q

ÿ

j“1

f‚,jpbj´yq¯ 2 Définition 22

Remarque27. encore on a Vxx¯2´x¯2et Vyy¯2´y¯2

BCPST 1 2019-2020 11

(12)

On définit la covariance de xet de ynoté Covpx, yqouσx,y par Covpx, yq “ 1

n

n

ÿ

k“1

pxk´xqpy¯ k´yq¯ On a également

Remarque28. La covariance desxet de yexprime commentx etyvarient

relativement l’un à l’autre, comment ils

« covarient »

Covpx, yq “ 1 n

p

ÿ

i“1 q

ÿ

j“1

ni,jpai´xqpb¯ j´yq¯ Définition 23

Remarque 29. — Si Covpx, yq ă0 alorsxety ont tendance à varier dans des sens opposés (quand l’un augment l’autre diminue), si Covpx, yq ą 0 alors ils ont tendance à varier dans le même sens.

— On a Covpx, xq “Vx

On a

Covpx, yq “xy´¯y

Remarque30. C’est la moyenne des produits moins le produits des moyennes

Proposition 8

Démonstration.

Covpx, yq “ 1 n

n

ÿ

k“1

pxk´xqpy¯ k´yq¯

“ 1 n

n

ÿ

k“1

pxkyk´xy¯ k´yx¯ k`¯yq

“ 1 n

n

ÿ

k“1

xkyk´1 n

n

ÿ

k“1

¯ xyk´ 1

n

n

ÿ

k“1

¯ yxk`1

n

n

ÿ

k“1

¯ x¯y

xy¯ ´¯y´¯y`¯y

xy¯ ´¯y

On a

Vx`y “Vx`2Covpx, yq `Vy

Proposition 9

Démonstration.

Vx`y “px`¯yq2´xy2

x2`2xy¯ `y2´ p¯x`yq¯ 2

x¯2`2 ¯xy`y¯2´x¯2´y¯2´2¯x¯y

x¯2´x¯2`y¯2´y¯2`2pxy¯ ´¯yq

“Vx`2Covpx, yq `Vy

On a une « inégalité de Cauchy-Schwarz »pour la covariance

On a

|Covpx, yq| ďa Vx

a Vy

où encore

x,y| ďσxσy

Proposition 10

BCPST 1 2019-2020 12

(13)

Démonstration. On définit l’application

P : R Ñ R

t ÞÑ Vx`ty

On a alors

@tPR, Pptq “σ2x`2tσx,y`t2σy2 P est donc une application polynomiale de degré 2.

De plus, d’après les propriétés de la variance on a

@tPR, Pptq ě0

CommeP est de signe constant il ne peut pas admettre deux racines réelles distinctes, son discri- minant est négatif ou nul, c’est-à-dire

∆“4σx,y2 ´4σ2xσ2yď0 D’où

σ2x,yďσ2xσ2y Par croissance de la fonction racine carrée on a alors

x,y| ďσxσy

Lorsque Vx‰0 etVy‰0, on définit le coefficient de covariance notéρx,y ourx,y par ρx,y “ Covpx, yq

a VxVy

σx,y

σxσy

Remarque31. Le résultat précédent nous dit que ρx,yP r´1,1s

Définition 24

C Ajustement affine

L’idée de l’ajustement affine est la suivante : On dispose de séries de données (souvent expérimen- tales)xety et on soupçonne qu’il existe une relation les liant de la formeyax`b.

Remarque32. Parfois on sait que la relation existe et on veut détermineraetb

On veut alors chercher la droite d’équationyax`b qui passe « le mieux »par notre nuage de points.

Le problème est : Comment définir « le mieux » ?

On retient le critère suivant : la somme des carrés des écarts verticaux entre les valeursyiobservés et celles préditesaxi`b doit être minimale : c’est la méthode des moindres carrés.

Ainsi, on veutpa, bq PR2 rendant minimale la somme Spa, bq “

n

ÿ

k“1

paxk`b´ykq2

Soitpx, yqune série statistique double constituée d’une suite de couplesppxk, ykqq1ďkďn. La droite de régression par la méthode des moindres carrés de y enxa pour équation :

yσx,y

σ2x px´xq `¯ y¯ Théorème 11

Démonstration. Avec les hypothèses ci-dessus :

BS

Bbpa, bq “ ´2

n

ÿ

k“1

paxk`b´ykq “ ´2

»

— – a

n

ÿ

k“1

xk`b

n

ÿ

k“1

1 loomoon

n

´

n

ÿ

k“1

yk

fi ffi ffi ffi fl

“0ôb

n

ř

k“1

yk

n ´a

n

ř

k“1

xk

ny´ax

BCPST 1 2019-2020 13

(14)

On remplaceb pary´ax. On peut remarquer que cela signifie que la droite de régression passe par le point moyen de coordonnéespx, yq.

fpaq “Spa, y´axq “

n

ÿ

k“1

rapxk´xq ´ pyk´yqs2a2

n

ÿ

k“1

pxk´xq2´2a

n

ÿ

k“1

pxk´xqpyk´yq`

n

ÿ

k“1

pyk´yq2

On procède à l’étude de la fonctionf.

f1paq “2a

n

ÿ

k“1

pxk´xq2´2

n

ÿ

k“1

pxk´xqpyk´yq ôa

n

ř

k“1

pxk´xqpyk´yq

n

ř

k“1

pxk´xq2

σx,y σ2x

On a donc déterminer le coefficient directeur de la droite de régression qui passe par le point moyen donc

yσx,y

σ2x px´xq `¯ y¯

Remarque 33. — Cette droite passe par le point moyen du nuage de coordonnéesp¯x,yq¯

— Selon la forme du nuage, nos connaissances et notre intuition on considérera parfois les échan- tillons lnpxq,x2, etc

— Pourquoi parle-t-on de « régression linéaire » ? La réponse est une erreur de traduction. Le mathématicien anglais Sir Galton étudiait les tailles des filspyj en fonction de la taille de leur pèrepxjet a noté un « retour à la moyenne » : Les grands individus ont en moyenne des enfants plus petits qu’eux et les petits individus ont des enfants plus grand qu’eux.

En anglais le terme pour « retour à la moyenne »est « regression to the mean », ce terme a ensuite été mal transposé au français.

— Cette méthode nous permet d’établir un lien de corrélation entre xet y. C’est une erreur fon- damentale de logique que de confondre lien de corrélation et lien de causalité. Par exemple la régression linéaire suivante entre taux d’équipement en téléviseurs de la population (en %) et taux de malades mentaux (nombre pour mille habitants) sur des données de Grande Bretagne ou encore l’article du Monde en fin de chapitre.

Comment évaluer la « justesse »d’un ajustement ? La réponse n’est pas simple. Pour y répondre on définit un nouvel indicateur statistique : le coefficient de détermination.

BCPST 1 2019-2020 14

(15)

On définit le coefficient de détermination r2 par

r2

n

ÿ

k“1

paxk`b´yq¯ 2

n

ÿ

k“1

pyk´yq¯ 2

“1´ Spa, bq

n

ÿ

k“1

pyk´yq¯ 2

aσx,y

σx2 by¯´σx,y

σx2 x¯ Définition 25

Le coefficient de détermination est le carré du coefficient de corrélation, c’est-à-dire r2ρ2x,y“ Covpx, yq2

VxVy

Théorème 12

Démonstration.

r2

n

ÿ

k“1

paxk`b´yq¯2

n

ÿ

k“1

pyk´yq¯2

n

ÿ

k“1

ˆσx,y

σ2x xk`y¯´σx,y

σ2x x¯´y¯

˙2

y2

“ 1 n

ˆσx,y

σx2

˙2 n

ÿ

k“1

pxk´xq¯ 2 σy2

σ2x,yσ2x σx4σy2

σ2x,y σ2xσy2

ρ2x,y

On a

r2ď1

r2“1 correspond à une adéquation parfaite tandis que r2 proche de 0 indique une faible liaison linéaire ce qui peut signifier qu’il n’y a pas de lien entre xet y ou bien que xet y sont liés par une relation non-affine.

Proposition 13

BCPST 1 2019-2020 15

Références

Documents relatifs

Donc comme la moyenne, la plus grande valeur dans ces cas très généraux donne des informations sur une variable aléatoire mais les choses sont moins simples.. « En gros » la

Donner un intervalle de confiance au niveau 99% pour nombre moyen de bonnes réponses..

Régler la fenêtre de tracé par WINDOW (Xmin doit être inférieure à la plus petite valeur de la série et Xmax supérieure à la plus grande valeur de la série) et afficher

Pour aller au menu StatGraph1 appuyer sur la touche EXIT , choisir GRPH (touche F1), puis SET (touche F6).Régler Graph Type sur Hist (touches puis F1).. La touche

Lorsque l’effectif total de la série est un nombre pair, on prend pour valeur médiane de la série statistique la moyenne des deux valeurs centrales de la série

On souhaite tester l’hypothèse selon laquelle la proportion des pois jaunes est p=0,75 en mettant en place une expérience permettant d’obtenir 224 petits pois considérés comme

question initiale : comment être sûr que la pièce qu'on utilise à un jeu de PILE ou FACE est bien équilibrée.. analyse de la

Détermine le nombre total de visiteurs pendant cette semaine puis écris ce nombre dans le