• Aucun résultat trouvé

Cours de Statistiques 1S.

N/A
N/A
Protected

Academic year: 2022

Partager "Cours de Statistiques 1S."

Copied!
7
0
0

Texte intégral

(1)

1

Chapitre VI – Statistiques

Une série statistique est le relevé, dans une population donnée, d’un caractère donné.

Ce caractère peut être discret (par exemple, les notes obtenues par les élèves d’une classe, sont prises dans l’ensemble {0 ; 1 ; 2 ; ... ; 19 ; 20}), ou continu (par exemple, les tailles d’un groupe de personnes).

Dans le cas continu, on les range alors par classes.

I. La moyenne empirique (issue de l’expérience) :

On considère une série à une variable X (xi;ni), où xi désigne une modalité de la variable quantitative X (caractère) et ni l'effectif partiel correspondant. On suppose que X a p modalités distinctes.

Exemple : On considère la série des notes (sur 10) d’une classe à un devoir. :

Notes 0 1 2 3 4 5 6 7 8 9 10 Total

Effectifs 0 2 0 0 3 5 4 1 3 0 2 20

1. Définition

Notations : La moyenne de la série X se note x ; on note

=

= p

i

ni

n

1

; on appelle fréquences les nombres f1, f2, …, fp définis par fi= ni

n . On remarque qu’une fréquence est un nombre compris entre 0 et 1, et 1

1

=

= p

i

fi .

On a alors : .... ... .

2 2 1 1 2

2

1 1

p p p

p f x f x f x

n

x n x

n x

x n + + + = + + +

= Ce qu'on écrit:

∑ ∑

=

= =

= p

i i i p

i i i

x n f

x n x

1 1

Exemple précédent :

a) Calculer les fréquences.

Notes 0 1 2 3 4 5 6 7 8 9 10 Total

Fréquences 0 0,1 0 0 0,15 0,25 0,2 0,05 0,15 0 0,1 1

b) Calculer la moyenne.

20

10 2 8 3 7 1 6 4 5 5 4 3 1

2× + × + × + × + × + × + ×

=

x 20

20 24 7 24 25 12

2+ + + + + +

= 20

=114= 5,7.

2. Propriétés de la moyenne

a) Moyenne par sous-groupes (ou par paquets)

Moyenne par sous-groupe : On considère deux séries à une variable X (xi;ni), à p modalités, et X' (x'i;n'i), à p' modalités, de moyennes respectives x et x', d’effectifs respectifs n et n’.

On considère la série Y obtenue par réunion des deux séries de données. Sa moyenne y vaut:

' ' ' n n

x n x y n

+

= + .

Démonstration : On a

=

= p

i i ix n n x

1

1 et

=

= '

1

' ' '

' 1

p

j

j j x n n

x .

On en déduit :

∑ ∑

=

=

+

=

+ '

1 1

' ' '

'

p

j

j j p

i i

ix n x

n x

n x

n et par définition de la moyenne de Y on a: y

n n

x n x

n =

+ +

' '

' .

(2)

2

Exemple : Nom du

journal: linotypistes clavistes salaire moyen

la plume d'oie nombre 5

salaire moyen : 1300 €/mois

nombre 20

salaire moyen : 900 €/mois x=5×1300+20×900

25 =980

le hibou grincheux

nombre 15

salaire moyen : 1250 €/mois

nombre 10

salaire moyen : 850 €/mois x=15×1250+10×850

25 =1090

Interprétation graphique : Représentons sur une droite graduée le point A d'abscisse x et le point A' d’abscissex'. Le barycentre des points pondérés (A, x ) et (A', x') est le point G d'abscisse y .

b) effet d'une transformation affine sur la moyenne :

Linéarité de la moyenne: On considère la série à une variable X (xi;ni), à p modalités de moyenne x . On considère la série Y obtenue par la fonction affine: f: xa f(x)=ax+b.

Pour chacune de ses modalités, on a: yi = axi+b. Sa moyenne y vaut: y=ax+b. Démonstration:

b n ax b

x n n n a

n b x n n a

bn x n an

b ax n n

y

p

i i i p

i i p

i i i i

p

i

i i p

i

i

i = × × + × × = +





 + 





=  +

= +

=

∑ ∑ ∑ ∑ ∑

=

=

=

=

=

1 1

) 1 1 (

) 1 (

1 1

1 1

1

.

Exemple : La moyenne d’une classe de 35 élèves à un devoir de math est de 6,5/20. Le professeur décide d’augmenter les notes de chaque élève de la façon suivante : augmentation de 20% et ajout d’1 point à tous. Quelle est la nouvelle moyenne de la classe ?

Si on appelle yi les nouvelles notes de chaque élèves, on a yi=1,2xi+1 avec xi les anciennes notes.

On obtient alors par linéarité de la moyenne : y=1,2x+1=1,2×6,5+1=8,8.

III. Une mesure de dispersion: l'écart-type.

1. Étude de la fonction dispersion :

On considère la fonction définie sur R par f(x)=

=

= p

i

i i

i x x

p 1n

)2

1 (

. Elle représente la moyenne du carré des écarts au nombre x.

f est la somme de n fonctions polynômes de degré 2, c'est un polynôme de degré 2.

Etude de cette fonction :

[

1( 1)2 2( 2)2 ( )2

]

) 1

( n x x n x x np x xp

x n

f = − + − +…+ −

= 1n

[

n1x2 2n1x1x+n1x12 ++npx2 2npxpx+npxp2

]

= 1n

[

(n1+n2 ++np)x2 2(n1x1+n2x2 ++npxp)x+(n1x12 +n2x22 ++npxp2)

]

=

n x n x

x n x

x p p

2 2

1 2 1

2 +…+

+

− .

C’est un trinôme avec a = 1 > 0, donc il admet un minimum pour x x a

x= −b = = 2 2 2

(3)

3

2. Variance, écart-type empiriques :

x est le nombre qui minimise la somme des carrés des écarts.

Par définition le minimum de f atteint en x s'appelle la variance de X.

On la note V(X) = ( ) 1

[

n1(x x1)2 n2(x x2)2 np(x xp)2

]

x n

f = − + − +…+ − =1

n ni(xix)2

i=1 i=p

=

n x n x

x n x

x p p

2 2

1 2 1

2 +…+

+

− =1

n (nixi2)−x2

i=1

P

s(X) = V( X) est l'écart-type de la série X.

Exemple : Deux élèves ont eu les notes suivantes (sur 20) : 2-18-10 et 12-9-9. Calculer les moyennes et écart-type. Comparer.

x1=x2=10.

4 donc s1= V1 ≈6,5

( )

(4 1 1) 2

3 ) 1 10 9 ( ) 10 9 ( ) 10 12 3 (

1 2 2 2

2 = − + − + − = + + =

V donc s2 = V2 ≈1,4

Le premier élève a un écart-type beaucoup plus grand que le deuxième, ses notes sont très dispersées (irrégulier).

Application : On considère une série statistique ne comportant que 2 valeurs x1 et x2. a) Exprimer l’étendue E en fonction de x1 et x2.

b) Exprimer l’écart-type s en fonction de x1 et x2.

c) En déduire que l’étendue est ici égale au double de l’écart-type.

a) Ici, E = |x2 - x1|.

b) 2

2

1 x

x = x +

Alors V =

[

( 1)2 ( 2)2

]

2

1 xx + xx =





 

 

 + −

+



 

 + − 2

2 2 1 2 1 2 1

2 2

2

1 x x x

x x

x =





 

 

 −

+



 

 − 1 2 2

2 1 2

2 2

2

1 x x x x

= 



 

 

 −

×

2 2 1

2 2 2

1 x x

=

2 2 1

2 

 

xx

=

( )

4

2 2

1 x

x

Donc s = V =

( )

2

2 2

1 x

x

= 2

2

1 x

x

c) Donc ici, E = 2s.

3. Effet d'une transformation affine sur l'écart-type.

On considère la série à une variable X (xi;ni), à p modalités de moyenne x . On considère la série Y obtenue par la fonction affine: f: xaf(x)=ax+b. On a alors s(aX+b)=a s(X)

Exemple : L’écart-type de la classe précédente était de 1,8.

Comment sont réparties les notes après l’augmentation de 20% et ajout d’1 point à tous ? s2 = 1,2 x 1,8 = 2,16 donc les notes sont meilleures, mais aussi plus dispersées

(le +1 n’a pas d’influence sur la dispersion)

(4)

4

Remarques : La moyenne empirique est une mesure de tendance centrale, c’est-à-dire qu’elle permet de représenter le « centre » de la population étudiée.

L’écart-type empirique est une mesure de dispersion, c’est-à-dire qu’il permet de représenter à quel point la population est dispersée par rapport à la moyenne.

III. Médiane et intervalle interquartile 1. Médiane d’une série à caractère discret

Définition : La médiane d’une série statistique est la valeur qui partage la série en deux séries de même effectif.

Méthode : On range toutes les valeurs de la série statistique dans l’ordre croissant.

• Si l’effectif total n est impair, n = 2k + 1, la médiane est la valeur du terme de rang k + 1.

• Si l’effectif total n est pair, n = 2k, la médiane est la moyenne des valeurs de rang k et k + 1.

Exemples : La médiane de la série 2 ; 7 ; 12 ; 12 ; 14 est : Me = 12 La médiane de la série 1 ; 3 ; 6 ; 9 ; 12 ; 14 est : Me =

2 9 6+

= 7,5

2. Médiane d’une série à caractère continu

On peut déterminer la classe médiane de la manière habituelle.

Pour déterminer le réel qui partage la série en deux séries de même effectif, on fait l’hypothèse que les effectifs sont uniformément répartis dans cette classe, et on pondère les extrémités de la classe pour obtenir cette valeur.

Exemple : Soit la série statistique représentant les salaires en euros des employés dans une entreprise : classe moins de 1500 [1500 ; 2000[ [2000 ; 2500[ [2500 ; 3000[ [3000 ; 4500[ plus de 4500

effectif 13 25 10 4 2 2

Effectifs

Cumulés 13 38 48 52 54 56

(5)

5

L’effectif total est : n = 13 + 25 + 10 + 4 + 2 + 2 = 56.

La médiane doit séparer la série en deux séries d’effectif 28 personnes :

les 28e et 29e valeurs sont dans le classe [1500 ; 2000[, donc la classe médiane est la classe [1500 ; 2000[.

La médiane doit couper la classe [1500 ; 2000[ en deux, de manière à avoir : 28 – 13 = 15 personnes au-dessous et 28 – 18 = 10 personnes au dessus.

La médiane vaut 1500 + 15

5 (2000 - 1500) = 1500 + 15×500

5 = 1500 + 300 = 1800.

O 500 1000 1500 2000 2500 3000 35004000 4500 6500 5

13 38 48 52 54 56

28

Me

(6)

6

3. Influence d’une transformation affine des données

Soit a et b deux réels fixés et une série statistique (x1, x2, ..., xp) de taille n, de médiane Mex. Alors la série (y1, y2, ..., yp), avec yi = axi + b pour chaque indice i, a pour médiane Mey = aMex + b

4. Quartiles et écart interquartile

Définition : Soit une série statistique discrète x1, x2, ... , xp de taille n.

Les quartiles partages cette série en quatre parties :

• le 1er quartile Q1 est la plus petite valeur xi telle qu’au moins 1/4 des données soient inférieures ou égales à Q1 ;

• le 3ème quartile Q3 est la plus petite valeur xi telle qu’au moins 3/4 des données soient inférieures ou égales à Q3 ;

• l’intervalle interquartile est l’intervalle [Q1 ; Q3] (il contient environ 50% des valeurs de la série)

• l’écart interquartile est Q3 – Q1.

Méthode : On range toutes les valeurs de la série statistique dans l’ordre croissant.

• Si l’effectif total n est un multiple de 4, n = 4k, Q1 est le terme de rang k, et Q3 est le terme de rang 3k.

• Si n n’est pas un multiple de 4, Q1 est le terme de rang k + 1, et Q3 est le terme de rang 3k + 1.

Attention : Médiane et 2ème quartile ne sont pas toujours égaux : la médiane n’est pas forcément une valeur de la série.

5. Interprétation :

La médiane est une mesure de tendance centrale.

L’écart interquartile est une mesure de dispersion liée à la médiane.

Remarques : • Ces deux mesures ne sont pas influencées par de très grandes ou de très petites valeurs.

• On ne peut pas les calculer à partir de sous-groupes.

6. Déciles

Définition : Les déciles coupent une série statistique en 10 séries d’effectifs égaux.

• Le premier décile D1 est tel qu’au moins 10% des valeurs de la série sont inférieurs à D1.

• Le neuvième décile D9 est tel qu’au moins 90 % des valeurs de la série sont inférieurs à D9.

Exemple : Voici les notes des 135 élèves d’un lycée à un devoir commun :

Note 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Nb élèves 1 3 4 7 9 14 19 23 22 7 5 7 6 5 1 2

Eff. cum. 1 4 8 15 24 38 57 80 102 109 114 121 127 132 133 135 Déterminer Me, Q1, Q3, D1 et D9 pour ce lycée.

● 2

135= 67,5 : la 68e valeur est la médiane : Me = 10

● 4

135= 33,75 : la 34e valeur est le 1er quartile : Q1 = 8

● 3

4

135× = 101,25 : la 102e valeur est le 3e quartile : Q3 = 11

● 10

135= 13,5 : la 14e valeur est le 1er décile : D1 = 6

● 9

10

135× = 121,5 : la 122e valeur est le 9e décile : D9 = 15

(7)

7

m M M

Q 1

1 Q

3 7.Représentation graphique : Le diagramme en boîte.

Sur un axe gradué, on place le minimum, le maximum, la médiane, le premier et le dernier quartile de la manière suivante.

Remarque : si les valeurs extrêmes ne sont pas significatives, on prendra pour extrémités le premier et le dernier décile.

Application :

On reprend l’exemple précédent :

Note 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Nb élèves 1 3 4 7 9 14 19 23 22 7 5 7 6 5 1 2

1. Construire le diagramme en boîte pour ce lycée.

2. Le lycée voisin a obtenu : Me = 10, Q1 = 9, Q3 = 11, D1 = 7, D9 = 12.

Construire le diagramme en boîte du deuxième lycée, puis comparer les 2 lycées.

Références

Documents relatifs

Le début d'après midi (de 13 h 30 à 14 h 15) correspondant au temps de « sieste », est réservé au TTI, pour lequel les enfants ont à leur disposition une série

On peut remarquer que si les résultats des deux modèles proposés sont très proches, l'influence du taux de localité des accès à la base de données sur les performances du système

Pour fixer les idées nous nous plaçons maintenant dans le cadre des hypothèses servant de base au test sur les moyennes ; nous suppo-. sons notamment que

D'après (î3) nous sommes presque sûrs que la suite des sommes partielles de (2) n'est pas uniformément bornée, car à chaque fois qu'une série trigonométrique a ses sommes

Pour chacune des deux séries, déterminer le pourcentage d’ampoules dont la durée de vie a un écart à la moyenne inférieur à l’écart type.. Déterminer la médiane et

On a interrogé les élèves à la sortie d’un collège sur le niveau auquel ils appartenaient. Cela représente tous les élèves interrogés, la fréquence est donc 1 puisque

L’étendue d’une série statistique est la différence entre la plus grande valeur et la plus petite. On dit qu’on a élagué la série. L’étendue est une caractéristique

Exemple : On a interrogé 25 familles pour étudier le nombre de téléphones mobiles que chacune possède.. Une moyenne est toujours comprise entre la plus petite et la plus