1
Chapitre VI – Statistiques
Une série statistique est le relevé, dans une population donnée, d’un caractère donné.
Ce caractère peut être discret (par exemple, les notes obtenues par les élèves d’une classe, sont prises dans l’ensemble {0 ; 1 ; 2 ; ... ; 19 ; 20}), ou continu (par exemple, les tailles d’un groupe de personnes).
Dans le cas continu, on les range alors par classes.
I. La moyenne empirique (issue de l’expérience) :
On considère une série à une variable X (xi;ni), où xi désigne une modalité de la variable quantitative X (caractère) et ni l'effectif partiel correspondant. On suppose que X a p modalités distinctes.
Exemple : On considère la série des notes (sur 10) d’une classe à un devoir. :
Notes 0 1 2 3 4 5 6 7 8 9 10 Total
Effectifs 0 2 0 0 3 5 4 1 3 0 2 20
1. Définition
Notations : La moyenne de la série X se note x ; on note
∑
=
= p
i
ni
n
1
; on appelle fréquences les nombres f1, f2, …, fp définis par fi= ni
n . On remarque qu’une fréquence est un nombre compris entre 0 et 1, et 1
1
∑
== p
i
fi .
On a alors : .... ... .
2 2 1 1 2
2
1 1
p p p
p f x f x f x
n
x n x
n x
x n + + + = + + +
= Ce qu'on écrit:
∑ ∑
=
= =
= p
i i i p
i i i
x n f
x n x
1 1
Exemple précédent :
a) Calculer les fréquences.
Notes 0 1 2 3 4 5 6 7 8 9 10 Total
Fréquences 0 0,1 0 0 0,15 0,25 0,2 0,05 0,15 0 0,1 1
b) Calculer la moyenne.
20
10 2 8 3 7 1 6 4 5 5 4 3 1
2× + × + × + × + × + × + ×
=
x 20
20 24 7 24 25 12
2+ + + + + +
= 20
=114= 5,7.
2. Propriétés de la moyenne
a) Moyenne par sous-groupes (ou par paquets)
Moyenne par sous-groupe : On considère deux séries à une variable X (xi;ni), à p modalités, et X' (x'i;n'i), à p' modalités, de moyennes respectives x et x', d’effectifs respectifs n et n’.
On considère la série Y obtenue par réunion des deux séries de données. Sa moyenne y vaut:
' ' ' n n
x n x y n
+
= + .
Démonstration : On a
∑
=
= p
i i ix n n x
1
1 et
∑
=
= '
1
' ' '
' 1
p
j
j j x n n
x .
On en déduit :
∑ ∑
=
=
+
=
+ '
1 1
' ' '
'
p
j
j j p
i i
ix n x
n x
n x
n et par définition de la moyenne de Y on a: y
n n
x n x
n =
+ +
' '
' .
2
Exemple : Nom du
journal: linotypistes clavistes salaire moyen
la plume d'oie nombre 5
salaire moyen : 1300 €/mois
nombre 20
salaire moyen : 900 €/mois x=5×1300+20×900
25 =980
le hibou grincheux
nombre 15
salaire moyen : 1250 €/mois
nombre 10
salaire moyen : 850 €/mois x=15×1250+10×850
25 =1090
Interprétation graphique : Représentons sur une droite graduée le point A d'abscisse x et le point A' d’abscissex'. Le barycentre des points pondérés (A, x ) et (A', x') est le point G d'abscisse y .
b) effet d'une transformation affine sur la moyenne :
Linéarité de la moyenne: On considère la série à une variable X (xi;ni), à p modalités de moyenne x . On considère la série Y obtenue par la fonction affine: f: xa f(x)=ax+b.
Pour chacune de ses modalités, on a: yi = axi+b. Sa moyenne y vaut: y=ax+b. Démonstration:
b n ax b
x n n n a
n b x n n a
bn x n an
b ax n n
y
p
i i i p
i i p
i i i i
p
i
i i p
i
i
i = × × + × × = +
+
= +
= +
=
∑ ∑ ∑ ∑ ∑
=
=
=
=
=
1 1
) 1 1 (
) 1 (
1 1
1 1
1
.
Exemple : La moyenne d’une classe de 35 élèves à un devoir de math est de 6,5/20. Le professeur décide d’augmenter les notes de chaque élève de la façon suivante : augmentation de 20% et ajout d’1 point à tous. Quelle est la nouvelle moyenne de la classe ?
Si on appelle yi les nouvelles notes de chaque élèves, on a yi=1,2xi+1 avec xi les anciennes notes.
On obtient alors par linéarité de la moyenne : y=1,2x+1=1,2×6,5+1=8,8.
III. Une mesure de dispersion: l'écart-type.
1. Étude de la fonction dispersion :
On considère la fonction définie sur R par f(x)=
∑
== p −
i
i i
i x x
p 1n
)2
1 (
. Elle représente la moyenne du carré des écarts au nombre x.
f est la somme de n fonctions polynômes de degré 2, c'est un polynôme de degré 2.
Etude de cette fonction :
[
1( 1)2 2( 2)2 ( )2]
) 1
( n x x n x x np x xp
x n
f = − + − +…+ −
= 1n
[
n1x2 −2n1x1x+n1x12 +…+npx2 −2npxpx+npxp2]
= 1n
[
(n1+n2 +…+np)x2 −2(n1x1+n2x2 +…+npxp)x+(n1x12 +n2x22 +…+npxp2)]
=
n x n x
x n x
x p p
2 2
1 2 1
2 +…+
+
− .
C’est un trinôme avec a = 1 > 0, donc il admet un minimum pour x x a
x= −b = = 2 2 2
3
2. Variance, écart-type empiriques :
x est le nombre qui minimise la somme des carrés des écarts.
Par définition le minimum de f atteint en x s'appelle la variance de X.
On la note V(X) = ( ) 1
[
n1(x x1)2 n2(x x2)2 np(x xp)2]
x n
f = − + − +…+ − =1
n ni(xi−x)2
i=1 i=p
∑
=
n x n x
x n x
x p p
2 2
1 2 1
2 +…+
+
− =1
n (nixi2)−x2
i=1
∑
Ps(X) = V( X) est l'écart-type de la série X.
Exemple : Deux élèves ont eu les notes suivantes (sur 20) : 2-18-10 et 12-9-9. Calculer les moyennes et écart-type. Comparer.
x1=x2=10.
4 donc s1= V1 ≈6,5
( )
(4 1 1) 23 ) 1 10 9 ( ) 10 9 ( ) 10 12 3 (
1 2 2 2
2 = − + − + − = + + =
V donc s2 = V2 ≈1,4
Le premier élève a un écart-type beaucoup plus grand que le deuxième, ses notes sont très dispersées (irrégulier).
Application : On considère une série statistique ne comportant que 2 valeurs x1 et x2. a) Exprimer l’étendue E en fonction de x1 et x2.
b) Exprimer l’écart-type s en fonction de x1 et x2.
c) En déduire que l’étendue est ici égale au double de l’écart-type.
a) Ici, E = |x2 - x1|.
b) 2
2
1 x
x = x +
Alors V =
[
( 1)2 ( 2)2]
2
1 x−x + x−x =
+ −
+
+ − 2
2 2 1 2 1 2 1
2 2
2
1 x x x
x x
x =
−
+
− 1 2 2
2 1 2
2 2
2
1 x x x x
=
−
×
2 2 1
2 2 2
1 x x
=
2 2 1
2
x −x
=
( )
4
2 2
1 x
x −
Donc s = V =
( )
2
2 2
1 x
x −
= 2
2
1 x
x −
c) Donc ici, E = 2s.
3. Effet d'une transformation affine sur l'écart-type.
On considère la série à une variable X (xi;ni), à p modalités de moyenne x . On considère la série Y obtenue par la fonction affine: f: xaf(x)=ax+b. On a alors s(aX+b)=a s(X)
Exemple : L’écart-type de la classe précédente était de 1,8.
Comment sont réparties les notes après l’augmentation de 20% et ajout d’1 point à tous ? s2 = 1,2 x 1,8 = 2,16 donc les notes sont meilleures, mais aussi plus dispersées
(le +1 n’a pas d’influence sur la dispersion)
4
Remarques : La moyenne empirique est une mesure de tendance centrale, c’est-à-dire qu’elle permet de représenter le « centre » de la population étudiée.
L’écart-type empirique est une mesure de dispersion, c’est-à-dire qu’il permet de représenter à quel point la population est dispersée par rapport à la moyenne.
III. Médiane et intervalle interquartile 1. Médiane d’une série à caractère discret
Définition : La médiane d’une série statistique est la valeur qui partage la série en deux séries de même effectif.
Méthode : On range toutes les valeurs de la série statistique dans l’ordre croissant.
• Si l’effectif total n est impair, n = 2k + 1, la médiane est la valeur du terme de rang k + 1.
• Si l’effectif total n est pair, n = 2k, la médiane est la moyenne des valeurs de rang k et k + 1.
Exemples : La médiane de la série 2 ; 7 ; 12 ; 12 ; 14 est : Me = 12 La médiane de la série 1 ; 3 ; 6 ; 9 ; 12 ; 14 est : Me =
2 9 6+
= 7,5
2. Médiane d’une série à caractère continu
On peut déterminer la classe médiane de la manière habituelle.
Pour déterminer le réel qui partage la série en deux séries de même effectif, on fait l’hypothèse que les effectifs sont uniformément répartis dans cette classe, et on pondère les extrémités de la classe pour obtenir cette valeur.
Exemple : Soit la série statistique représentant les salaires en euros des employés dans une entreprise : classe moins de 1500 [1500 ; 2000[ [2000 ; 2500[ [2500 ; 3000[ [3000 ; 4500[ plus de 4500
effectif 13 25 10 4 2 2
Effectifs
Cumulés 13 38 48 52 54 56
5
L’effectif total est : n = 13 + 25 + 10 + 4 + 2 + 2 = 56.
La médiane doit séparer la série en deux séries d’effectif 28 personnes :
les 28e et 29e valeurs sont dans le classe [1500 ; 2000[, donc la classe médiane est la classe [1500 ; 2000[.
La médiane doit couper la classe [1500 ; 2000[ en deux, de manière à avoir : 28 – 13 = 15 personnes au-dessous et 28 – 18 = 10 personnes au dessus.
La médiane vaut 1500 + 15
5 (2000 - 1500) = 1500 + 15×500
5 = 1500 + 300 = 1800.
O 500 1000 1500 2000 2500 3000 35004000 4500 6500 5
13 38 48 52 54 56
28
Me
6
3. Influence d’une transformation affine des données
Soit a et b deux réels fixés et une série statistique (x1, x2, ..., xp) de taille n, de médiane Mex. Alors la série (y1, y2, ..., yp), avec yi = axi + b pour chaque indice i, a pour médiane Mey = aMex + b
4. Quartiles et écart interquartile
Définition : Soit une série statistique discrète x1, x2, ... , xp de taille n.
Les quartiles partages cette série en quatre parties :
• le 1er quartile Q1 est la plus petite valeur xi telle qu’au moins 1/4 des données soient inférieures ou égales à Q1 ;
• le 3ème quartile Q3 est la plus petite valeur xi telle qu’au moins 3/4 des données soient inférieures ou égales à Q3 ;
• l’intervalle interquartile est l’intervalle [Q1 ; Q3] (il contient environ 50% des valeurs de la série)
• l’écart interquartile est Q3 – Q1.
Méthode : On range toutes les valeurs de la série statistique dans l’ordre croissant.
• Si l’effectif total n est un multiple de 4, n = 4k, Q1 est le terme de rang k, et Q3 est le terme de rang 3k.
• Si n n’est pas un multiple de 4, Q1 est le terme de rang k + 1, et Q3 est le terme de rang 3k + 1.
Attention : Médiane et 2ème quartile ne sont pas toujours égaux : la médiane n’est pas forcément une valeur de la série.
5. Interprétation :
La médiane est une mesure de tendance centrale.
L’écart interquartile est une mesure de dispersion liée à la médiane.
Remarques : • Ces deux mesures ne sont pas influencées par de très grandes ou de très petites valeurs.
• On ne peut pas les calculer à partir de sous-groupes.
6. Déciles
Définition : Les déciles coupent une série statistique en 10 séries d’effectifs égaux.
• Le premier décile D1 est tel qu’au moins 10% des valeurs de la série sont inférieurs à D1.
• Le neuvième décile D9 est tel qu’au moins 90 % des valeurs de la série sont inférieurs à D9.
Exemple : Voici les notes des 135 élèves d’un lycée à un devoir commun :
Note 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Nb élèves 1 3 4 7 9 14 19 23 22 7 5 7 6 5 1 2
Eff. cum. 1 4 8 15 24 38 57 80 102 109 114 121 127 132 133 135 Déterminer Me, Q1, Q3, D1 et D9 pour ce lycée.
● 2
135= 67,5 : la 68e valeur est la médiane : Me = 10
● 4
135= 33,75 : la 34e valeur est le 1er quartile : Q1 = 8
● 3
4
135× = 101,25 : la 102e valeur est le 3e quartile : Q3 = 11
● 10
135= 13,5 : la 14e valeur est le 1er décile : D1 = 6
● 9
10
135× = 121,5 : la 122e valeur est le 9e décile : D9 = 15
7
m M M
Q 1
1 Q
3 7.Représentation graphique : Le diagramme en boîte.
Sur un axe gradué, on place le minimum, le maximum, la médiane, le premier et le dernier quartile de la manière suivante.
Remarque : si les valeurs extrêmes ne sont pas significatives, on prendra pour extrémités le premier et le dernier décile.
Application :
On reprend l’exemple précédent :
Note 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Nb élèves 1 3 4 7 9 14 19 23 22 7 5 7 6 5 1 2
1. Construire le diagramme en boîte pour ce lycée.
2. Le lycée voisin a obtenu : Me = 10, Q1 = 9, Q3 = 11, D1 = 7, D9 = 12.
Construire le diagramme en boîte du deuxième lycée, puis comparer les 2 lycées.