Paramètres statistiques
I- Paramètres de position
1) La moyenne Exemple 1 :
On considère une série de notes, obtenues par une classe lors d’un devoir (série A) :
notesxi 3 5 6 7 8 9 13 14 18 20 total
effectifsni 1 1 2 2 4 2 2 3 1 1 19
Calculer la moyenne de la série A :
Définition :
On considère une série statistique à caractère quantitatif, dont lesp valeurs sont données par x1, x2, . . ., xp d’effectifs associésn1,n2, . . .,np avecn1+n2+...+np= N (effectif total).
Lamoyenne pondéréede cette série est le nombre notéxqui vaut :
Remarque :
On peut aussi calculer une moyenne à partir des fréquences :
2) La médiane
On divise la série en deux groupes de même effectif.
Définition :
Soit une série statistique ordonnée dont les N valeurs sontx16x26x36· · ·6xN.
Lamédianeest un nombre noté Med qui permet de diviser cette série en deux sous-groupes de même effectif.
➤ Si N estimpair, Med est la valeur de cette série qui est située au milieu.
➤ Si N estpair, Med est la moyenne des deux nombres situés « au milieu » de la série.
Exemple 2 :
Une autre classe a obtenu, lors du même devoir, les notes suivantes (série B) :
notesxi 1 2 3 4 13 14 18 19 20 total
effectifsni 3 2 2 4 1 2 4 2 2 22
Déterminer les médianes des sériesAetB.
Comparer les moyennes et médianes de ces deux classes. Peut-on dire qu’elles ont le même profil ? 3) Quartiles
On divise la série en quatre groupes d’effectifs égaux (ou presque).
Définition :
Lepremier quartiled’une série statistique est la plus petite valeur Q1telle qu’au moins un quart des valeurs sont inférieures ou égales à Q1.
Le troisième quartiled’une série statistique est la plus petite valeur Q3 telle qu’au moins trois quarts des valeurs sont inférieures ou égales à Q3.
Propriété :
Au moins 50% des observations ont une valeur du caractère comprise entre Q1et Q3.
Théorème (Calcul des quartiles) :
Pour déterminer le premier quartile d’une série de N valeurs ordonnées, on calcule N4 puis on détermine le premier entierpsupérieur ou égal à N4 ; cet entierpest le rang de Q1.
Pour Q3, on fait de même en remplaçant N4 par 3N4 .
Exemple 3 :
Déterminer les quartiles des sériesAetB.
4) Les déciles
Il s’agit de partager la série en dix sous-séries d’effectifs sensiblement égaux.
Définition (déciles) :
Lepremier déciled’une série statistique est la plus petite valeur D1 telle qu’au moins 10 % des valeurs sont inférieures ou égales à D1.
Leneuvième déciled’une série statistique est la plus petite valeur D9telle qu’au moins 90 % des valeurs sont inférieures ou égales à D9.
Propriété :
Au moins 80% des observations ont une valeur du caractère comprise entre D1et D9.
Exemple 4 :
Déterminer les 1eret 9edéciles des sériesAetB.
II- Paramètres de dispersion
Les paramètres de positions sont insuffisants pour étudier correctement une série statistique : deux séries ayant
1) L’étendue
Définition :
L’étendued’une série statistique est la différence entre les deux valeurs extrêmes de cette série.
Exemple 5 :
Dans l’exemple précédent, l’étendue de la sérieAvaut et l’étendue de la sérieBdu groupe 2 vaut
2) Intervalle inter-quartiles
Définition :
On appelleintervalle inter-quartilesl’intervalle [ Q1; Q3].
L’amplitude de cet intervalle est appeléeécart inter-quartiles.
l’écart interquartileest égal à Q3−Q1.
3) Les diagrammes en boîtes
La représentation graphique de la dispersion d’une série statistique se fait à l’aide de graphiques appelés dia- grammes en boites, oùboites à moustaches, dont voici deux types de représentation :
Diagramme en boite sans les déciles
b
Xmin
b
Xmax
b
Q1
b
Q3
b
Me
Diagramme en boite avec les déciles
b b b b b
b
Xmin
b
D1
b
Q1
b
Q3
b
Me
b
D9
b
Xmax Les valeurs non comprises entre D1et D9sont représentées
par des points.
Exemple 6 :
Représenter ci-dessous les deux diagrammes en boite, avec déciles, des séries de notesAetB :
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 -2
-1 0 1 2 3 4 5 6 7 8
Quelle remarque peut-on faire sur la dispersion des notes dans ces deux classes ?
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
3 7 8.0 14 20
Figure1 – Notes de la série A
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 3 8.5 18 20
Figure2 – Notes de la série B
4) Variance et écart-type
La dispersion peut également se mesurer autour de la moyenne. Considérons une série statistique quelconque :
Valeursxi 0 1 2 3 4 7
Effectifsni 1 2 1 4 3 3
Figure3 – Série statistique quelconque
À partir de ces données, calculez la moyenne x puis remplissez le tableau suivant proposant deux façons de
« mesurer » pour chaque valeur « l’éloignement » par rapport àx.
xi−x¯ (xi−x)¯2
Figure4 – Essais de mesures de dispersion par rapport à la moyenne
Calculez dans chacun des cas l’éloignement moyen, c’est-à-dire la moyenne des écarts...
On peut visualiser les écarts sur le schéma suivant :
x1 x2
x3
x5 x6
x4
5 – Visualisation de l’écart par rapport à la moyenne
On peut prouver (à titre d’exercice...) que la moyenne des écarts correspondant à la première ligne du ta- bleau4 page précédente est toujours nul. On préfère donc utiliser la moyenne des écarts de la deuxième ligne qu’on appellevariance.
Définition (variance et écart type) :
La varianceest la moyenne des carrés des écarts à la moyenne. C’est un nombre positif.
V =n1(x1−x)2+· · ·+np(xp−x)2
N =
Xp i=1
ni(xi−x)2 N Il existe une autre expression de la variance :
V = n1x21+· · ·+npxp2
N −x2=
Xp
i=1
nix2i
N −x2
L’écart typeσd’une série statistique est égal à la racine carrée de la variance :σ=√ V
Remarque :
L’écart type permet de mesurer la dispersion d’une série statistique ; à moyenne égale, plus il est important, plus les valeurs observées sont dispersées
Son avantage par rapport à la variance est qu’il est exprimé dans la même unité que les valeurs de la série.
Exemple 7 :
Reprenez les séries des exemples1et2page1et calculez les moyennes et écarts-type.
N = 19 x= 10.0 Σx= 190.0 Σx2= 4886.0
V(x) = 19.5789473684 σx= 4.42481043305 Min(x) = 3.0 Q1(x) = 7.0 Med(x) = 8.0 Q3(x) = 14.0 Max(x) = 20.0
N = 22 x= 10.0 Σx= 220.0 Σx2= 9498.0
V(x) = 57.8181818182 σx= 7.60382678776 Min(x) = 1.0 Q1(x) = 3.0 Med(x) = 8.5 Q3(x) = 18.0 Max(x) = 20.0 Exemple 8 :
On a mesuré la quantité enµg/L (microgramme par litre), d’une certaine molécule M dans le sang d’un groupe 50 personnes :
Quantité (µg/L) 130 135 140 145 150 155 160 165 170 175 180 185 190
Effectifs 2 3 3 5 3 4 5 5 5 6 3 2 4
1) a. Calculer la moyennexet de l’écart-typeσde cette série. On pourra utiliser la calculatrice.
Arrondir les résultats à 0,1 près.
b. Les personnes dont la quantité de molécule M dans le sang n’appartient pas à l’intervalle [x−σ;x+σ]seront convoquées pour réaliser une deuxième prise de sang.
Quelle est la part, en pourcentage, de personnes à convoquer ?
2) a. Déterminer la médiane, les quartiles les 1er et 9ème déciles de cette série statistique.
b. Tracer le diagramme en boîtes, avec les déciles, de cette série.
III- Utilisation de la calculatrice
Voici le détail des manipulations à effectuer pour obtenir les paramètres statistiques et la boite à moustaches d’une série statistique à une variablex; chaquexi ayant un effectifni.
Pour cela, on entre les données dans une liste statistique et les effectifs ou les fréquences (s’il y en a) dans une autre, puis on lance les calculs statistiques à une variable en précisant à la machine dans quelle liste sont les données et dans quelle liste sont les effectifs. La machine affiche alors simultanément tous les paramètres statis- tiques.
Attention :Les quartiles donnés par la calculatrice ne correspondent pas exactement à ceux du cours.
Pour les « casio GRAPH 35+ »
Entrée de la série : Sélectionner le menu (2) STAT et en- trer dans la colonne LIST1les valeurs de la série, puis dans la colonneLIST2les effectifs correspondants.
Obtention des paramètres :
• Appuyer surF2(CALC), puis surF6(SET) (ouF4 sur la graph25).
• Sur la ligne1VAR XLIST, indiquerLIST1avec les touches de fonctions ; sur la ligne1VAR FREQ, indiquerLIST2. Ter- miner en appuyant surEXIT.
• En appuyant sur la touche de fonction correspondant à 1VAR, (F1) on obtient les paramètres de la série : x (moyenne),xσn(écart type), Q1, Med, Q3etc . . ..
Tracé de la boite à moustaches :
• Dans le menu(2) STAT, selectionner le menuGRPH (F1).
• Sélectionner le menuSET(toucheF6ouF4deux fois sur la graph25).
• Sur la ligne Graph Type, choisir l’option BOX (en ap- puyant éventuellement surF6).
• Sur la ligne XLIST, indiquer LIST1 avec les touches de fonctions ; sur la ligneFrequency, indiquerLIST2 (F2).
Terminer en appuyant surEXIT.
• Appuyer sur(F1) GRPH1 pour obtenir la boite à mous- taches. En appuyant sur1Varon peut retrouver les para- mètres de la série.
Pour les « TI »
Entrée de la série : Appuyer sur la touche STAT, puis sur1 :EDIT. Dans la colonneL1, saisir les valeurs de la série et dans la colonne L2 les effectifs correspondants.
Appuyer à nouveau surSTAT.
Obtention des paramètres :
• Sélectionner l’onglet CALC (avec la flèche droite) et ap- puyer sur la touche 1 :1-VarStats. Appuyer sur 2ND puis1pour afficherL1, puis,2ND 2pour afficherL2(ne pas oublier la «,» entreL1etL2)
• Appuyer sur ENTER pour obtenir les paramètres : x (moyenne),σx(écart-type), Q1, Med, Q3etc . . ..
Tracé de la boite à moustaches :
• Sélectionner le menuSTATPLOT en appuyant sur 2NDet f(x) =.
• Appuyer sur1et sélectionner l’optionON.
• Sur la ligneType, sélectionner la boite à moustaches .
• Sur la ligneXList, choisirL1(en appuyant sur2NDpuis 1).
• Sur la ligneFreq, choisirL2
• Dans le menuFenêtre, indiquer commeXminun nombre inférieur à la plus petite valeur de la série, et commeXmax, un nombre supérieur à la valeur maximale de la série.
• Appuyer sur la toucheGRAPH.
• A la fin de la manipulation il faut fermer les graphes sta- tistiques pour revenir au modèle de graphique « des fonc- tions » en utilisantPlotsoffdu menuSTAT PLOT. Exemple 9 :
Déterminez, à l’aide de la calculatrice, la moyenne,l’écart type, l’effectif total, l’étendue, la médiane et les quartiles de chacune des séries statistiques suivantes :
1) 18 ; 25 ; 7 ; 9 ; 4 ; 13 ; 12 ; 11 ; 13 ; 15 ; 18 ; 19 ; 7 ; 9 ; 54
2) données 5 7 9 10 11 12 13
effectifs 1 3 2 4 2 6 2
3) Modalité [0;2[ [2;4[ [4;6[ [6;8[
Effectif 17 25 9 2
N = 15 x= 15.6 Σx= 234.0 Σx2= 5654.0
V(x) = 133.573333333 σx= 11.5573930163 Min(x) = 4.0 Q (x) = 9.0
N = 20 x= 10.2 Σx= 204.0 Σx2= 8734.0 V(x) = 4.86
σx= 2.2045407685 Min(x) = 5.0 Q (x) = 9.0
N = 53 x= 2.84905660377 Σx= 151.0
Σx2= 8135.0
V(x) = 2.54325382698 σx= 1.59475823465 Min(x) = 1.0 Q (x) = 1.0
IV- Syntaxe de Xcas
1) Création des listes
On pourra créer 2 listes que l’on placera entre des crochets de la manière suivante : a) Cas d’un caractère quantitatif discret
données 5 7 9 10 11 12 13
effectifs 1 3 2 4 2 6 2
L1 :=[5,7,9,10,11,12,13]
[5,7,9,10,11,12,13]
L2 :=[1,3,2,4,2,6,2]
[1,3,2,4,2,6,2]
b) Cas d’un caractère quantitatif continu Modalité [0;2[ [2;4[ [4;6[ [6;8[
Effectif 17 25 9 2
intervalles :=[0..2,2..4,4..6,6..8]
[0..2,2..4,4..6,6..8]
eff :=[17,25,9,2]
[17,25,9,2]
2) Obtention des paramètres statistiques
moyenne(L1,L2)
51 5 puis une valeur décimale avec :
evalf(moyenne(L1,L2)) 10.200000
De même pourla deuxième série : evalf(moyenne(intervalles,eff))
2.849057
mediane(L1,L2)
10
quartile1(L1,L2)
9
quartile3(L1,L2)
12 1erdécile :
quantile(L1,L2,0.1) 7
9edécile :
quantile(L1,L2,0.9) 12
On obient directement dans une liste les éléments : xmin, Q1, Med, Q3 etxmaxavec l’instruction
quartiles(L1,L2)
[5,9,10,12,13]
variance(L1,L2)
243 50
ecart_type(L1,L2)
45√ 6 50
evalf(ecart_type(L1,L2))
2.204541
3) Représentations graphiques a) Nuage de points
Le nuage de points de la 1resérie :
affichage(epaisseur_point_4) ;nuage_points(L1, L2)
5 6 7 8 9 10 11 12 13 1
2 3 4 5 6
b) Boîte à moustache
La boîte à moustache de la 1resérie : moustache(L1,L2)
x
6 8 10 12 14
−2
−1.5
−1
−0.5 0 0.5 1
c) Histogramme
Histogramme de la 2esérie :
histogram([[0..2,17],[2..4,25],[4..6,9],[6..8,2]])
x y
0 1 2 3 4 5 6 7 8
0 0.05 0.1 0.15 0.2
d) Camembert
camembert(["[0 ;2[",17],["[2,4[",25],["[4 ;6[",9],["[6 ;8[",2])
[0;2[:32.08%
[2,4[:47.17%
[4;6[:16.98%
[6;8[:3.774%
x y
−3 −2 −1 0 1 2 3
−1
−0.5 0 0.5 1
e) Polygone des fréquences cumulées croissantes
cumulated_frequencies([0..2,17],[2..4,25],[4..6,9],[6..8,2])
y
0.2 0.4 0.6 0.8 1
f) Approximation de la médiane par interpolation linéaire
P :=cumulated_frequencies([0..2,17],[2..4,25],[4..6,9],[6..8,2]) ;D :=droite(y=0.5) ;A :=inter(P,D)
P
D A
x y
0 1 2 3 4 5 6 7 8
0 0.2 0.4 0.6 0.8 1
abscisse(A)
group[2.760000]