1
MTH 2301 Méthodes statistiques en ingénierie
Chap. 2 Statistique descriptive et graphiques
Terminologie anglais - français
Représentations graphiques : - histogramme de Tukey - histogramme
Indicateurs de centralité et position
Indicateurs de variabilité
Autres diagrammes : - diagramme de Tukey
- diagramme quantile - quantile
2 variables : - diagramme de dispersion conjointe - droite de moindres carrés
- coefficient de corrélation linéaire
Bernard CLÉMENT, P h D
2
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
TERMINOLOGIE anglais – français Steam-and-leaf display ……….. histogramme de Tukey
diagramme tige – feuilles Box-Plot ……….. diagramme de Tukey
Q-Q plot ……….. diagramme quantile - quantile Tally ……… décompte
Frequency ……… effectif
Relative frequency ………. fréquence ( fréquence relative ) Cumulative frequency ………….. effectif cumulé
Relative cumulative frequency … fréquence cumulée Standardized value ……… valeur centrée – réduite Frequency distribution …………. tableau d’effectifs
/ distribution d’effectifs / tableau de fréquences
3
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
Histogramme de Tukey: histogramme avec le détail des valeurs numériques aperçu de la forme distribution, centre, données suspectes ,…
Exemple: données observées de la variable X
223 241 245 265 268 267 228 301 300 301 321 282 286 288 tige feuille effectif effectif cumulé
22 3 8 2 2
24 1 5 2 4
26 5 7 8 3 7
28 2 6 8 3 10 30 0 1 1 3 13
32 1 14
total 14
4
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
Histogramme pour une variable X continue valeurs de X : x
1, x
2, ……., x
nn au moins 50 Procédure
1. Déterminer valeur minimale et la valeur maximale des X 2. Choisir entre 10 et 20 intervalles contigus
3. Recenser les effectifs n
ide chaque classe 4. Calculer les fréquences relatives : n
i/ n
5. Calculer la somme progressive des n
i :effectifs cumulés
6. Calculer la somme progressive des n
i/ n
5
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
Exemple :
écart = longueur – 50 sur 3 machines observations toutes les heures:
échantillon de 5 pièces
MACH_1 MACH_2 MACH_3
6
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
tableau d'effectifs
de à
effectif cumul% % cumul -1.00000<x<=-.80
-.800000<x<=-.60 -.600000<x<=-.40 -.400000<x<=-.20 -.200000<x<=.666 .666E-15<x<=.200 .2000000<x<=.400 .4000000<x<=.600 .6000000<x<=.800 .8000000<x<=1.00 1.000000<x<=1.20 1.200000<x<=1.40 1.400000<x<=1.60
1 1 0.7 0.7
10 11 6.7 7.3
24 35 16.0 23.3
39 74 26.0 49.3
26 100 17.3 66.7
15 115 10.0 76.7
15 130 10.0 86.7
9 139 6.0 92.7
6 145 4.0 96.7
2 147 1.3 98.0
0 147 0.0 98.0
2 149 1.3 99.3
1 150 0.7 100.0
7
MTH 2301 Méthodes statistiques en ingénierie
Histogrammes : exemples
Exemple 1 : données d’écarts de 150 longueurs p. r. à valeur nominale de 50 unités
Histogram ( 1v*150c) ecart = 150*0.2*normal(x; -0.0911; 0.4357)
-1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6
ecart 0
5 10 15 20 25 30 35 40 45
No of obs
8
MTH 2301 Méthodes statistiques en ingénierie
Exemple 2 : données = d’écarts de 50 longueurs p. r. à valeur nominale de 50 - production sur 3 machines
Histogram (_KolarikMeterStick(2) [Hist & QQ].sta 10v*150c) MACH_1 = 50*0.2*normal(x; 0.0839; 0.4346) MACH_2 = 50*0.2*normal(x; -0.2896; 0.1915) MACH_3 = 50*0.2*normal(x; -0.0678; 0.5288)
MACH_1 MACH_2 MACH_3
-1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6
0 2 4 6 8 10 12 14 16 18 20 22
No of obs
9
MTH 2301 Méthodes statistiques en ingénierie
Machine 1
-0.6685 -0.4718 -0.2751 -0.0784 0.1182 0.3149 0.5116 0.7082 MACH_1
0 1 2 3 4 5 6 7 8
No of obs
machine 2
-0.7889 -0.6758 -0.5627 -0.4496 -0.3364 -0.2233 -0.1102 0.0029 MACH_2
0 1 2 3 4 5 6 7 8
No of obs
Machine 3
-0.8615 -0.5436 -0.2257 0.0923 0.4102 0.7281 1.0460 1.3640 MACH_3
0 1 2 3 4 5 6 7 8 9
No of obs
Bernard CLÉMENT, P h D
toutes les données
-0.8615 -0.5436 -0.2257 0.0923 0.4102 0.7281 1.0460 1.3640 ecart
0 5 10 15 20 25 30 35
No of obs
10
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
Indicateurs de centralité et de position
remarque Il y a plusieurs façons de calculer les quantiles
11
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
indicateurs de centralité et position : MACH_1 mesures d’écarts sur la machine 1
0,424 -0,271
0,807 -0,668
pas unique 0,112
0,084 50
3ième quartile
= 75 ième percentile 1er
quartile
= 25 ième percentile max
min mode
médiane moy
Xbar n
12
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
Indicateurs de variabilité
Règle empirique
68% obs. dans x – s et x + s 95% obs. dans x - 2s et x + 2s 99,9% obs. dans x - 3s et x + 3s Valeur centrée réduite
z i = ( x i- x ) / s Propriétés z = 0 s
z
= 1Étendue échantillonnale R = max { x i } - min { x i} Étendue interquartile IQR = x0.75 - x 0.25
Écart type échantillonnal s =
[
∑ ( xi - x ) / (n – 1)]
0.513
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
Indicateurs de variabilité : MACH_1 MACH_2 MACH_3
0,529 0,553
2,384 1,523
-0,862 -0,068
50
MACH_3
0,191 0,257
0,848 0,059
-0,789 -0,290
50
MACH_2
0,435 0,695
1,475 0,807
-0,668 0,084
50
MACH_1
s IQR R
max min
x n
14
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
Règle empirique ?
Machine x- s à x+s x- 2s à x + 2s x- 3s à x+ 3s
1 - 0,351 à 0,518 -1,220 à 1,388 sur 50 33 50
2 - 0,481 à 0,098 - 0,864 à 0,285 sur 50 36 50
3 - 0,597 à 0,461 -1,654 à 1,519 sur 50 39 50
15
MTH 2301 Méthodes statistiques en ingénierie
Diagramme de Tukey ou boîte à moustaches ( « Box Plot » )rectangle avec quartiles Q 1 Q 2 Q 3 + segments droites longueurs L1 = min ( Q 1 - 1.5 * IQR , x ( 1 ) ) L2 = min ( Q 3+ 1.5 * IQR , x ( n) ) L 3 = min (Q 1 - 3 * IQR , x ( 1 ) ) L4 = min ( Q 3 + 3 * IQR , x ( n ) )
utilité - variabilité - symétrie - données suspectes - comparaison de plusieurs groupes
Q1 Q2 Q3
L1 L2
L3 L4
suspectes
16
MTH 2301 Méthodes statistiques en ingénierie
Diagramme de Tukey : exemple longueurs sur 3 machines
Box Plot (Machines.sta 10v*150c)
Median 25%-75%
Non-Outlier Range Outliers MACH_1
MACH_2 MACH_3 -1.0
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8
17
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
Diagramme quantile – quantile
Méthode graphique pour comparer 2 séries de données : même forme ? mêmes moyennes ? mêmes écart types ? mêmes quantiles ?
x 1 x 2 x3 …… x m et y 1 y 2 y 3 …… y n
cas 1 : m = n graphique des points
(
x ( i ), y ( i ))
des valeurs ordonnées cas 2 : m<
n graphique des points(
x (i ) , y ( pi ))
p i = i / ( m + 1 ) i = 1 ,2 ,3… , m échantillons provenant de populations ayant la même forme :
alignement le long d’une droite
18
MTH 2301 Méthodes statistiques en ingénierie
-0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1
M2_ORD -0.9
-0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1
M2_ORD
M2_ORD vs M2_ORD
M2_ORD vs M1_ORD
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
M1_ORD -0.8
-0.4 0.0 0.4 0.8 1.2
M2_ORD
droite Y = X
-0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1
M2_ORD -1.0
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8
M3_ORD
Bernard CLÉMENT, P h D
Exemple: diagramme quantile – quantile - distributions des 3 machines
Scatterplot (MachinesV5.sta 10v*150c)
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
M1_ORD -1.0
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8
M3_ORD
19
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
2 VARIABLES : diagramme de dispersion – droite de moindres carrés – coefficient de corrélation linéaire
18400 13
3325 sable
15200 19
2865 probe
20000 19
2865 prelude
10800 24
2190 paseo
17800 14
3225 talon
12000 20
2650 saturn
14300 18
2970 mazda
21100 14
3325 intrepid
14000 12
3035 grand Am
19900 14
3345 camry
modèle poids ( lbs) MPG (ville) prix
20
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
2 VARIABLES : diagramme de dispersion – droite de moindres carrés coefficient de corrélation linéaire
Matrix Plot (ch2-V5.sta 10v*100c) POIDS
MPG
PRIX
21
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
2 VARIABLES : diagramme de dispersion – droite de moindres carrés coefficient de corrélation linéaire
22
MTH 2301 Méthodes statistiques en ingénierie
Bernard CLÉMENT, P h D
2 VARIABLES : diagramme de dispersion – droite de moindres carrés coefficient de corrélation linéaire
23
MTH 2301 Méthodes statistiques en ingénierie
2 VARIABLES : diagramme de dispersion – droite de moindres carrés coefficient de corrélation linéaire
24
MTH 2301 Méthodes statistiques en ingénierie
2 VARIABLES : diagramme de dispersion – droite de moindres carrés coefficient de corrélation linéaire
Scatterplot (ch2.sta 10v*100c) mpg = 45.4288-0.0096*x; 0.95 Conf.Int.
2000 2200 2400 2600 2800 3000 3200 3400
poids 10
12 14 16 18 20 22 24 26
mpg
poids:mpg: r2 = 0.8277; r = -0.9098, p = 0.0003; y = 45.4287916 - 0.0096421519*x