C
HAPITRE1. S
TATISTIQUESDESCRIPTIVES UNIDIMENSIONNELLES
I
NDICATEURS SYNTHÉTIQUESDE DISPERSION ET DE CONCENTRATION
Julie Scholler - Bureau B246
Novembre 2020
IV. Indicateurs de tendance centrale
Fonction cumulative ou fonction de répartition
fonction F telle que F(x) correspond à la proportion d’individu dont la modalité est inférieure ou égale à x.
• F(mk) = Fk =
k
X
i=1
fi
Médiane
plus petite valeur x telle que F(x) > 0.5
IV. Indicateurs de tendance centrale
Nombres de bonnes réponses en sport
Nb. de rép. justes Fréq. Fréq. cum.
0 0.02 0.02
1 0.04 0.06
2 0.04 0.09
3 0.10 0.20
4 0.20 0.40
5 0.21 0.61
6 0.18 0.78
7 0.11 0.89
8 0.08 0.98
10 0.02 1.00
• Plus de la moitié des étudiants ayant participé au QCM a eu 5 bonnes réponses ou moins au thème sport.
• Plus des trois quarts des étudiants ayant participé au QCM ont eu 6 bonnes réponses ou moins au thème sport.
IV. Indicateurs de tendance centrale
Quantiles
Quantiles en α
Pour tout α dans [0; 1], le quantile en α est le plus petit réel, noté xα, tel qu’une proportion α des valeurs de la variable lui soient inférieures.
On a F(xα) > α.
Quantiles d’ordre q
Ce sont les (q −1) valeurs qui divisent les valeurs (ordonnées) de la série en q parties égales.
Quantiles particuliers
• quartiles : pour α valant 0.25, 0.5 et 0.75 On note Q1 = x0.25, Q2 = x0.5 et Q3 = x0.75
• déciles : pour α valant 0.1,0.2, . . . ,0.9,1
• centiles : pour α valant 0.01,0.02, . . . ,0.99,1
IV. Indicateurs de tendance centrale
Sources : Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2013 à 2018 Lien : https://www.insee.fr/fr/statistiques/2491918
IV. Indicateurs de tendance centrale
Courbe cumulative
Nb.rép. j. Fr. cum.
0 0.02
1 0.06
2 0.09
3 0.20
4 0.40
5 0.61
6 0.78
7 0.89
8 0.98
10 1.00
0.00 0.25 0.50 0.75 1.00
0 1 2 3 4 5 6 7 8 10
Courbe cumulative du nombre de bonnes
réponses au thème sport
IV. Indicateurs de tendance centrale
Courbe cumulative
Nb.rép. j. Fr. cum.
0 0.02
1 0.06
2 0.09
3 0.20
4 0.40
5 0.61
6 0.78
7 0.89
8 0.98
10 1.00
0.00 0.25 0.50 0.75 1.00
0 1 2 3 4 5 6 7 8 10
Courbe cumulative du nombre de bonnes réponses au thème sport
IV. Indicateurs de tendance centrale
Quartiles et courbe cumulative
0.00 0.25 0.50 0.75 1.00
0 1 2 3 4 5 6 7 8 10
Courbe cumulative du nombre de bonnes réponses
au thème sport
IV. Indicateurs de tendance centrale
Notes des L1 - Fréquences cumulées
Notes Fr. cum.
[0,2[ 0.00 [2,4[ 0.00 [4,6[ 0.08 [6,8[ 0.20 [8,10[ 0.47 [10,11[ 0.62 [11,13[ 0.79 [13,14[ 0.89 [14,16[ 1.00
[16,20] 1.00 0.00
0.25 0.50 0.75 1.00
0 5 10 15 20
Courbe cumulative des notes des L1 regroupées en classes
IV. Indicateurs de tendance centrale
Notes des L1 - Fréquences cumulées
Notes Fr. cum.
[0,2[ 0.00 [2,4[ 0.00 [4,6[ 0.08 [6,8[ 0.20 [8,10[ 0.47 [10,11[ 0.62 [11,13[ 0.79 [13,14[ 0.89 [14,16[ 1.00
[16,20] 1.00 0.00
0.25 0.50 0.75 1.00
0 5 10 15 20
Courbe cumulative des notes des L1
regroupées en classes
IV. Indicateurs de tendance centrale
Quartiles et courbe cumulative
0.00 0.25 0.50 0.75 1.00
0 5 10 15 20
Courbe cumulative des notes des L1 regroupées en classes
IV. Indicateurs de tendance centrale
Notes des L1 - Fréquences cumulées
Notes Fr. cum.
[0,2[ 0.00 [2,4[ 0.00 [4,6[ 0.08 [6,8[ 0.20 [8,10[ 0.47 [10,11[ 0.62 [11,13[ 0.79 [13,14[ 0.89 [14,16[ 1.00 [16,20] 1.00
IV. Indicateurs de tendance centrale
Quartiles et diagramme en boîte
4 8 12
Notes des L1
IV. Indicateurs de tendance centrale
Diagrammes en boîte et comparaison
Homme Femme
4 8 12
Notes des L1
V. Indicateurs de dispersion
Indicateurs de dispersion
Étendue
écart entre la plus grande valeur et la plus petite valeur de la série
• facile à calculer
• très sensible aux valeurs extrêmes Écart interquantile
écart entre les quantiles extrémaux Les plus répandus
• écart interquartile : Q3 − Q1
• écart interdécile : D9 − D1 Avantage
• permet d’exclure les valeurs extrêmes
V. Indicateurs de dispersion
Différentes notes
L1 L2 L3
4 8 12 16 20
Note totale selon l’année
Étendue EIQ EID L3 13.83 4.17 6.97 L2 6.67 1.79 3.50 L1 11.00 4.42 7.33
V. Indicateurs de dispersion
Aussi mignon et pratique soit-il le diagramme en boîte synthétise les données !
https://www.autodesk.com/research/publications/
same-stats-different-graphs
V. Indicateurs de dispersion
Sources : Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2013 à 2018
V. Indicateurs de dispersion
Idée
Prendre en compte les écarts de tous les points à la moyenne ou la médiane.
V. Indicateurs de dispersion
Variance et écart type
Variance
moyenne arithmétique des carrés des écarts des observations à la moyenne
V(x) = 1 n
n
X
i=1
(xi − x)2
Propriétés
• V(x) > 0
• V(x) = 1 n
n
X
i=1
xi2 −x2
Écart type
racine carrée de la variance : σx = q
V(x)
V. Indicateurs de dispersion
Différentes notes
L1 L2 L3
4 8 12 16 20
Note totale selon l’année
Étendue EIQ EID Écart type L3 13.83 4.17 6.97 3.34 L2 6.67 1.79 3.50 1.47 L1 11.00 4.42 7.33 2.85
V. Indicateurs de dispersion
Coefficient de variations
CV = σx x
• mesure de dispersion relative
• nombre sans unité
• utile pour comparer la dispersion des séries dont les unités sont différentes
V. Indicateurs de dispersion
Compréhension de l’écart type
x + σ x − σ x
' 68%
x + 2σ x − 2σ x
' 95%
Pour les notes des L1 : 63.6% dans [x ± σ] et 98.5% dans [x ± 2σ]
Pour les notes des L3 : 75.9% dans [x ±σ] et 93% dans [x ±2σ]
V. Indicateurs de dispersion
L3
L1 L2
5 10 15 20
5 10 15 20
0.0 2.5 5.0 7.5 10.0 12.5
0.0 2.5 5.0 7.5 10.0 12.5
note_totale
count
Note totale selon l’année
V. Indicateurs de dispersion
Asymétrie
L1 L2 L3
4 8 12 16 20
Note totale selon l’année
V. Indicateurs de dispersion
Un exemple de mesure d’asymétrie
Coefficient de Yule
comparaison de l’étalement à gauche et à droite entre les quartiles Y = (Q3 − Q2) − (Q2 −Q1)
(Q3 − Q2) + (Q2 −Q1)
• Y = 0 si Q1 et Q3 sont équidistants de Q2
• Y > 0 : étalement à droite
• Y < 0 : étalement à gauche
V. Indicateurs de dispersion
Asymétrie
L1 L2 L3
4 8 12 16 20
Note totale selon l’année
Coef. de Yule
L3 -0.44
L2 0.16
L1 0.11
VI. Indicateurs de concentration
Indicateurs de concentration
Sources : Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2013 à 2018
VI. Indicateurs de concentration
Concentration
Mesure de répartition des valeurs d’une variable entre les individus
• revenus entre individus
• chiffre d’affaire entre les entreprises d’un secteur Conditions nécessaires à l’étude de la concentration
• l’addition des différentes valeurs prises doit avoir un sens
• le partage de la masse globale du caractère doit être possible
VI. Indicateurs de concentration
État des ventes de jeux vidéos en décembre 2016
Nombre de ventes en millions Nombre de jeux vidéos
[0.1,0.25[ 9954
[0.25,1[ 4689
[1,2[ 1220
[2,82.5] 856
VI. Indicateurs de concentration
Masse et parts de masse
Masse globale
Volume total de valeurs de la variable :
n
X
i=1
xi =
K
X
k=1
nkmk
Masse d’une classe
Volume de valeurs de la variable détenu par les individus d’une classe : nk × mk ou nk ×ck
Part de masse d’une classe
Part de la masse totale détenue par les individus d’une classe : gk = nk × mk
Pn
i=1xi ou gk ' nk ×ck Pn
i=1 xi
Part de masse cumulée d’une classe
Gk = g1 + g2 + · · ·+gk
VI. Indicateurs de concentration
Jeux vidéos - Obtention des masses ?
Effectif [0.1,0.25[ 9954
[0.25,1[ 4689 [1,2[ 1220 [2,82.5] 856
Total 16719
VI. Indicateurs de concentration
Jeux vidéos - Moyenne par classe
Comme à l’intérieur des classes, la répartition n’est pas homogène. il n’est pas judicieux d’utiliser las centres de classes. Heureusement je peux vous fournir les moyennes au sein des classes.
Effectif Moyenne [0.1,0.25[ 9954 0.0906
[0.25,1[ 4689 0.4615 [1,2[ 1220 1.3828 [2,82.5] 856 4.7029
Total 16719 /
VI. Indicateurs de concentration
Jeux vidéos - Masses par classe
Comme à l’intérieur des classes, la répartition n’est pas homogène. il n’est pas judicieux d’utiliser las centres de classes. Heureusement je peux vous fournir les moyennes au sein des classes.
Effectif Moyenne Masse [0.1,0.25[ 9954 0.0906 901.83 [0.25,1[ 4689 0.4615 2304.64
[1,2[ 1220 1.3828 1687.02 [2,82.5] 856 4.7029 4025.68
Total 16719 / 8919.17
VI. Indicateurs de concentration
Jeux vidéos - Parts de masse
Effectif Moy. Masse Part de masse Fréquence [0.1,0.25[ 9954 0.0906 901.83 0.1011 0.5954
[0.25,1[ 4689 0.4615 2304.64 0.2584 0.2805
[1,2[ 1220 1.3828 1687.02 0.1891 0.0730
[2,82.5] 856 4.7029 4025.68 0.4514 0.0512
Total 16719 / 8919.08 1 1
VI. Indicateurs de concentration
Jeux vidéos - Part de masse cumulée
Masse Masse Part de Part de masse cumulée masse gk cumulée Gk [0.1,0.25[ 901.92 901.83 0.1011 0.1011
[0.25,1[ 2304.46 3206.47 0.2584 0.3595 [1,2[ 1687.04 4893.49 0.1891 0.5486 [2,82.5] 4025.66 8919.17 0.4514 1
VI. Indicateurs de concentration
Médiale
Plus petite valeur de la variable telle que les individus prenant une valeur inférieure ou égale représentent 50 % de la masse totale de la variable
Part de masse cumulée [0.1,0.25[ 0.1011
[0.25,1[ 0.3595 [1,2[ 0.5486 [2,82.5] 1.0000
Les 1 743 000 jeux (titres) les moins vendus correspondent à la moitié du volume des ventes.
La valeur est obtenue par moi sur les données brutes. Vous pourriez obtenir une valeur approximative à partir du tableau mais elle serait très éloignée de la vraie.
VI. Indicateurs de concentration
Fréquence Part de masse cumulée cumulée [0.1,0.25[ 0.5954 0.1011
[0.25,1[ 0.8758 0.3595 [1,2[ 0.9488 0.5486 [2,82.5] 1.0000 1.0000
Les 886 millers de jeux vidéos les moins vendus correspondent à la moitié des titres proposés à la vente en 2016.
Les 1 743 000 jeux (titres) les moins vendus correspondent à la moitié du volume des ventes.
Écart médiale-médiane
M` −Me > 0
L’écart médiale-médiane est un indicateur de disparité.
• ne prend pas en compte de façon globale toutes les disparités entre les fréquences cumulées et les parts cumulées
VI. Indicateurs de concentration
Courbe de concentration
Parts de masse cumulée en fonction des fréquences cumulées
Fréquence Part de masse cumulée cumulée [0.1,0.25[ 0.5954 0.1011
[0.25,1[ 0.8758 0.3595 [1,2[ 0.9488 0.5486
[2,82.5] 1.0000 1.0000 0.93
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
VI. Indicateurs de concentration
Exemple de situation presque égalitaire
5 jeux vidéos différents vendus à
100 000, 100 001, 100 002, 100 003, 100 004 exemplaires mk nk fk Fk gk Gk
100 000 1 0.2 0.2 0.199996 0.199996 100 001 1 0.2 0.4 0.199998 0.399994 100 002 1 0.2 0.6 0.200000 0.599992 100 003 1 0.2 0.8 0.200002 0.799990
100 004 1 0.2 1 0.200004 1
VI. Indicateurs de concentration
Exemple de situation très inégalitaire
5 jeux vidéos différents vendus à 1, 2, 3, 4, 500 000 exemplaires mk nk fk Fk gk Gk
1 1 0.2 0.2 0.00002 0.00002 2 1 0.2 0.4 0.00004 0.00006 3 1 0.2 0.6 0.00006 0.00012 4 1 0.2 0.8 0.00008 0.00020
500 000 1 0.2 1 0.99998 1
VI. Indicateurs de concentration
Indicateur global de disparité
Indice de Gini
IG correspond à 2 fois l’aire entre la courbe de concentration et la droite d’égalité parfaite
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
VI. Indicateurs de concentration
Indicateur global de disparité
Indice de Gini
IG correspond à 2 fois l’aire entre la courbe de concentration et la droite d’égalité parfaite
Propriétés
• 0 6 IG 6 1
• Plus l’indice de Gini est proche de 1, plus la concentration est forte donc plus les inégalités sont fortes.
• Plus l’indice de Gini est proche de 0, plus la concentration est faible donc plus les inégalités sont faibles.
VI. Indicateurs de concentration
Calcul d’un indice de Gini
A1
A2
A3 A4
S
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
VI. Indicateurs de concentration
Calcul d’un indice de Gini
Fréquence Part de masse cumulée cumulée [0.1,0.25[ 0.5954 0.1011
[0.25,1[ 0.8758 0.3595 [1,2[ 0.9488 0.5486
[2,82.5] 1.0000 1.0000 A
1
A2 A3
A4
S
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
IG = 1− 2×
K
X
k=1
Gi−1 + Gi
2 (Fi − Fi−1) = 1−
K
X
k=1
(Gi−1 + Gi)fi avec G0 = 0
VI. Indicateurs de concentration
Véritable courbe de concentration
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
I
G= 0.716
VI. Indicateurs de concentration
Sources : Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2013 à 2018 Article de l’Insee : https://www.insee.fr/fr/statistiques/4659174
VI. Indicateurs de concentration
Remarques diverses sur l’indice de Gini
+ Insensible à l’unité de mesure
– Si on augmente tout le monde d’un même pourcentage, la courbe de concentration et l’indice de Gini ne change pas.
+ Si on augmente tout le monde de la même quantité, l’indice de Gini diminue.
– Un même indice de Gini peut correspondre à des situations très différentes.
VI. Indicateurs de concentration
Situation A
mk nk fk Fk gk Gk 1 000 1 0.5 0.5 0.091 0.091
10 000 1 0.5 1 0.919 1
IGA = 0.409
Situation B (+1000 à tout le monde) mk nk fk Fk gk Gk 2 000 1 0.5 0.5 0.154 0.154
11 000 1 0.5 1 0.846 1
IGB = 0.346 < IGA
Situation C (+10% à tout le monde) mk nk fk Fk gk Gk 1 100 1 0.5 0.5 0.091 0.091
11 000 1 0.5 1 0.919 1
IGC = IGA