C
HAPITRE1. S
TATISTIQUESDESCRIPTIVES UNIDIMENSIONNELLES
I
NDICATEURS SYNTHÉTIQUESDE DISPERSION ET DE CONCENTRATION
Julie Scholler - Bureau B246
Novembre 2019
IV. Indicateurs de tendance centrale
Fonction cumulative ou fonction de répartition
fonction F telle que F(x) correspond à la proportion d’individu dont la modalité est inférieure ou égale à x.
• F(mk) = Fk =
k
X
i=1
fi
Médiane
plus petite valeur x telle que F(x) > 0.5
Nombres de bonnes réponses en sport - Fréquences cumulées
Nb. de rép. justes Fréq. Fréq. cum.
0 0.02 0.02
1 0.04 0.06
2 0.04 0.09
3 0.10 0.20
4 0.20 0.40
5 0.21 0.61
6 0.18 0.78
7 0.11 0.89
8 0.08 0.98
10 0.02 1.00
• Plus de la moitié des étudiants ayant participé au QCM a eu 5 bonnes réponses ou moins au thème sport.
• Plus des trois quarts des étudiants ayant participé au QCM ont eu 6 bonnes réponses ou moins au thème sport.
IV. Indicateurs de tendance centrale
Quantiles
Quantiles en α
Pour tout α dans [0; 1], le quantile en α est le plus petit réel, noté xα, tel qu’une proportion α des valeurs de la variable lui soient inférieures.
On a F(xα) > α.
Quantiles d’ordre q
Ce sont les (q −1) valeurs qui divisent les valeurs (ordonnées) de la série en q parties égales.
Quantiles particuliers
• quartiles : pour α valant 0.25, 0.5 et 0.75 On note Q1 = x0.25, Q2 = x0.5 et Q3 = x0.75
• déciles : pour α valant 0.1,0.2, . . . ,0.9,1
• centiles : pour α valant 0.01,0.02, . . . ,0.99,1
IV. Indicateurs de tendance centrale
Sources : Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2012 à 2017
IV. Indicateurs de tendance centrale
Quartiles et courbe cumulative
0.00 0.25 0.50 0.75 1.00
0 1 2 3 4 5 6 7 8 10
Courbe cumulative du nombre de bonnes réponses
au thème sport
Quartiles et courbe cumulative
0.00 0.25 0.50 0.75 1.00
0 5 10 15 20
Courbe cumulative des notes des L1 regroupées en classes
IV. Indicateurs de tendance centrale
Notes des L1 - Fréquences cumulées
Notes Fréquences cumulées
[0,2[ 0.00
[2,4[ 0.00
[4,6[ 0.08
[6,8[ 0.20
[8,10[ 0.47
[10,11[ 0.62
[11,13[ 0.79
[13,14[ 0.89
[14,16[ 1.00
[16,20] 1.00
Me ∈ [10,11[
On obtient Me ' 10.2.
Q1 ∈ [8,10[
On obtient Q1 ' 8.37.
Q3 ∈ [11,13[
On obtient Q3 ' 12.53
IV. Indicateurs de tendance centrale
Quartiles et diagramme en boîte
4 8 12
Notes des L1
IV. Indicateurs de tendance centrale
Diagrammes en boîte et comparaison
Homme Femme
4 8 12
Notes des L1
Indicateurs de dispersion
Étendue
écart entre la plus grande valeur et la plus petite valeur de la série
• facile à calculer
• très sensible aux valeurs extrêmes Écart interquantile
écart entre les quantiles extrémaux Les plus répandus
• écart interquartile : Q3 − Q1
• écart interdécile : D9 − D1 Avantage
• permet d’exclure les valeurs extrêmes
V. Indicateurs de dispersion
Différentes notes
L1 L2 L3
4 8 12 16 20
Note totale selon l’année
Étendue EIQ EID L3 13.83 4.17 6.97 L2 6.67 1.79 3.50 L1 11.00 4.42 7.33
V. Indicateurs de dispersion
Sources : Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2012 à 2017
V. Indicateurs de dispersion
Variance et écart type
Variance
moyenne arithmétique des carrés des écarts des observations à la moyenne
V(x) = 1 n
n
X
i=1
(xi − x)2
Propriétés
• V(x) > 0
• V(x) = 1 n
n
X
i=1
xi2 −x2
Écart type
racine carrée de la variance : σx = q
V(x)
Différentes notes
L1 L2 L3
4 8 12 16 20
Note totale selon l’année
Étendue EIQ EID Écart type L3 13.83 4.17 6.97 3.34 L2 6.67 1.79 3.50 1.47 L1 11.00 4.42 7.33 2.85
V. Indicateurs de dispersion
Coefficient de variations
CV = σx x
• mesure de dispersion relative
• nombre sans unité
• utile pour comparer la dispersion des séries dont les unités sont différentes
V. Indicateurs de dispersion
Compréhension de l’écart type
x + σ x − σ x
' 68%
x + 2σ x − 2σ x
' 95%
Pour les notes des L1 : 63.6% dans [x ± σ] et 98.5% dans [x ± 2σ]
Pour les notes des L3 : 75.9% dans [x ±σ] et 93% dans [x ±2σ]
V. Indicateurs de dispersion
L3
L1 L2
5 10 15 20
5 10 15 20
0.0 2.5 5.0 7.5 10.0 12.5
0.0 2.5 5.0 7.5 10.0 12.5
note_totale
count
Note totale selon l’année
Asymétrie
L1 L2 L3
4 8 12 16 20
Note totale selon l’année
V. Indicateurs de dispersion
Un exemple de mesure d’asymétrie
Coefficient de Yule
comparaison de l’étalement à gauche et à droite entre les quartiles Y = (Q3 − Q2) − (Q2 −Q1)
(Q3 − Q2) + (Q2 −Q1)
• Y = 0 si Q1 et Q3 sont équidistants de Q2
• Y > 0 : étalement à droite
• Y < 0 : étalement à gauche
V. Indicateurs de dispersion
Asymétrie
L1 L2 L3
4 8 12 16 20
Note totale selon l’année
Coef. de Yule
L3 -0.44
L2 0.16
L1 0.11
VI. Indicateurs de concentration
Sources : Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2012 à 2017
Concentration
Mesure de répartition des valeurs d’une variable entre les individus
• revenus entre individus
• chiffre d’affaire entre les entreprises d’un secteur Conditions nécessaires à l’étude de la concentration
• l’addition des différentes valeurs prises doit avoir un sens
• le partage de la masse globale du caractère doit être possible
VI. Indicateurs de concentration
État des ventes de jeux vidéos en décembre 2016
Nombre de ventes en millions Nombre de jeux vidéos
[0.1,0.25[ 9954
[0.25,1[ 4689
[1,2[ 1220
[2,82.5] 856
VI. Indicateurs de concentration
Masse et parts de masse
Masse globale
Volume total de valeurs de la variable :
n
X
i=1
xi =
K
X
k=1
nkmk
Masse d’une classe
Volume de valeurs de la variable détenu par les individus d’une classe : nk × mk ou nk ×ck
Part de masse d’une classe
Part de la masse totale détenue par les individus d’une classe : gk = nk × mk
Pn
i=1xi ou gk ' nk ×ck Pn
i=1 xi
Part de masse cumulée d’une classe
Gk = g1 + g2 + · · ·+gk
VI. Indicateurs de concentration
Jeux vidéos
Effectif Masse Part de masse [0.1,0.25[ 9954 901.92 0.1011
[0.25,1[ 4689 2304.46 0.2584
[1,2[ 1220 1687.04 0.1891
[2,82.5] 856 4025.66 0.4514
Effectif Masse Part de masse Fréquence
[0.1,0.25[ 9954 901.92 0.1011 0.5954
[0.25,1[ 4689 2304.46 0.2584 0.2805
[1,2[ 1220 1687.04 0.1891 0.0730
[2,82.5] 856 4025.66 0.4514 0.0512
Total 16719 8919.08 1 1
Jeux vidéos
Masse Masse Part de Part de masse cumulée masse gk cumulée Gk [0.1,0.25[ 901.92 901.92 0.1011 0.1011
[0.25,1[ 2304.46 3206.38 0.2584 0.3595 [1,2[ 1687.04 4893.42 0.1891 0.5486 [2,82.5] 4025.66 8919.08 0.4514 1
VI. Indicateurs de concentration
Médiale
Plus petite valeur de la variable telle que les individus prenant une valeur inférieure ou égale représentent 50 % de la masse totale de la variable
Part de masse cumulée [0.1,0.25[ 0.1011
[0.25,1[ 0.3595 [1,2[ 0.5486 [2,82.5] 1.0000
Les 1 743 000 jeux (titres) les moins vendus correspondent à la moitité du volume des ventes.
VI. Indicateurs de concentration
Fréquence Part de masse cumulée cumulée [0.1,0.25[ 0.5954 0.1011
[0.25,1[ 0.8758 0.3595 [1,2[ 0.9488 0.5486 [2,82.5] 1.0000 1.0000
Les 886 millers dejeux vidéos les moins vendus correspondent à la moitié des titres proposés à la vente en 2016.
Écart médiale-médiane
M` −Me > 0
L’écart médiale-médiane est un indicateur de disparité.
• ne prend pas en compte de façon globale toutes les disparités entre les fréquences cumulées et les parts cumulées
VI. Indicateurs de concentration
Courbe de concentration
Parts de masse cumulée en fonction des fréquences cumulées
Fréquence Part de masse cumulée cumulée [0.1,0.25[ 0.5954 0.1011
[0.25,1[ 0.8758 0.3595 [1,2[ 0.9488 0.5486
[2,82.5] 1.0000 1.0000 0.93
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
Exemple de situation presque égalitaire
5 jeux vidéos différents vendus à
100 000, 100 001, 100 002, 100 003, 100 004 exemplaires mk nk fk Fk gk Gk
100 000 1 0.2 0.2 0.199996 0.199996 100 001 1 0.2 0.4 0.199998 0.399994 100 002 1 0.2 0.6 0.200000 0.599992 100 003 1 0.2 0.8 0.200002 0.799990
100 004 1 0.2 1 0.200004 1
VI. Indicateurs de concentration
Exemple de situation très inégalitaire
5 jeux vidéos différents vendus à 1, 2, 3, 4, 500 000 exemplaires mk nk fk Fk gk Gk
1 1 0.2 0.2 0.00002 0.00002 2 1 0.2 0.4 0.00004 0.00006 3 1 0.2 0.6 0.00006 0.00012 4 1 0.2 0.8 0.00008 0.00020
500 000 1 0.2 1 0.99998 1
VI. Indicateurs de concentration
Indicateur global de disparité
Indice de Gini
IG correspond à 2 fois l’aire entre la courbe de concentration et la droite d’égalité parfaite
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
VI. Indicateurs de concentration
Indicateur global de disparité
Indice de Gini
IG correspond à 2 fois l’aire entre la courbe de concentration et la droite d’égalité parfaite
Propriétés
• 0 6 IG 6 1
• Plus l’indice de Gini est proche de 1, plus la concentration est forte donc plus les inégalités sont fortes.
• Plus l’indice de Gini est proche de 0, plus la concentration est faible donc plus les inégalités sont faibles.
Calcul d’un indice de Gini
A1
A2
A3 A4
S
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
VI. Indicateurs de concentration
Calcul d’un indice de Gini
Fréquence Part de masse cumulée cumulée [0.1,0.25[ 0.5954 0.1011
[0.25,1[ 0.8758 0.3595 [1,2[ 0.9488 0.5486
[2,82.5] 1.0000 1.0000 A
1
A2 A3
A4
S
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
IG = 1− 2×
K
X
k=1
Gi−1 + Gi
2 (Fi − Fi−1) = 1−
K
X
k=1
(Gi−1 + Gi)fi avec G0 = 0
VI. Indicateurs de concentration
Véritable courbe de concentration
0.00 0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Courbe de concentration des ventes de jeux vidéos
I
G= 0.716
VI. Indicateurs de concentration
Sources : Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2012 à 2017
Remarques diverses sur l’indice de Gini
+ Insensible à l’unité de mesure
– Si on augmente tout le monde d’un même pourcentage, la courbe de concentration et l’indice de Gini ne change pas.
+ Si on augmente tout le monde de la même quantité, l’indice de Gini diminue.
– Un même indice de Gini peut correspondre à des situations très différentes.
VI. Indicateurs de concentration
Situation A
mk nk fk Fk gk Gk 1 000 1 0.5 0.5 0.091 0.091
10 000 1 0.5 1 0.919 1
IGA = 0.409
Situation B (+1000 à tout le monde) mk nk fk Fk gk Gk 2 000 1 0.5 0.5 0.154 0.154
11 000 1 0.5 1 0.846 1
IGB = 0.346 < IGA
Situation C (+10% à tout le monde) mk nk fk Fk gk Gk 1 100 1 0.5 0.5 0.091 0.091
11 000 1 0.5 1 0.919 1
IGC = IGA