DESCRIPTIVES UNIDIMENSIONNELLES
I
NDICATEURS SYNTHÉTIQUES DE TENDANCE CENTRALEJulie Scholler - Bureau B246
Novembre 2020
.
Outils de résumé
• tableaux synthétiques
• si beaucoup de modalités : peu lisible
• graphiques
• si bien choisi : très parlant
• comparaison pas forcément très aisée
• indicateurs synthétiques, principalement numériques
L1 L2 L3
5 10 15 20 5 10 15 20 5 10 15 20
0 5 10
15 annee
L1 L2 L3
Note totale au QCM
Homme Femme
5 10 15 20 5 10 15 20
0 5 10 15 20
sexe
Homme Femme
.
littérature maths sport
économie géographie histoire
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
0 5 10 15 20
0 5 10 15 20
Notes par thème
Mode(s)
Valeur/modalité la plus fréquente dans la distribution d’une variable
Bac pro.
Bac STMG Bac S Bac ES
0 20 40 60
Effectif
Effectif par filière de bac
0 5 10 15 20
5 10 15 20
Effectif
Note pour le thème économie
• Mode pour le baccalauréat : ES • Note modale en économie : 17
IV. Indicateurs de tendance centrale
Notes totales en L1 Effectif
[0,4[ 0
[4,6[ 5
[6,8[ 8
[8,10[ 18
[10,11[ 10
[11,13[ 11
[13,14[ 7
[14,16[ 7
[16,20] 0
0.00 0.05 0.10 0.15
5 10 15
Note totale au QCM
pour les L1
Mode
Variable quantitative continue
• on parle de classe modale
• il s’agit de la classe ayant la plus grande densité d’effectif
Attention - pour tout type de variable
• non nécessairement unique
IV. Indicateurs de tendance centrale
Moyenne
Moyenne arithmétique la valeur x telle que x = 1
n
n
X
i=1
xi
Il s’agit de la valeur que devrait prendre l’ensemble des unités statistiques si elles étaient identiques tout en conservant la même somme globale.
Calcul à partir d’un tableau synthétique
Variable Effectif Fréquence
m1 n1 f1
m2 n2 f2
... ... ...
mM nM fM
x = 1 n
M
X
k=1
nkmk =
M
X
k=1
fkmk
• moyenne des modalités pondérée par les effectifs ou les fréquences
IV. Indicateurs de tendance centrale
Moyenne pondérée
Note totale au QCM
Année de licence Moyennes Effectifs
L1 10.093 66
L2 10.956 34
L3 11.316 29
Total 10.6 129
• Moyenne non pondérée des moyennes : 10.8
• Moyenne pondérée des moyennes : 10.6
Notes totales en L1 Effectif
[0,4[ 0
[4,6[ 5
[6,8[ 8
[8,10[ 18
[10,11[ 10
[11,13[ 11
[13,14[ 7
[14,16[ 7
[16,20] 0
Si on ne dispose que des données regroupées en classes, on calcule une valeur approchée de la moyenne en utilisant les centres de classes.
Centre de la classe [bk;bk+1[ : ck = bk + bk+1
2
x ' 1 n
M
X
k=1
nkck
On obtient x ' 10.295 Véritable valeur x = 10.093
IV. Indicateurs de tendance centrale
Propriétés de la moyenne
• La somme des écarts des observations à la moyenne (xi − x) est nulle :
n
X
i=1
(xi − x) = 0
• La moyenne d’une somme de caractères est la somme des moyennes de ces caractères.
• La somme des carrés des écarts des observations à la moyenne est inférieure à la somme des carrés des écarts par rapport à toute autre valeur.
Phénomènes paradoxaux autour de la moyenne
Phénomène de Will Rogers
En changeant une valeur de groupe, on peut améliorer les moyennes de chaque groupe.
Paradoxe de Simpson
Un phénomène observé sur plusieurs groupes s’inverse quand on combine les groupes.
• article du blog Freakonometrics :
https://freakonometrics.hypotheses.org/231
IV. Indicateurs de tendance centrale
Taux de mortalité des fumeuses
0.00 0.25 0.50 0.75 1.00
Non fumeuse Fumeuse
0.00 0.25 0.50 0.75 1.00
18-2425-3435-4445-5455-6465-74 75+
Non fumeuse Fumeuse
Appleton, D. R., French, J. M. and Vanderpump, M. P. J. (1996) Ignoring a covariate : An example of Simpson’s paradox. The American Statistician, 50, 340–341.
Cas où la moyenne arithmétique n’est pas adaptée
• Taux de variation moyen t1, . . . ,tn : taux de variation
x1, . . . ,xn : facteur multiplicatif (xi = 1 + ti)
Moyenne géométrique
xG = √n
x1 × · · · ×xn =
n
Y
i=1
xi
!1
n
IV. Indicateurs de tendance centrale
Médiane
Première définition
Valeur telle que la moitié de la population possède une modalité inférieure à cette valeur et l’autre moitié possède une valeur supérieure à cette valeur.
Exemples
• revenu salarial médian en 2015 : 18 370
• revenu salarial médian des femmes en 2015 : 16 750
• revenu salarial médian des hommes en 2015 : 20 030
• âge médian des français en 2018 : 40.5
Médiane
Deuxième définition
Plus petite valeur de la série de données telle qu’au moins la moitié de la population prend une valeur inférieure ou égale à celle-ci.
Propriété de la médiane
• Elle minimise l’écart absolu moyen.
• Moins sensible que la moyenne aux valeurs extrêmes.
Site pour expérimenter :
https://frama.link/comparaison_moyenne_mediane
IV. Indicateurs de tendance centrale
Médiane - en pratique
Cas discret ou données brutes
On commence par classer par ordre croissant les données.
• Si l’effectif est impair, la médiane est la
n + 1 2
e
valeur.
• Si l’effectif est pair, on a un intervalle médian n
2 e
valeur;
n 2 + 1
e
valeur
.
On choisit pour médiane soit la moyenne des bornes de l’intervalle, soit la plus petite borne.
Cas de données regroupées en classe
Si les données sont regroupées en classe, on a une classe médiane.
Si on n’a pas accès aux données brutes, on peut calculer une valeur approchée.
Exemples sur nos données
• Notes des L3 : n = 29 Médiane : 15e valeur Médiane : 11.83
• Notes des L2 : n = 34 Intervalle médian : [16evaleur; 17evaleur] = [10.67; 10.67]
Médiane : 10.67
• Notes des L1 : n = 66 Intervalle médian :
[33evaleur; 34evaleur] = [10; 10]
Médiane : 10
• Notes des L1 regroupées en classe
Notes totales en L1 Eff. Eff. cum.
[0,4[ 0 0
[4,6[ 5 5
[6,8[ 8 13
[8,10[ 18 31
[10,11[ 10 41
[11,13[ 11 52
[13,14[ 7 59
[14,16[ 7 66
[16,20] 0 66
IV. Indicateurs de tendance centrale
Fréquences cumulées
Variable Fréquences Fréquences cumulées
m1 f1 F1 = f1
m2 f2 F2 = f1 + f2
... ... ...
mk fk Fk =
k
X
i=1
fi
... ... ...
mM fM FM = 1
Fonction cumulative ou fonction de répartition
fonction F telle que F(x) correspond à la proportion d’individu dont la modalité est inférieure ou égale à x.
• F(mk) = Fk =
k
X
i=1
fi
Médiane
plus petite valeur x telle que F(x) > 0.5
IV. Indicateurs de tendance centrale
Nombres de bonnes réponses en sport - Fréquences cumulées
Nb. de rép. justes Fréq. Fréq. cum.
0 0.02 0.02
1 0.04 0.06
2 0.04 0.09
3 0.10 0.20
4 0.20 0.40
5 0.21 0.61
6 0.18 0.78
7 0.11 0.89
8 0.08 0.98
10 0.02 1.00
• Plus de la moitié des étudiants ayant participé au QCM a eu 5 bonnes réponses ou moins au thème sport.
• Plus des trois quarts des étudiants ayant participé au QCM ont eu 6 bonnes réponses ou moins au thème sport.
Courbe cumulative - Cas discret
0.00 0.25 0.50 0.75 1.00
0 1 2 3 4 5 6 7 8 10
Courbe cumulative du nombre de bonnes réponses au thème sport
IV. Indicateurs de tendance centrale
Notes des L1 - Fréquences cumulées
Notes Fréquences cumulées
[0,2[ 0.00
[2,4[ 0.00
[4,6[ 0.08
[6,8[ 0.20
[8,10[ 0.47
[10,11[ 0.62
[11,13[ 0.79
[13,14[ 0.89
[14,16[ 1.00
[16,20] 1.00
Courbe cumulative - Cas avec classes
0.00 0.25 0.50 0.75 1.00
0 5 10 15 20
Courbe cumulative des notes des L1 regroupées en classes
IV. Indicateurs de tendance centrale
Courbe cumulative - Cas avec classes
0.00 0.25 0.50 0.75 1.00
0 5 10 15 20