L1 - M
ODULE2
OU3
S
TATISTIQUESD
ESCRIPTIVESJulie Scholler - Bureau B246
octobre 2019
I. Introduction générale
Définition
La statistique
• ensemble de méthodes permettant d’analyser/traiter les données issues d’un ensemble d’observations
• utilise les mathématiques et l’informatique
Historique
Trois phases
• De l’antiquité à la fin du 19e siècle
• technique de comptage d’une population
• rudimentaire
• De la fin du 19e siècle aux années 1960
• émergence de la statistique mathématique
• école anglo-saxonne liée aux développements de probabilités et des mathématiques
• À partir des années 1960
• développement puis banalisation des outils informatiques
• facilitation de la production de graphiques
• statistique multidimensionnelle, machine learning, IA
I. Introduction générale
Deux grandes sous-parties en statistique
Statistique descriptive (L1-S1) Description des données étudiées
• présentation commode et synthétique
• représentations graphiques
• résumés numériques
Absence d’hypothèse probabiliste sur les données
Statistique inférentielle (L2 et L3)
Induction de propriétés à la population entière à partir d’observations sur une sous-partie
• estimations et tests d’hypothèse
• modèles prédictifs Fondée sur les probabilités
II. Vocabulaire
Population
• ensemble concerné par une étude statistique
Individu
• tout élément de la population étudiée
Échantillon
• sous-ensemble de la population toute entière
Taille de la population
• nombre d’individus dans la population
• souvent notée n
II. Vocabulaire
Variable
• caractéristique définie sur la population et observée sur la population ou un échantillon
• il existe différents types de variables
Modalités d’une variable
• valeurs que peut prendre la variable
Variable quantitative
• variable dont les modalités sont numériques
• quantitative discrète : les modalités éventuelles sont finies
• quantitative continue : les modalités éventuelles ne sont pas finies ou très nombreuses
Variable qualitative
• variable dont les modalités ne sont pas numériques
• qualitative ordinale : si les modalités sont ordonnées
• qualitative nominale : si les modalités ne peuvent pas être ordonnées
II. Vocabulaire
Données
• ensemble des individus observés
• ensemble des variables considérées
• les valeurs de ces variables pour ces individus
Tableau de données
• en ligne : les individus
• en colonne : les variables
• à l’intérieur : les valeurs des variables pour les individus
III. Les données
Réponses à un QCM de culture générale
Lors de l’année scolaire 2018-2019, trois étudiants de L3 Économie à Tours (Jérémy Cardoso, Laura Candoni, Hugo Grémy et Jean Clark) ont testé la culture générale de leurs camarades de Licence.
QCM
• 60 questions de culture générale
• 6 thèmes : histoire, géographie, littérature,
mathématiques/physique, économie et sports/loisirs
• 10 questions du culture générale par thèmes
• pour chaque thème
• 3 questions faciles
• 4 questions moyennes
• 3 questions difficiles
• estimation du nombre de bonnes réponses
• lien vers le QCM
III. Les données
Réponses à un QCM de culture générale
Population étudiants de Licence d’économie à Tours en 2018/2019 ayant répondu au questionnaire Individus un étudiant de Licence d’économie à Tours en
2018/2019 ayant répondu au questionnaire
Variables réponses au questionnaire, année de licence, série du bac, sexe, nombre estimé de bonnes réponses, notes, etc.
Taille de la population 129 Nombre de variables 84
Données brutes - extrait
annee bac sexe note_totalesur_estimationeco_n_justeeco_note hist1 geo1 eco1 L1 Bac ES F 10.50 -10 9 17 Le griffon Cuba Taxe
L1 Bac S F 7.50 7 5 10 Le sphinx Cuba Taux
L1 Bac ES H 6.33 -2 5 10 Le griffon Cuba Taxe
L1 Bac ES F 8.17 -10 8 16 Le griffon Panama Taxe
L1 Bac ES F 8.00 -1 5 9 Le sphinx Cuba Taxe
L2 Bac ES H 13.50 -1 7 14 Le sphinx Cuba Taxe
L1 Bac S F 9.83 1 6 12 Le griffon Cuba Taxe
L2 Bac S H 11.67 -4 9 19 Le sphinx Cuba Taxe
L2 Bac S H 12.17 -4 8 15 Le griffon Cuba Taxe
L3 Bac S H 12.50 -2 9 18 Le sphinx Cuba Taxe
L1 Bac S F 9.00 8 8 16 Le griffon Cuba Taxe
L3 Bac ES H 10.33 -21 9 18 Le griffon Cuba Taxe L3 Bac ES H 10.83 -5 8 17 Le sphinx Panama Taxe
L3 Bac S H 13.00 -11 9 17 Le griffon Cuba Taxe
L1 Bac S H 14.83 -3 9 17 Le griffon Cuba Taxe
III. Les données
Description des variables
Variable Type Exemples
annee quali. ord. L1, L2, L3
bac quali. nom. Bac ES, Bac S, Bac STMG, Bac professionnel
sexe quali. nom. F, M
note_totale quantitative 10.5, 7.5, 6.33, 8.17, 8,. . . sur_estimation quantitative -10, 7, -2, -10, -1, 1, -4, -2,. . . eco_n_juste quantitative 9, 5, 5, 8, 5, 7, 6, 9, 8, 9,. . .
***_n_juste quantitative 5, 3, 4, 4, 4, 8, 5, 3, 6, 7,. . .
eco_note quantitative 17, 10, 10, 16, 9, 14, 12, 19, 15, 18,. . .
***_note quantitative 9, 6, 8, 8, 8, 18, 8, 7, 11, 13, . . . eco1 (2, . . . ,10) quali. nom. ex : Tarif, Taux, Taxe, Taxification
***1 (2, . . . ,10) Réponses à la question
econ quantitative 4, 6, 5, 4, 5, 6, 8, 7, 7, 8,. . .
***n quantitative 6, 5, 4, 4, 5, 10, 6, 5, 8, 7, . . . avec *** parmi eco, geo, hist, sport, mat, litt
IV. Déroulement du cours
Objectifs de l’enseignement
• Savoir réaliser et comprendre les tableaux d’effectifs, de fréquences, de contingence, les graphiques courants et les données synthétiques utilisés pour résumer des données
• Développer l’esprit critique vis-à-vis des données numériques
Contenu de l’enseignement
• Statistiques descriptives unidimensionnelles
tableaux synthétiques, graphiques, indicateurs de tendance centrale, de dispersion, courbe de concentration, indice de Gini
• Statistiques descriptives bidimensionnelles
tableaux de contingence, liens entre variables, variances expliquées et résiduelles, régression linéaire simple
IV. Déroulement du cours
Organisation
Pour tous : 6 séances de cours magistraux de 2h + Examen terminal
Pour les L1 Économie : 4 séances de travaux dirigés de 2h + 2 QCM lors des séances 2 et 4
Supports pédagogiques sur Celene
• polycopié de cours
• fascicule d’exercices (correction partielles au fur et à mesure)
• annales (attention le programme a changé)
• QCM d’entraînement en ligne
Le polycopié et le fascicule d’exercices sont aussi disponibles sur ma page personnelle juliescholler.gitlab.io
S
TATISTIQUES DESCRIPTIVES UNIDIMENSIONNELLESJulie Scholler - Bureau B246
Octobre-novembre 2019
I. Les données
Données brutes - extrait
annee bac sexe note_totalesur_estimationeco_n_justeeco_note hist1 geo1 eco1 L1 Bac ES F 10.50 -10 9 17 Le griffon Cuba Taxe
L1 Bac S F 7.50 7 5 10 Le sphinx Cuba Taux
L1 Bac ES H 6.33 -2 5 10 Le griffon Cuba Taxe
L1 Bac ES F 8.17 -10 8 16 Le griffon Panama Taxe
L1 Bac ES F 8.00 -1 5 9 Le sphinx Cuba Taxe
L2 Bac ES H 13.50 -1 7 14 Le sphinx Cuba Taxe
L1 Bac S F 9.83 1 6 12 Le griffon Cuba Taxe
L2 Bac S H 11.67 -4 9 19 Le sphinx Cuba Taxe
L2 Bac S H 12.17 -4 8 15 Le griffon Cuba Taxe
L3 Bac S H 12.50 -2 9 18 Le sphinx Cuba Taxe
L1 Bac S F 9.00 8 8 16 Le griffon Cuba Taxe
L3 Bac ES H 10.33 -21 9 18 Le griffon Cuba Taxe L3 Bac ES H 10.83 -5 8 17 Le sphinx Panama Taxe
L3 Bac S H 13.00 -11 9 17 Le griffon Cuba Taxe
L1 Bac S H 14.83 -3 9 17 Le griffon Cuba Taxe
I. Les données
Description des variables
Variable Type Exemples
annee quali. ord. L1, L2, L3
bac quali. nom. Bac ES, Bac S, Bac STMG, Bac professionnel
sexe quali. nom. F, M
note_totale quantitative 10.5, 7.5, 6.33, 8.17, 8,. . . sur_estimation quantitative -10, 7, -2, -10, -1, 1, -4, -2,. . . eco_n_juste quantitative 9, 5, 5, 8, 5, 7, 6, 9, 8, 9,. . .
***_n_juste quantitative 5, 3, 4, 4, 4, 8, 5, 3, 6, 7,. . .
eco_note quantitative 17, 10, 10, 16, 9, 14, 12, 19, 15, 18,. . .
***_note quantitative 9, 6, 8, 8, 8, 18, 8, 7, 11, 13, . . . eco1 (2, . . . ,10) quali. nom. ex : Tarif, Taux, Taxe, Taxification
***1 (2, . . . ,10) Réponses à la question
econ quantitative 4, 6, 5, 4, 5, 6, 8, 7, 7, 8,. . .
***n quantitative 6, 5, 4, 4, 5, 10, 6, 5, 8, 7, . . . avec *** parmi eco, geo, hist, sport, mat, litt
I. Les données
Listes des données des variables
Année L1, L1, L1, L1, L1, L2, L1, L2, L2, L3, L1, L3, L3, L3, L3, L1, L1, L2, L2, L1, L1, L2, L2, L2, L2, L1, L2, L2, L2, L2, L2, L3, L1, L1, L1, L1, L3, L2, L1, L1, L2, . . . Bac Bac ES, Bac S, Bac ES, Bac ES, Bac ES, Bac ES,
Bac S, Bac S, Bac S, Bac S, Bac S,Bac ES, Bac ES, Bac STMG, Bac ES, Bac ES, Bac ES, Bac S, Bac professionnel, . . .
eco_note 17, 10, 10, 16, 9, 14, 12, 19, 15, 18, 16, 18, 17, 18, 15, 19, 17, 16, 10, 6, 18, 18, 13, 12, 8, 15, 17, 13, 15, 17, 17, 13, 15, 12, 7, 18, 18, 10, 7, . . .
estimation -10, 7, -2, -10, -1, -1, 1, -4, -4, -2, 8, -21, -5, -8, -11, -3, -12, 2, 2, 9, -3, 7, -11, 7, -5, 4, 12, -6, 0, -5, -4, 14,
14, 1 8, 6, 0, 0, 5, 4, -7, . . .
Note 10.5, 7.5, 6.33, 8.17, 8, 13.5, 9.83, 11.67, 11.17, 11, 10, 14.83, 4.5, 8.83, 11.17, 10.17, 7, 8.17, 6.83, 12.5, 5, 10.83, 10, 14.33, 7.83, 8.67, 10.67, 12, 12, 10.33, 12.5, 9, 8.5, 10.67, . . .
Tableaux synthétiques des effectifs
• n : taille de la population
• M : nombre de modalités de la variable considérée
• mi : ie modalités de la variable, pour i entre 1 et M
• ni : nombre d’individus prenant la modalité mi pour cette variable, pour i entre 1 et M
Remarque
M
X
i=1
ni = n
Variable Effectif
m1 n1
m2 n2
... ...
mM nM
II. Tableaux synthétiques
Variables qualitatives nominales
Série du bac Effectif
Bac ES 70
Bac professionnel 1
Bac S 55
Bac STMG 3
Série du bac Effectif
Bac ES 70
Bac S 55
Bac STMG 3
Bac professionnel 1 À défaut d’ordre ou de groupement inhérent aux modalités, ordonner par effectif est un choix judicieux.
II. Tableaux synthétiques
Tableaux synthétiques des fréquence
• fi : fréquence de la ie modalité parmi les individus ou proportion d’individus ayant la ie modalité Remarque fi = ni
n et
M
X
i=1
fi = 1
Variable Fréquences
m1 f1
m2 f2
... ...
mM fM
II. Tableaux synthétiques
Série du bac Fréquence
Bac ES 0.543
Bac S 0.426
Bac STMG 0.023
Bac professionnel 0.008
Série du bac Fréquence en %
Bac ES 54.3
Bac S 42.6
Bac STMG 2.3
Bac professionnel 0.8
Variable qualitative ordinale
Année Effectif Fréquence
L1 66 51.2 %
L2 34 26.4 %
L3 29 22.5 %
II. Tableaux synthétiques
Variable qualitative ordinale
Question de maths/physique numéro 7 :
Quelle est la position de Neptune dans le système solaire ? Réponse Effectif Fréquence
5e 14 0.11
6e 34 0.27
7e 37 0.29
8e 41 0.33
II. Tableaux synthétiques
Variable quantitative discrète
Question de sport et loisirs :
Combien y a-t-il de pions au total dans un plateau de jeu d’échecs ? Réponse Effectif Fréquence en %
8 7 5.7
12 18 14.8
16 66 54.1
24 31 25.4
II. Tableaux synthétiques
Variable quantitative discrète
Réponses Effectif Fréquence en %
0 2 1.6
1 5 3.9
2 5 3.9
3 13 10.1
4 26 20.2
5 27 20.9
6 23 17.8
7 14 10.9
8 11 8.5
10 3 2.3
Réponse 0 1 2 3 4 5 6 7 8 10
Effectif 2 5 5 13 26 27 23 14 11 3
Fréquence 0.02 0.04 0.04 0.10 0.20 0.21 0.18 0.11 0.09 0.02
Variable quantitative discrète ou continue
Thème sport et loisirs
Note 0 1 2 3 4 5 6 7 8 9 . . .
Effectif 2 2 3 3 5 9 10 11 12 13 . . .
. . . 10 11 12 13 14 15 16 17 18 19 20
. . . 17 8 6 6 8 8 2 0 1 0 3
II. Tableaux synthétiques
Variable quantitative continue
Note finale 4.33 4.5 5 5.5 6 6.17 6.33 6.5 6.83 7 7.33 7.5 7.67 7.83 . . .
Effectif 1 3 1 1 1 1 1 1 1 2 1 2 1 1 . . .
. . . 8 8.17 8.33 8.5 8.67 8.83 9 9.17 9.33 9.5 9.67 9.83 10 10.17 . . .
. . . 4 4 1 2 1 4 5 1 1 1 5 4 5 7 . . .
. . . 10.33 10.5 10.67 10.83 11 11.17 11.33 11.5 11.67 11.83 12 . . .
. . . 3 1 4 3 3 4 1 1 2 2 3 . . .
. . . 12.17 12.33 12.5 12.83 13 13.17 13.33 13.5 13.67 14.17 14.33 . . .
. . . 1 2 6 1 3 5 1 5 1 2 3 . . .
. . . 14.67 14.83 15 15.33 19.33
. . . 1 3 1 2 2
II. Tableaux synthétiques
Tableau des effectifs regroupés en classes
• b0 < b1 < . . . < br : bornes des classes avec b0 6 mini∈
J1,MK(mi) et br > maxi∈
J1,MK(mi)
• [b0,b1[, [b1,b2[, . . ., [br−1,br] : les classes de modalité
• nek : nombre d’individus dont la modalité est dans la ke classe Remarque
r
X
k=1
nek = n
Variable Effectif [b0,b1[ en1
[b1,b2[ en2 ... ... [br−1,br] ner
II. Tableaux synthétiques
Note Effectif [0,3[ 0 [3,6[ 6 [6,9[ 28 [9,12[ 53 [12,15[ 37 [15,18[ 3 [18,20] 2
Note Effectif [0,2[ 0 [2,4[ 0 [4,6[ 6 [6,8[ 12 [8,10[ 33 [10,12[ 36 [12,14[ 28 [14,16[ 12 [16,18[ 0 [18,20] 2
Note Effectif [0,4[ 0 [4,6[ 6 [6,8[ 12 [8,10[ 33 [10,11[ 23 [11,13[ 26 [13,15[ 24 [15,16[ 3 [16,19[ 0 [19,20] 2
Types de graphiques
Histogrammes
• pour variables quantitatives continues Diagramme en bâtons
• pour les variables quantitatives discrètes
• pour les variables qualitatives ordinales
• pour les variables qualitatives nominales
III. Représentations graphiques
Histogramme
Notes au QCM de culture générale
Effectifs
0 5 10 15 20
0 10 20 30 40 50
III. Représentations graphiques
Histogramme
Notes au QCM de culture générale
Effectifs
0 5 10 15 20
0 2 4 6 8 10 12 14
III. Représentations graphiques
Histogramme
Notes au QCM de culture générale
Effectifs
0 5 10 15 20
0 5 10 15 20 25 30 35
Note Effectif [0,3[ 0 [3,6[ 6 [6,9[ 28 [9,12[ 53 [12,15[ 37 [15,18[ 3 [18,20] 2
Note Effectif [0,2[ 0 [2,4[ 0 [4,6[ 6 [6,8[ 12 [8,10[ 33 [10,12[ 36 [12,14[ 28 [14,16[ 12 [16,18[ 0 [18,20] 2
Note Effectif [0,4[ 0 [4,6[ 6 [6,8[ 12 [8,10[ 33 [10,11[ 23 [11,13[ 26 [13,15[ 24 [15,16[ 3 [16,19[ 0 [19,20] 2
III. Représentations graphiques
Notes au QCM de culture générale
Effectifs
0 5 10 15 20
0 5 10 15 20 25 30 35
FAUX
III. Représentations graphiques
Principe de l’histogramme
• les surfaces des rectangles sont proportionnelles aux effectifs dans les classes
Amplitude d’une classe ak = bk −bk−1
Cas où les amplitudes des classes ne sont pas toutes identiques
• les hauteurs des rectangles ne peuvent plus être les effectifs des classes
• densité d’effectif : dk = enk ak
• aire du rectangle :dk × ak = enk
ak × ak = enk
III. Représentations graphiques
Notes au QCM de culture générale
Densitéd’effectifs
0 5 10 15 20
0.00 0.05 0.10 0.15
Diagramme en bâtons
Principe
• des bâtons de longueurs proportionnelles aux effectifs
• pas de notions de largeur donc pas de gros rectangles Règles d’usages
• variables quantitatives discrètes
• respecter l’échelle
• variables qualitatives ordonnées
• respecter l’ordre
• équidistance des modalités
• variables qualitatives non ordonnées
• s’il existe des regroupements, les respecter
• équidistance des modalités
• par défaut, ordonner selon les effectifs décroissants
III. Représentations graphiques
0 20 40 60
L1 L2 L3
Effectif
Année de licence
III. Représentations graphiques
0 5 10 15
0 5 10 15 20
Effectif
Note du thème histoire
III. Représentations graphiques
0 20 40 60
Bac ES Bac S Bac STMG Bac professionnel
Effectif
Série de baccalauréat
Bac pro.
Bac STMG Bac S Bac ES
0 20 40 60
Effectif
Série de baccalauréat
III. Représentations graphiques
54.3%
42.6%
2.3%
0.8%
Bac pro.
Bac STMG Bac S Bac ES
0 20 40 60
Effectif
Série de baccalauréat
III. Représentations graphiques
Diagramme circulaire
Principe
• l’angle et la surface des parts sont proportionnels aux effectifs À éviter
• s’il y a trop de modalités, c’est illisible
• s’il y en a peu, un tableau synthétique est plus précis
• en 3D, cela n’a pas de sens
III. Représentations graphiques
Diagramme circulaire - à éviter
L’Ukraine La Grèce La Russie La Turquie
Quel pays a sa capitale en Asie et sa ville principale en Europe ?
Don Giovanni Fidelio
l’hymne à la joie La lettre à Élise
Laquelle de ces composition n’est pas de Beethoven ?
Diagramme circulaire - à éviter
Sexe
FH
Sexe des répondants
36 % de répondantes contre
64 % de répondants
III. Représentations graphiques
0 5 10 15 20
a b c d e
0 5 10 15 20
a b c d e
0 5 10 15 20
a b c d e
III. Représentations graphiques
“The only worse design than a pie chart is several of them.”
Edward Tufte, The Visual Display of Quantitative Information, Graphics Press, 1983, p. 178.
“There is no data that can be displayed in a pie chart that cannot be displayed better in some other type of chart.”
John Wilder Tukey (1915–2000)
III. Représentations graphiques
Autre graphique trompeur
Autres exemples : https://www.reddit.com/r/dataisugly/
DESCRIPTIVES UNIDIMENSIONNELLES
I
NDICATEURS SYNTHÉTIQUES DE TENDANCE CENTRALEJulie Scholler - Bureau B246
Novembre 2019
.
Outils de résumé
• tableaux synthétiques
• si beaucoup de modalités : peu lisible
• graphiques
• si bien choisi : très parlant
• comparaison pas forcément très aisée
• indicateurs synthétiques, principalement numériques
.
L1 L2 L3
1 2 3 1 2 3 1 2 3
0 5 10
15 annee
L1 L2 L3
Note totale au QCM
Homme Femme
1 2 3 1 2 3
0 5 10 15 20
sexe
Homme Femme
.
littérature maths sport
économie géographie histoire
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
0 5 10 15 20
0 5 10 15 20
Notes par thème
Mode(s)
Valeur/modalité la plus fréquente dans la distribution d’une variable
Bac pro.
Bac STMG Bac S Bac ES
0 20 40 60
Effectif
Effectif par filière de bac
0 5 10 15 20
5 10 15 20
Effectif
Note pour le thème économie
• Mode pour le baccalauréat : ES • Note modale en économie : 17
IV. Indicateurs de tendance centrale
Notes totales en L1 Effectif
[0,4[ 0
[4,6[ 5
[6,8[ 8
[8,10[ 18
[10,11[ 10
[11,13[ 11
[13,14[ 7
[14,16[ 7
[16,20] 0
0.00 0.05 0.10 0.15
5 10 15
Note totale au QCM
pour les L1
IV. Indicateurs de tendance centrale
Mode
Variable quantitative continue
• on parle de classe modale
• il s’agit de la classe ayant la plus grande densité d’effectif
Attention - pour tout type de variable
• non nécessairement unique
IV. Indicateurs de tendance centrale
Moyenne
Moyenne arithmétique la valeur x telle que x = 1
n
n
X
i=1
xi
Il s’agit de la valeur que devrait prendre l’ensemble des unités statistiques si elles étaient identiques tout en conservant la même somme globale.
Calcul à partir d’un tableau synthétique
Variable Effectif Fréquence
m1 n1 f1
m2 n2 f2
... ... ...
mM nM fM
x = 1 n
M
X
k=1
nkmk =
M
X
k=1
fkmk
• moyenne des modalités pondérée par les effectifs ou les fréquences
IV. Indicateurs de tendance centrale
Moyenne pondérée
Note totale au QCM
Année de licence Moyennes Effectifs
L1 10.093 66
L2 10.956 34
L3 11.316 29
Total 10.6 129
• Moyenne non pondérée des moyennes : 10.8
• Moyenne pondérée des moyennes : 10.6
IV. Indicateurs de tendance centrale
Notes totales en L1 Effectif
[0,4[ 0
[4,6[ 5
[6,8[ 8
[8,10[ 18
[10,11[ 10
[11,13[ 11
[13,14[ 7
[14,16[ 7
[16,20] 0
Si on ne dispose que des données regroupées en classes, on calcule une valeur approchée de la moyenne en utilisant les centres de classes.
Centre de la classe ]bk;bk+1] : ck = bk + bk+1
2
x ' 1 n
M
X
k=1
nkck
On obtient x ' 10.295 Véritable valeur x = 10.093
IV. Indicateurs de tendance centrale
Propriétés de la moyenne
• La somme des écarts des observations à la moyenne (xi − x) est nulle :
n
X
i=1
(xi − x) = 0
• La moyenne d’une somme de caractères est la somme des moyennes de ces caractères.
• La somme des carrés des écarts des observations à la moyenne est inférieure à la somme des carrés des écarts par rapport à toute autre valeur.
Phénomènes paradoxaux autour de la moyenne
Phénomène de Will Rogers
En changeant une valeur de groupe, on peut améliorer les moyennes de chaque groupe.
Paradoxe de Simpson
Un phénomène observé sur plusieurs groupes s’inverse quand on combine les groupes.
• article du blog Freakonometrics
IV. Indicateurs de tendance centrale
Taux de mortalité des fumeuses
0.00 0.25 0.50 0.75 1.00
Non fumeuse Fumeuse
0.00 0.25 0.50 0.75 1.00
18-2425-3435-4445-5455-6465-74 75+
Non fumeuse Fumeuse
Appleton, D. R., French, J. M. and Vanderpump, M. P. J. (1996) Ignoring a covariate : An example of Simpson’s paradox. The American Statistician, 50, 340–341.
IV. Indicateurs de tendance centrale
Cas où la moyenne arithmétique n’est pas adaptée
• Taux de variation moyen t1, . . . ,tn : taux de variation
x1, . . . ,xn : facteur multiplicatif (xi = 1 + ti)
Moyenne géométrique
xG = √n
x1 × · · · ×xn =
n
Y
i=1
xi
!1
n
IV. Indicateurs de tendance centrale
Médiane
Première définition
Valeur telle que la moitié de la population possède une modalité inférieure à cette valeur et l’autre moitié possède une valeur supérieure à cette valeur.
Exemples
• revenu salarial médian en 2015 : 18 370
• revenu salarial médian des femmes en 2015 : 16 750
• revenu salarial médian des hommes en 2015 : 20 030
• âge médian des français en 2018 : 40.5
Médiane
Deuxième définition
Plus petite valeur de la série de données telle qu’au moins la moitié de la population prend une valeur inférieure ou égale à celle-ci.
Propriété de la médiane
• Elle minimise l’écart absolu moyen.
• Moins sensible que la moyenne aux valeurs extrêmes.
Site pour expérimenter : lien
IV. Indicateurs de tendance centrale
Médiane - en pratique
Cas discret ou données brutes
On commence par classer par ordre croissant les données.
• Si l’effectif est impair, la médiane est la
n + 1 2
e
valeur.
• Si l’effectif est pair, on a un intervalle médian n
2 e
valeur;
n 2 + 1
e
valeur
.
On choisit pour médiane soit la moyenne des bornes de l’intervalle, soit la plus petite borne.
Cas de données regroupées en classe
Si les données sont regroupées en classe, on a une classe médiane.
Si on n’a pas accès aux données brutes, on peut calculer une valeur approchée.
IV. Indicateurs de tendance centrale
Exemples sur nos données
• Notes des L3 : n = 29 Médiane : 15e valeur Médiane : 11.83
• Notes des L2 : n = 34 Intervalle médian : [16evaleur; 17evaleur] = [10.67; 10.67]
Médiane : 10.67
• Notes des L1 : n = 66 Intervalle médian :
[33evaleur; 34evaleur] = [10; 10]
Médiane : 10
• Notes des L1 regroupées en classe
Notes totales en L1 Effectif Eff. cum.
[0,4[ 0 0
[4,6[ 5 5
[6,8[ 8 13
[8,10[ 18 31
[10,11[ 10 41
[11,13[ 11 52
[13,14[ 7 59
[14,16[ 7 66
[16,20] 0 66
IV. Indicateurs de tendance centrale
Fréquences cumulées
Variable Fréquences Fréquences cumulées
m1 f1 F1 = f1
m2 f2 F2 = f1 + f2
... ... ...
mk fk Fk =
k
X
i=1
fi
... ... ...
mM fM FM = 1
Fonction cumulative ou fonction de répartition
fonction F telle que F(x) correspond à la proportion d’individu dont la modalité est inférieure ou égale à x.
• F(mk) = Fk =
k
X
i=1
fi
Médiane
plus petite valeur x telle que F(x) > 0.5
IV. Indicateurs de tendance centrale
Nombres de bonnes réponses en sport - Fréquences cumulées
Nb. de rép. justes Fréq. Fréq. cum.
0 0.02 0.02
1 0.04 0.06
2 0.04 0.09
3 0.10 0.20
4 0.20 0.40
5 0.21 0.61
6 0.18 0.78
7 0.11 0.89
8 0.08 0.98
10 0.02 1.00
• Plus de la moitié des étudiants ayant participé au QCM a eu 5 bonnes réponses ou moins au thème sport.
• Plus des trois quarts des étudiants ayant participé au QCM ont eu 6 bonnes réponses ou moins au thème sport.
IV. Indicateurs de tendance centrale
Courbe cumulative - Cas discret
0.00 0.25 0.50 0.75 1.00
0 1 2 3 4 5 6 7 8 10
Courbe cumulative du nombre de bonnes réponses au thème sport
IV. Indicateurs de tendance centrale
Notes des L1 - Fréquences cumulées
Notes Fréquences cumulées
[0,2[ 0.00
[2,4[ 0.00
[4,6[ 0.08
[6,8[ 0.20
[8,10[ 0.47
[10,11[ 0.62
[11,13[ 0.79
[13,14[ 0.89
[14,16[ 1.00
[16,20] 1.00
Courbe cumulative - Cas avec classes
0.00 0.25 0.50 0.75 1.00
0 5 10 15 20
Courbe cumulative des notes des L1 regroupées en classes
IV. Indicateurs de tendance centrale
Courbe cumulative - Cas avec classes
0.00 0.25 0.50 0.75 1.00
0 5 10 15 20