• Aucun résultat trouvé

Diapos-CM 1 et 2

N/A
N/A
Protected

Academic year: 2022

Partager "Diapos-CM 1 et 2"

Copied!
38
0
0

Texte intégral

(1)

L1 - M

ODULE

2

OU

3

S

TATISTIQUES

D

ESCRIPTIVES

Julie Scholler - Bureau B246

octobre 2019

I. Introduction générale

Définition

La statistique

ensemble de méthodes permettant d’analyser/traiter les données issues d’un ensemble d’observations

utilise les mathématiques et l’informatique

(2)

Historique

Trois phases

De l’antiquité à la fin du 19e siècle

technique de comptage d’une population

rudimentaire

De la fin du 19e siècle aux années 1960

émergence de la statistique mathématique

école anglo-saxonne liée aux développements de probabilités et des mathématiques

À partir des années 1960

développement puis banalisation des outils informatiques

facilitation de la production de graphiques

statistique multidimensionnelle, machine learning, IA

I. Introduction générale

Deux grandes sous-parties en statistique

Statistique descriptive (L1-S1) Description des données étudiées

présentation commode et synthétique

représentations graphiques

résumés numériques

Absence d’hypothèse probabiliste sur les données

Statistique inférentielle (L2 et L3)

Induction de propriétés à la population entière à partir d’observations sur une sous-partie

estimations et tests d’hypothèse

modèles prédictifs Fondée sur les probabilités

(3)

II. Vocabulaire

Population

ensemble concerné par une étude statistique

Individu

tout élément de la population étudiée

Échantillon

sous-ensemble de la population toute entière

Taille de la population

nombre d’individus dans la population

souvent notée n

II. Vocabulaire

Variable

caractéristique définie sur la population et observée sur la population ou un échantillon

il existe différents types de variables

Modalités d’une variable

valeurs que peut prendre la variable

(4)

Variable quantitative

variable dont les modalités sont numériques

quantitative discrète : les modalités éventuelles sont finies

quantitative continue : les modalités éventuelles ne sont pas finies ou très nombreuses

Variable qualitative

variable dont les modalités ne sont pas numériques

qualitative ordinale : si les modalités sont ordonnées

qualitative nominale : si les modalités ne peuvent pas être ordonnées

II. Vocabulaire

Données

ensemble des individus observés

ensemble des variables considérées

les valeurs de ces variables pour ces individus

Tableau de données

en ligne : les individus

en colonne : les variables

à l’intérieur : les valeurs des variables pour les individus

(5)

III. Les données

Réponses à un QCM de culture générale

Lors de l’année scolaire 2018-2019, trois étudiants de L3 Économie à Tours (Jérémy Cardoso, Laura Candoni, Hugo Grémy et Jean Clark) ont testé la culture générale de leurs camarades de Licence.

QCM

60 questions de culture générale

6 thèmes : histoire, géographie, littérature,

mathématiques/physique, économie et sports/loisirs

10 questions du culture générale par thèmes

pour chaque thème

3 questions faciles

4 questions moyennes

3 questions difficiles

estimation du nombre de bonnes réponses

lien vers le QCM

III. Les données

Réponses à un QCM de culture générale

Population étudiants de Licence d’économie à Tours en 2018/2019 ayant répondu au questionnaire Individus un étudiant de Licence d’économie à Tours en

2018/2019 ayant répondu au questionnaire

Variables réponses au questionnaire, année de licence, série du bac, sexe, nombre estimé de bonnes réponses, notes, etc.

Taille de la population 129 Nombre de variables 84

(6)

Données brutes - extrait

annee bac sexe note_totalesur_estimationeco_n_justeeco_note hist1 geo1 eco1 L1 Bac ES F 10.50 -10 9 17 Le griffon Cuba Taxe

L1 Bac S F 7.50 7 5 10 Le sphinx Cuba Taux

L1 Bac ES H 6.33 -2 5 10 Le griffon Cuba Taxe

L1 Bac ES F 8.17 -10 8 16 Le griffon Panama Taxe

L1 Bac ES F 8.00 -1 5 9 Le sphinx Cuba Taxe

L2 Bac ES H 13.50 -1 7 14 Le sphinx Cuba Taxe

L1 Bac S F 9.83 1 6 12 Le griffon Cuba Taxe

L2 Bac S H 11.67 -4 9 19 Le sphinx Cuba Taxe

L2 Bac S H 12.17 -4 8 15 Le griffon Cuba Taxe

L3 Bac S H 12.50 -2 9 18 Le sphinx Cuba Taxe

L1 Bac S F 9.00 8 8 16 Le griffon Cuba Taxe

L3 Bac ES H 10.33 -21 9 18 Le griffon Cuba Taxe L3 Bac ES H 10.83 -5 8 17 Le sphinx Panama Taxe

L3 Bac S H 13.00 -11 9 17 Le griffon Cuba Taxe

L1 Bac S H 14.83 -3 9 17 Le griffon Cuba Taxe

III. Les données

Description des variables

Variable Type Exemples

annee quali. ord. L1, L2, L3

bac quali. nom. Bac ES, Bac S, Bac STMG, Bac professionnel

sexe quali. nom. F, M

note_totale quantitative 10.5, 7.5, 6.33, 8.17, 8,. . . sur_estimation quantitative -10, 7, -2, -10, -1, 1, -4, -2,. . . eco_n_juste quantitative 9, 5, 5, 8, 5, 7, 6, 9, 8, 9,. . .

***_n_juste quantitative 5, 3, 4, 4, 4, 8, 5, 3, 6, 7,. . .

eco_note quantitative 17, 10, 10, 16, 9, 14, 12, 19, 15, 18,. . .

***_note quantitative 9, 6, 8, 8, 8, 18, 8, 7, 11, 13, . . . eco1 (2, . . . ,10) quali. nom. ex : Tarif, Taux, Taxe, Taxification

***1 (2, . . . ,10) Réponses à la question

econ quantitative 4, 6, 5, 4, 5, 6, 8, 7, 7, 8,. . .

***n quantitative 6, 5, 4, 4, 5, 10, 6, 5, 8, 7, . . . avec *** parmi eco, geo, hist, sport, mat, litt

(7)

IV. Déroulement du cours

Objectifs de l’enseignement

Savoir réaliser et comprendre les tableaux d’effectifs, de fréquences, de contingence, les graphiques courants et les données synthétiques utilisés pour résumer des données

Développer l’esprit critique vis-à-vis des données numériques

Contenu de l’enseignement

Statistiques descriptives unidimensionnelles

tableaux synthétiques, graphiques, indicateurs de tendance centrale, de dispersion, courbe de concentration, indice de Gini

Statistiques descriptives bidimensionnelles

tableaux de contingence, liens entre variables, variances expliquées et résiduelles, régression linéaire simple

IV. Déroulement du cours

Organisation

Pour tous : 6 séances de cours magistraux de 2h + Examen terminal

Pour les L1 Économie : 4 séances de travaux dirigés de 2h + 2 QCM lors des séances 2 et 4

Supports pédagogiques sur Celene

polycopié de cours

fascicule d’exercices (correction partielles au fur et à mesure)

annales (attention le programme a changé)

QCM d’entraînement en ligne

Le polycopié et le fascicule d’exercices sont aussi disponibles sur ma page personnelle juliescholler.gitlab.io

(8)

S

TATISTIQUES DESCRIPTIVES UNIDIMENSIONNELLES

Julie Scholler - Bureau B246

Octobre-novembre 2019

I. Les données

Données brutes - extrait

annee bac sexe note_totalesur_estimationeco_n_justeeco_note hist1 geo1 eco1 L1 Bac ES F 10.50 -10 9 17 Le griffon Cuba Taxe

L1 Bac S F 7.50 7 5 10 Le sphinx Cuba Taux

L1 Bac ES H 6.33 -2 5 10 Le griffon Cuba Taxe

L1 Bac ES F 8.17 -10 8 16 Le griffon Panama Taxe

L1 Bac ES F 8.00 -1 5 9 Le sphinx Cuba Taxe

L2 Bac ES H 13.50 -1 7 14 Le sphinx Cuba Taxe

L1 Bac S F 9.83 1 6 12 Le griffon Cuba Taxe

L2 Bac S H 11.67 -4 9 19 Le sphinx Cuba Taxe

L2 Bac S H 12.17 -4 8 15 Le griffon Cuba Taxe

L3 Bac S H 12.50 -2 9 18 Le sphinx Cuba Taxe

L1 Bac S F 9.00 8 8 16 Le griffon Cuba Taxe

L3 Bac ES H 10.33 -21 9 18 Le griffon Cuba Taxe L3 Bac ES H 10.83 -5 8 17 Le sphinx Panama Taxe

L3 Bac S H 13.00 -11 9 17 Le griffon Cuba Taxe

L1 Bac S H 14.83 -3 9 17 Le griffon Cuba Taxe

(9)

I. Les données

Description des variables

Variable Type Exemples

annee quali. ord. L1, L2, L3

bac quali. nom. Bac ES, Bac S, Bac STMG, Bac professionnel

sexe quali. nom. F, M

note_totale quantitative 10.5, 7.5, 6.33, 8.17, 8,. . . sur_estimation quantitative -10, 7, -2, -10, -1, 1, -4, -2,. . . eco_n_juste quantitative 9, 5, 5, 8, 5, 7, 6, 9, 8, 9,. . .

***_n_juste quantitative 5, 3, 4, 4, 4, 8, 5, 3, 6, 7,. . .

eco_note quantitative 17, 10, 10, 16, 9, 14, 12, 19, 15, 18,. . .

***_note quantitative 9, 6, 8, 8, 8, 18, 8, 7, 11, 13, . . . eco1 (2, . . . ,10) quali. nom. ex : Tarif, Taux, Taxe, Taxification

***1 (2, . . . ,10) Réponses à la question

econ quantitative 4, 6, 5, 4, 5, 6, 8, 7, 7, 8,. . .

***n quantitative 6, 5, 4, 4, 5, 10, 6, 5, 8, 7, . . . avec *** parmi eco, geo, hist, sport, mat, litt

I. Les données

Listes des données des variables

Année L1, L1, L1, L1, L1, L2, L1, L2, L2, L3, L1, L3, L3, L3, L3, L1, L1, L2, L2, L1, L1, L2, L2, L2, L2, L1, L2, L2, L2, L2, L2, L3, L1, L1, L1, L1, L3, L2, L1, L1, L2, . . . Bac Bac ES, Bac S, Bac ES, Bac ES, Bac ES, Bac ES,

Bac S, Bac S, Bac S, Bac S, Bac S,Bac ES, Bac ES, Bac STMG, Bac ES, Bac ES, Bac ES, Bac S, Bac professionnel, . . .

eco_note 17, 10, 10, 16, 9, 14, 12, 19, 15, 18, 16, 18, 17, 18, 15, 19, 17, 16, 10, 6, 18, 18, 13, 12, 8, 15, 17, 13, 15, 17, 17, 13, 15, 12, 7, 18, 18, 10, 7, . . .

estimation -10, 7, -2, -10, -1, -1, 1, -4, -4, -2, 8, -21, -5, -8, -11, -3, -12, 2, 2, 9, -3, 7, -11, 7, -5, 4, 12, -6, 0, -5, -4, 14,

14, 1 8, 6, 0, 0, 5, 4, -7, . . .

Note 10.5, 7.5, 6.33, 8.17, 8, 13.5, 9.83, 11.67, 11.17, 11, 10, 14.83, 4.5, 8.83, 11.17, 10.17, 7, 8.17, 6.83, 12.5, 5, 10.83, 10, 14.33, 7.83, 8.67, 10.67, 12, 12, 10.33, 12.5, 9, 8.5, 10.67, . . .

(10)

Tableaux synthétiques des effectifs

n : taille de la population

M : nombre de modalités de la variable considérée

mi : ie modalités de la variable, pour i entre 1 et M

ni : nombre d’individus prenant la modalité mi pour cette variable, pour i entre 1 et M

Remarque

M

X

i=1

ni = n

Variable Effectif

m1 n1

m2 n2

... ...

mM nM

II. Tableaux synthétiques

Variables qualitatives nominales

Série du bac Effectif

Bac ES 70

Bac professionnel 1

Bac S 55

Bac STMG 3

Série du bac Effectif

Bac ES 70

Bac S 55

Bac STMG 3

Bac professionnel 1 À défaut d’ordre ou de groupement inhérent aux modalités, ordonner par effectif est un choix judicieux.

(11)

II. Tableaux synthétiques

Tableaux synthétiques des fréquence

fi : fréquence de la ie modalité parmi les individus ou proportion d’individus ayant la ie modalité Remarque fi = ni

n et

M

X

i=1

fi = 1

Variable Fréquences

m1 f1

m2 f2

... ...

mM fM

II. Tableaux synthétiques

Série du bac Fréquence

Bac ES 0.543

Bac S 0.426

Bac STMG 0.023

Bac professionnel 0.008

Série du bac Fréquence en %

Bac ES 54.3

Bac S 42.6

Bac STMG 2.3

Bac professionnel 0.8

(12)

Variable qualitative ordinale

Année Effectif Fréquence

L1 66 51.2 %

L2 34 26.4 %

L3 29 22.5 %

II. Tableaux synthétiques

Variable qualitative ordinale

Question de maths/physique numéro 7 :

Quelle est la position de Neptune dans le système solaire ? Réponse Effectif Fréquence

5e 14 0.11

6e 34 0.27

7e 37 0.29

8e 41 0.33

(13)

II. Tableaux synthétiques

Variable quantitative discrète

Question de sport et loisirs :

Combien y a-t-il de pions au total dans un plateau de jeu d’échecs ? Réponse Effectif Fréquence en %

8 7 5.7

12 18 14.8

16 66 54.1

24 31 25.4

II. Tableaux synthétiques

Variable quantitative discrète

Réponses Effectif Fréquence en %

0 2 1.6

1 5 3.9

2 5 3.9

3 13 10.1

4 26 20.2

5 27 20.9

6 23 17.8

7 14 10.9

8 11 8.5

10 3 2.3

Réponse 0 1 2 3 4 5 6 7 8 10

Effectif 2 5 5 13 26 27 23 14 11 3

Fréquence 0.02 0.04 0.04 0.10 0.20 0.21 0.18 0.11 0.09 0.02

(14)

Variable quantitative discrète ou continue

Thème sport et loisirs

Note 0 1 2 3 4 5 6 7 8 9 . . .

Effectif 2 2 3 3 5 9 10 11 12 13 . . .

. . . 10 11 12 13 14 15 16 17 18 19 20

. . . 17 8 6 6 8 8 2 0 1 0 3

II. Tableaux synthétiques

Variable quantitative continue

Note finale 4.33 4.5 5 5.5 6 6.17 6.33 6.5 6.83 7 7.33 7.5 7.67 7.83 . . .

Effectif 1 3 1 1 1 1 1 1 1 2 1 2 1 1 . . .

. . . 8 8.17 8.33 8.5 8.67 8.83 9 9.17 9.33 9.5 9.67 9.83 10 10.17 . . .

. . . 4 4 1 2 1 4 5 1 1 1 5 4 5 7 . . .

. . . 10.33 10.5 10.67 10.83 11 11.17 11.33 11.5 11.67 11.83 12 . . .

. . . 3 1 4 3 3 4 1 1 2 2 3 . . .

. . . 12.17 12.33 12.5 12.83 13 13.17 13.33 13.5 13.67 14.17 14.33 . . .

. . . 1 2 6 1 3 5 1 5 1 2 3 . . .

. . . 14.67 14.83 15 15.33 19.33

. . . 1 3 1 2 2

(15)

II. Tableaux synthétiques

Tableau des effectifs regroupés en classes

b0 < b1 < . . . < br : bornes des classes avec b0 6 mini

J1,MK(mi) et br > maxi

J1,MK(mi)

[b0,b1[, [b1,b2[, . . ., [br−1,br] : les classes de modalité

nek : nombre d’individus dont la modalité est dans la ke classe Remarque

r

X

k=1

nek = n

Variable Effectif [b0,b1[ en1

[b1,b2[ en2 ... ... [br−1,br] ner

II. Tableaux synthétiques

Note Effectif [0,3[ 0 [3,6[ 6 [6,9[ 28 [9,12[ 53 [12,15[ 37 [15,18[ 3 [18,20] 2

Note Effectif [0,2[ 0 [2,4[ 0 [4,6[ 6 [6,8[ 12 [8,10[ 33 [10,12[ 36 [12,14[ 28 [14,16[ 12 [16,18[ 0 [18,20] 2

Note Effectif [0,4[ 0 [4,6[ 6 [6,8[ 12 [8,10[ 33 [10,11[ 23 [11,13[ 26 [13,15[ 24 [15,16[ 3 [16,19[ 0 [19,20] 2

(16)

Types de graphiques

Histogrammes

pour variables quantitatives continues Diagramme en bâtons

pour les variables quantitatives discrètes

pour les variables qualitatives ordinales

pour les variables qualitatives nominales

III. Représentations graphiques

Histogramme

Notes au QCM de culture générale

Effectifs

0 5 10 15 20

0 10 20 30 40 50

(17)

III. Représentations graphiques

Histogramme

Notes au QCM de culture générale

Effectifs

0 5 10 15 20

0 2 4 6 8 10 12 14

III. Représentations graphiques

Histogramme

Notes au QCM de culture générale

Effectifs

0 5 10 15 20

0 5 10 15 20 25 30 35

(18)

Note Effectif [0,3[ 0 [3,6[ 6 [6,9[ 28 [9,12[ 53 [12,15[ 37 [15,18[ 3 [18,20] 2

Note Effectif [0,2[ 0 [2,4[ 0 [4,6[ 6 [6,8[ 12 [8,10[ 33 [10,12[ 36 [12,14[ 28 [14,16[ 12 [16,18[ 0 [18,20] 2

Note Effectif [0,4[ 0 [4,6[ 6 [6,8[ 12 [8,10[ 33 [10,11[ 23 [11,13[ 26 [13,15[ 24 [15,16[ 3 [16,19[ 0 [19,20] 2

III. Représentations graphiques

Notes au QCM de culture générale

Effectifs

0 5 10 15 20

0 5 10 15 20 25 30 35

FAUX

(19)

III. Représentations graphiques

Principe de l’histogramme

les surfaces des rectangles sont proportionnelles aux effectifs dans les classes

Amplitude d’une classe ak = bkbk−1

Cas où les amplitudes des classes ne sont pas toutes identiques

les hauteurs des rectangles ne peuvent plus être les effectifs des classes

densité d’effectif : dk = enk ak

aire du rectangle :dk × ak = enk

ak × ak = enk

III. Représentations graphiques

Notes au QCM de culture générale

Densitéd’effectifs

0 5 10 15 20

0.00 0.05 0.10 0.15

(20)

Diagramme en bâtons

Principe

des bâtons de longueurs proportionnelles aux effectifs

pas de notions de largeur donc pas de gros rectangles Règles d’usages

variables quantitatives discrètes

respecter l’échelle

variables qualitatives ordonnées

respecter l’ordre

équidistance des modalités

variables qualitatives non ordonnées

s’il existe des regroupements, les respecter

équidistance des modalités

par défaut, ordonner selon les effectifs décroissants

III. Représentations graphiques

0 20 40 60

L1 L2 L3

Effectif

Année de licence

(21)

III. Représentations graphiques

0 5 10 15

0 5 10 15 20

Effectif

Note du thème histoire

III. Représentations graphiques

0 20 40 60

Bac ES Bac S Bac STMG Bac professionnel

Effectif

Série de baccalauréat

(22)

Bac pro.

Bac STMG Bac S Bac ES

0 20 40 60

Effectif

Série de baccalauréat

III. Représentations graphiques

54.3%

42.6%

2.3%

0.8%

Bac pro.

Bac STMG Bac S Bac ES

0 20 40 60

Effectif

Série de baccalauréat

(23)

III. Représentations graphiques

Diagramme circulaire

Principe

l’angle et la surface des parts sont proportionnels aux effectifs À éviter

s’il y a trop de modalités, c’est illisible

s’il y en a peu, un tableau synthétique est plus précis

en 3D, cela n’a pas de sens

III. Représentations graphiques

Diagramme circulaire - à éviter

L’Ukraine La Grèce La Russie La Turquie

Quel pays a sa capitale en Asie et sa ville principale en Europe ?

Don Giovanni Fidelio

l’hymne à la joie La lettre à Élise

Laquelle de ces composition n’est pas de Beethoven ?

(24)

Diagramme circulaire - à éviter

Sexe

FH

Sexe des répondants

36 % de répondantes contre

64 % de répondants

III. Représentations graphiques

0 5 10 15 20

a b c d e

0 5 10 15 20

a b c d e

0 5 10 15 20

a b c d e

(25)

III. Représentations graphiques

“The only worse design than a pie chart is several of them.”

Edward Tufte, The Visual Display of Quantitative Information, Graphics Press, 1983, p. 178.

“There is no data that can be displayed in a pie chart that cannot be displayed better in some other type of chart.”

John Wilder Tukey (1915–2000)

III. Représentations graphiques

Autre graphique trompeur

Autres exemples : https://www.reddit.com/r/dataisugly/

(26)

DESCRIPTIVES UNIDIMENSIONNELLES

I

NDICATEURS SYNTHÉTIQUES DE TENDANCE CENTRALE

Julie Scholler - Bureau B246

Novembre 2019

.

Outils de résumé

• tableaux synthétiques

si beaucoup de modalités : peu lisible

• graphiques

si bien choisi : très parlant

comparaison pas forcément très aisée

• indicateurs synthétiques, principalement numériques

(27)

.

L1 L2 L3

1 2 3 1 2 3 1 2 3

0 5 10

15 annee

L1 L2 L3

Note totale au QCM

Homme Femme

1 2 3 1 2 3

0 5 10 15 20

sexe

Homme Femme

.

littérature maths sport

économie géographie histoire

0 5 10 15 20 0 5 10 15 20 0 5 10 15 20

0 5 10 15 20

0 5 10 15 20

Notes par thème

(28)

Mode(s)

Valeur/modalité la plus fréquente dans la distribution d’une variable

Bac pro.

Bac STMG Bac S Bac ES

0 20 40 60

Effectif

Effectif par filière de bac

0 5 10 15 20

5 10 15 20

Effectif

Note pour le thème économie

• Mode pour le baccalauréat : ES • Note modale en économie : 17

IV. Indicateurs de tendance centrale

Notes totales en L1 Effectif

[0,4[ 0

[4,6[ 5

[6,8[ 8

[8,10[ 18

[10,11[ 10

[11,13[ 11

[13,14[ 7

[14,16[ 7

[16,20] 0

0.00 0.05 0.10 0.15

5 10 15

Note totale au QCM

pour les L1

(29)

IV. Indicateurs de tendance centrale

Mode

Variable quantitative continue

• on parle de classe modale

• il s’agit de la classe ayant la plus grande densité d’effectif

Attention - pour tout type de variable

• non nécessairement unique

IV. Indicateurs de tendance centrale

Moyenne

Moyenne arithmétique la valeur x telle que x = 1

n

n

X

i=1

xi

Il s’agit de la valeur que devrait prendre l’ensemble des unités statistiques si elles étaient identiques tout en conservant la même somme globale.

(30)

Calcul à partir d’un tableau synthétique

Variable Effectif Fréquence

m1 n1 f1

m2 n2 f2

... ... ...

mM nM fM

x = 1 n

M

X

k=1

nkmk =

M

X

k=1

fkmk

• moyenne des modalités pondérée par les effectifs ou les fréquences

IV. Indicateurs de tendance centrale

Moyenne pondérée

Note totale au QCM

Année de licence Moyennes Effectifs

L1 10.093 66

L2 10.956 34

L3 11.316 29

Total 10.6 129

• Moyenne non pondérée des moyennes : 10.8

• Moyenne pondérée des moyennes : 10.6

(31)

IV. Indicateurs de tendance centrale

Notes totales en L1 Effectif

[0,4[ 0

[4,6[ 5

[6,8[ 8

[8,10[ 18

[10,11[ 10

[11,13[ 11

[13,14[ 7

[14,16[ 7

[16,20] 0

Si on ne dispose que des données regroupées en classes, on calcule une valeur approchée de la moyenne en utilisant les centres de classes.

Centre de la classe ]bk;bk+1] : ck = bk + bk+1

2

x ' 1 n

M

X

k=1

nkck

On obtient x ' 10.295 Véritable valeur x = 10.093

IV. Indicateurs de tendance centrale

Propriétés de la moyenne

• La somme des écarts des observations à la moyenne (xix) est nulle :

n

X

i=1

(xix) = 0

• La moyenne d’une somme de caractères est la somme des moyennes de ces caractères.

• La somme des carrés des écarts des observations à la moyenne est inférieure à la somme des carrés des écarts par rapport à toute autre valeur.

(32)

Phénomènes paradoxaux autour de la moyenne

Phénomène de Will Rogers

En changeant une valeur de groupe, on peut améliorer les moyennes de chaque groupe.

Paradoxe de Simpson

Un phénomène observé sur plusieurs groupes s’inverse quand on combine les groupes.

• article du blog Freakonometrics

IV. Indicateurs de tendance centrale

Taux de mortalité des fumeuses

0.00 0.25 0.50 0.75 1.00

Non fumeuse Fumeuse

0.00 0.25 0.50 0.75 1.00

18-2425-3435-4445-5455-6465-74 75+

Non fumeuse Fumeuse

Appleton, D. R., French, J. M. and Vanderpump, M. P. J. (1996) Ignoring a covariate : An example of Simpson’s paradox. The American Statistician, 50, 340–341.

(33)

IV. Indicateurs de tendance centrale

Cas où la moyenne arithmétique n’est pas adaptée

• Taux de variation moyen t1, . . . ,tn : taux de variation

x1, . . . ,xn : facteur multiplicatif (xi = 1 + ti)

Moyenne géométrique

xG = √n

x1 × · · · ×xn =

n

Y

i=1

xi

!1

n

IV. Indicateurs de tendance centrale

Médiane

Première définition

Valeur telle que la moitié de la population possède une modalité inférieure à cette valeur et l’autre moitié possède une valeur supérieure à cette valeur.

Exemples

• revenu salarial médian en 2015 : 18 370

• revenu salarial médian des femmes en 2015 : 16 750

• revenu salarial médian des hommes en 2015 : 20 030

• âge médian des français en 2018 : 40.5

(34)

Médiane

Deuxième définition

Plus petite valeur de la série de données telle qu’au moins la moitié de la population prend une valeur inférieure ou égale à celle-ci.

Propriété de la médiane

• Elle minimise l’écart absolu moyen.

• Moins sensible que la moyenne aux valeurs extrêmes.

Site pour expérimenter : lien

IV. Indicateurs de tendance centrale

Médiane - en pratique

Cas discret ou données brutes

On commence par classer par ordre croissant les données.

• Si l’effectif est impair, la médiane est la

n + 1 2

e

valeur.

• Si l’effectif est pair, on a un intervalle médian n

2 e

valeur;

n 2 + 1

e

valeur

.

On choisit pour médiane soit la moyenne des bornes de l’intervalle, soit la plus petite borne.

Cas de données regroupées en classe

Si les données sont regroupées en classe, on a une classe médiane.

Si on n’a pas accès aux données brutes, on peut calculer une valeur approchée.

(35)

IV. Indicateurs de tendance centrale

Exemples sur nos données

• Notes des L3 : n = 29 Médiane : 15e valeur Médiane : 11.83

• Notes des L2 : n = 34 Intervalle médian : [16evaleur; 17evaleur] = [10.67; 10.67]

Médiane : 10.67

• Notes des L1 : n = 66 Intervalle médian :

[33evaleur; 34evaleur] = [10; 10]

Médiane : 10

• Notes des L1 regroupées en classe

Notes totales en L1 Effectif Eff. cum.

[0,4[ 0 0

[4,6[ 5 5

[6,8[ 8 13

[8,10[ 18 31

[10,11[ 10 41

[11,13[ 11 52

[13,14[ 7 59

[14,16[ 7 66

[16,20] 0 66

IV. Indicateurs de tendance centrale

Fréquences cumulées

Variable Fréquences Fréquences cumulées

m1 f1 F1 = f1

m2 f2 F2 = f1 + f2

... ... ...

mk fk Fk =

k

X

i=1

fi

... ... ...

mM fM FM = 1

(36)

Fonction cumulative ou fonction de répartition

fonction F telle que F(x) correspond à la proportion d’individu dont la modalité est inférieure ou égale à x.

F(mk) = Fk =

k

X

i=1

fi

Médiane

plus petite valeur x telle que F(x) > 0.5

IV. Indicateurs de tendance centrale

Nombres de bonnes réponses en sport - Fréquences cumulées

Nb. de rép. justes Fréq. Fréq. cum.

0 0.02 0.02

1 0.04 0.06

2 0.04 0.09

3 0.10 0.20

4 0.20 0.40

5 0.21 0.61

6 0.18 0.78

7 0.11 0.89

8 0.08 0.98

10 0.02 1.00

• Plus de la moitié des étudiants ayant participé au QCM a eu 5 bonnes réponses ou moins au thème sport.

• Plus des trois quarts des étudiants ayant participé au QCM ont eu 6 bonnes réponses ou moins au thème sport.

(37)

IV. Indicateurs de tendance centrale

Courbe cumulative - Cas discret

0.00 0.25 0.50 0.75 1.00

0 1 2 3 4 5 6 7 8 10

Courbe cumulative du nombre de bonnes réponses au thème sport

IV. Indicateurs de tendance centrale

Notes des L1 - Fréquences cumulées

Notes Fréquences cumulées

[0,2[ 0.00

[2,4[ 0.00

[4,6[ 0.08

[6,8[ 0.20

[8,10[ 0.47

[10,11[ 0.62

[11,13[ 0.79

[13,14[ 0.89

[14,16[ 1.00

[16,20] 1.00

(38)

Courbe cumulative - Cas avec classes

0.00 0.25 0.50 0.75 1.00

0 5 10 15 20

Courbe cumulative des notes des L1 regroupées en classes

IV. Indicateurs de tendance centrale

Courbe cumulative - Cas avec classes

0.00 0.25 0.50 0.75 1.00

0 5 10 15 20

Courbe cumulative des notes des L1

regroupées en classes

Références

Documents relatifs

[r]

Sortie : Afficher.. Fin

L4 U prend la valeur.. L4 U prend

• La médiane d’une série statistique , notée Me , est une valeur telle qu’au moins la moitié des valeurs de la série lui soit inférieure ou égale.. 13 août 2020 2

Quand est-il justifié de faire une régression linéaire. • expérience, allure générale

• Combien j’ai de façon de choisir les étudiants qui vont m’aider pour les JPO.. En fait, il faut 4 étudiants sur le stand (2 Master, 2 Licence 3) et 3 étudiants de L2

• En utilisant la commande order , afficher les informations sur l’évaluation, la satisfaction et le nombre moyen d’heures travaillées par mois des employés en ordonnant selon

[r]