Cours de statistique descriptive
12 octobre 2005
Michel Juillard
Organisation du cours
Cours: mercredi de 12h à 15h.
Les séances du 19 octobre et du 9 novembre sont supprimées.
Le séance du 26 novembre aura encore lieu à Stains.
Les TDs, animés par Mr. Antoine Felce, ont lieu le jeudi de 12h à 15h.
Chaque groupe (G1, G2, G3 ou G4) s’y rend une fois toutes les quatres semaines.
Plan du cours
1. Introduction. Tableau statistique.
2. Représentations graphiques.
3. Valeur centrale: mode, médiane, moyenne.
4. Mesures de la dispersion.
5. Mesures de la concentration.
6. Indices et taux de croissance.
7. Tableaux à double entrée. Caractéristiques marginales et conditionnelles.
8. Indépendance de deux facteurs.
9. Mesurer la relation entre deux caractères: les MCO.
10. Le coefficient de corrélation.
11. Tendance et variations cycliques.
Bibliographie
J. Aberlen, D. Delhaye et E. Even (2002) Statistiques descriptives. Polycopié.
B. Grais (2000) Statistique descriptive. 3e édition. Dunod.
J. Hubler (1996) Statistiques appliquées à l’économie.
Bréal.
INSEE (2005) L’économie française. Comptes et dossiers.
INSEE.
A. Piller (2004) Statistique descriptive. Premium Editeur.
Logiciels
Microsoft Excel
OpenOffice http://www.openoffice.org R http://www.r-project.org
Obtention de l’EC
Deux examens partiels
1. mercredi 30 novembre à 12h.
2. dans la semaine du 16 au 20 janvier 2006
La note finale de l’EC représente la moyenne des deux examens
Une participation régulière et active au TDs permet d’obtenir un bonus de deux points.
Contact et permanence
Mon adresse email: [email protected] Permanence: mercredi à 15h, après le cours.
Fiche individuelle
Nom:
Prénom:
Numéro d’étudiant:
Adresse email:
Année d’inscription à l’université:
Type de BAC:
Savez-vous utiliser Excel?
Avez–vous un ordinateur à la maison?
Avez-vous une liaison ADSL?
Définitions
La statistique est une méthode d’analyse numérique des ensembles comportant un grand nombre d’éléments. (B. Grais, 2000) La statistique a pour objet l’étude, à l’aide de traitements mathématiques, de nombreux faits correspondant à l’observation d’un
phénomène, dans le but de rendre compte de la réalité, d’essayer de l’expliquer et d’aider à la prise de décision. (J. Hubler, 1996)
Objet de la statistique
Ensembles nombreux (p.ex. maison de disque).
Ensembles homogènes (p. ex. production de voitures).
La statistique simplifie, par opposition à la monographie.
Approches statistiques
Statistique descriptive: décrire numériquement un ensemble.
Statistique inductive: utiliser les données d’un
sous-ensemble (p. ex. un sondage) pour en induire les caractéristiques de l’ensemble global..
Repères historiques
Haute Antiquité: statistiques en vue de l’impôt.
L’empereur romain Auguste fait procéder à un recensement des richesses de l’empire.
Démographie (Suessmilch, 1707–67). Premières
tables de mortalité au XVIIIe siècle. Emergence des assurances sur la vie.
Calcul des probabilités (Bernoulli, 1654–1705, et Laplace, 1749–1827).
Génétique (Mendel, 1822–1884).
Répartition des revenus individuels (Lorenz, 1880–1962, et Gini, 1884–1965)
Domaines d’application
agronomie balistique biologie
démographie économie épidémiologie gestion
médecine météorologie physique psychologie
sciences politiques
Concepts fondamentaux
Population : ensemble des unités statistiques ou individus étudiés. Exemples: population européenne, production d’avions chez Airbus, importations en France.
Univers statistique : synonyme de population.
Unité statistique : objet sur lequel porte l’observation.
Exemples: habitant de l’Europe, avion Airbus, marchandise importée.
Individu : synonyme d’unité statistique.
Caractère : caractéristique de l’individu auquel l’analyse s’intéresse. Exemple: âge, sexe; modèle de l’avion;
type de marchandise.
Modalité : valeur que le caractère peut prendre.
Population active par secteur (I)
Actifs occupés selon le secteur d’activité en 2004 (en milliers)
Agriculture, sylviculture et pêche 991 Transports 1092
Industries agricoles 676 Activités financières 672
Industries des biens de consommation 700 Activités immobilières 313
Industrie automobile 326 Services aux entreprises 3134
Industries des biens d’équipement 817 Services aux particuliers 2138 Industries des biens intermédiaires 1441 Education, santé, action sociale 4615
Energie 248 Administrations 2597
Construction 1586 Activité indéterminée 77
Commerce et réparations 3307
Total 24728
Note : Résultats en moyenne annuelle
Champ : France métropolitaine, actifs occupés de 15 ans et plus.
Source : Insee, enquêtes emploi
Population active par secteur (II)
Population : population active
Individu : actif occupé de 15 ans et plus en France métropolitaine
Caractère : secteur d’activité de cet individu Modalité : nom du secteur d’activité
Caractères qualitatifs
Les caractères qualitatifs ne peuvent pas faire l’objet d’une mesure.
Les modalités d’un caractère qualitatif font l’objet d’une nomenclature ou classification.
Les modalités sont exhaustives et mutuellement
exclusives. Chaque individu doit pouvoir être classé dans une et une seule modalité.
Nomenclatures
Une nomenclature doit contenir tous les cas possibles du phénomène.
On peut toujours rajouter une modalité “autre cas”.
Exemples de nomenclatures:
sexe : féminin, masculin statut matrimonial :
célibataire, marié, divorcé, veuf ou
marié, non–marié.
Nomenclatures officielles
Nomenclature des activités françaises (NAF rév. 1, 2003) Classification des produits français (CPF rév. 1, 2003)
Professions et catégories socioprofessionnelles (PSC 2003)
Code officiel géographique 2005
Site: www.insee.fr/fr/nom_def_met/nomenclatures/nomenclatures.htm
Exemple: NAF (I)
Nomenclature des activités françaises, niveau 17
A Agriculture, chasse, sylviculture
B Pêche, aquaculture, services annexes C Industries extractives
D Industrie manufacturière
E Production et distribution d’électricité, de gaz et d’eau F Construction
G Commerce ; réparations automobile et d’articles domestiques H Hôtels et restaurants
I Transports et communications
Exemple: NAF (II)
J Activités financières
K Immobilier, location et services aux entreprises L Administration publique
M Education
N Santé et action sociale
O Services collectifs, sociaux et personnels P Activités des ménages
Q Activités extra-territoriales
NAF, niveau 31
Extrait du niveau 31 pour l’industrie manufacturière
DA Industries agricoles et alimentaires DB Industrie textile et habillement
DC Industrie du cuir et de la chaussure
DD Travail du bois et fabrication d’articles en bois
DE Industrie du papier et du carton ; édition et imprimerie DF Cokéfaction, raffinage, industries nucléaires
DG Industrie chimique
DH Industrie du caoutchouc et des plastiques
DI Fabrication d’autres produits minéraux non métalliques DJ Métallurgie et travail des métaux
DK Fabrication de machines et équipements
DL Fabrication d’équipements électriques et électroniques DM Fabrication de matériel de transport
NAF, niveau 220
Extrait du niveau 220 pour l’industrie du bois et fabrication d’articles de bois (DD au niveau 31)
20.1 Sciage, rabotage, imprégnation du bois 20.2 Fabrication de panneaux de bois
20.3 Fabrication de charpentes et de menuiseries 20.4 Fabrication d’emballages en bois
20.5 Fabrication d’objets divers en bois, liège ou vannerie Niveau 700
20.1A Sciage et rabotage du bois 20.1B Imprégnation du bois
20.2Z Fabrication de panneaux de bois
20.3Z Fabrication de charpentes et de menuiseries 20.4Z Fabrication d’emballages en bois
20.5A Fabrication d’objets divers en bois
Caractères quantitatifs
Un caractère qui est mesurable est un caractère quantitatif.
A chaque individu est associé un nombre, la valeur de la mesure pour cet individu.
Les modalités du caractère sont tous les nombres que la mesure peut prendre.
Le nombre de la mesure est aussi appelé variable statistique.
La variable statistique discrète ne peut prendre que certaines valeurs isolées.
La variable statistique continue peut prendre n’importe quelle valeur à l’intérieur de son intervalle de définition.
Variables discrètes
Exemples:
L’emploi dans un pays
Nombre d’employés d’une entreprise Nombre d’articles vendus
Nombre de naissances
Nombre de victimes d’accidents de la route
Variables continues (I)
Exemples:
L’âge d’un individu
La durée du chômage
Le chiffre d’affaires d’une entreprise Le produit intérieur brut
Variables continues (II)
Les variables continues sont regroupées en classes.
On appelle amplitude la longueur de l’intervalle d’une classe.
Exemples:
âge: 0 à moins de 5 ans, 5 à moins de 10 ans, 10 à moins de 15 ans, . . . , 95 à moins de 100 ans, plus de 100 ans
(0 ≤ x < 5, 5 ≤ x < 10, 10 ≤ x < 15, . . . , 95 ≤ x < 100, x > 100).
durée du chômage: moins de 1 mois, 1 à moins de 3 mois, 3 à mois de 6 mois, 6 mois à moins de 1 an, 1 à moins de 2 ans, 2 ans et plus.
Variables discrètes et continues
Lorsque les variables discrètes peuvent prendre de nombreuses valeurs, on les regroupe également par classe.
La distinction entre variable discrète et variable continue est parfois difficile.
Le nombre de classes doit être choisi de manière à ce qu’un nombre suffisant d’individus soit présent dans chaque classe et que les effectifs de chaque classe soient du même ordre de grandeur.
Choix des classes
On doit arbitrer deux inconvénients:
1. choisir trop peu de classes néglige des aspects importants de la distribution;
2. choisir un trop grand nombre de classes conduit à des effectifs trop petits et à un rôle exagéré pour les
variations accidentelles.
Tableau statistique
Le tableau statistique indique pour chaque classe le nombre d’individus dans la population:
Population active occupée par selon le statut des emplois, en 2004 Statut de l’emploi Effectifs
(en milliers)
Nonsalariés 2 669
Salariés secteur privé 17 270 Salariés secteur public 4 789
Total 24 728
Source: INSEE: enquêtes emploi.
Fréquences
La fréquence représente la part d’une modalité dans la population totale.
Si ni représente l’effectif de la modalité i, et n la population totale, la fréquence, notée fi, se calcule
fi = ni n
Somme des fréquences (I)
Comme les modalités sont exclusives entre elles et qu’elles couvrent tous les cas possibles, la somme des fréquences égale 1 (ou 100%).
S’il existe m modalités
n = n1 + n2 + . . . + nm =
Xm
i=1
ni
et
f1 + f2 + . . . + fm = n1
n + n2
n + . . . + nm n
= n1 + n2 + . . . + nm
n = n
n
Somme des fréquences (II)
La même démonstration peut s’écrire
f1 + f2 + . . . + fm =
Xm
i=1
fi
=
Xm
i=1
ni Pm
j=1 nj
=
Pm
i=1 ni Pm
j=1 nj
= 1
Exemple I
Population active occupée par selon le statut des emplois, en 2004 Statut de l’emploi Effectifs Fréquences Calcul
(en milliers) (%)
Nonsalariés 2 669 10,8 = 100 × 247282669
Salariés secteur privé 17 270 69,8 = 100 × 1727024728 Salariés secteur public 4 789 19,4 = 100 × 247284789
Total 24 728 100
Source: INSEE: enquêtes emploi.
Attention . . .
. . . aux additions avec les nomenclatures hiérarchisées.
Population active occupée par selon le statut des emplois, en 2004 Statut de l’emploi Effectifs Fréquences
(en milliers) (%)
Nonsalariés 2 669 10,8
Salariés 22 059 89,2
Secteur privé 17 270 69,8
Secteur public 4 789 19,4
Total 24 728 100
Source: INSEE: enquêtes emploi.
Représentations graphiques (I)
Représentation par tuyaux d’orgue
nonsalariés salariés.privé salariés.public
Effectifs (milliers) 050001000015000
Population active par statut en 2004.
Représentations graphiques (II)
Représentation par secteurs circulaires
nonsalariés salariés.privé
salariés.public
Population active par statut en 2004.
Exemple II
Répartition des employés d’une entreprise selon leur salaire mensuel net
Classes de salaire Effectifs Fréquences
(euros) (%)
800 à moins de 900 25 21,2
900 à moins de 1000 30 25,4
1000 à moins de 1100 28 23,7
1100 à moins de 1500 25 21,2
1500 ou plus 10 8,5
Total 118 100
Fréquences cumulées
Comme les classes sont ordonnées de manière croissante, il peut être intéressant de savoir quelle proportion de la
population se trouve dans la classe considérée ou dans une classe inférieure.
La fréquence cumulée de la classe i est la somme des
fréquences des classes inférieures ou égales à la classe i.
Fi = f1 + . . . + fi =
Xi
j=1
fj
Définition récursive
F1 = f1
Fi = Fi−1 + fi i = 2, . . . , m
Exemple
Répartition des employés d’une entreprise selon leur salaire mensuel net
Classes de salaire Effectifs Fréquences Fréquences
(euros) (%) cumulées
(%)
800 à moins de 900 25 21,2 21,2
900 à moins de 1000 30 25,4 46,6
1000 à moins de 1100 28 23,7 70,3
1100 à moins de 1500 25 21,2 91.5
1500 ou plus 10 8,5 100
Total 118 100