• Aucun résultat trouvé

Cours de statistique descriptive

N/A
N/A
Protected

Academic year: 2022

Partager "Cours de statistique descriptive"

Copied!
41
0
0

Texte intégral

(1)

Cours de statistique descriptive

12 octobre 2005

Michel Juillard

(2)

Organisation du cours

Cours: mercredi de 12h à 15h.

Les séances du 19 octobre et du 9 novembre sont supprimées.

Le séance du 26 novembre aura encore lieu à Stains.

Les TDs, animés par Mr. Antoine Felce, ont lieu le jeudi de 12h à 15h.

Chaque groupe (G1, G2, G3 ou G4) s’y rend une fois toutes les quatres semaines.

(3)

Plan du cours

1. Introduction. Tableau statistique.

2. Représentations graphiques.

3. Valeur centrale: mode, médiane, moyenne.

4. Mesures de la dispersion.

5. Mesures de la concentration.

6. Indices et taux de croissance.

7. Tableaux à double entrée. Caractéristiques marginales et conditionnelles.

8. Indépendance de deux facteurs.

9. Mesurer la relation entre deux caractères: les MCO.

10. Le coefficient de corrélation.

11. Tendance et variations cycliques.

(4)

Bibliographie

J. Aberlen, D. Delhaye et E. Even (2002) Statistiques descriptives. Polycopié.

B. Grais (2000) Statistique descriptive. 3e édition. Dunod.

J. Hubler (1996) Statistiques appliquées à l’économie.

Bréal.

INSEE (2005) L’économie française. Comptes et dossiers.

INSEE.

A. Piller (2004) Statistique descriptive. Premium Editeur.

(5)

Logiciels

Microsoft Excel

OpenOffice http://www.openoffice.org R http://www.r-project.org

(6)

Obtention de l’EC

Deux examens partiels

1. mercredi 30 novembre à 12h.

2. dans la semaine du 16 au 20 janvier 2006

La note finale de l’EC représente la moyenne des deux examens

Une participation régulière et active au TDs permet d’obtenir un bonus de deux points.

(7)

Contact et permanence

Mon adresse email: [email protected] Permanence: mercredi à 15h, après le cours.

(8)

Fiche individuelle

Nom:

Prénom:

Numéro d’étudiant:

Adresse email:

Année d’inscription à l’université:

Type de BAC:

Savez-vous utiliser Excel?

Avez–vous un ordinateur à la maison?

Avez-vous une liaison ADSL?

(9)

Définitions

La statistique est une méthode d’analyse numérique des ensembles comportant un grand nombre d’éléments. (B. Grais, 2000) La statistique a pour objet l’étude, à l’aide de traitements mathématiques, de nombreux faits correspondant à l’observation d’un

phénomène, dans le but de rendre compte de la réalité, d’essayer de l’expliquer et d’aider à la prise de décision. (J. Hubler, 1996)

(10)

Objet de la statistique

Ensembles nombreux (p.ex. maison de disque).

Ensembles homogènes (p. ex. production de voitures).

La statistique simplifie, par opposition à la monographie.

(11)

Approches statistiques

Statistique descriptive: décrire numériquement un ensemble.

Statistique inductive: utiliser les données d’un

sous-ensemble (p. ex. un sondage) pour en induire les caractéristiques de l’ensemble global..

(12)

Repères historiques

Haute Antiquité: statistiques en vue de l’impôt.

L’empereur romain Auguste fait procéder à un recensement des richesses de l’empire.

Démographie (Suessmilch, 1707–67). Premières

tables de mortalité au XVIIIe siècle. Emergence des assurances sur la vie.

Calcul des probabilités (Bernoulli, 1654–1705, et Laplace, 1749–1827).

Génétique (Mendel, 1822–1884).

Répartition des revenus individuels (Lorenz, 1880–1962, et Gini, 1884–1965)

(13)

Domaines d’application

agronomie balistique biologie

démographie économie épidémiologie gestion

médecine météorologie physique psychologie

sciences politiques

(14)

Concepts fondamentaux

Population : ensemble des unités statistiques ou individus étudiés. Exemples: population européenne, production d’avions chez Airbus, importations en France.

Univers statistique : synonyme de population.

Unité statistique : objet sur lequel porte l’observation.

Exemples: habitant de l’Europe, avion Airbus, marchandise importée.

Individu : synonyme d’unité statistique.

Caractère : caractéristique de l’individu auquel l’analyse s’intéresse. Exemple: âge, sexe; modèle de l’avion;

type de marchandise.

Modalité : valeur que le caractère peut prendre.

(15)

Population active par secteur (I)

Actifs occupés selon le secteur d’activité en 2004 (en milliers)

Agriculture, sylviculture et pêche 991 Transports 1092

Industries agricoles 676 Activités financières 672

Industries des biens de consommation 700 Activités immobilières 313

Industrie automobile 326 Services aux entreprises 3134

Industries des biens d’équipement 817 Services aux particuliers 2138 Industries des biens intermédiaires 1441 Education, santé, action sociale 4615

Energie 248 Administrations 2597

Construction 1586 Activité indéterminée 77

Commerce et réparations 3307

Total 24728

Note : Résultats en moyenne annuelle

Champ : France métropolitaine, actifs occupés de 15 ans et plus.

Source : Insee, enquêtes emploi

(16)

Population active par secteur (II)

Population : population active

Individu : actif occupé de 15 ans et plus en France métropolitaine

Caractère : secteur d’activité de cet individu Modalité : nom du secteur d’activité

(17)

Caractères qualitatifs

Les caractères qualitatifs ne peuvent pas faire l’objet d’une mesure.

Les modalités d’un caractère qualitatif font l’objet d’une nomenclature ou classification.

Les modalités sont exhaustives et mutuellement

exclusives. Chaque individu doit pouvoir être classé dans une et une seule modalité.

(18)

Nomenclatures

Une nomenclature doit contenir tous les cas possibles du phénomène.

On peut toujours rajouter une modalité “autre cas”.

Exemples de nomenclatures:

sexe : féminin, masculin statut matrimonial :

célibataire, marié, divorcé, veuf ou

marié, non–marié.

(19)

Nomenclatures officielles

Nomenclature des activités françaises (NAF rév. 1, 2003) Classification des produits français (CPF rév. 1, 2003)

Professions et catégories socioprofessionnelles (PSC 2003)

Code officiel géographique 2005

Site: www.insee.fr/fr/nom_def_met/nomenclatures/nomenclatures.htm

(20)

Exemple: NAF (I)

Nomenclature des activités françaises, niveau 17

A Agriculture, chasse, sylviculture

B Pêche, aquaculture, services annexes C Industries extractives

D Industrie manufacturière

E Production et distribution d’électricité, de gaz et d’eau F Construction

G Commerce ; réparations automobile et d’articles domestiques H Hôtels et restaurants

I Transports et communications

(21)

Exemple: NAF (II)

J Activités financières

K Immobilier, location et services aux entreprises L Administration publique

M Education

N Santé et action sociale

O Services collectifs, sociaux et personnels P Activités des ménages

Q Activités extra-territoriales

(22)

NAF, niveau 31

Extrait du niveau 31 pour l’industrie manufacturière

DA Industries agricoles et alimentaires DB Industrie textile et habillement

DC Industrie du cuir et de la chaussure

DD Travail du bois et fabrication d’articles en bois

DE Industrie du papier et du carton ; édition et imprimerie DF Cokéfaction, raffinage, industries nucléaires

DG Industrie chimique

DH Industrie du caoutchouc et des plastiques

DI Fabrication d’autres produits minéraux non métalliques DJ Métallurgie et travail des métaux

DK Fabrication de machines et équipements

DL Fabrication d’équipements électriques et électroniques DM Fabrication de matériel de transport

(23)

NAF, niveau 220

Extrait du niveau 220 pour l’industrie du bois et fabrication d’articles de bois (DD au niveau 31)

20.1 Sciage, rabotage, imprégnation du bois 20.2 Fabrication de panneaux de bois

20.3 Fabrication de charpentes et de menuiseries 20.4 Fabrication d’emballages en bois

20.5 Fabrication d’objets divers en bois, liège ou vannerie Niveau 700

20.1A Sciage et rabotage du bois 20.1B Imprégnation du bois

20.2Z Fabrication de panneaux de bois

20.3Z Fabrication de charpentes et de menuiseries 20.4Z Fabrication d’emballages en bois

20.5A Fabrication d’objets divers en bois

(24)

Caractères quantitatifs

Un caractère qui est mesurable est un caractère quantitatif.

A chaque individu est associé un nombre, la valeur de la mesure pour cet individu.

Les modalités du caractère sont tous les nombres que la mesure peut prendre.

Le nombre de la mesure est aussi appelé variable statistique.

La variable statistique discrète ne peut prendre que certaines valeurs isolées.

La variable statistique continue peut prendre n’importe quelle valeur à l’intérieur de son intervalle de définition.

(25)

Variables discrètes

Exemples:

L’emploi dans un pays

Nombre d’employés d’une entreprise Nombre d’articles vendus

Nombre de naissances

Nombre de victimes d’accidents de la route

(26)

Variables continues (I)

Exemples:

L’âge d’un individu

La durée du chômage

Le chiffre d’affaires d’une entreprise Le produit intérieur brut

(27)

Variables continues (II)

Les variables continues sont regroupées en classes.

On appelle amplitude la longueur de l’intervalle d’une classe.

Exemples:

âge: 0 à moins de 5 ans, 5 à moins de 10 ans, 10 à moins de 15 ans, . . . , 95 à moins de 100 ans, plus de 100 ans

(0 x < 5, 5 x < 10, 10 x < 15, . . . , 95 x < 100, x > 100).

durée du chômage: moins de 1 mois, 1 à moins de 3 mois, 3 à mois de 6 mois, 6 mois à moins de 1 an, 1 à moins de 2 ans, 2 ans et plus.

(28)

Variables discrètes et continues

Lorsque les variables discrètes peuvent prendre de nombreuses valeurs, on les regroupe également par classe.

La distinction entre variable discrète et variable continue est parfois difficile.

Le nombre de classes doit être choisi de manière à ce qu’un nombre suffisant d’individus soit présent dans chaque classe et que les effectifs de chaque classe soient du même ordre de grandeur.

(29)

Choix des classes

On doit arbitrer deux inconvénients:

1. choisir trop peu de classes néglige des aspects importants de la distribution;

2. choisir un trop grand nombre de classes conduit à des effectifs trop petits et à un rôle exagéré pour les

variations accidentelles.

(30)

Tableau statistique

Le tableau statistique indique pour chaque classe le nombre d’individus dans la population:

Population active occupée par selon le statut des emplois, en 2004 Statut de l’emploi Effectifs

(en milliers)

Nonsalariés 2 669

Salariés secteur privé 17 270 Salariés secteur public 4 789

Total 24 728

Source: INSEE: enquêtes emploi.

(31)

Fréquences

La fréquence représente la part d’une modalité dans la population totale.

Si ni représente l’effectif de la modalité i, et n la population totale, la fréquence, notée fi, se calcule

fi = ni n

(32)

Somme des fréquences (I)

Comme les modalités sont exclusives entre elles et qu’elles couvrent tous les cas possibles, la somme des fréquences égale 1 (ou 100%).

S’il existe m modalités

n = n1 + n2 + . . . + nm =

Xm

i=1

ni

et

f1 + f2 + . . . + fm = n1

n + n2

n + . . . + nm n

= n1 + n2 + . . . + nm

n = n

n

(33)

Somme des fréquences (II)

La même démonstration peut s’écrire

f1 + f2 + . . . + fm =

Xm

i=1

fi

=

Xm

i=1

ni Pm

j=1 nj

=

Pm

i=1 ni Pm

j=1 nj

= 1

(34)

Exemple I

Population active occupée par selon le statut des emplois, en 2004 Statut de l’emploi Effectifs Fréquences Calcul

(en milliers) (%)

Nonsalariés 2 669 10,8 = 100 × 247282669

Salariés secteur privé 17 270 69,8 = 100 × 1727024728 Salariés secteur public 4 789 19,4 = 100 × 247284789

Total 24 728 100

Source: INSEE: enquêtes emploi.

(35)

Attention . . .

. . . aux additions avec les nomenclatures hiérarchisées.

Population active occupée par selon le statut des emplois, en 2004 Statut de l’emploi Effectifs Fréquences

(en milliers) (%)

Nonsalariés 2 669 10,8

Salariés 22 059 89,2

Secteur privé 17 270 69,8

Secteur public 4 789 19,4

Total 24 728 100

Source: INSEE: enquêtes emploi.

(36)

Représentations graphiques (I)

Représentation par tuyaux d’orgue

nonsalariés salariés.privé salariés.public

Effectifs (milliers) 050001000015000

Population active par statut en 2004.

(37)

Représentations graphiques (II)

Représentation par secteurs circulaires

nonsalariés salariés.privé

salariés.public

Population active par statut en 2004.

(38)

Exemple II

Répartition des employés d’une entreprise selon leur salaire mensuel net

Classes de salaire Effectifs Fréquences

(euros) (%)

800 à moins de 900 25 21,2

900 à moins de 1000 30 25,4

1000 à moins de 1100 28 23,7

1100 à moins de 1500 25 21,2

1500 ou plus 10 8,5

Total 118 100

(39)

Fréquences cumulées

Comme les classes sont ordonnées de manière croissante, il peut être intéressant de savoir quelle proportion de la

population se trouve dans la classe considérée ou dans une classe inférieure.

La fréquence cumulée de la classe i est la somme des

fréquences des classes inférieures ou égales à la classe i.

Fi = f1 + . . . + fi =

Xi

j=1

fj

(40)

Définition récursive

F1 = f1

Fi = Fi−1 + fi i = 2, . . . , m

(41)

Exemple

Répartition des employés d’une entreprise selon leur salaire mensuel net

Classes de salaire Effectifs Fréquences Fréquences

(euros) (%) cumulées

(%)

800 à moins de 900 25 21,2 21,2

900 à moins de 1000 30 25,4 46,6

1000 à moins de 1100 28 23,7 70,3

1100 à moins de 1500 25 21,2 91.5

1500 ou plus 10 8,5 100

Total 118 100

Références

Documents relatifs

Si oui, d´eterminer les coordonn´ees du point moyen et l’´equation de la droite de r´egression de y (les taux de pauvres) en x (les recettes publiques)..

Le domaine simplement métrologique nous fournit de nombreux exemples : Faute d'instrument approprié (lui-même d'ailleurs imparfait, mais d'une précision bien plus grande) les

Comme on le sait, les premières journées ou semaines de la vie sont tout spécialement fatales aux nourrissons, et l'œuvre de lutte pour la vie impose, à cette période, une

Dans les deux pays, la mortalité des enfants illégitimes est supérieure à celle des enfants légitimes, surtout dans les premiers mois de la naissance.. — 1U2

Voici Une Série statistique quantitative indiquant le nombre d’appels téléphoniques réalisés au moyen d’un GSM au cours d’une journée pour un échantillon de

Calculer la covariance et le coefficient de corrélation puis déterminer l’équation de la droite de régression de

• Utiliser un logiciel ou une calculatrice pour représenter une série statistique à deux variables et en déterminer un ajustement affine selon la méthode des moindres

Modèle individu-centré où chaque cellule est caractérisée par un trait (âge, taille, nombre de parasites, ...).. I Comprendre le rôle de certaines caractéristiques dans la