Outils ´ el´ ementaires de statistique appliqu´ ee
M. Maumy-Bertrand et M. Chion
Universit´ e de Strasbourg
2019-2020
Introduction
Notions fondamentales en statistique
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 2 / 40
Sommaire
1 Introduction
2 D´ efinitions
3 Les diff´ erents caract` eres
4 Quelques repr´ esentations graphiques
5 Quelques caract´ eristiques de position
Les deux branches de la statistique
Population U Individus
ÉchantillonS
Statistique descriptive : d´ eterminer les caract´ eristiques d’une population.
Statistique inf´ erentielle : extrapoler les r´ esultats num´ eriques obtenus sur un ´ echantillon ` a la population.
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 4 / 40
Objectif de la statistique descriptive
L’objectif de la statistique descriptive est de pr´ esenter et de d´ ecrire, c’est-` a-dire de r´ esumer num´ eriquement et/ou de repr´ esenter
graphiquement, les donn´ ees disponibles quand elles sont nombreuses ou les donn´ ees provenant d’un recensement.
Que trouvons-nous dans la statistique descriptive ? Le concept de population,
le concept de r´ esum´ es num´ eriques, avec les trois sortes de caract´ eristiques : position, dispersion et forme.
le concept de repr´ esentations graphiques, comme par exemple la boˆıte
`
a moustaches ou l’histogramme.
Sommaire
1 Introduction
2 D´ efinitions
3 Les diff´ erents caract` eres
4 Quelques repr´ esentations graphiques
5 Quelques caract´ eristiques de position
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 6 / 40
D´ efinition
L’ensemble sur lequel porte l’activit´ e statistique s’appelle la population.
Elle est g´ en´ eralement not´ ee Ω. Ses ´ el´ ements sont les individus.
Remarque
Ces individus peuvent ˆ etre de natures tr` es diverses : ensemble de
personnes, mois d’une ann´ ee, pi` eces produites par une usine, r´ esultats
d’exp´ eriences r´ ep´ et´ ees un certain nombre de fois. . .
D´ efinition
Les caract´ eristiques ´ etudi´ ees sur les individus d’une population sont appel´ ees les caract` eres. Un caract` ere est donc une application χ d’un ensemble fini Ω (la population) dans un ensemble C (l’ensemble des valeurs du caract` ere), qui associe ` a chaque individu ω de Ω la valeur χ(ω) que prend ce caract` ere sur l’individu ω.
D´ efinition
La suite des valeurs χ(ω) prises par χ s’appelle les donn´ ees brutes. C’est une suite finie (X 1 , X 2 , . . . , X N ) de l’ensemble C .
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 8 / 40
Sommaire
1 Introduction
2 D´ efinitions
3 Les diff´ erents caract` eres
4 Quelques repr´ esentations graphiques
5 Quelques caract´ eristiques de position
Nous consid´ erons plusieurs types de caract` eres :
1
les caract` eres qualitatifs
2
les caract` eres quantitatifs : leur d´ etermination produit un nombre ou une suite de nombres. Nous distinguons
1
les caract` eres simples : leur mesure sur un individu produit un seul nombre. L’ensemble de leurs valeurs est donc R ou une partie de R .
2
les caract` eres multiples : leur mesure sur un individu produit une suite finie de nombres. L’ensemble de leurs valeurs est donc R n ou une partie de R n .
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 10 / 40
Caract` eres qualitatifs
profession, adresse, situation de famille, sexe . . .
Caract` eres quantitatifs simples taille, poids, salaire, temp´ erature...
Caract` eres quantitatifs multiples
relev´ e de notes d’un(e) ´ etudiant(e), fiche de salaire,...
Remarque
Les caract` eres qualitatifs peuvent toujours ˆ etre transform´ es en caract` eres
quantitatifs par codage. C’est ce qui se fait le plus g´ en´ eralement. Mais un
tel codage est purement conventionnel et n’a pas vraiment un sens
quantitatif. Par exemple, on ne pourra pas calculer le sexe moyen.
Si X est un caract` ere quantitatif simple l’ensemble
X (Ω) = {X 1 , X 2 , . . . , X N } des valeurs atteintes par le caract` ere (ou donn´ ees brutes) est un ensemble fini {x 1 , . . . , x n }. Nous supposerons que ces valeurs sont ordonn´ ees :
x 1 < x 2 < . . . < x n .
Le fait que telle valeur soit relative ` a tel individu est un renseignement qui n’int´ eresse pas le statisticien. Seul l’ensemble des valeurs atteintes et le nombre de fois que chacune d’elle est atteinte est utile.
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 12 / 40
D´ efinition Nous appelons
effectif de la valeur x i : le nombre n i de fois que la valeur x i est prise, c’est-` a-dire le cardinal de l’ensemble X −1 (x i ) ;
effectif cumul´ e en x i : la somme
i
X
j =1
n j ;
fr´ equence de la valeur x i : le rapport f i = n i
N de l’effectif de x i ` a l’effectif total N de la population, c’est-` a-dire le cardinal de Ω ou encore la somme des n i ;
fr´ equence cumul´ ee en x i : la somme
i
X
j =1
f j .
D´ efinition
Ces distributions statistiques sont qualifi´ ees de discr` etes.
Remarque
Lorsque le nombre des valeurs atteintes est important, nous pr´ ef´ erons regrouper les valeurs en classes pour rendre la statistique plus lisible.
Nous partageons alors l’ensemble C des valeurs du caract` ere en classes ]a i , a i+1 ] avec a i < a i+1 .
Nous parlons alors de statistique group´ ee ou continue.
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 14 / 40
D´ efinition Nous appelons
effectif de ]a i , a i+1 ] : le nombre n i de valeurs prises dans ]a i , a i+1 ], c’est-` a-dire X −1 (]a i , a i+1 ]) ;
effectif cumul´ e en a i : le nombre de valeurs prises dans ] − ∞, a i ] ; fr´ equence de ]a i , a i +1 ] : le rapport f i = n i
N ; fr´ equence cumul´ ee en a i : la somme
i
X
j=1
f j .
D´ efinition
La famille (x i , n i ) i=1,...,n ou (x i , f i ) i=1,...,n est encore appel´ ee distribution statistique discr` ete.
D´ efinition
De mˆ eme, la famille (]a i , a i+1 ], n i ) i=1,...,n ou (]a i , a i+1 ], f i ) i =1,...,n est encore appel´ ee distribution statistique group´ ee ou continue.
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 16 / 40
Sommaire
1 Introduction
2 D´ efinitions
3 Les diff´ erents caract` eres
4 Quelques repr´ esentations graphiques
5 Quelques caract´ eristiques de position
D´ efinition
Le diagramme en bˆ atons d’une distribution statistique discr` ete est
constitu´ e d’une suite de segments verticaux d’abscisses x i dont la longueur est proportionnelle ` a l’effectif ou la fr´ equence de x i .
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 18 / 40
Exemple
La distribution suivante
(1, 1), (2, 3), (3, 4), (4, 2), (5, 5), (6, 6), (7, 2), (8, 3), (9, 1), (10, 1) est repr´ esent´ ee par le diagramme en bˆ atons de la figure 1
0 1 2 3 4 5 6
2 4 6 8 10
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 19 / 40
D´ efinition
Le polygone des fr´ equences (resp. des effectifs) est obtenu ` a partir du diagramme en bˆ atons des fr´ equences (resp. des effectifs) en joignant par un segment les sommets des bˆ atons.
Remarque
Le graphique de la figure suivante superpose le polygone des fr´ equences et le diagramme en bˆ atons des fr´ equences de l’exemple pr´ ec´ edent.
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 20 / 40
0 0.05 0.1 0.15 0.2
2 4 6 8 10
Figure – Diagramme en bˆ atons et
polygone des fr´ equences
D´ efinition
En rempla¸cant les fr´ equences (resp. les effectifs) par les fr´ equences cumul´ ees (resp. les effectifs cumul´ es) on obtient le diagramme en bˆ atons et le polygone des fr´ equences cumul´ ees (resp. des effectifs cumul´ es).
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 22 / 40
La figure 3 donne le diagramme en bˆ atons et le polygone des effectifs cumul´ es de l’exemple pr´ ec´ edent.
0 5 10 15 20 25
2 4 6 8 10
Figure – Diagramme en bˆ atons et polygone des effectifs cumul´ es
D´ efinition
Nous appelons histogramme la repr´ esentation graphique d’une variable continue. Dans le cas o` u les amplitudes des classes sont ´ egales, cet histogramme est constitu´ e d’un ensemble de rectangles dont la largeur est
´
egale ` a a, l’amplitude de la classe, et la hauteur ´ egale ` a K × n j o` u n j est l’effectif de la classe et K est un coefficient arbitraire (choix d’une ´ echelle), de sorte que l’aire totale sous l’histogramme est ´ egale ` a K × N × a o` u N est l’effectif total. Dans le cas de classes d’amplitudes k j × a in´ egales, multiples entiers de l’une d’entre elles a, on convient, pour conserver le r´ esultat pr´ ec´ edent, de prendre pour hauteur du rectangle de la classe num´ ero j le quotient K × n j
k j .
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 24 / 40
Exemple
En figure 4 nous donnons l’histogramme de la distribution suivante (]1, 3], 4), (]3, 4], 8), (]4, 5.5], 10), (]5.5, 6], 14), (]6, 8], 20), (]8, 10], 12), (]10, 11], 9), (]11, 12.5], 3).
0 5 10 15 20 25
2 4 6 8 10 12
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 25 / 40
Suite de l’Exemple
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
2 4 6 8 10 12
Figure – Histogramme et polygone des fr´ equences
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 26 / 40
D´ efinition
Le polygone des effectifs ou des fr´ equences d’une distribution est obtenu en joignant dans l’histogramme de cette distribution les milieux des cˆ ot´ es horizontaux sup´ erieurs.
Retour ` a l’Exemple.
La figure 5 superpose l’histogramme des fr´ equences de l’exemple pr´ ec´ edent
et son polygone des fr´ equences.
D´ efinition
Le polygone des fr´ equences cumul´ ees d’une distribution statistique group´ ee est la repr´ esentation graphique de la fonction d´ efinie par
f (x) =
i−1
X
j=1
f j + x − a i
a i +1 − a i
f i
sur l’intervalle ]a i ; a i+1 ].
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 28 / 40
Remarque
En particulier, remarquons que nous avons
f (a i ) =
i −1
X
j =1
f j
et
f (a i+1 ) =
i
X
j =1
f j .
Retour ` a l’Exemple
Pour l’exemple pr´ ec´ edent, nous obtenons le graphique de la figure 6.
0 0.2 0.4 0.6 0.8 1
2 4 6 8 10 12
Figure – Polygone des fr´ equences cumul´ ees d’une statistique group´ ee
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 30 / 40
Sommaire
1 Introduction
2 D´ efinitions
3 Les diff´ erents caract` eres
4 Quelques repr´ esentations graphiques
5 Quelques caract´ eristiques de position
D´ efinition
Le mode est l’une des valeurs x 1 , x 2 , . . . , x p dont la fr´ equence f i est maximale.
D´ efinition
La classe modale est une classe de densit´ e, c’est-` a-dire de rapport fr´ equence/longueur, maximale.
D´ efinition
La distribution est unimodale si elle a un seul mode, si elle en a plusieurs elle est plurimodale (bimodale, trimodale, . . . ).
Remarque
Nous d´ eterminons ais´ ement les modes ` a partir des repr´ esentations graphiques.
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 32 / 40
D´ efinition
Soit m et d les parties enti` ere et d´ ecimale de (N + 1)/2. La m´ ediane, not´ ee Q 2 (x), est d´ efinie par
Q 2 (x ) = x (m) + d (x (m+1) − x (m) )
o` u x (m) signifie la m-i` eme valeur lorsque la s´ erie des valeurs est class´ ee par ordre croissant.
x (m) est aussi appel´ ee la m-i` eme statistique d’ordre.
D´ efinition
Pour tout nombre α ∈]0; 1[, soit m et d les parties enti` ere et d´ ecimale de α(N + 1). Le quantile d’ordre α, not´ e Q α (x), est d´ efini par :
Q α (x) = x (m) + d (x (m+1) − x (m) ).
D´ efinition
La moyenne d’une distribution statistique discr` ete (x i ; f i ) i=1,...,p est le nombre r´ eel µ d´ efini par
µ =
p
X
i=1
x i f i = 1 N
p
X
i=1
x i n i .
o` u N est l’effectif total de la population.
Remarque
Nous pouvons aussi la calculer directement ` a partir des donn´ ees brutes par
µ = 1
N
N
X
j=1
X j
c’est-` a-dire en calculant le rapport entre la somme de toutes les valeurs relev´ ee (avec r´ ep´ etitions ´ eventuelles) et l’effectif total de la population.
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 34 / 40
D´ efinition
Pour une statistique group´ ee (]a i ; a i +1 ], f i ) i=1,...,p la moyenne se calcule par
µ =
p
X
i =1
a i + a i+1 2 f i .
Cela revient ` a faire une hypoth` ese d’homog´ en´ eit´ e en consid´ erant les
valeurs ´ equidistribu´ ees ` a l’int´ erieur d’une classe ou, au contraire, ` a
supposer que toute la fr´ equence est concentr´ ee au centre de la classe (ce
qui revient au mˆ eme : on remplace la distribution ` a l’int´ erieur de la classe
par son barycentre).
Remarque
La moyenne de X − a est µ − a et la moyenne de λX est λµ.
Remarque
Il existe d’autres moyennes : la moyenne g´ eom´ etrique, la moyenne harmonique,
la moyenne arithm´ etico-g´ eom´ etrique, . . .
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 36 / 40
Il est ` a noter qu’il est int´ eressant de comparer les deux principaux param` etres de position que sont la m´ ediane et la moyenne arithm´ etique.
Les deux poss` edent des avantages et des inconv´ enients.
1
Pour la m´ ediane, nous avons
• Avantage :
Peu sensible aux valeurs extrˆ emes (param` etre robuste).
• Inconv´ enients :
D´ elicate ` a calculer (Rappelez-vous les diff´ erentes d´ efinitions que l’on peut rencontrer).
Ne se prˆ ete pas aux calculs alg´ ebriques.
2
Pour la moyenne arithm´ etique, nous avons
• Avantages : Facile ` a calculer.
Se prˆ ete bien aux calculs alg´ ebriques.
R´ epond au principe des moindres carr´ es.
• Inconv´ enients :
Fortement influenc´ ee par les valeurs extrˆ emes.
Mauvais indicateur pour une distribution polymodale ou fortement
asym´ etrique.
Quelques caract´ eristiques de dispersion
La variance, not´ ee σ 2 (x), est le nombre r´ eel positif d´ efini par
σ 2 (x) =
p
X
i =1
(x i − µ(x )) 2 f i .
L’´ ecart-type, not´ e σ(x ), est la racine carr´ ee de la variance. Il s’exprime dans la mˆ eme unit´ e que la moyenne.
La m´ ediane des ´ ecarts absolus ` a la m´ ediane, not´ ee MAD(x), d’une s´ erie statistique est le nombre r´ eel d´ efini par
MAD(x) = Q 2 (|x i − Q 2 (x)|) 1 6 i 6 n .
L’intervalle inter-quartile, not´ e IIQ(x), est la diff´ erence entre le troisi` eme quartile et le premier quartile.
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 38 / 40
Caract´ eristiques de forme
Le moment centr´ e d’ordre r est ´ egal ` a
µ m r (x) = P p
i=1 (x i − µ(x)) r f i .
Le coefficient d’asym´ etrie (skewness) de Fisher est la quantit´ e γ 1 (x) d´ efinie par
γ 1 (x) = µ m 3 (x)
σ 3 (x) = µ m 3 (x) ( µ m 2 (x)) 3/2 ·
Le coefficient d’asym´ etrie de Pearson est la quantit´ e β 1 (x) d´ efinie par
β 1 (x) = ( µ m 3 (x)) 2
(σ 2 (x)) 3 = ( µ m 3 (x)) 2
( µ m 2 (x)) 3 = γ 1 2 (x).
Caract´ eristiques de forme
Le coefficient d’aplatissement (kurtosis) de Fisher est la quantit´ e γ 2 (x) d´ efinie par
γ 2 (x) = µ m 4 (x) ( µ m 2 (x)) 2 − 3.
Le coefficient d’aplatissement de Pearson est la quantit´ e β 2 (x) d´ efinie par
β 2 (x) = µ m 4 (x)
( µ m 2 (x)) 2 = µ m 4 (x) σ 4 (x) ·
M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 40 / 40