• Aucun résultat trouvé

Outils ´el´ementaires de statistique appliqu´ee

N/A
N/A
Protected

Academic year: 2022

Partager "Outils ´el´ementaires de statistique appliqu´ee"

Copied!
40
0
0

Texte intégral

(1)

Outils ´ el´ ementaires de statistique appliqu´ ee

M. Maumy-Bertrand et M. Chion

Universit´ e de Strasbourg

2019-2020

(2)

Introduction

Notions fondamentales en statistique

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 2 / 40

(3)

Sommaire

1 Introduction

2 D´ efinitions

3 Les diff´ erents caract` eres

4 Quelques repr´ esentations graphiques

5 Quelques caract´ eristiques de position

(4)

Les deux branches de la statistique

Population U Individus

ÉchantillonS

Statistique descriptive : d´ eterminer les caract´ eristiques d’une population.

Statistique inf´ erentielle : extrapoler les r´ esultats num´ eriques obtenus sur un ´ echantillon ` a la population.

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 4 / 40

(5)

Objectif de la statistique descriptive

L’objectif de la statistique descriptive est de pr´ esenter et de d´ ecrire, c’est-` a-dire de r´ esumer num´ eriquement et/ou de repr´ esenter

graphiquement, les donn´ ees disponibles quand elles sont nombreuses ou les donn´ ees provenant d’un recensement.

Que trouvons-nous dans la statistique descriptive ? Le concept de population,

le concept de r´ esum´ es num´ eriques, avec les trois sortes de caract´ eristiques : position, dispersion et forme.

le concept de repr´ esentations graphiques, comme par exemple la boˆıte

`

a moustaches ou l’histogramme.

(6)

Sommaire

1 Introduction

2 D´ efinitions

3 Les diff´ erents caract` eres

4 Quelques repr´ esentations graphiques

5 Quelques caract´ eristiques de position

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 6 / 40

(7)

D´ efinition

L’ensemble sur lequel porte l’activit´ e statistique s’appelle la population.

Elle est g´ en´ eralement not´ ee Ω. Ses ´ el´ ements sont les individus.

Remarque

Ces individus peuvent ˆ etre de natures tr` es diverses : ensemble de

personnes, mois d’une ann´ ee, pi` eces produites par une usine, r´ esultats

d’exp´ eriences r´ ep´ et´ ees un certain nombre de fois. . .

(8)

D´ efinition

Les caract´ eristiques ´ etudi´ ees sur les individus d’une population sont appel´ ees les caract` eres. Un caract` ere est donc une application χ d’un ensemble fini Ω (la population) dans un ensemble C (l’ensemble des valeurs du caract` ere), qui associe ` a chaque individu ω de Ω la valeur χ(ω) que prend ce caract` ere sur l’individu ω.

D´ efinition

La suite des valeurs χ(ω) prises par χ s’appelle les donn´ ees brutes. C’est une suite finie (X 1 , X 2 , . . . , X N ) de l’ensemble C .

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 8 / 40

(9)

Sommaire

1 Introduction

2 D´ efinitions

3 Les diff´ erents caract` eres

4 Quelques repr´ esentations graphiques

5 Quelques caract´ eristiques de position

(10)

Nous consid´ erons plusieurs types de caract` eres :

1

les caract` eres qualitatifs

2

les caract` eres quantitatifs : leur d´ etermination produit un nombre ou une suite de nombres. Nous distinguons

1

les caract` eres simples : leur mesure sur un individu produit un seul nombre. L’ensemble de leurs valeurs est donc R ou une partie de R .

2

les caract` eres multiples : leur mesure sur un individu produit une suite finie de nombres. L’ensemble de leurs valeurs est donc R n ou une partie de R n .

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 10 / 40

(11)

Caract` eres qualitatifs

profession, adresse, situation de famille, sexe . . .

Caract` eres quantitatifs simples taille, poids, salaire, temp´ erature...

Caract` eres quantitatifs multiples

relev´ e de notes d’un(e) ´ etudiant(e), fiche de salaire,...

Remarque

Les caract` eres qualitatifs peuvent toujours ˆ etre transform´ es en caract` eres

quantitatifs par codage. C’est ce qui se fait le plus g´ en´ eralement. Mais un

tel codage est purement conventionnel et n’a pas vraiment un sens

quantitatif. Par exemple, on ne pourra pas calculer le sexe moyen.

(12)

Si X est un caract` ere quantitatif simple l’ensemble

X (Ω) = {X 1 , X 2 , . . . , X N } des valeurs atteintes par le caract` ere (ou donn´ ees brutes) est un ensemble fini {x 1 , . . . , x n }. Nous supposerons que ces valeurs sont ordonn´ ees :

x 1 < x 2 < . . . < x n .

Le fait que telle valeur soit relative ` a tel individu est un renseignement qui n’int´ eresse pas le statisticien. Seul l’ensemble des valeurs atteintes et le nombre de fois que chacune d’elle est atteinte est utile.

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 12 / 40

(13)

D´ efinition Nous appelons

effectif de la valeur x i : le nombre n i de fois que la valeur x i est prise, c’est-` a-dire le cardinal de l’ensemble X −1 (x i ) ;

effectif cumul´ e en x i : la somme

i

X

j =1

n j ;

fr´ equence de la valeur x i : le rapport f i = n i

N de l’effectif de x i ` a l’effectif total N de la population, c’est-` a-dire le cardinal de Ω ou encore la somme des n i ;

fr´ equence cumul´ ee en x i : la somme

i

X

j =1

f j .

D´ efinition

Ces distributions statistiques sont qualifi´ ees de discr` etes.

(14)

Remarque

Lorsque le nombre des valeurs atteintes est important, nous pr´ ef´ erons regrouper les valeurs en classes pour rendre la statistique plus lisible.

Nous partageons alors l’ensemble C des valeurs du caract` ere en classes ]a i , a i+1 ] avec a i < a i+1 .

Nous parlons alors de statistique group´ ee ou continue.

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 14 / 40

(15)

D´ efinition Nous appelons

effectif de ]a i , a i+1 ] : le nombre n i de valeurs prises dans ]a i , a i+1 ], c’est-` a-dire X −1 (]a i , a i+1 ]) ;

effectif cumul´ e en a i : le nombre de valeurs prises dans ] − ∞, a i ] ; fr´ equence de ]a i , a i +1 ] : le rapport f i = n i

N ; fr´ equence cumul´ ee en a i : la somme

i

X

j=1

f j .

(16)

D´ efinition

La famille (x i , n i ) i=1,...,n ou (x i , f i ) i=1,...,n est encore appel´ ee distribution statistique discr` ete.

D´ efinition

De mˆ eme, la famille (]a i , a i+1 ], n i ) i=1,...,n ou (]a i , a i+1 ], f i ) i =1,...,n est encore appel´ ee distribution statistique group´ ee ou continue.

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 16 / 40

(17)

Sommaire

1 Introduction

2 D´ efinitions

3 Les diff´ erents caract` eres

4 Quelques repr´ esentations graphiques

5 Quelques caract´ eristiques de position

(18)

D´ efinition

Le diagramme en bˆ atons d’une distribution statistique discr` ete est

constitu´ e d’une suite de segments verticaux d’abscisses x i dont la longueur est proportionnelle ` a l’effectif ou la fr´ equence de x i .

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 18 / 40

(19)

Exemple

La distribution suivante

(1, 1), (2, 3), (3, 4), (4, 2), (5, 5), (6, 6), (7, 2), (8, 3), (9, 1), (10, 1) est repr´ esent´ ee par le diagramme en bˆ atons de la figure 1

0 1 2 3 4 5 6

2 4 6 8 10

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 19 / 40

(20)

D´ efinition

Le polygone des fr´ equences (resp. des effectifs) est obtenu ` a partir du diagramme en bˆ atons des fr´ equences (resp. des effectifs) en joignant par un segment les sommets des bˆ atons.

Remarque

Le graphique de la figure suivante superpose le polygone des fr´ equences et le diagramme en bˆ atons des fr´ equences de l’exemple pr´ ec´ edent.

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 20 / 40

(21)

0 0.05 0.1 0.15 0.2

2 4 6 8 10

Figure – Diagramme en bˆ atons et

polygone des fr´ equences

(22)

D´ efinition

En rempla¸cant les fr´ equences (resp. les effectifs) par les fr´ equences cumul´ ees (resp. les effectifs cumul´ es) on obtient le diagramme en bˆ atons et le polygone des fr´ equences cumul´ ees (resp. des effectifs cumul´ es).

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 22 / 40

(23)

La figure 3 donne le diagramme en bˆ atons et le polygone des effectifs cumul´ es de l’exemple pr´ ec´ edent.

0 5 10 15 20 25

2 4 6 8 10

Figure – Diagramme en bˆ atons et polygone des effectifs cumul´ es

(24)

D´ efinition

Nous appelons histogramme la repr´ esentation graphique d’une variable continue. Dans le cas o` u les amplitudes des classes sont ´ egales, cet histogramme est constitu´ e d’un ensemble de rectangles dont la largeur est

´

egale ` a a, l’amplitude de la classe, et la hauteur ´ egale ` a K × n j o` u n j est l’effectif de la classe et K est un coefficient arbitraire (choix d’une ´ echelle), de sorte que l’aire totale sous l’histogramme est ´ egale ` a K × N × a o` u N est l’effectif total. Dans le cas de classes d’amplitudes k j × a in´ egales, multiples entiers de l’une d’entre elles a, on convient, pour conserver le r´ esultat pr´ ec´ edent, de prendre pour hauteur du rectangle de la classe num´ ero j le quotient K × n j

k j .

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 24 / 40

(25)

Exemple

En figure 4 nous donnons l’histogramme de la distribution suivante (]1, 3], 4), (]3, 4], 8), (]4, 5.5], 10), (]5.5, 6], 14), (]6, 8], 20), (]8, 10], 12), (]10, 11], 9), (]11, 12.5], 3).

0 5 10 15 20 25

2 4 6 8 10 12

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 25 / 40

(26)

Suite de l’Exemple

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

2 4 6 8 10 12

Figure – Histogramme et polygone des fr´ equences

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 26 / 40

(27)

D´ efinition

Le polygone des effectifs ou des fr´ equences d’une distribution est obtenu en joignant dans l’histogramme de cette distribution les milieux des cˆ ot´ es horizontaux sup´ erieurs.

Retour ` a l’Exemple.

La figure 5 superpose l’histogramme des fr´ equences de l’exemple pr´ ec´ edent

et son polygone des fr´ equences.

(28)

D´ efinition

Le polygone des fr´ equences cumul´ ees d’une distribution statistique group´ ee est la repr´ esentation graphique de la fonction d´ efinie par

f (x) =

i−1

X

j=1

f j + x − a i

a i +1 − a i

f i

sur l’intervalle ]a i ; a i+1 ].

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 28 / 40

(29)

Remarque

En particulier, remarquons que nous avons

f (a i ) =

i −1

X

j =1

f j

et

f (a i+1 ) =

i

X

j =1

f j .

(30)

Retour ` a l’Exemple

Pour l’exemple pr´ ec´ edent, nous obtenons le graphique de la figure 6.

0 0.2 0.4 0.6 0.8 1

2 4 6 8 10 12

Figure – Polygone des fr´ equences cumul´ ees d’une statistique group´ ee

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 30 / 40

(31)

Sommaire

1 Introduction

2 D´ efinitions

3 Les diff´ erents caract` eres

4 Quelques repr´ esentations graphiques

5 Quelques caract´ eristiques de position

(32)

D´ efinition

Le mode est l’une des valeurs x 1 , x 2 , . . . , x p dont la fr´ equence f i est maximale.

D´ efinition

La classe modale est une classe de densit´ e, c’est-` a-dire de rapport fr´ equence/longueur, maximale.

D´ efinition

La distribution est unimodale si elle a un seul mode, si elle en a plusieurs elle est plurimodale (bimodale, trimodale, . . . ).

Remarque

Nous d´ eterminons ais´ ement les modes ` a partir des repr´ esentations graphiques.

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 32 / 40

(33)

D´ efinition

Soit m et d les parties enti` ere et d´ ecimale de (N + 1)/2. La m´ ediane, not´ ee Q 2 (x), est d´ efinie par

Q 2 (x ) = x (m) + d (x (m+1) − x (m) )

o` u x (m) signifie la m-i` eme valeur lorsque la s´ erie des valeurs est class´ ee par ordre croissant.

x (m) est aussi appel´ ee la m-i` eme statistique d’ordre.

D´ efinition

Pour tout nombre α ∈]0; 1[, soit m et d les parties enti` ere et d´ ecimale de α(N + 1). Le quantile d’ordre α, not´ e Q α (x), est d´ efini par :

Q α (x) = x (m) + d (x (m+1) − x (m) ).

(34)

D´ efinition

La moyenne d’une distribution statistique discr` ete (x i ; f i ) i=1,...,p est le nombre r´ eel µ d´ efini par

µ =

p

X

i=1

x i f i = 1 N

p

X

i=1

x i n i .

o` u N est l’effectif total de la population.

Remarque

Nous pouvons aussi la calculer directement ` a partir des donn´ ees brutes par

µ = 1

N

N

X

j=1

X j

c’est-` a-dire en calculant le rapport entre la somme de toutes les valeurs relev´ ee (avec r´ ep´ etitions ´ eventuelles) et l’effectif total de la population.

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 34 / 40

(35)

D´ efinition

Pour une statistique group´ ee (]a i ; a i +1 ], f i ) i=1,...,p la moyenne se calcule par

µ =

p

X

i =1

a i + a i+1 2 f i .

Cela revient ` a faire une hypoth` ese d’homog´ en´ eit´ e en consid´ erant les

valeurs ´ equidistribu´ ees ` a l’int´ erieur d’une classe ou, au contraire, ` a

supposer que toute la fr´ equence est concentr´ ee au centre de la classe (ce

qui revient au mˆ eme : on remplace la distribution ` a l’int´ erieur de la classe

par son barycentre).

(36)

Remarque

La moyenne de X − a est µ − a et la moyenne de λX est λµ.

Remarque

Il existe d’autres moyennes : la moyenne g´ eom´ etrique, la moyenne harmonique,

la moyenne arithm´ etico-g´ eom´ etrique, . . .

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 36 / 40

(37)

Il est ` a noter qu’il est int´ eressant de comparer les deux principaux param` etres de position que sont la m´ ediane et la moyenne arithm´ etique.

Les deux poss` edent des avantages et des inconv´ enients.

1

Pour la m´ ediane, nous avons

• Avantage :

Peu sensible aux valeurs extrˆ emes (param` etre robuste).

• Inconv´ enients :

D´ elicate ` a calculer (Rappelez-vous les diff´ erentes d´ efinitions que l’on peut rencontrer).

Ne se prˆ ete pas aux calculs alg´ ebriques.

2

Pour la moyenne arithm´ etique, nous avons

• Avantages : Facile ` a calculer.

Se prˆ ete bien aux calculs alg´ ebriques.

R´ epond au principe des moindres carr´ es.

• Inconv´ enients :

Fortement influenc´ ee par les valeurs extrˆ emes.

Mauvais indicateur pour une distribution polymodale ou fortement

asym´ etrique.

(38)

Quelques caract´ eristiques de dispersion

La variance, not´ ee σ 2 (x), est le nombre r´ eel positif d´ efini par

σ 2 (x) =

p

X

i =1

(x i − µ(x )) 2 f i .

L’´ ecart-type, not´ e σ(x ), est la racine carr´ ee de la variance. Il s’exprime dans la mˆ eme unit´ e que la moyenne.

La m´ ediane des ´ ecarts absolus ` a la m´ ediane, not´ ee MAD(x), d’une s´ erie statistique est le nombre r´ eel d´ efini par

MAD(x) = Q 2 (|x i − Q 2 (x)|) 1 6 i 6 n .

L’intervalle inter-quartile, not´ e IIQ(x), est la diff´ erence entre le troisi` eme quartile et le premier quartile.

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 38 / 40

(39)

Caract´ eristiques de forme

Le moment centr´ e d’ordre r est ´ egal ` a

µ m r (x) = P p

i=1 (x i − µ(x)) r f i .

Le coefficient d’asym´ etrie (skewness) de Fisher est la quantit´ e γ 1 (x) d´ efinie par

γ 1 (x) = µ m 3 (x)

σ 3 (x) = µ m 3 (x) ( µ m 2 (x)) 3/2 ·

Le coefficient d’asym´ etrie de Pearson est la quantit´ e β 1 (x) d´ efinie par

β 1 (x) = ( µ m 3 (x)) 2

2 (x)) 3 = ( µ m 3 (x)) 2

( µ m 2 (x)) 3 = γ 1 2 (x).

(40)

Caract´ eristiques de forme

Le coefficient d’aplatissement (kurtosis) de Fisher est la quantit´ e γ 2 (x) d´ efinie par

γ 2 (x) = µ m 4 (x) ( µ m 2 (x)) 2 − 3.

Le coefficient d’aplatissement de Pearson est la quantit´ e β 2 (x) d´ efinie par

β 2 (x) = µ m 4 (x)

( µ m 2 (x)) 2 = µ m 4 (x) σ 4 (x) ·

M. Maumy-Bertrand et M. Chion (Unistra) 2019-2020 40 / 40

Références

Documents relatifs

Construire l’histogramme des effectifs.. Calculer les

Pr´ esenter ces donn´ ees sous forme de tableau d’une distribution statistique en effectifs, fr´ equences, fr´ equences cumul´ ees (croissantes).. Calculer les

(1) Calculer en pourcentage les fr´ equences de la r´ epartition, selon la masse mesur´ ee par ces 1000 ´ el` eves, puis calculer les fr´ equences cumul´ ees croissantes et compl´

Indiquer en montrant le calcul la moyenne de cette s´erie.. Indiquer la m´ediane de cette s´erie en indiquant

Repr´ esenter la s´ erie par la courbe des fr´ equences cumul´

[r]

A l'aide de la calculatrice et en rappelant les formules utilisées, déterminer la moyenne x et l'écart type σ de la série statistique arrondis à 0,001.. Il n'est pas

Compl´etez le tableau de la question pr´ec´edente avec les fr´equences, puis les fr´equences cumul´ees ascendantes et les centres des