• Aucun résultat trouvé

Notions fondamentales en statistique

N/A
N/A
Protected

Academic year: 2022

Partager "Notions fondamentales en statistique"

Copied!
61
0
0

Texte intégral

(1)

Notions fondamentales en statistique

Fr´ed´eric Bertrand et Myriam Maumy-Bertrand

IRMA, UMR 7501, Universit´e de Strasbourg

16 septembre 2014

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 1 / 61

(2)

Sommaire

1 Introduction

2 D´ efinitions fondamentales

3 Les deux types de caract` eres

4 Les diff´ erentes distributions statistiques

5 Quelques repr´ esentations graphiques

6 Quelques caract´ eristiques de position

7 Quelques caract´ eristiques de dispersion

8 Caract´ eristiques de forme

9 Boˆıte de distribution ou diagramme de Tukey

(3)

Les deux branches de la statistique

Population U Individus

ÉchantillonS

Statistique descriptive : d´ eterminer les caract´ eristiques d’une population.

Statistique inf´ erentielle : extrapoler les r´ esultats num´ eriques obtenus sur un ´ echantillon ` a la population.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 3 / 61

(4)

Objectif de la statistique descriptive

L’objectif de la statistique descriptive est de pr´ esenter et de d´ ecrire, c’est-` a-dire de r´ esumer num´ eriquement et/ou de repr´ esenter

graphiquement, les donn´ ees disponibles quand elles sont nombreuses ou les donn´ ees provenant d’un recensement.

Que trouvons-nous dans la statistique descriptive ? Le concept de population,

le concept de r´ esum´ es num´ eriques, avec les trois sortes de caract´ eristiques :

1

position,

2

dispersion,

3

forme.

le concept de repr´ esentations graphiques, comme par exemple la

boˆıte ` a moustaches ou l’histogramme.

(5)

Sommaire

1 Introduction

2 D´ efinitions fondamentales

3 Les deux types de caract` eres

4 Les diff´ erentes distributions statistiques

5 Quelques repr´ esentations graphiques

6 Quelques caract´ eristiques de position

7 Quelques caract´ eristiques de dispersion

8 Caract´ eristiques de forme

9 Boˆıte de distribution ou diagramme de Tukey

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 5 / 61

(6)

D´ efinition

L’ensemble sur lequel porte l’activit´ e statistique s’appelle la population.

Elle est g´ en´ eralement not´ ee Ω, pour rappeler la notation des probabilit´ es ou U , U comme Univers, notation souvent utilis´ ee dans la th´ eorie des sondages.

Le cardinal d’une population est en g´ en´ eral not´ e N.

D´ efinition

Les ´ el´ ements de la population sont appel´ es les individus ou les unit´ es

statistiques.

(7)

Remarque

Les individus d’une population peuvent ˆ etre de natures tr` es diverses.

Exemples

Ensemble de personnes, mois d’une ann´ ee, pi` eces produites par une usine, r´ esultats d’exp´ eriences r´ ep´ et´ ees un certain nombre de fois. . .

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 7 / 61

(8)

D´ efinition

Les caract´ eristiques ´ etudi´ ees sur les individus d’une population sont appel´ ees les caract` eres.

Un caract` ere est donc une application χ d’un ensemble fini Ω (la

population) dans un ensemble C (l’ensemble des valeurs du caract` ere), qui associe ` a chaque individu ω de Ω la valeur χ(ω) que prend ce caract` ere sur l’individu ω.

D´ efinition

La suite des valeurs χ(ω) prises par χ s’appelle les donn´ ees brutes. C’est

une suite finie de valeurs (X 1 , X 2 , . . . , X N ) de l’ensemble C .

(9)

Sommaire

1 Introduction

2 D´ efinitions fondamentales

3 Les deux types de caract` eres

4 Les diff´ erentes distributions statistiques

5 Quelques repr´ esentations graphiques

6 Quelques caract´ eristiques de position

7 Quelques caract´ eristiques de dispersion

8 Caract´ eristiques de forme

9 Boˆıte de distribution ou diagramme de Tukey

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 9 / 61

(10)

Il existe deux types de caract` eres :

1

les caract` eres qualitatifs : les modalit´ es ne sont pas mesurables et peuvent ˆ etre d´ ecrites par un mot, un groupe de mots ou une phrase.

Ils peuvent ˆ etre de nature ordinale ou nominale,

2

les caract` eres quantitatifs : leur d´ etermination produit un nombre ou une suite de nombres. Nous distinguons :

Les caract` eres discrets. Ils ne peuvent prendre que certaines valeurs particuli` eres.

Les caract` eres continus. Ils peuvent prendre des valeurs r´ eelles quelconques. Si nous prenons deux valeurs quelconques du caract` ere aussi rapproch´ ees soient-elles, il existe toujours une infinit´ e de valeurs comprises entre elles.

Puis nous distinguons ´ egalement :

Les caract` eres simples. Leur mesure sur un individu produit un seul

nombre. L’ensemble de leurs valeurs est donc R ou une partie de R .

Les caract` eres multiples. Leur mesure sur un individu produit une suite

finie de nombres. L’ensemble de leurs valeurs est donc R n ou une partie

de R n .

(11)

Caract` eres qualitatifs nominaux

Profession, adresse, situation de famille, genre . . . Caract` eres qualitatifs ordinaux

D´ epartements, . . .

Caract` eres quantitatifs simples Taille, poids, salaire, temp´ erature...

Caract` eres quantitatifs multiples

Relev´ e de notes d’un(e) ´ etudiant(e), fiche de salaire,...

Remarque

Les caract` eres qualitatifs peuvent toujours ˆ etre transform´ es en caract` eres quantitatifs par codage. C’est ce qui se fait le plus g´ en´ eralement. Mais un tel codage est purement conventionnel et n’a pas vraiment un sens quantitatif. Par exemple, nous ne pourrons pas calculer le genre moyen.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 11 / 61

(12)

Remarque

Si X est un caract` ere quantitatif simple l’ensemble

X (Ω) = {X 1 , X 2 , . . . , X N } des valeurs atteintes par le caract` ere (ou donn´ ees brutes) est un ensemble fini {x 1 , . . . , x n }. Nous supposerons que ces valeurs sont ordonn´ ees :

x 1 < x 2 < . . . < x n .

Le fait que telle valeur soit relative ` a tel individu est un renseignement qui

n’int´ eresse pas le statisticien. Seul l’ensemble des valeurs atteintes et le

nombre de fois que chacune d’elle est atteinte sont utiles.

(13)

Sommaire

1 Introduction

2 D´ efinitions fondamentales

3 Les deux types de caract` eres

4 Les diff´ erentes distributions statistiques

5 Quelques repr´ esentations graphiques

6 Quelques caract´ eristiques de position

7 Quelques caract´ eristiques de dispersion

8 Caract´ eristiques de forme

9 Boˆıte de distribution ou diagramme de Tukey

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 13 / 61

(14)

D´ efinition Nous appelons

effectif de la valeur x i : le nombre n i de fois que la valeur x i est prise, c’est-` a-dire le cardinal de l’ensemble X −1 (x i ) ;

effectif cumul´ e en x i : la somme

i

X

j =1

n j ;

fr´ equence de la valeur x i : le rapport f i = n i

N de l’effectif de x i ` a l’effectif total N de la population, c’est-` a-dire le cardinal de Ω ou encore la somme des n i ;

fr´ equence cumul´ ee en x i : la somme

i

X

j =1

f j .

(15)

Remarque

Lorsque le nombre des valeurs atteintes est important, nous pr´ ef´ erons regrouper les valeurs en classes pour rendre la statistique plus lisible.

Nous partageons alors l’ensemble C des valeurs du caract` ere en classes ]a i ; a i+1 ] avec a i < a i+1 .

Nous parlons alors de statistique group´ ee ou continue.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 15 / 61

(16)

D´ efinition Nous appelons

effectif de ]a i ; a i+1 ] : le nombre n i de valeurs prises dans ]a i ; a i+1 ], c’est-` a-dire X −1 (]a i ; a i+1 ]) ;

effectif cumul´ e en a i : le nombre de valeurs prises dans ] − ∞; a i ] ; fr´ equence de ]a i ; a i +1 ] : le rapport f i = n i

N ; fr´ equence cumul´ ee en a i : la somme

i

X

j=1

f j .

(17)

D´ efinition

La famille (x i ; n i ) i=1,...,n ou (x i ; f i ) i=1,...,n est encore appel´ ee distribution statistique discr` ete.

D´ efinition

De mˆ eme, la famille (]a i , a i+1 ], n i ) i=1,...,n ou (]a i , a i+1 ], f i ) i =1,...,n est encore appel´ ee distribution statistique group´ ee ou continue.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 17 / 61

(18)

Sommaire

1 Introduction

2 D´ efinitions fondamentales

3 Les deux types de caract` eres

4 Les diff´ erentes distributions statistiques

5 Quelques repr´ esentations graphiques

6 Quelques caract´ eristiques de position

7 Quelques caract´ eristiques de dispersion

8 Caract´ eristiques de forme

9 Boˆıte de distribution ou diagramme de Tukey

(19)

D´ efinition

Le diagramme en bˆ atons d’une distribution statistique discr` ete est constitu´ e d’une suite de segments verticaux d’abscisses x i dont la longueur est proportionnelle ` a l’effectif ou la fr´ equence de x i .

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 19 / 61

(20)

Exemple La distribution

(1, 1), (2, 3), (3, 4), (4, 2), (5, 5), (6, 6), (7, 2), (8, 3), (9, 1), (10, 1) est repr´ esent´ ee par le diagramme en bˆ atons de la figure ci-dessous.

0 1 2 3 4 5 6

2 4 6 8 10

Figure : Diagramme en bˆ atons

(21)

D´ efinition

Le polygone des effectifs (respectivement des fr´ equences) est obtenu ` a partir du diagramme en bˆ atons des effectifs (respectivement des

fr´ equences) en joignant par un segment les sommets des bˆ atons.

Remarque

Le graphique de la figure suivante superpose le polygone des effectifs et le diagramme en bˆ atons des effectifs de l’exemple pr´ ec´ edent.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 21 / 61

(22)

Suite de l’exemple

0 0.05 0.1 0.15 0.2

2 4 6 8 10

Figure : Diagramme en bˆ atons et

polygone des fr´ equences

(23)

D´ efinition

En rempla¸cant les effectifs (respectivement les fr´ equences) par les effectifs cumul´ es (respectivement les fr´ equences cumul´ ess) nous obtenons le diagramme en bˆ atons et le polygone des effectifs cumul´ es (respectivement des fr´ equences cumul´ ees).

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 23 / 61

(24)

Suite de l’exemple

0 5 10 15 20 25

2 4 6 8 10

Figure : Diagramme en bˆ atons et polygone des effectifs cumul´ es

(25)

D´ efinition

Nous appelons histogramme la repr´ esentation graphique d’un caract` ere quantitatif continu.

Dans le cas o` u les amplitudes des classes sont ´ egales, cet histogramme est constitu´ e d’un ensemble de rectangles dont la largeur est ´ egale ` a a, l’amplitude de la classe, et la hauteur ´ egale ` a K × n j o` u n j est l’effectif de la classe et K est un coefficient arbitraire (choix d’une ´ echelle), de sorte que l’aire totale sous l’histogramme est ´ egale ` a K × N × a o` u N est l’effectif total.

Dans le cas o` u les classes sont d’amplitudes k j × a in´ egales, multiples entiers de l’une d’entre elles a, nous convenons, pour conserver le r´ esultat pr´ ec´ edent, de prendre pour hauteur du rectangle de la classe num´ ero j le quotient K × n j

k j .

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 25 / 61

(26)

Exemple

Nous donnons l’histogramme de la distribution suivante :

(]1; 3], 4), (]3; 4], 8), (]4; 5, 5], 10), (]5, 5; 6], 14), (]6; 8], 20), (]8; 10], 12), (]10; 11], 9), (]11; 12, 5], 3).

0 5 10 15 20 25

2 4 6 8 10 12

Figure : Histogramme

(27)

D´ efinition

Le polygone des effectifs ou des fr´ equences d’une distribution

statistique est obtenu en joignant dans l’histogramme de cette distribution les milieux des cˆ ot´ es horizontaux sup´ erieurs.

Suite de l’Exemple

La figure suivante superpose l’histogramme des fr´ equences de l’exemple pr´ ec´ edent et le polygone des fr´ equences associ´ e.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 27 / 61

(28)

Suite de l’Exemple

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

2 4 6 8 10 12

Figure : Histogramme et polygone

des fr´ equences

(29)

D´ efinition

Le polygone des fr´ equences cumul´ ees d’une distribution statistique group´ ee est la repr´ esentation graphique de la fonction d´ efinie par :

f (x) =

i−1

X

j=1

f j + x − a i

a i +1 − a i f i

sur l’intervalle ]a i ; a i+1 ].

Remarque

En particulier, remarquons que f (a i ) =

i−1

X

j=1

f j et f (a i+1 ) =

i

X

j =1

f j .

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 29 / 61

(30)

Suite de l’Exemple

Pour l’exemple pr´ ec´ edent, nous obtenons la figure ci-dessous.

0 0.2 0.4 0.6 0.8 1

2 4 6 8 10 12

Figure : Polygone des fr´ equences cumul´ ees d’une distribution statistique group´ ee

(31)

Sommaire

1 Introduction

2 D´ efinitions fondamentales

3 Les deux types de caract` eres

4 Les diff´ erentes distributions statistiques

5 Quelques repr´ esentations graphiques

6 Quelques caract´ eristiques de position

7 Quelques caract´ eristiques de dispersion

8 Caract´ eristiques de forme

9 Boˆıte de distribution ou diagramme de Tukey

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 31 / 61

(32)

D´ efinition

Le mode est l’une des valeurs x 1 , x 2 , . . . , x p dont la fr´ equence f i est maximale.

D´ efinition

La classe modale est une classe de densit´ e, c’est-` a-dire de rapport fr´ equence/longueur, maximale.

D´ efinition

La distribution est unimodale si elle a un seul mode. Si elle en a plusieurs elle est plurimodale (bimodale, trimodale, . . . ).

Remarque

Nous d´ eterminons ais´ ement les modes ` a partir des repr´ esentations

graphiques.

(33)

D´ efinition

Soit m et d les parties enti` ere et d´ ecimale de (N + 1)/2. La m´ ediane, not´ ee Q 2 (x), est d´ efinie par :

Q 2 (x ) = x (m) + d (x (m+1) − x (m) )

o` u x (m) signifie la m-i` eme valeur lorsque la s´ erie des valeurs est class´ ee par ordre croissant.

x (m) est aussi appel´ ee la m-i` eme statistique d’ordre.

D´ efinition

Pour tout nombre α ∈]0; 1[, soit m et d les parties enti` ere et d´ ecimale de α(N + 1). Le quantile d’ordre α, not´ e Q α (x), est d´ efini par :

Q α (x) = x (m) + d (x (m+1) − x (m) ).

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 33 / 61

(34)

D´ efinition

La moyenne arithm´ etique d’une distribution statistique discr` ete (x i ; f i ) i=1,...,p est le nombre r´ eel µ d´ efini par :

µ(x) =

p

X

i=1

x i f i = 1 N

p

X

i=1

x i n i ,

o` u N est l’effectif total de la population.

Remarque

Nous pouvons aussi la calculer directement ` a partir des donn´ ees brutes par

µ = 1

N

N

X

j=1

X j

c’est-` a-dire en calculant le rapport entre la somme de toutes les valeurs

relev´ ee (avec r´ ep´ etitions ´ eventuelles) et l’effectif total de la population.

(35)

D´ efinition

Pour une distribution statistique group´ ee (]a i ; a i+1 ], f i ) i=1,...,p la moyenne arithm´ etique se calcule par :

µ =

p

X

i =1

a i + a i+1

2 f i .

Remarque

Cela revient ` a faire une hypoth` ese d’homog´ en´ eit´ e en consid´ erant les valeurs ´ equidistribu´ ees ` a l’int´ erieur d’une classe ou, au contraire, ` a supposer que toute la fr´ equence est concentr´ ee au centre de la classe (ce qui revient au mˆ eme : nous rempla¸ cons la distribution ` a l’int´ erieur de la classe par son isobarycentre).

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 35 / 61

(36)

Remarque

Il existe d’autres moyennes :

la moyenne arithm´ etique pond´ er´ ee, la moyenne g´ eom´ etrique,

la moyenne quadratique, la moyenne harmonique,

la moyenne arithm´ etico-g´ eom´ etrique,

. . .

(37)

Remarque

Comparons les deux principales caract´ eristiques de position : la m´ ediane et la moyenne arithm´ etique.

1

Pour la m´ ediane,

• Avantage :

Peu sensible aux valeurs extrˆ emes (caract´ eristique robuste).

• Inconv´ enients :

D´ elicate ` a calculer (diff´ erentes d´ efinitions).

Ne se prˆ ete pas aux calculs alg´ ebriques.

2

Pour la moyenne arithm´ etique,

• Avantages : Facile ` a calculer.

Se prˆ ete bien aux calculs alg´ ebriques.

R´ epond au principe des moindres carr´ es.

• Inconv´ enients :

Fortement influenc´ ee par les valeurs extrˆ emes.

Mauvais indicateur pour une distribution polymodale ou fortement asym´ etrique.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 37 / 61

(38)

Exemple

Tableau - Nombre d’heures travaill´ ees par semaine des personnes ayant un emploi ` a plein temps (2006).

Pays Dur´ ee (heures) Allemagne 41, 7

Autriche 44, 1

Belgique 41, 0

Chypre 41, 8

Danemark 40, 5

Espagne 42, 2

Estonie 41, 5

Finlande 40, 5

(39)

Exemple (suite)

Pays Dur´ ee (heures)

France 41, 0

Gr` ece 44, 1

Hongrie 41, 0

Irlande 40, 7

Italie 41, 3

Lettonie 43, 0

Lituanie 39, 8

Luxembourg 40, 9

Malte 41, 2

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 39 / 61

(40)

Exemple (suite)

Pays Dur´ ee (heures)

Pays-Bas 40, 8

Pologne 42, 9

Portugal 41, 6

R´ epublique Tch` eque 42, 7

Royaume-Uni 43, 1

Slovaquie 41, 6

Slov´ enie 42, 5

Su` ede 41, 1

Source : Eurostat.

(41)

Figure : Carte des dur´ ees de travail

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 41 / 61

(42)

Exercice : c’est ` a vous Calculer sur cet exemple

le mode,

la m´ ediane,

le premier quartile,

le troisi` eme quartile et

la moyenne arithm´ etique.

(43)

Solutions

Statistiques descriptives :

N Mode M´ ediane Q1 Q3 Moyenne

25 41,000 41,500 40,950 42,600 41,704

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 43 / 61

(44)

Sommaire

1 Introduction

2 D´ efinitions fondamentales

3 Les deux types de caract` eres

4 Les diff´ erentes distributions statistiques

5 Quelques repr´ esentations graphiques

6 Quelques caract´ eristiques de position

7 Quelques caract´ eristiques de dispersion

8 Caract´ eristiques de forme

9 Boˆıte de distribution ou diagramme de Tukey

(45)

D´ efinition

L’´ etendue est la diff´ erence entre le maximum et le minimum.

D´ efinition

L’´ etendue inter-quartile, not´ e EIQ (x), est la diff´ erence entre le troisi` eme quartile et le premier quartile.

D´ efinition

La variance, not´ ee σ 2 (x), est le nombre r´ eel positif d´ efini par :

σ 2 (x) =

p

X

i=1

(x i − µ(x)) 2 f i .

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 45 / 61

(46)

D´ efinition

L’´ ecart-type, not´ e σ(x), est la racine carr´ ee de la variance. Il s’exprime dans la mˆ eme unit´ e que la moyenne.

D´ efinition

La m´ ediane des ´ ecarts absolus ` a la m´ ediane, not´ ee MAD(x), d’une s´ erie statistique est le nombre r´ eel d´ efini par :

MAD(x) = Q 2 (|x i − Q 2 (x)|) 16i6n

.

(47)

Exercice : c’est ` a vous

Calculer sur l’exemple d’Eurostat l’´ etendue,

l’intervalle inter-quartile, l’´ etendue inter-quartile, la variance et

l’´ ecart-type.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 47 / 61

(48)

Solutions

Statistiques descriptives :

Etendue IIQ EIQ Variance

4,300 [40,950;42,600] 1,650 1,240 EcTyp

1,113

(49)

Sommaire

1 Introduction

2 D´ efinitions fondamentales

3 Les deux types de caract` eres

4 Les diff´ erentes distributions statistiques

5 Quelques repr´ esentations graphiques

6 Quelques caract´ eristiques de position

7 Quelques caract´ eristiques de dispersion

8 Caract´ eristiques de forme

9 Boˆıte de distribution ou diagramme de Tukey

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 49 / 61

(50)

D´ efinition

Le moment centr´ e d’ordre r est ´ egal ` a :

µ m r (x) =

p

X

i=1

(x i − µ(x)) r f i .

D´ efinition

Le coefficient d’asym´ etrie (skewness) de Fisher est la quantit´ e γ 1 (x) d´ efinie par :

γ 1 (x) = µ m 3 (x)

σ 3 (x) = µ m 3 (x) ( µ m 2 (x)) 3/2 ·

D´ efinition

Le coefficient d’asym´ etrie de Pearson est la quantit´ e β 1 (x) d´ efinie par : β 1 (x) = ( µ m 3 (x)) 2

2 (x)) 3 = ( µ m 3 (x)) 2

( µ m 2 (x)) 3 = γ 1 2 (x).

(51)

D´ efinition

Le coefficient d’aplatissement (kurtosis) de Fisher est la quantit´ e γ 2 (x) d´ efinie par :

γ 2 (x) = µ m 4 (x) ( µ m 2 (x)) 2 − 3.

D´ efinition

Le coefficient d’aplatissement de Pearson est la quantit´ e β 2 (x) d´ efinie par

β 2 (x) = µ m 4 (x)

( µ m 2 (x)) 2 = µ m 4 (x) σ 4 (x) ·

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 51 / 61

(52)

Solutions

Statistiques descriptives :

Asym´ etrie de Fisher Aplatissement de Fisher

0,71 -0,06

(53)

Sommaire

1 Introduction

2 D´ efinitions fondamentales

3 Les deux types de caract` eres

4 Les diff´ erentes distributions statistiques

5 Quelques repr´ esentations graphiques

6 Quelques caract´ eristiques de position

7 Quelques caract´ eristiques de dispersion

8 Caract´ eristiques de forme

9 Boˆıte de distribution ou diagramme de Tukey

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 53 / 61

(54)

Objectif

La boˆıte de distribution, « box-plot » en anglais, ou encore « boˆıte ` a moustaches », « boˆıte de dispersion », « diagramme de Tukey » en fran¸cais, fournit en un seul coup d’oeil les informations sur la tendance centrale, la dispersion, l’asym´ etrie et l’importance des valeurs extrˆ emes de la s´ erie de donn´ ees que nous avons ` a explorer.

Elle est aussi particuli` erement int´ eressante pour la comparaison de

distributions sur plusieurs de ces crit` eres.

(55)

Construction

Dans une boˆıte de distribution :

la boˆıte repr´ esente l’intervalle interquartile ;

`

a l’int´ erieur, la m´ ediane s´ epare la boˆıte en deux parties ;

les lignes qui partent du bord de la boˆıte s’´ etendent jusqu’aux valeurs les plus extrˆ emes qui ne sont pas consid´ er´ ees comme trop ´ eloign´ ees du reste de l’´ echantillon.

La plupart des logiciels de statistique note « valeur ´ eloign´ ee » les points situ´ es ` a plus de 1,5 fois l’´ etendue interquartile par rapport aux bords de la boˆıte, et « valeur extrˆ eme », les points situ´ es ` a plus de 3 fois l’´ etendue interquartile.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 55 / 61

(56)

Construction (suite)

Anisi, la taille de la boˆıte repr´ esente l’´ etendue interquartile, la position de la m´ ediane est un bon indicateur de la sym´ etrie de la distribution, la taille des lignes de part et d’autre de la boˆıte traduit la dispersion, et les valeurs

´

eloign´ ees ou extrˆ emes sont imm´ ediatement rep´ er´ ees.

(57)

Construction − d´ etails

Nous repr´ esentons une boˆıte de distribution de la fa¸ con suivante :

1

Nous tra¸cons un rectangle de largeur fix´ ee ` a priori et de longueur EIQ = Q 0,75 − Q 0,25 .

2

Ensuite nous y situons la m´ ediane par un segment positionn´ e ` a la valeur Q 0,5 , par rapport ` a Q 0,75 et Q 0,25 . Nous avons alors la boˆıte.

3

Nous calculons (Q 0,75 + 1, 5 × EIQ ) et nous cherchons la derni` ere observation x h en de¸ c` a de la limite (Q 0,75 + 1, 5 × EIQ ), soit

x h = max {x i /x i 6 Q 0,75 + 1, 5 × EIQ } .

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 57 / 61

(58)

Construction − d´ etails

4

Nous calculons (Q 0,25 − 1, 5 × EIQ ) et nous cherchons la premi` ere observation x b au del` a de la limite (Q 0,25 − 1, 5 × EIQ ), soit

x b = min {x i /x i > Q 0,25 − 1, 5 × EIQ} .

5

Nous tra¸cons deux lignes allant des milieux des largeurs du rectangle aux valeurs x b et x h .

6

Les observations qui ne sont pas comprises entre x b et x h sont

repr´ esent´ es par des symboles sp´ ecifiques, g´ en´ eralement des ´ etoiles.

(59)

Exemple

4041424344

Durée (heures)

Figure : Boˆıte de distribution

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 59 / 61

(60)

Interpr´ etation d’une boˆıte de distribution

Ce type de diagramme permet de comparer facilement plusieurs distributions en terme de m´ ediane, quartiles et valeurs ´ eloign´ ees ou extrˆ emes.

Interpr´ etation d’une boˆıte de distribution (suite)

Une boˆıte de distribution rend compte de la tendance centrale, de la dispersion, des valeurs ´ eloign´ ees ou extrˆ emes et de la forme de la

distribution, mˆ eme si d’autre modes de repr´ esentations peuvent apporter

un compl´ ement d’information sur la forme.

(61)

Interpr´ etation d’une boˆıte de distribution (suite)

Auparavant, nous avons mentionn´ e l’importance du triplet (N, µ, σ). La boˆıte de distribution est un compl´ ement qui se r´ ev` ele int´ eressant puisqu’elle permet de d´ etecter l’asym´ etrie, les valeurs extrˆ emes, et de rep´ erer la m´ ediane et l’intervalle interquartile qui contient la moiti´ e des observations.

Dans le cas d’une asym´ etrie, l’´ ecart-type qui mesure la dispersion sym´ etriquement par rapport ` a la moyenne n’est pas la mesure de dispersion la mieux adapt´ ee, et peut-ˆ etre compl´ et´ e par l’´ etendue

interquartile. D’autre part, si la boˆıte de distribution indique des valeurs

´

eloign´ ees ou extrˆ emes, nous savons que la moyenne et l’´ ecart-type sont particuli` erement influenc´ es par ces valeurs.

F. Bertrand et M. Maumy-Bertrand (UdS) 10 septembre 2013 61 / 61

Références

Documents relatifs

Proposer une situation, avec deux groupes de 12 personnes de moyennes d’ˆ ages 18 ans et 29 ans, o` u Max n’aurait pas du tout fait le

(c) Il existe une r´epartition Y (( id´eale )) qui reste constante au cours du temps, c’est `a dire, jour apr`es jour, la quantit´e de liquide dans a reste constante et de mˆeme pour

Dans son ouvrage, John TUKEY propose d'enrichir le résumé en 5 nombres d'une série pour fournir des précisions supplémentaires sur les queues de la série et faire apparaître des

Ainsi, la taille de la boˆıte repr´ esente l’´ etendue interquartile, la position de la m´ ediane est un bon indicateur de la sym´ etrie de la distribution, la taille des lignes

Dans les représentations graphiques de données statistiques, la boîte à moustaches (aussi appelée diagramme en boîte, boîte de Tukey ou box plot en anglais) est un moyen rapide

Dans les représentations graphiques de données statistiques, la boîte à moustaches (aussi appelée diagramme en boîte, boîte de Tukey ou box plot en anglais) est un moyen rapide

- m´ ediane, quartiles, boˆıte ` a moustaches pour chaque traitement (Lithium et Placebo) Cliquer sur le bouton Bo^ ıte ` a moustaches tous groupes (boˆıte de dialogue 4),

Il se propose de mettre autant de pilules dans chaque boˆıte utilis´ ee sans n´ ecessairement utiliser toutes les boˆıtes. Il constate que s’il n’utilise que les petites