• Aucun résultat trouvé

Représentation numérique des données

Dans le document Statistique probabilités (Page 27-39)

Une série de données peut être résumée par quelques valeurs numériques ap-peléescaractéristiques des séries statistiques,classées en quatre grandes catégo-ries :

– les caractéristiques de tendance centrale, – les caractéristiques de dispersion, – les caractéristiques de forme, – les caractéristiques de concentration.

Caractéristiques de tendance centrale

Elles donnent une idée de l’ordre de grandeur des valeurs constituant la série ainsi que la position où semblent se concentrer les valeurs de cette série. Les principales caractéristiques de tendance centrale sont lamoyenne arithmétique, lamédiane, lamédiale, lemodeet lesquantiles.

Moyenne arithmétique Définition et calcul

Pour calculer la moyenne arithmétique, deux cas sont à distinguer selon la façon dont les données ont été recueillies.

Cas 1 :ndonnées non réparties en classes : x5 1

n n

i51

xi

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

Cas 2 :ndonnées réparties enkclasses, la classe i étant d’effectif absoluni

et d’effectif relatiffi:

x5 1

Changement d’origine et changement d’échelle

On pose pour toutes les données,yi 5axi 1b, a et b étant des constantes ; on obtient :

y5ax1b Propriétés

– La moyenne arithmétique permet de résumer par un seul nombre la série statistique.

– Elle prend en compte toutes les valeurs de la série et elle est facile à calculer.

– Elle est sensible aux valeurs extrêmes, il est parfois nécessaire de supprimer des valeurs extrêmes ou « aberrantes ».

La quantitéei5xi−xestl’écartde la valeurxià la moyenne arithmétique.

La moyenne arithmétique des écarts eiest nulle.

MédianeMe

Définition et calcul

La médiane est plutôt une moyenne de position.

La médiane est la valeur, observée ou possible, dans la série des données classées par ordre croissant (ou décroissant) qui partage cette série en deux parties comprenant exactement le même nombre de données de part et d’autre de Me.

Comme pour la moyenne arithmétique, on distingue deux cas.

Cas 1 :ndonnées non réparties en classes :

– pour une série ayant un nombre impair de données, la médiane est une valeur observée de la série ;

– pour une série ayant un nombre pair de données, on peut prendre pour valeur médiane, indifféremment l’une ou l’autre des valeurs centrales ou n’importe quelle valeur intermédiaire entre ces deux valeurs, par exemple, la moyenne arithmétique de ces deux valeurs, mais, dans ces conditions, ce n’est pas une valeur observée.

cDunodLaphotocopienonautoriséeestundélit

A

STATISTIQUEDESCRIPTIVE

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

Cas 2 :ndonnées réparties enkclasses. La médiane est obtenue :

– soit par interpolation linéaire à l’intérieur de la classe centrale, si le nombre de classes est impair,

– soit en prenant la moyenne des deux classes « centrales », si le nombre de classes est pair.

Pour faire ce calcul, on suppose implicitement quela distribution est uniforme à l’intérieur de chaque classe.

Propriétés

– Le calcul de la médiane est rapide.

– La médiane n’est pas influencée par les valeurs extrêmes ou aberrantes.

– La médiane est influencée par le nombre des données mais non par leurs valeurs, elle ne peut donc pas être utilisée en théorie de l’estimation.

– Si la variable statistique est discrète, la médiane peut ne pas exister ; elle correspond seulement à une valeur possible de cette variable.

– La médiane est le point d’intersection des courbes cumulatives croissante et décroissante.

– La médiane ne se prête pas aux combinaisons algébriques ; la médiane d’une série globale ne peut pas être déduite des médianes des séries composantes.

Exemple 1.9 Dispersion d’un lot de 400 résistances (suite) Calcul de la moyenne arithmétique :

x5 1

400 (933101953151973401· · ·1111310)5101,90 La moyenne arithmétique est égale à 101,90 kV.

Médiane : la série des observations comporte un nombre pair de classes. On peut définir une classe médiane comme la moyenne des classes V et VI, c’est-à-dire la classe fictive [101,103[ donc une résistance égale à 102 kV.

Un calcul plus précis consiste à chercher la valeur de la résistance de l’indi-vidu occupant le rang 200 (ou 200,5 !). Ne connaissant pas la distribution à l’intérieur des classes, on fait une interpolation linéaire. Le tableau de l’exemple 1.8 montre que cet individu appartient à la classe V.

125 résistances ont une valeur nominale inférieure à 100 kVet 215 résistances ont une valeur nominale inférieure à 102 kVd’où le calcul de la médiane :

100123(200125)

(215125) 5101,66

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

La médiane est égale à 101,66 kV. Donc, 200 résistances ont une valeur nomi-nale inférieure ou égale à 101,66 kVet 200 résistances ont une valeur nominale supérieure à 101,66 kV.

Le point d’intersection des deux courbes cumulatives a pour abscisse la médiane.

Exemple 1.10 Étude de deux séries d’observations On considère les séries d’observations suivantes.

Série I : 5 observations classées par ordre croissant, 2, 5, 8, 11, 14 Moyenne arithmétique 8, médiane 8

Série II : 6 observations classées par ordre croissant, 6, 6, 14, 16, 18, 18 Moyenne arithmétique 13, médiane 15

Série III : les deux séries précédentes réunies, 2, 5, 6, 6, 8, 11, 14, 14, 16, 18, 18 Moyenne arithmétique 10,72, médiane 11

Mode ou valeur dominanteM0

Le mode est une moyenne de fréquence.

Définition

Le mode est la valeur de la variable statistique la plus fréquente que l’on observe dans une série d’observations.

Si la variable est une variable discrète, le mode s’obtient facilement. Si la va-riable est une vava-riable continue, on définit une classe modale.

Propriétés

– Le mode n’existe pas toujours et quand il existe, il n’est pas toujours unique.

– Si après regroupement des données en classes, on trouve deux ou plu-sieurs modes différents, on doit considérer que l’on est en présence de deux ou plusieurs populations distinctes ayant chacune leurs caractéris-tiques propres ; dans ce cas, la moyenne arithmétique n’est pas une caracté-ristique de tendance centrale.

Exemple 1.11 Dispersion d’un lot de 400 résistances (suite) On ne peut pas définir une valeur modale en ne connaissant pas la distribution à l’intérieur de chaque classe.

On définit une classe modale, c’est la classe V.

cDunodLaphotocopienonautoriséeestundélit

A

STATISTIQUEDESCRIPTIVE

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

Exemple 1.12 Suite de l’exemple 1.10 Série I : pas de mode.

Série II : deux modes 6 et 18.

Série III : les deux séries réunies, trois modes 6, 14 et 18.

Médiale

La médiale est la valeur centrale qui partage en deux parties égales la masse de la variable.

Par exemple, la médiale partage un ensemble d’employés d’une entreprise en deux groupes tels que la somme totale des salaires perçus par le premier groupe soit égale à la somme totale des salaires perçus par le second groupe.

On vérifie facilement que :

médialemédiane

Remarque

Pour définir n’importe quelle caractéristique (excepté la moyenne arithmétique), il faut que les données soient classées en ordre croissant (ou décroissant). Pour le calcul de la médiane, on peut trouver un résultat différent selon que les données sont classées par ordre croissant ou décroissant.

Quantiles

Cette notion est très utilisée dans les sciences humaines.

Définition

Les quantiles sont des caractéristiques de position partageant la série statistique ordonnée en k parties égales.

Pourk 54, les quantiles, appelésquartiles, sont trois nombres Q1, Q2, Q3 tels que :

– 25 % des valeurs prises par la série sont inférieures à Q1, – 25 % des valeurs prises par la série sont supérieures à Q3, – Q2est la médianeMe,

– Q3Q1est l’intervalle interquartile, il contient 50 % des valeurs de la série.

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

Pourk 5 10, les quantiles sont appelésdéciles,il y a neuf déciles D1, D2...

10 % des valeurs de la série sont inférieures à D1...

Pourk 5 100, les quantiles sont appeléscentiles,il y a 99 centiles, chacun correspondant à 1 % de la population.

Application

Le diagramme enboîte à moustachesou box-plot (Tukey) permet de repré-senter schématiquement les principales caractéristiques d’une distribution en utilisant les quartiles.

La partie centrale de la distribution est représentée par une boîte de largeur arbitraire et de longueur la distance interquartile, la médiane est tracée à l’in-térieur. La boîte rectangle est complétée par des moustaches correspondant aux valeurs suivantes :

– valeur supérieure : Q311,5(Q3Q1) – valeur inférieure : Q11,5(Q3Q1)

Les valeurs extérieures « aux moustaches » sont représentées par des étoiles et peuvent être considérées comme aberrantes.

** *

Q1 Me Q3

Figure 1.4 – Exemple de boîte à moustaches (les astérisques * représentent les valeurs aberrantes de la distribution).

Caractéristiques de dispersion

Ces caractéristiques quantifient les fluctuations des valeurs observées autour de la valeur centrale et permettent d’apprécier l’étalement de la série. Les prin-cipales sont : l’écart-typeou son carré appelévariance, lecoefficient de variation et l’étendue.

Variance et écart-type Définition et calcul

Lavariance d’un échantillon, notée s2, est appelée aussi écart quadratique moyenouvariance empirique. La racine carrée de la variance est appelée écart-type.

cDunodLaphotocopienonautoriséeestundélit

A

STATISTIQUEDESCRIPTIVE

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

C’estla moyenne de la somme des carrés des écarts par rapport à la moyenne arithmétique.

La moyenne arithmétiquexet l’écart-typess’expriment avec la même unité que les valeurs observéesxi.

Cas 1 :ndonnées non réparties en classes : eq25s2 5 1

n n i51

(xi −x)2

Formule simplifiée ne faisant apparaître que les données (facile à démontrer) : s2 51

n n

i51

xi2−x2

La variance est donc égale à la moyenne des carrés moins le carré de la moyenne.

Cas 2 :ndonnées réparties enkclasses, la classeiétant d’effectif absoluni. Dans ces conditions, on obtient :

e2q5s2 51 Changement d’origine et d’échelle

On pose, pour toutes les données,Y 5aX 1b, a et b étant des constantes, on obtient :

s2aX1b5a2sX2

Un changement d’origine n’a donc aucune influence sur le résultat.

Propriétés

– L’écart-typescaractérise la dispersion d’une série de valeurs. Plussest petit, plus les données sont regroupées autour de la moyenne arithmétiquexet plus la population est homogène ; cependant avant de conclure, il faut faire attention à l’ordre de grandeur des données.

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

– L’écart-type permet de trouver le pourcentage de la population appartenant à un intervalle centré sur l’espérance mathématique.

– La variance tient compte de toutes les données, c’estla meilleure caractéris-tique de dispersion(nombreuses applications en statistique).

Exemple 1.13 Séries d’observations de l’exemple 1.10 Série I

Variance :s251 5

2215218211121142(8)2518 Écart-type :s54,24

Série II

Variance :s2526,33 Écart-type :s55,13

Série III(les deux séries réunies) Variance :s2528,74

Écart-type :s55,36 Coefficient de variation Définition

Il s’exprime, sous la forme d’un pourcentage, par l’expression suivante : CV 5 s

x 3100 Propriétés

– Le coefficient de variation ne dépend pas des unités choisies.

– Il permet d’apprécier la représentativité de la moyenne arithmétiquexpar rapport à l’ensemble des données.

– Il permet d’apprécier l’homogénéité de la distribution, une valeur du coef-ficient de variation inférieure à 15 % traduit une bonne homogénéité de la distribution.

– Il permet de comparer deux distributions, même si les données ne sont pas exprimées avec la même unité ou si les moyennes arithmétiques des deux séries sont très différentes.

– Quelques exemples de coefficient de variation : le coefficient de variation du régime nival est voisin de 0,1 ; celui d’un cours d’eau régulier de 0,3 mais il peut atteindre 0,5 et même 1 pour un cours d’eau irrégulier.

cDunodLaphotocopienonautoriséeestundélit

A

STATISTIQUEDESCRIPTIVE

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

Étendue Définition

L’étendue est la quantité :

E5xmax−xmin

Propriétés

– L’étendue est facile à calculer.

– Elle ne tient compte que des valeurs extrêmes de la série ; elle ne dépend ni du nombre, ni des valeurs intermédiaires ; elle est très peu utilisée dès que le nombre de données dépasse 10.

– Elle est utilisée en contrôle industriel où le nombre de pièces prélevées dé-passe rarement 4 ou 5 ; elle donne une idée appréciable de la dispersion.

Cependant, dès que cela est possible, on préfère prélever 15 à 20 unités et utiliser l’écart-type pour apprécier la dispersion.

Caractéristiques de forme Distribution symétrique

Une distribution est symétrique si les valeurs de la variable statistique sont également distribuées de part et d’autre d’une valeur centrale. Pour une distri-bution symétrique :

mode5médiane5moyenne arithmétique Coefficient d’asymétrie ou de dissymétrie ouskewness

g15m3

s3m351 n

n i51

(xi−x)3 Coefficient d’aplatissement oukurtosis

g25m4

s4m451 n

n i51

(xi−x)4

Ces deux coefficients sont principalement utilisés pour vérifier qu’une distri-bution est proche d’une distridistri-bution normale (loi de Laplace-Gauss) ; en effet, pour une telle loi, le coefficient d’aplatissement est égal à 3 et le coefficient

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

d’asymétrie à 0 (chapitre 6, paragraphe 6.6.2). Selon la valeur de ces coeffi-cients, on peut donner quelques caractéristiques sur la forme de la distribu-tion :

– sig1>0, la distribution est étalée vers la droite, – sig1<0, la distribution est étalée vers la gauche,

– sig150, on ne peut pas conclure que la distribution est symétrique mais la réciproque est vraie,

– sig2>3, la distribution est moins aplatie qu’une distribution gaussienne, – sig2<3, la distribution est plus aplatie qu’une distribution gaussienne.

Caractéristiques de concentration

Ces caractéristiques sont utilisées pour une grandeur positive cumulative telle que le revenu, la consommation...

Courbe de concentration

Soit une distribution de consommationX de masse totaleM. À chaque valeur xide la variableX, on associe le point qui a :

– pour abscisseF(xi)5Proportion des individus consommant moins dexi

– pour ordonnéeG(xi)5Masse des consommations<xi

Masse totale

Pour une distribution non uniforme, cette courbe est toujours en dessous de la première bissectrice ; en effet, F(xi) est la proportion des individus consommant moins dexi; ils ne peuvent pas globalement consommer autant que les 100F(xi) % suivants doncG(xi)<F(xi).

La courbe de concentration traduit le pourcentage des individus consommant moins dexi à la contribution de ces individus à la moyennex de la masse totale.

Indice de concentration ou indice de Gini1

Plus la distribution deX est inégalement répartie, plus la courbe de concen-tration s’éloigne de la première bissectrice, la première bissectrice traduisant l’équirépartition.

1. Économiste italien né en 1884.

cDunodLaphotocopienonautoriséeestundélit

A

STATISTIQUEDESCRIPTIVE

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

Un indice proposé par Gini est le suivant (figure 1.5) : G5aire ODBCaire ODBA

L’indice de Gini est égal au double de l’aire comprise entre la courbe de concentration et la première bissectrice.

01

G/2

O A C B

D

Figure 1.5 – Courbe de concentration et indice de Gini.

Cet indice est donné par l’intégrale double oùf est la densité de la loi de la variableXetmson espérance mathématique :

G5 1 2m

1

−∞

1

−∞ |x−y|f(x)f(y) dxdy Pour un échantillon de taillen, on obtient :

G5 1

n(n1)x n i51

n j5i11

xi−xj

Exemple 1.14 Étude de la répartition du revenu annuel

On considère la répartition par tranches de revenus annuels des contribuables sou-mis à l’impôt sur le revenu (rôles ésou-mis en 1966 au titre des revenus de 1965).

Le fait que la dernière classe soit ouverte n’entraîne pas d’inconvénients pour les représentations graphiques et les calculs car l’effectif de cette classe représente en-viron 1 % de l’effectif total (0,009 9).

1Représentation graphique et numérique des données

1.2 Séries numériques à une dimension

Tableau 1.10 – Répartition du revenu annuel.

Classes de revenus 700 000 et plus

549,3

Pour calculer la moyenne arithmétique, on donne une valeur moyenne à cette dernière classe, 775 000 F par exemple.

– La moyenne arithmétique est alors égale à 142 225 F, l’écart-type à 114 640 F.

Le coefficient de variation est égal à 0,80.

– La médiane est égale à 110 742 F, elle est représentée par le contribuable qui a pour numéro n4 115,4 31 000, le nombre d’observations présentant une valeur inférieure à la médiane est égal au nombre d’observations présentant une valeur supérieure à la médiane.

– Le mode est approximativement égal à 62 500 F.

La distribution est étalée vers la droite :

mode<médiane<moyenne arithmétique

– Le premier quartile est représenté par le contribuable n2057,7331 000 qui a pour revenu 74 433,50 F.

– Le troisième quartile est représenté par le contribuable n6173,131 000 qui a pour revenu 164 536,24 F.

– Pour définir la courbe de concentration, on a divisé, afin de simplifier les calculs, les revenus par 25 000.

AbscissesFi: fréquences cumulées croissantes

OrdonnéesGi: (masse des revenus des contribuablesx)/masse totale des revenus) La masse totale des revenus est égale à 46 824,20 F (ou 46 824,2325 000).

cDunodLaphotocopienonautoriséeestundélit

A

STATISTIQUEDESCRIPTIVE

1Représentation graphique et numérique des données

Dans le document Statistique probabilités (Page 27-39)

Documents relatifs