• Aucun résultat trouvé

3.1 Graphiques et paramètres de position

N/A
N/A
Protected

Academic year: 2022

Partager "3.1 Graphiques et paramètres de position"

Copied!
8
0
0

Texte intégral

(1)

Statistiques

L’objet du chapitre est de donner des outils permettant d’exploiter de façon pertinente une série de données recueillies préalablement. L’utilisation des statistiques est présente dans beaucoup de domaines1; elles servent notamment à constater, comparer ou prévoir certaines situations.

3.1 Graphiques et paramètres de position

3.1.1 Vocabulaire

Définition 3.1

On considère une série statistique qui regroupe les résultats obtenus lors d’une étude (sondage, résultats sportifs, médicaux, . . .)

– la population est l’ensemble des individus étudiés ; il peut s’agir de personnes d’animaux, d’objets, . . . ;

– un caractère est une des caractéristiques étudiées chez les individus de la population : taille, couleur des cheveux, note à un devoir, . . . ;

– une classe oucatégorie est un groupe de la population ayant un même caractère ; – l’effectif d’une classe (ou « catégorie ») est le nombre d’éléments de la classe.

– la fréquence d’une classe est le quotient de l’effectif de la classe par l’effectif total :

fi =fréquence dexi = effectif de xi

effectif total = ni

N Exemple 3.1

On donne ci-dessous le tableau récapitulatif des niveaux de pollutions atteints au cours d’une année dans une grande ville. Calculer les fréquences :

Niveau de pollution 0 1 2 3 4

Nombre de jours 5 81 143 100 36

fréquence Remarque 3.1

La somme des fréquences vaut 1.

1Même et surtout non-mathématiques

(2)

20 Statistiques

3.1.2 Graphiques

Histogramme

Si on représente une série statistique par un histogramme, chaque classe correspond à un rec- tangle dont l’aire est proportionnelle à l’effectif de la classe, et la largeur est proportionnelle à l’amplitude de la classe. On l’utilise pour représenter une série dont le caractère est quantitatif.

Exemple 3.2

Le tableau suivant donne l’effectif des entreprises d’une zone industrielle suivant le nombre d’employés :

Nombre d’employésN N <10 10≤N <25 25≤N <50 50≤N <100

Nombre d’entreprises 5 10 8 3

La représentation de ce tableau en histogramme donne :

salaries 10

2

Diagramme en bâtons

Dans un diagramme en bâtons, la hauteur de chaque bâton est proportionnelle à l’effectif de la classe. On l’utilise pour représenter une série dont le caractère est qualitatif.

Exemple 3.3

Les deux diagrammes suivants sont des exemples de diagrammes en bâtons ; le premier repré- sente les données de l’exemple 3.1, le second représente le nombre d’élèves de première dans chacune des séries générales d’un lycée :

0 1 2 3 4 pollution

20

nbdejours

L ES S serie

20

effectif

(3)

3.1.3 Paramètres statistiques

Définition 3.2

Lemode ouvaleur modaleest la valeur de la variable statistique qui est le plus souvent observée.

C’est à dire la valeur du caractère ou la classe qui a le plus grand effectif.

Exemple 3.4

Dans l’exemple 3.1, le mode est le niveau de pollution 2.

Dans l’exemple 3.3 (le deuxième diagramme), le mode est le bac ES.

Définition 3.3

Lamédianed’une série statistique est la valeur de la variable qui partage la population en deux groupes de même effectif :

– ceux qui ont une valeur du caractère inférieure à la médiane, – ceux qui ont une valeur du caractère supérieure à la médiane, Remarque 3.2

Deux cas sont possibles :

– s’il y a un nombre impair d’observations : N = 2k+ 1, où k N, alors la médiane est la k+ 1e valeur du caractère (les valeurs étant rangées par ordre croissant).

– s’il y a un nombre pair d’observations : N = 2k, où k N, alors on convient de prendre comme médiane la moyenne des ke et k+ 1e valeurs du caractère (les valeurs étant rangées par ordre croissant).

Exemple 3.5 (nombre impair d’observations) On donne la série statistique suivante :

valeur 3 4 6 7 effectif 1 3 2 1

On a ici un effectif total de 7. La médiane est donc la 4e valeur lorsqu’elles sont rangées par ordre croissant :

3 ; 4 ; 4 ; 4 ; 6 ; 6 ; 7. La médiane vaut 4.

Exemple 3.6 (nombre pair d’observations) On donne la série statistique suivante :

valeur 3 4 6 7 effectif 2 3 1 4

On a ici un effectif total de 10. La médiane est donc la moyenne de la 5e et de la 6e valeurs lorsqu’elles sont rangées par ordre croissant :

3 ; 3 ; 4 ; 4 ; 4 ; 6 ; 7 ; 7 ; 7 ; 7. La médiane vaut 4+62 = 5.

Définition 3.4

La moyenne d’une série statistique est le quotient de la somme de toutes les valeurs de la série (comptées autant de fois que leur effectif) par l’effectif total. En considérant une série statistique de N observations où la variable x prend p valeurs notées x1, x2, . . ., xp, chacune

(4)

22 Statistiques ayant un effectif noté ni, on a :

x=

!p

i=1

nixi

N ,

!p

i=1

nixi =n1x1+n2x2+· · ·+npxp

Exemple 3.7

En reprenant les données de l’exemple 3.1, on peut calculer le niveau de pollution moyen de la ville étudiée :

x= 5×0 + 81×1 + 143×2 + 100×3 + 4×36

365 2,2

Remarque 3.3

Le mode, la médiane et la moyenne sont des paramètres dits de position : il permettent de situer un individu par rapport à ce paramètre. On appartient au groupe le plus représentatif ; on obtient une note supérieure ou inférieure à la moyenne de classe ; on est dans la première moitié ou dans la deuxième moitié de la classe.

Les paramètres de positions sont souvent insuffisants pour étudier correctement une série sta- tistique : deux séries ayant les mêmes paramètres peuvent être très différentes.

Exemple 3.8

On donne les résultats de deux groupes d’élèves à un même contrôle :

Groupe 1 : note x 3 5 6 7 8 9 10 13 14 18 20

effectif 1 1 2 2 4 2 1 2 3 1 1

Groupe 2 : note y 1 2 3 4 13 14 18 19 20

effectif 3 2 2 4 1 2 4 2 2

Ces deux séries ont pour moyennex=y= 10 et pour médiane Medx =Medy = 8,5. Elles sont pourtant très différentes : dans le groupe 1 les résultats sont très « dispersés » alors que dans le groupe 2 on a beaucoup d’élèves en difficulté et beaucoup de bons élèves.

3.2 Diagrammes en boîtes

3.2.1 Quartiles. Déciles

On a vu dans la définition 3.3 que la médiane permet de diviser une population en deux groupes de même effectif. On peut se poser la même question pour séparer la population en quatre groupes d’effectifs comparables :

Définition 3.5

Le premier quartile d’une série statistique, noté Q1, est la plus petite valeur de la série telle qu’au moins un quart des valeurs soient inférieures ou égales à Q1.

De même, le troisième quartile d’une série statistique, noté Q3, est la plus petite valeur de la série telle qu’au moins trois quarts des valeurs soient inférieures ou égales à Q3.

Exemple 3.9

On donne la série suivante :

(5)

Valeur xi 3 5 6 7 10 12 15 20 Effectif ni 2 2 4 3 3 7 5 3 Cette série comporte 29 valeurs.

On a 14 ×29 = 7,25. Le premier quartile Q1 est donc la 8e valeur de la série lorsque celles-ci sont rangées par ordre croissant : Q1 = 6.

On a 34×29 = 21,75. Le troisième quartile Q3 est donc la 22e valeur de la série lorsque celles-ci sont rangées par ordre croissant : Q3 = 15.

Remarque 3.4

La différenceQ3−Q1 est appeléeécart interquartile et l’intervalle[Q1; Q3]est appeléintervalle interquartile : il contient au moins 50% des valeurs de la série.

De la même manière, on peut diviser la population étudiée en dix groupes d’effectifs comparables grâce aux déciles. En fait on utilise surtout les premier et neuvième déciles :

Définition 3.6

Le premier décile, noté D1 est la plus petite valeur du caractère telle qu’au moins un dixième des valeurs soient inférieures ou égales à D1.

Et le neuvième décile, noté D9 est la plus petite valeur du caractère telle qu’au moins neuf dixièmes des valeurs soient inférieures ou égales à D9.

3.2.2 Boîtes à moustaches

La représentation graphique de la dispersion d’une série statistique se fait à l’aide de graphiques appelés diagrammes en boites, boites à moustaches, ou box plot, voire diagramme de Tuckey.

On les trace comme ceci :

– on construit en face d’un axe gradué, permettant de repérer les valeurs extrêmes de la série étudiée, un rectangle dont la longueur est égale à l’écart interquartile et dans lequel on représente la médiane par un trait ;

– deux traits repèrent les valeurs extrêmes de la série.

On pourra se référer à l’annexe A pour tracer les boîtes à moustaches sur une calculatrice graphique.

Remarque 3.5

Parfois, les moustaches représentent les premier et neuvième déciles. Les valeurs inférieures à D1 ou supérieures à D9 sont représentées par des points (on se contente parfois des valeurs extrêmes).

Exemple 3.10

On reprend les deux séries de l’exemple 3.8 :

Pour le groupe 1, l’effectif total est N1 = 20 et 14 ×20 = 5, donc Q1 est la cinquième valeur de la série : Q1 = 7; de même, 34 ×20 = 15donc Q3 est la quinzième valeur de la série : Q3 = 13.

Pour le groupe 2, l’effectif total estN2 = 22et 14×22 = 5,5, doncQ1 est la sixième valeur de la série :Q1 = 3; de même, 34×22 = 16,5donc Q3 est la dix-septième valeur de la série :Q3 = 18.

Voici les deux boîtes à moustaches :

(6)

24 Statistiques

0 1 5 10 15 20

Q1 M Q3

0 1 5 10 15 20

Q1 M Q3

3.3 Écart-type et normalité

3.3.1 Variance. Écart-type

Exemple 3.11

Deux amis comparent leur notes :

Albert a eu 8, 9, 11, 12 et 14 alors que Berthe a eu 2, 6, 12, 15 et 19.

Leurs moyennes sont toutes les deux égales à 10,8. Pourtant on s’aperçoit que les notes d’Al- bert sont beaucoup moins dispersées que celles de Berthe. Pour observer cette dispersion, un diagramme en boîte n’est pas approprié à cause du nombre trop faible de notes. Nous allons donc utiliser un nouveau paramètre qui permet de mesurer la dispersion : l’écart-type.

Définition 3.7

On considère une série statistique regroupée dans un tableau d’effectif comme ci-dessous : valeur xi x1 x2 . . . xp1 xp

effectif ni n1 n2 . . . np1 np

Si on notex la moyenne de cette série etN l’effectif total, alors on appellevariance de la série le réel positifV défini par :

V = n1(x1−x)2+n2(x2−x)2+· · ·+np−1(xp−1−x)2+np(xp−x)2 N

On écrit aussi :

V =

!p

i=1

ni(xi−x)2 N

La variance est donc la moyenne des carrés des écarts à la moyenne.

Définition 3.8

L’écart-type d’une série statistique est la racine carrée de sa variance. On note : σ= V. Exemple 3.12

En reprenant les séries de l’exemple 3.11, la variance des notes d’Albert est : V1 = (810,8)2+ (910,8)2+ (1110,8)2+ (1210,8)2+ (1410,8)2

5 = 4,56

(7)

La variance des notes de Berthe est :

V2 = (210,8)2+ (610,8)2+ (1210,8)2+ (1510,8)2+ (1910,8)2

5 = 37,36

Ainsi l’écart-type de chacun d’eux est respectivementσ1 =

4,562,14etσ2 =

37,366,11.

Les notes de Berthe étaient beaucoup plus dispersées que celles d’Albert : son écart-type est plus important.

Remarque 3.6

L’intérêt de l’écart-type par rapport à la variance est qu’il s’exprime dans la même unité que celle de la série : si on s’intéresse à la taille exprimée en cm des élèves d’une classe, la variance sera en cm2 alors que l’écart-type sera lui exprimé en cm.

Exemple 3.13

Calculer l’écart-type de chacune des séries de l’exemple 3.8.

On trouve σ1 4,31 etσ2 7,60.

Ces résultats confirment l’impression donnée par les boîtes à moustaches de l’exemple 3.10 : la deuxième série est plus dispersée que la première et son écart-type est plus important.

3.3.2 Normalité

Dans la plupart des examens médicaux, les résultats sont donnés en indiquant une plage de normalité permettant de savoir si les résultats du patient sont « normaux » ou pas. Ces plages ont été établies à partir d’un grand nombre d’obervations sur des patients sains ou non.

L’étude de ces observations conduit à la production d’un d’histogramme d’effectifs ayant la forme ci-dessous. La courbe décrite par les sommets des rectangles est une courbe dite en cloche ou courbe gaussienne, du nom du mathématicien allemand Carl-Friedrich Gauss (1777 - 1855).

Cette courbe a un axe de symétrie qui est la moyenneµ=x (aussi égale à la médiane). Plus on s’éloigne de la moyenne, moins il y a d’individus. On parle alors d’une distribution gaussienne ou suivant une loi de Gauss ou encore une loi normale.

(8)

26 Statistiques Propriété 3.1

Dans une distribution gaussienne de moyenne µet d’écart-typeσ, on démontre que : 68 % de la population est dans l’intervalle [µ−σ; µ+σ];

95 % de la population est dans l’intervalle [µ2σ;µ+ 2σ]; 99 % de la population est dans l’intervalle [µ3σ;µ+ 3σ].

2σ;µ+ 2σ] est la plage de normalité à 95 % (représentée en bleu ci-dessous).

µ+ 2σ µ−µ−σ µ µ+σ

Exemple 3.14

Les notes à une épreuve du bac suivent une loi de Gauss de paramètresµ= 11 etσ = 2,5.

Cela signifie que

– la moyenne de cette épreuve est de 11 ;

– 95 % des candidats ont eu entre112×2,5 = 6 et 11 + 2×2,5 = 16; – 99 % des candidats ont eu entre113×2,5 = 3,5 et11 + 3×2,5 = 18,5; Exemple 3.15

Lors d’un examen sanguin, pour un homme, la plage de normalité à 95 % de la densité d’hémo- globine en grammes pour 100 ml est[13; 17] (source : l’encyclopédie libreWikipédiA2). Cette densité d’hémoglobine suit une loi gaussienne.

Cela signifie 95 % de la population a entre 13 et 17 grammes d’hémoglobine pour 100 ml de sang.

La moyenne µ du taux d’hémoglobine est donc le centre de l’intervalle [13; 17].

On a donc :µ= 13+172 = 15.

De plus cette plage de normalité està 95 % donc entre la moyenneµet les bornes de l’intervalle, il y a2σ.

Donc2σ = 1715. Donc σ= 22 = 1.

3.4 Le logiciel R

Voir le site http ://reymarlioz.free.fr rubrique « pour tous »

2WikipédiA: http ://fr.wikipedia.org

Références

Documents relatifs

Le premier quartile d’une série statistique, noté Q 1 est la première valeur de la série, rangée par ordre croissant, tel que 25 % des valeurs de la série soient inférieures

• Le premier quartile, noté Q 1 , est la plus petite valeur de la série telle qu’au moins 25% des valeurs lui soient inférieures ou égales.. • Le troisième quartile, noté Q 3

• Le premier quartile, noté Q 1 , est la plus petite valeur de la série telle qu’au moins 25% des valeurs lui soient inférieures ou égales.. • Le troisième quartile, noté Q 3

Le premier quartile d’une série statistique numérique est la plus petite valeur prise par le caractère telle qu’au moins 25 % des valeurs lui soient inférieures ou égales.

Le troisième quartile q 3 de la série est la plus petite valeur de la série telle qu’au moins les trois quarts des valeurs de la série lui sont inférieures ou

Le troisième Quartile Q 3 est la plus petite valeur de la série telle qu’au moins 75% des valeurs de celle-ci lui sont inférieures ou égales..

Le premier quartile ( Q 1 ) est la plus petite donnée de la liste telle qu’au moins un quart des données de la liste sont inférieures ou égales à Q 1. Elle est composée de

• Le premier quartile noté Q 1 de la série statistique est la plus petite valeur telle qu'au moins 25% des valeurs lui soient inférieures ou égale ;.. • le troisième