• Aucun résultat trouvé

Statistiques univariées

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques univariées"

Copied!
21
0
0

Texte intégral

(1)

Chapitre 10

Statistiques univariées

Les méthodes statistiques sont utilisées lorsque le phénomène étudié est décrit par un grand nombre de données. Ainsi, en économie, ces méthodes servent à l’étude des marchés, à la gestion des stocks, au contrôle des produits manufacturés, à la prévision, etc.

Dans une étude statistique, on différencie souvent deux grandes étapes, qui n’ont pas du tout le même rôle.

1. Les statistiques descriptives, qui ont pour but de décrire la population étudiée. Pour cela, il faut organiser, analyser et présenter les donner de manière significative. Pour cela, on peut utiliser des graphiques ou des tableaux. Les statistiques descriptives expliquent les données déjà connues pour résumer les échantillons.

2. Lesstatistiques inférentielles(oudéductives). On cherche ici à tirer des conclusions sur la population à partir d’analyses d’échantillons et d’observations. Pour cela, on compare, on teste et on prédit les données, en utilisant intensément les probabilités. On ne se contente donc pas ici d’utiliser les données disponibles, mais on essaie de les dépasser pour faire des prédictions.

L’exemple typique est celui des sondages : on interroge un nombre restreint de personne afin de se faire une idée de ce que pense la population totale.

Dans ce chapitre, on se contentera d’étudier les statistiques descriptives.

1 Vocabulaire

L’ensemble des éléments dont on étudie les données s’appelle population, notée Ω. Ses éléments sont appelésindividus.

Unéchantillon est une liste finie d’individus de la population sur lesquels on effectue des observations. On appelletaillede l’échantillon le nombre de ses éléments.

Définition 1.

Remarque 1. Pour un échantillon de taillen, la liste desnobservations est parfois appeléen-uplet des observations.

Pour toute la suite, on se donne une populationΩ.

(2)

Ce qui est observé s’appellecaractère. Un caractère s’appelle aussi variable statistique.

SiX désigne une variable statistique, on noteraX(Ω)l’ensemble des valeurs prises par X.

Définition 2.

Une variable statistique X est dite quantitative lorsque les valeurs prises par X sont numériques. Elle est ditequalitativesinon.

Définition 3.

Une variable quantitative peut être vue comme une application deΩ dansR (à chaque individu on associe un caractère numérique).

Dans toute la suite, les variables seront quantitatives.

Exemple 1. On se place devant un lycée et on demande à 10 étudiants le nombre de frères et sœurs qu’ils ont. Voici le10-uplet des observations :

(0,1,2,1,0,2,1,2,2,1).

‚ La population est l’ensemble des étudiants du lycée (donc Ω est l’ensemble des étudiants du lycée). Les individus sont les étudiants.

‚ L’échantillon est l’ensemble des étudiants interrogés. La taille de cette échantillon est10.

‚ Le caractère est le nombre de frères et sœurs d’un lycéen. A priori, on sait seulement que X(Ω)ĂN.

Un ensembleEest dénombrables’il existe une suite (un)nPN tel queE=tun : nPNu.

Définition 4.

Pour aller plus loin 1. On aurait aussi pu donner la définition suivante : un ensemble E est dénombrableE est s’il existe une application bijectivef définie sur E et à valeur dansN.

Exemple à connaître 1. ‚ Zet Qsont dénombrables.

‚ SoitE un ensemble dénombrable et kPN. Alors Ek est dénombrable. En particulier, Nk,Zk etQk sont dénombrables.

‚ Un ensemble dénombrable privé d’un nombre fini de points est dénombrable. En particulier,N est dénombrable.

Une variable statistique est ditediscrètelorsqueX(Ω)est fini ou dénombrable.

Une variable qui n’est pas discrète est ditecontinue.

Définition 5.

Dans toute la suite, nous nous intéresserons exclusivement aux variables discrètes.

(3)

Les valeurs prises par une variableX discrète s’appellentmodalitésdeX.

On appelleeffectif d’une modalitéxle nombre d’éléments detωPΩ| X(ω) =xu.

On appelleeffectif cumulé d’une modalitéxla somme des effectifs des modalités qui lui sont inférieures ou égales.

Définition 6.

Attention. L’ensemble des modalités d’une variableX est a priori différent deX(Ω). En effet, X(Ω) peut contenir des caractères qui n’apparaissent pas dans l’échantillon.

Remarque 2. Le plus grand effectif cumulé (qui vaut la somme de tous les effectifs) est égal à la taille de l’échantillon.

On appellesérie statistique simpled’un échantillon la donnée de la liste des modalités de la variable étudiée accompagnée des effectifs correspondants. Elle se présente sous la forme (xi, ni)1ďiďp, où lesxi sont les valeurs, lesni les effectifs correspondants etpest le nombre

de valeurs distinctes observées.

On représente souvent une série statistique dans un tableau, dans lequel les modalités sont rangées par ordre croissant.

Définition 7.

Remarque 3. Pour une étude statistique, il est équivalent de fournir une série statistique ou une variable statistique. On confondra souvent les deux.

Exemple 2. On reprend l’Exemple1. La série statistique associée est donc((0,2),(1,4),(2,4)). On peut regrouper ces valeurs par modalités dans un tableau, et préciser les effectifs et effectifs cumulés correspondants.

Nombre de frères et sœurs 0 1 2 ÐÝmodalités

Effectifs 2 4 4

Effectifs cumulés 2 6 10

On considère un échantillon de tailleN, ainsixune valeur observée etnl’effectif correspon- dant. On appellefréquencedexle réelf = n

N.

On appellefréquence cumulée dexla somme des fréquences des modalités qui lui sont inférieures ou égales.

Définition 8.

Remarque 4. La plus grande fréquence cumulée (qui vaut la somme de toutes les fréquences) est égale à1.

Exemple 3. On reprend l’Exemple1.

Nombre de frères et sœurs 0 1 2

Fréquences 0,2 0,4 0,4

Fréquences cumulées 0,2 0,6 1

Exercice d’application 1. On relève les notes de colle de10étudiants d’une classe qui compte en tout40étudiants. Voici le10-uplets des observations :

(12,16,14,12,14,17,12,14,17,16)

(4)

1. Quelle est la population ? Qui sont les individus ? 2. Quel est la taille de l’échantillon proposé ?

3. Donner la série statistique associée à cette échantillon, en précisant également les effectifs cumulés de chaque modalité.

4. Donner les fréquences et fréquences cumulées croissantes de chaque modalité.

å

1. La population est l’ensemble des étudiants de la classe. Les individus sont les étudiants.

2. La taille de l’échantillon proposé est10.

3. On a

Notes 12 14 16 17

Effectifs 3 3 2 2

Effectifs cumulés 3 6 8 10 4. On a

Notes 12 14 16 17

Fréquences 0,3 0,3 0,2 0,2 Fréquences cumulées 0,3 0,6 0,8 1

2 Paramètres de position

2.1 Moyenne

Pour toute la suite, on suppose qu’on travaille avec un échantillon de taillen et qu’on dispose d’une série statistique(xi, ni)1ďiďp (oùpPN),xi sont les modalités etniles effectifs correspondants). On note

N =

p

ÿ

i=1

ni

la taille de l’échantillon. On noteraX une variable statistique associée à cette série.

On appellemoded’une série statistique toute valeur de la variable correspondant au plus grand effectif (il peut donc y en avoir plusieurs).

Définition 9.

Exemple 4. Reprenons l’Exemple 1. Les modes sont 0 et 1, car les effectifs correspondant sont maximaux (égaux à4).

On appellemoyennede la série statistique(xi, ni)1ďiďp le réel X= 1

N

p

ÿ

i=1

nixi. Définition 10.

Exemple 5. Reprenons l’Exemple1. La moyenne est X = 1

10(0ˆ1 + 1ˆ4 + 2ˆ4) = 12 10 = 1,2.

(5)

Exercice d’application 2. Reprenons l’Exercice d’Application 1. Donner le ou les modes de la série, ainsi que la moyenne.

åLes modes sont12et 14. La moyenne est 12ˆ3 + 14ˆ3 + 16ˆ2 + 17ˆ2

10 = 72

5 = 14,4.

2.2 Médiane

On considère une série contenantN valeurs (éventuellement répétées) ordonnées.

On appellemédianed’une série statistique le réel, souvent notéMeouM ed, partageant la série en deux séries d’effectifs égaux selon le procédé suivant :

‚ siN est impair,Meest la N+ 1

2 -ième valeur ;

‚ siN est pair,Me est la moyenne entre la N

2-ième valeur et la (N

2 + 1 )

-ième valeur.

Définition 11.

Attention. La médiane n’est pas toujours une valeur de la série ! Exemple 6. 1. Pour l’échantillon

1, 1, 2, 3 looooooooomooooooooon

4 valeurs

, 4, 4, 4, 10 loooooooooomoooooooooon

4 valeurs

la médiane est la moyenne de3 et de4, à savoir 3,5.

2. On reprend l’Exemple1. Voici la liste des valeurs ordonnées : 0, 0, 1, 1, 1

loooooooooooomoooooooooooon

5 valeurs

, 1, 2, 2, 2, 2 loooooooooooomoooooooooooon

5 valeurs

La médiane est la moyenne de1 et1, à savoir1.

3. Pour l’échantillon

1, 1, 2, 3 loooooooomoooooooon

4 valeurs

, 3 , 4, 4, 4, 10 loooooooomoooooooon

4 valeurs

la médiane est3.

Exercice d’application 3. Calculer la moyenne de la série 1, 2, 3, 4 puis de la série

1, 2, 3, 4, 5 åLa première médiane vaut2,5, la seconde3.

Considérons la série statistique (xi, ni)1ďiďp d’effectif total N. Pour déterminer la médiane de cette série, on utilise les effectifs cumulés.

‚ Cas où N est impair. Il faut repérer dans quelle case du tableau la N+ 1

2 -ième valeur se trouve. Cette valeur est la médiane.

‚ Cas où N est pair. Il faut repérer dans quelles cases du tableau la N

2-ième valeur et la (N

2 + 1 )

-ième valeur se trouvent. La médiane est la moyenne de ces deux valeurs.

Méthode 1. Calculer la médiane d’une série statistique donnée dans un tableau

(6)

ß Ex. 226, 227

Exemple 7. On veut calculer la médiane de la série suivante :

xi 202 204 205 206 207 209 211 212 213 214 217 219

ni 1 3 3 7 5 4 5 4 3 3 1 1

L’effectif total vautN= 40. Il faut donc repérer les 20-ième et21-ième valeurs. Pour cela, le tableau des effectifs cumulés est utile :

xi 202 204 205 206 207 209 211 212 213 214 217 219

Effectifs cumulés 1 4 7 14 19 23 28 32 35 38 39 40

Dans la cas en gras apparaissent la 20-ième valeur, la 21-ième valeur, la 22-ième valeur et la 23-ième valeur. En particulier, les 20-ième et 21-ième valeurs sont égales à 209. DoncMe= 209.

Exemple 8. On veut calculer la médiane de la série :

xi 202 204 205 206 207 209 211 212 213 214 217 219

ni 2 3 3 7 5 4 5 4 3 2 1 1

Effectifs cumulés 2 5 8 15 20 24 29 33 36 38 39 40

On lit que les 16-ième à 20-ième valeurs sont égales à 207, tandis que les 21-ième à 24-ième valeurs sont égales à 209. Ainsi,Me=207 + 209

2 = 208.

Exercice d’application 4. Calculer la médiane de la série statistique présentée dans l’Exercice d’application1.

åOn rappelle qu’on a

Notes 12 14 16 17

Effectifs cumulés 3 6 8 10

L’effectif total est10, il faut donc déterminer la 5-ième et la 6-ième valeur. D’après le tableau, ces deux valeurs sont14. Ainsi,Me= 14.

2.3 Quartiles

On appellepremier quartiled’une série statistique, et on noteQ1, la première valeur de la série ordonnée telle que25% des valeurs lui soient inférieures.

On appelletroisième quartile d’une série statistique, et on noteQ3, la première valeur de la série ordonnée telle que75% des valeurs lui soient inférieures.

Définition 12.

Remarque 5. Avec cette définition, Q1et Q3 sont toujours des valeurs de la série.

Attention. Avec cette définition, on n’a pas75% (resp.25%) des valeurs qui sont supérieures (resp. inférieures) àQ1(resp.Q3).

De plus, si on définit un deuxième quartileQ2de manière similaire (i.e.Q2est la première valeur telle que50% des valeurs de la série lui soit inférieure), on a en généralQ2Me(en effet,Q2ainsi définie est toujours une valeur de la série, tandis que ça n’est pas le cas pour la médiane.

(7)

Exemple 9. On considère la série statistique formée des entiers de10à20: 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20.

L’effectif total estN = 11.

‚ 1

N =1

4 ¨11 = 2,75doncQ1est la3-ième valeur de la série. Ainsi,Q1= 12.

‚ 3

N =3

4 ¨11 = 8,25doncQ3est la9-ième valeur de la série. Ainsi,Q3= 18.

10 11 12 13 14 15 16 17 18 19 20

min Q1 Q3 max

au moins25% des valeurs

au moins75% des valeurs

Exercice d’application 5. DéterminerQ1etQ3pour la série donnée dans l’Exercice d’application 1.

åOn rappelle qu’on a

Notes 12 14 16 17

Effectifs cumulés 3 6 8 10 L’effectif total estN = 10.

‚ On a 10

4 = 2,5doncQ1est la troisième valeur de la série : Q1= 12.

‚ On a 3¨10

4 = 7,5, doncQ3 est la8-ième valeur de la série :Q3= 16.

Remarque 6. Les quartiles appartiennent à la même famille de paramètres de position : lesquan- tiles. On peut en définir d’autres de manière similaire (les décilespar exemple, qui séparent la série statistique en par groupe de10% de valeurs).

2.4 Une autre définition des quartiles (facultatif)

La définition du quartile n’est pas figée en mathématiques. La définition donnée présente un défaut : on n’a pas exactement25% des valeurs inférieures àQ1et exactement75% des valeurs supérieures à Q1. En ce sens, si on définit un deuxièmeQ2, on aQ2Me. En pratique, cela ne change pas grand chose, puisque les séries étudiées sont très grandes et donc les approximations données dans ce cours sont largement suffisantes (et beaucoup utilisées) ! On donne tout de même une définition alternative (à titre culturel) deQ1 et Q3 de sorte qu’exactement25% (resp. 75%) des valeurs soient inférieures

àQ1 (resp.Q3) et exactement75% (resp.25%) des valeurs soient supérieures àQ1 (resp.Q3).

On appelle premier quartile d’une série statistique, notée Q1 une valeur construite de sorte que 25% des valeurs de la série lui sont inférieures et75% lui sont supérieures. Plus précisément,Q1 est construite ainsi :

‚ Si N+ 3

4 est entier, Q1est la N+ 3

4 -ième valeur.

‚ Si N+ 3

4 n’est pas entier, alors on observe l’écriture décimale :

˝ si l’écriture décimale de N+ 3

4 se termine par0,25, alorsQ1est la moyenne pondérée entre la

ZN+ 3 4

^

-ième valeur affecté du poids3et la

(ZN+ 3 4

^ + 1

)

-valeur affecté du poids 3.

(8)

˝ si l’écriture décimale de N+ 3

4 se termine par0,5, alorsQ1est la moyenne pondérée entre la

ZN+ 3 4

^

-ième valeur affecté du poids3et la

(ZN+ 3 4

^ + 1

)

-valeur affecté du poids 1.

˝ si l’écriture décimale de N+ 3

4 se termine par0,75, alorsQ1est la moyenne pondérée entre la

ZN+ 3 4

^

-ième valeur affecté du poids1et la

(ZN+ 3 4

^ + 1

)

-valeur affecté du poids 3.

On définit le troisième quartile de manière très similaire.

On appelletroisième quartiled’une série statistique, notéeQ3 une valeur construite de sorte que 75% des valeurs de la série lui sont inférieures et25% lui sont supérieures. Plus précisément,Q3 est construite ainsi :

‚ Si 3N+ 1

4 est entier,Q3 est la N+ 3

4 -ième valeur.

‚ Si 3N+ 1

4 n’est pas entier, alors on observe l’écriture décimale :

˝ si l’écriture décimale de 3N+ 1

4 se termine par 0,25, alors Q3 est la moyenne pondérée entre la

Z3N+ 1 4

^

-ième valeur affecté du poids3 et la

(Z3N+ 1 4

^ + 1

)

-valeur affecté du poids3.

˝ si l’écriture décimale de 3N+ 1

4 se termine par0,5, alorsQ3est la moyenne pondérée entre la

Z3N+ 1 4

^

-ième valeur affecté du poids3 et la

(Z3N+ 1 4

^ + 1

)

-valeur affecté du poids 1.

˝ si l’écriture décimale de 3N+ 1

4 se termine par 0,75, alors Q3 est la moyenne pondérée entre la

Z3N+ 1 4

^

-ième valeur affecté du poids1 et la

(Z3N+ 1 4

^ + 1

)

-valeur affecté du poids3.

On peut définir de la même manièreQ2 : on retrouve alors la médiane.

Avec ces définitions alternatives, on a :

min Q1 Me Q3 max

25% des valeurs 25% des valeurs 25% des valeurs 25% des valeurs

Exemple 10. On considère la série statistique formée des entiers de10à 21:

10 11 12 13 14 15 16 17 18 19 20 21

min Q1 Me Q3 max

25% des valeurs 25% des valeurs 25% des valeurs 25% des valeurs

L’effectif total estN = 12.

‚ Calcul deQ1. On a N+ 3 4 = 15

4 = 3,75, donc le premier quartile est la moyenne pondérée entre 12affecté du poids1et13affecté du poids3(on veut queQ1soit plus proche de la4-ième valeur qui est ici13) :

Q1= 12ˆ1 + 13ˆ3 1 + 3 = 51

4 = 12,75.

(9)

‚ Calcul de Q3. On a 3N+ 1 4 = 37

4 = 9,25, donc le troisième quartile est la moyenne pondérée entre18affecté du poids 3 (on veut queQ3 soit plus proche de la 9-ième valeur qui est ici18) et19affecté du poids1 :

Q3= 18ˆ3 + 19ˆ1 1 + 3 = 73

4 = 18,25.

Exemple 11. On veut déterminerQ1 etQ3 pour la série donnée dans l’Exercice d’application1.

On rappelle qu’on a

Notes 12 14 16 17

Effectifs cumulés 3 6 8 10 L’effectif total estN = 10.

‚ On a 10 + 3

4 = 3,25, donc il faut identifier la troisième et la quatrième valeur de la série. Sur le tableau, on lit que ces valeurs sont respectivement12et14. Ainsi,

Q1=3ˆ12 + 14ˆ1

4 = 25

2 = 12,5.

‚ On a 3ˆ10 + 1

4 = 7,75, donc il faut identifier la septième et la huitième valeur de la série. Sur le tableau, on lit que ces valeurs sont toutes deux égales à16, d’où

Q3= 16.

3 Représentations graphiques

Soit(xi, ni)1ďiďpune série statistique.

La représentation de la série(xi, ni)par undiagramme en bâtons consiste à placer les xi sur l’axe horizontal et à dresser à la verticale de chaquexi un bâton de hauteur égale à ni.

Définition 13.

Remarque 7. On donne parfois des diagrammes en bâtons suivant la fréquence : la hauteur dans la définition précédente est alors plutôtfi.

Exemple 12. On reprend l’Exemple1. Le diagramme en bâtons associé à cette série statistique est :

nombre de frères et sœurs

´0 ´

1 ´

2 Effectif

´ 1

´ 2

´ 3

´ 4

(10)

Exercice d’application 6. Construire le diagramme en bâtons associé à la série statistique de l’Exercice d’application1.

åOn a :

notes

´12 ´

14 ´

16 ´

17 Effectif

´ 1

´ 2

´ 3

Pour toutiPJ1, pK, on notefila fréquence dexi. On appellediagramme des fréquences cumuléesle nuage de point(xi, fi)1ďiďp.

On relie généralement les points d’abscisses consécutives par des segments. La fonction associée à cette courbe est appeléefonction de répartition de la série statistique.

Définition 14.

Exemple 13. On reprend l’Exemple1. Le diagramme des fréquences cumulées associé à cette série statistique est :

nombre de frères et sœurs

´0 ´

1 ´

2 Fréquences cumulées

0,25´ 0,5´ 0,75´

´ 1

+

+

+

Exercice d’application 7. Construire le diagramme des fréquences cumulées associé à la série statistique de l’Exercice d’application1.

åOn a :

(11)

notes

´0 ´ 1 ´

2 ´ 3 ´

4 ´ 5 ´

6 ´ 7 ´

8 ´ 9 ´

10 ´ 11 ´

12 ´ 13 ´

14 ´ 15 ´

16 ´ 17 ´

18 ´ 19 ´

20 Fréquences cumulées

0,25´ 0,5´ 0,75´

´ 1

+ +

+ +

En repérant les antécédents de0,25,0,5et0,75resp. sur le diagramme des fréquences cumulées, on obtient une approximation deQ1,Meet Q3 resp.

ß Ex. 233 Méthode 2. Approcher la médiane et les quartiles avec le diagramme des fréquences cumulées

Exemple 14. On reprend l’Exemple7. Le diagramme des fréquences cumulées de(xi´200, ni)est :

xi´200

´0 ´1 ´2 ´3 ´4 ´5 ´6 ´7 ´8 ´9 ´10 ´11 ´12 ´13 ´14 ´15 ´16 ´17 ´18 ´19 Fréquences cumulées

0,25´

´ 0,5 0,75´

´ 1

+ + + +

+ +

+

+ + + + +

Me«7,5

Q1«5,4 Q3«11,5

Exercice d’application 8. On fournit le diagramme des fréquences cumulées suivant :

modalités

´0 4 8 12 16 20´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´

Fréquences cumulées

´ 0,25

0,5´

´ 0,75

´ 1

+

+

+

+

+

(12)

Donner des valeurs approchées deQ1,Q3et Me. å

modalités

´0 4 8 12 16 20´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´

Fréquences cumulées

0,25´

´ 0,5 0,75´

´ 1

+

+

+

+

+

Me«11

Q1«8,7 Q3«14,1

On a doncQ1= 12,Me«11etQ3= 16.

On appellediagramme en boîtes de Tukey (on plus simplediagramme en boîteou boîte à moustaches) le diagramme suivant :

Axe gradué

´min ´max´

Me

´Q1

´Q3

´ ´

Définition 15.

Exemple 15. On reprend l’Exemple7. On a

´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´

202 206 209 212 219

´ ´

Les parents du mathématicien américain John Tukey, enseignants dans le secondaire, n’envoient pas leur fils à l’école et se chargent de son instruction. Il entame des études de chimie et entre à l’université de Princeton en 1936. Il y étudie parallèlement les mathématiques et c’est dans cette discipline qu’en 1939 il obtient son doctorat. C’est durant la seconde guerre mondiale qu’il aborde les statistiques, dans un bureau stratégique de recherche en mathématiques.

Anecdote.Sa passion de l’informatique, à la fin de la guerre, l’amène à créer le mot valise bit pourbinary unit. Il invente également le motsoftware, qui désigne les logiciels en anglais.

Citation.Une réponse approximative à une bonne question est bien préférable à une réponse

Un mathématicien -

TUKEY John Wilder(New Bedford 1915 - 2000 Princeton)

(13)

précise à une mauvaise question.

4 Paramètres de dispersion

Les paramètres de dispersion vont être utiles pour « mesurer » la dispersion des valeurs de la série autour des paramètres centraux (médiane et moyenne).

On appelleétendue d’une série statistique la différence entre la plus grande valeur et la plus petite.

Définition 16.

On appelleécart interquartilele nombre Q3´Q1. Définition 17.

L’écart interquartile donne l’amplitude d’un intervalle dans lequel sont situés environ50% des valeurs centrales. C’est donc un indicateur de dispersion : plus ce nombre est élevé, plus les données sont dispersées.

´min ´max

´

Me

´

Q1

´

Q3

«50% des valeurs Q3´Q1

Un indicateur de dispersion autour de la moyenne existe également.

On appellevariance(empirique) de la série statistique (xi, ni)1ďiďp le réel V(X) = 1

N

p

ÿ

i=1

ni(xi´X)2. Définition 18.

Remarque 8. Notons qu’on a immédiatementV(X) =

p

ř

i=1

fi(xi´X)2.

Attention. La variance est toujours positive (et même strictement positive si la série statistique possède des valeurs distinctes, ce qui est pratiquement toujours le cas). Si vous trouvez une variance négative, il y a nécessairement une erreur !

(14)

On a

V(X) = 1 N

p

ÿ

i=1

nix2i ´( X)2

. Théorème 1-Formule de Kœnig-Huygens.

Huygens est surtout connu pour ses travaux en physique (en particulier sur le pendule et la chute des corps) mais son œuvre mathématique est également très dense. Ses travaux portent sur les propriétés des courbes et le calcul des probabilités. Il introduit notamment l’espérance mathématique et résout des problèmes de probabilité en vogue à l’époque.

Un mathématicien -

HUYGENS Christiaan(La Haye 1629 - 1695 La Haye)

Pour calculer une variance, on préfère toujours la formule de Kœning-Huygens en pratique.

On calcule en général séparément la moyenne au carré ( X)2

= (

1 N

n

ÿ

i=1

nixi )2

et la somme X2= 1

N

p

ÿ

i=1

nix2i, puis on conclut avec la formule de Kœning-Huygens : V(X) =X2´(

X)2

.

ß Ex. 225,226, 228, 231 Méthode 3. Calculer une variance

Exemple 16. Reprenons l’Exemple1. On a déjà calculé X= 1,2. De plus, X2= 1

10(0ˆ22+ 12ˆ4 + 22ˆ4) = 2.

Finalement,

V(X) = 2´1,22= 0,56.

Exercice d’application 9. Calculer la variance de la série statistique donnée dans l’Exercice d’application1 (calculatrice exceptionnellement autorisée en attendant de voir comment faire sans).

åOn a déjà calculé X= 14,4. On a par ailleurs X2= 1

10(3ˆ122+ 3ˆ142+ 2ˆ162+ 2ˆ172) = 211.

Ainsi,

V(X) = 211´14,42= 3,64.

On appelleécart-typed’une variable statistiqueX et on noteσX le réelσX=a V(X).

Définition 19.

(15)

Plus l’écart-type est proche de0, plus les valeurs sont concentrées autour de la moyenne : σX «0,8

modalité

´ ´ ´ ´ ´ ´ ´ ´ ´

1 2 3 4 6 7 8

Effectif

´

´

´

´

´

1 2 3 4 5

X

σX«1,1

modalité

´ ´ ´ ´ ´ ´ ´ ´ ´

1 2 3 4 6 7 8

Effectif

´

´

´

´

´

1 2 3 4 5

X

σX«5,0

modalité

´ ´ ´ ´ ´ ´ ´ ´ ´

1 2 3 4 6 7 8

Effectif

´

´

´

´

´

1 2 3 4 5

X

Remarque 9. Lorsque le caractère statistique a une distribution normale gaussienne (grossièrement : en forme de cloche), l’écart-type prend tout son sens :

‚ l’intervalle[

X´σX; X+σX

] contient68% de la population ;

‚ l’intervalle[

X´2σX;X+ 2σX

]contient 95% de la population ;

‚ l’intervalle[

X´3σX;X+ 3σX

]contient 99,7% de la population.

«68% des valeurs

«95% des valeurs

«99,7% des valeurs

X´σX X+σX

X´X X+ 2σX

X´X X+ 3σX

X

5 Quels indicateurs utiliser pour décrire une série statistique ?

On dispose de deux indicateurs centraux de position : la moyenne et la médiane. Il est donc naturel de se demander quels sont les différences entre ces indicateurs.

La moyenne a l’avantage de prendre en compte toutes les valeurs de l’étude, mais elle est très sensible aux valeurs extrêmes. Par exemple, considérons la distribution des salaires suivantes dans une petite entreprise.

(16)

salaire (k€)

´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´

28 29 31 34 36 200

Effectif

´

´

´

´

´

´

´

´

´

´

´ ´ ´

2 4 6 8 10

Me= 32 X «37,4

Après calculs, on trouve queMe= 32, tandis que pour la moyenne on a plutôtX «37,4. La médiane semble donc plus indiquée !

De manière générale, la comparaison entre la médiane et la moyenne peut être un moyen de vérifier que la série est « symétrique » : dans ce cas, la moyenne est proche de la médiane.

Les indicateurs de dispersion sont également à prendre en considération ! Par exemple, un écart- type important permettra de déceler des inégalités, même si la série est symétrique. Par exemple, considérons les deux répartitions salariales suivantes :

σX «1,07

salaire (k€)

´ ´ ´ ´ ´ ´ ´ ´ ´

28 29 30 31 33 34 35 36 Effectif

´

´

´

´

´

1 2 3 4 5

Me= 32 =X

σX«3,74

salaire (k€)

´ ´ ´ ´ ´ ´ ´ ´ ´

28 29 30 31 33 34 35 36 Effectif

´

´

´

´

´

1 2 3 4 5

Me= 32 =X

Ici moyennes et médianes sont identiques, alors que les répartitions salariales sont très différentes.

Dans le premier cas, les salaires des employés sont plutôt équilibrés, tandis que de larges inégalités sont observables pour l’exemple de droite.

6 Transformation affine

Parfois, les calculs sont trop pénibles (on rappelle que la calculatrice est interdite...) donc il peut être astucieux de faire un changement de variable pour calculer la moyenne.

(17)

Soit une variable statistiqueX. Soit(a, b)PRˆR. NotonsX1=aX+b.

X1 =aX+b.

‚ SiMedésigne la médiane deX etMe1 la médiane deX1, alorsMe1 =aMe+b.

‚ V(X1) =a2V(X).

σX1 =|a|σx. Proposition 1.

Si l’on veut calculer la moyenneX d’une série statistique (xi, ni)1ďiďp et s’il existe deux réels a‰0etbtels qu’il soit plus simple de calculer la moyenne de la série(axi+b, ni)1ďiďp, alors on procède ainsi :

‚ on calcule la moyenne de la série(axi+b, ni)1ďiďp, qui est égale àaX+b;

‚ il reste alors à ôterb puis à diviser para.

Pour la variance, l’idée est la même, en utilisant queV(aX+b) =a2V(X).

ß Ex. 225,226, 225, 227 Méthode 4. Utiliser un changement de variable pour trouver la moyenne

Exemple 17. On veut calculer la moyenne de la série suivante donnée dans l’Exemple7.

La distribution laisse penser que la moyenne ne devrait pas trop être éloignée de 209. On considère alors la série à laquelle on a retiré 209 (on a notéx1i=xi´209).

xi ´7 ´5 ´4 ´3 ´2 0 2 3 4 5 8 10

ni 1 3 3 7 5 4 5 4 3 3 1 1

On calcule

12

ÿ

i=1

nix1i = ´7 + 3ˆ(´5) + 3ˆ(´4) + 7ˆ(´3) + 5ˆ(´2) + 5ˆ+4ˆ3 + 3ˆ4 + 3ˆ5 + 8 + 10

= ´7´15´12´21´10 + 10 + 12 + 12 + 15 + 8 + 10

= 2.

Puisqu’il y a40individus en tout, la moyenne de la série(x1i, ni)1ďiď12 vaut 402 = 0,05.

On ajoute209 et on trouve que la moyenne de la série proposée au départ est égale à209,05.

On considère la même série modifiée pour la variance. On a

12

ÿ

i=1

ni(x1i)2 = (´7)2+ 3ˆ(´5)2+ 3ˆ(´4)2+ 7ˆ(´3)2+ 5ˆ(´2)2+ 5ˆ22+ 4ˆ32+ 3ˆ42+ 3ˆ52+ 82+ 102

= 49 + 75 + 48 + 63 + 20 + 20 + 36 + 48 + 75 + 64 + 100

= 598.

Ainsi,

V(X´209) = 598

40 ´0,052= 14,95´0,002 5 = 14,947 5.

Finalement,V(X) = 14,947 5.

Exercice d’application 10. Un étudiant obtient les notes suivantes :12,10,11,12,8. Calculer la moyenne puis la variance de cette série statistique.

(18)

åNotons(xi, ni)cette série statistique. La moyenne n’est pas très éloignée de10, donc on s’intéresse d’abord à la moyenne de(xi´10, ni)1ďiď4= ((´2,1),(0,1),(1,1),(2,2)), qui vaut

2 + 1 + 2´2

5 = 3

5 = 0,6.

Ainsi, la moyenne de l’étudiant est10 + 0,6 = 10,6.

D’autre part,

1 5

4

ÿ

i=1

ni(xi´10)2=(´2)2+ 12+ 2ˆ22

5 = 13

5 = 2,6.

Donc

V(X´10) = 2,6´0,62= 2,6´0,36 = 2,24.

Finalement,V(X) = 2,24.

7 Exercices

Exercice 225. Un commerçant observe, durant les sept premiers mois de l’ouverture de son officine, le chiffre d’affaire mensuel en milliers d’euros. Le résultat de l’observation est résumé dans le tableau suivant, oùX désigne le chiffre d’affaire correspondant.

X 12 13 15 19 21 22 24

Calculer la moyenneX, la varianceσX2 ainsi que la médiane de cette série.

Exercice 226 . Le tableau de l’évolution de l’espérance de vie X (resp. Y) à la naissance pour les femmes (resp. les hommes) dans un certain pays et durant une période de huit ans est donné ci-après :

Année 1 2 3 4 5 6 7 8

X 82,8 82,9 83 82,9 83,9 83,8 84,2 84,5 Y 75,3 75,5 75,8 75,9 76,8 76,8 77,2 77,6

1. Déterminer la moyenne, la variance, le premier quartile, la médiane, le troisième quartile ainsi que l’écart interquartile de l’espérance de vie des femmes dans ce pays pour la période considérée.

2. Même question pour les hommes.

3. Tracer les boîtes de Tukey des deux séries statistiques et comparer ces deux séries.

Exercice 227. On observe les clients d’un supermarché et on relève les temps d’attente approximatifs, en minutes.

1. On obtient la répartition suivante le lundi :

Temps d’attente 1 2 3 4 5 6 7 8 9 10

Nombre de clients 14 13 23 9 14 8 12 4 1 2

(a) Calculer le temps moyen d’attente aux caisses pour l’échantillon donné.

(b) Déterminer la médiane et les quartiles de cette série statistique.

(c) La directrice du supermarché décide d’ouvrir une caisse supplémentaire si au moins20% des clients attendent 7 minutes ou plus en caisse. Doit-elle ouvrir une nouvelle caisse le lundi ?

(19)

2. La directrice décide de comparer les temps d’attente en début et en fin de semaine. Elle a donc relevé le vendredi les temps d’attente aux caisses d’un échantillon de 100 clients et obtient les résultats résumés dans le diagramme de Tukey ci-après :

´1 ´

2 ´

3 ´

4 ´

5 ´

6 ´

7 ´

8 ´

9 ´

10 ´

11 ´

12

´ ´

(a) Comparer les temps d’attente aux caisses le lundi et le vendredi.

(b) Dans un question, les clients qualifient d’acceptable un temps d’attente compris entre1min et6min. Commenter les affirmations suivantes :

i. « le vendredi, la moitié des clients attendent cinq minutes ou plus en caisse » ; ii. « le vendredi, un quart des clients attendent moins de quatre minutes en caisse » ; iii. « il y a autant de client qui trouvent le temps d’attente acceptable le lundi que le

vendredi » ;

iv. « il est préférable de faire ses courses le vendredi plutôt que le lundi ».

Exercice 228 (Coefficient de variation) . Si X est une variable statistique, on appelle coefficient de variationde X le rapport σX

X . Ce coefficient permet de comparer la dispersion de deux séries dont les grandeurs sont différentes.

On donne ci-après les dépenses, en millions d’euros, de la France et de la Suisse en matière d’éducation.

Année 2012 2013 2014 2015

France 113 974 116 451 118 496 120 128

Suisse 25 724 25 665 26 550 30 710

Source : Eurostat Dans quel pays les dépenses sont-elles le plus homogènes ? (calculatrice autorisée ici ).

Exercice 229 (Lissage par la moyenne) . On considère la série statistique des valeurs en euro d’un action boursière, obtenues par intervalles de20min.

i 0 20 40 60 80 100 120 140 160 180 200 220

Valeur 15,2 14,8 15,0 14,6 14,9 14,0 14,6 14,0 14,4 13,8 14,2 13,9 On peut représenter cette série ainsi (en trait plein) :

Rang Valeur d’une action

´ ´ ´ ´ ´ ´ ´ ´ ´ ´ ´

0 20 40 60 80 100 120 140 160 180 200

´ 13 13,5´

´ 14 14,5´

´ 15

+

+ + +

+

+ +

+ +

+ +

+ +

+ +

+ +

+ + +

(20)

1. Peut-on dire que cette série est décroissante ?

2. Lelissage par la moyenneconsiste à remplacer une valeur de la série par la moyenne des cinq valeurs dont elle est le centre. On obtient ainsi la courbe en pointillé.

(a) Par quelle valeur remplace-t-on la valeur obtenue après40min ? (b) Compléter le programme Python ci-dessous.

# Renvoie la moyenne des réels a, b, c, d et e def moyenne(a, b, c, d, e):

return ...

# Renvoie les valeurs lissées par la moyenne de la liste L def lissage_moyenne(L):

for i in range(2, len(L) - 2):

print(moyenne(L[i - 2], ...))

Exercice 230 (Formule de Kœnig-Huygens). Montrons que la varianceV(X)d’une série statistique (xi, ni)1ďiďp vérifie la formule

V(X) =

p

ÿ

i=1

fix2i ´(X)2,

X est la moyenne de la série,N son effectif total et pour toutiPJ1, pK,fi =ni

N (c’est la fréquence dexi).

Exercice 231. Soitmě3. On considère une série statistique (xi, ni)1ďiďm. Soit pet qdeux entiers avec1ďpăqăm. On scinde la série statistique en trois « sous-séries » :

‚ (xi, ni)1ďiďp, d’effectif total égal à150, de moyenne égale à16et d’écart-type égal à2;

‚ (xi, ni)p+1ďiďq, d’effectif total égal à250, de moyenne égale à8et d’écart-type égal à3;

‚ (xi, ni)q+1ďiďm, d’effectif total égal à400, de moyenne égale à7 et d’écart-type égal à5.

Déterminer la moyenne et l’écart-type de la série totale (calculatrice autorisée pour l’écart-type).

Exercice 232 . On considère la série(xi, ni)1ďiďp. On note xla moyenne de la série,σ2 sa variance et pour toutiPJ1, pK,fi la fréquence dexi. On considère enfin

φ: R ÝÑ R u ÞÝÑ

p

ř

i=1

fi(xi´u)2´x2

1. Montrer que pour toutuPR,φ(u) =u2´2xu+σ2.

2. En déduire que la fonctionφadmet un minimum surR, atteint en un point que l’on précisera.

Quelle est la valeur de ce minimum ?

Exercice 233. On a représenté ci-dessous les fréquences cumulées croissantes d’une série statistique.

(21)

´140 ´ 145 ´

150 ´ 155 ´

160 ´ 165 ´

170 ´ 175 ´

180 ´ 185 ´

190 ´ 195 ´

´ 200 0 0,1´ 0,2´ 0,3´ 0,4´ 0,5´ 0,6´ 0,7´ 0,8´ 0,9´

´ 1

Donner une approximation graphique de la médiane.

Références

Documents relatifs

Le premier quartile d’une série statistique, noté Q 1 , est la plus petite valeur telle qu’au moins 25 % des données lui soient inférieures ou égales.. Le troisième quartile

Le premier quartile d’une série statistique, noté Q 1 est la première valeur de la série, rangée par ordre croissant, tel que 25 % des valeurs de la série soient inférieures

Le premier quartile d’une série statistique numérique est la plus petite valeur prise par le caractère telle qu’au moins 25 % des valeurs lui soient inférieures ou égales.

Le troisième quartile q 3 de la série est la plus petite valeur de la série telle qu’au moins les trois quarts des valeurs de la série lui sont inférieures ou

• Le premier quartile noté Q 1 de la série statistique est la plus petite valeur telle qu'au moins 25% des valeurs lui soient inférieures ou égale ;.. • le troisième

Le premier quartile d’une série statistique, noté Q 1 , est la plus petite valeur de la série telle qu’au moins un quart des valeurs soient inférieures ou égales à Q 1. De même,

• Le premier quartile, noté Q 1 , est la plus petite valeur de la série telle qu’au moins 25% des valeurs lui soient inférieures ou égales.. • Le troisième quartile, noté Q 3

• Le premier quartile, noté Q 1 , est la plus petite valeur de la série telle qu’au moins 25% des valeurs lui soient inférieures ou égales.. • Le troisième quartile, noté Q 3