• Aucun résultat trouvé

Statistiques

Dans le document Notes du cours de Mathématiques (Page 141-151)

1 Vocabulaire de base

1.1 Définitions Série statistique

Définition 1. La statistique descriptive étudie certaines caractéristiques d’une population.

Ces caractéristiques sont appelées caractères ou variables statistiques .

Les éléments de cette population sont appelés individus ou unités statistiques .

Une série statistique de taille N est donc un N-uplets de caractères : (x1; : : : ; xN), où xi est l’observation effectuée sur l’individu i.

Exemple : Série des notes du dernier DS dans la classe, série de la taille des personnes de la classe.

Définition 2. Une variable qualitative est une variable qui ne prend pas de valeur numérique.

On distingue deux types de variables qualitatives :

les valeurs ne peuvent pas être ordonnées : variable qualitative nominale, les valeurs peuvent être ordonnées : variable qualitative ordinale.

Exemple : Variable qualitative nominale : état matrimonial : célibataire, marié, pacsé, veuf, divorcé Variable qualitative ordinale : réponses à un QCM du type : pas du tout, un peu, assez, beaucoup

Définition 3. Une variable quantitative est une variable qui prend uniquement des valeurs numériques. On distingue deux types de variables quantitatives :

le nombre de valeurs est au plus dénombrable : variable quantitative discrète,

la variable peut prendre toutes les valeurs d’un intervalle : variable quantitative continue.

Exemple : Variable quantitative discrète : nombre d’enfants d’un ménage, Variable quantitative continue : taille d’un individu.

Effectifs, fréquences

Définition 4. Le nombre d’individus présentant le caractère C est appelé effectif.

La somme de tous les effectifs est appelé effectif total.

Le rapport de l’effectif du caractère C sur l’effectif total est appelé fréquence.

Exercice1 : La série statistique des mois de naissance de la classe est donnée par (Mar, Avr, Aou, ...) Calculer les effectifs et les fréquences de chaque caractère.

Mois Jan Fev Mar Avr Mai Jui Jul Aou Sep Oct Nov Dec

Effectif Fréquence

Remarque : Lorsque les valeurs peuvent être ordonnées, on peut définir les effectifs cumulés en ajoutant à chaque effectif les effectifs des valeurs précédentes. Lesfréquences cumulées s’obtiennent de la même façon en sommant les fréquences successives (ou alors en divisant les effectifs cumulés par l’effectif total).

La fonction qui a chaque modalité associe la fréquence cumulée est appeléefonction de répartition.

Exemple : Calculer les effectifs cumulés et fréquences cumulées de l’exemple précédent. Tracer le graphe de la fonction de répartition associée.

Regroupement par classes

Les variables quantitatives (en particulier pour les variables continues) peuvent être regroupées enclasses, c’est-à-dire qu’on regroupe les valeurs selon l’intervalle auquel elles appartiennent. L’amplitude de la classe est alors la taille de l’intervalle de la classe.

Exercice2 : On s’intéresse au nombre d’enfants des familles d’un quartier. On donne le tableau des effectifs. Compléter le tableau où ces effectifs sont rangés par classes.

Nbr enfants 0 1 2 3 4 5 6

Effectif 14 15 10 6 3 0 2

Nbr enfants [0; 1[

(Pas d’enfant)

[1; 3[ [3; 6]

(Famille nombreuse) Effectif

1.2 Représentations graphiques Variables qualitatives

On utilise principalement les diagrammes en barreset les diagrammes circulaires (ou en “camembert”).

Exemple : Le tableau suivant représente les effectifs des régimes matrimoniaux de200personnes. Tracer les deux représentations graphiques correspondantes.

Régime Célibataires Mariés / Pacsés Divorcés Veufs

Effectif 70 80 30 20

Page 2/10

Variables quantitatives

La représentation des variables quantitatives discrète se fait à l’aide de diagrammes en bâtons, qu’il ne fut pas confondre avec les diagrammes en barres utilisés pour les variables qualitatives.

Pour les variables quantitatives continues, ou lorsque l’on regroupe les effectifs par classes, on utilise un histogramme.

Exemple : Tracer le diagramme en bâtons ainsi que l’histogramme correspondant à l’exercice 2.

2 Paramètres caractéristiques d’une série statistique

2.1 Paramètres de position

Mode

Définition 5. Le mode d’une série statistique est le caractère ayant le plus grand effectif.

Exemple : Donner le mode des séries statistiques des exercices 1 et 2.

Remarques :

On peut calculer le mode de n’importe quelle variable statistique (quantitative ou qualitative).

Le mode n’est pas unique ! On peut en effet avoir plusieurs caractères de plus grand effectif. On distingue ainsi les séries unimodales (un seul mode) des séries plurimodales (plusieurs modes).

Pour les variables continues, on parle de classe modale : c’est la classe ayant le plus grand effectif.

Moyenne

Définition 6. La moyenne d’une série statistique (x1; : : : ; xN) dont les effectifs sont donnés par (n1; : : : ; nN) est la moyenne des xi, pondérée par les coefficients ni :

x = 1 ntot

Xn i=1

nixi; ntot =Xn

k=1

nk:

Remarques :

La moyenne n’est définie que pour des variables quantitatives.

Si l’on connaît les fréquences associées, on a directement x = Pn

i=1fixi

Pour des variables continues, on prend pour lesxi les centres des classes.

Exemple : Calculer la moyenne des séries statistiques des exercices 1 et 2.

Propriété 1. Calcul de moyennes.

Linéarité de la moyenne : soit (x1; : : : ; xN) une série statistique d’effectifs (n1; : : : ; nN) ayant pour moyenne x. Alors, la série statistique y = (ax1+ b; : : : ; axN + b), de mêmes effectifs, a pour moyenne : y = ax + b.

Soient S1 et S2 deux séries statistiques d’effectifs totaux respectifs N1 et N2 et de moyennes respectives S1 et S2. Alors la moyenne de la série S regroupant S1 et S2 est donnée par : S = 1

N1+ N2(N1S1+ N2S2):

Exercice3 :

Les résultats du dernier DS sont catastrophiques, la moyenne est de6;5. Dans un élan de générosité, Mme A. hésite entre rajouter 1point à tout le monde ou à multipler toutes les notes par un facteur1;2. Quelle solution est la plus avantageuse pour les élèves ? Lors d’un devoir commun, les 42 élèves de la classe A ont obtenu10;8de moyenne, et les 27 de la classe B10;2. Quelle est la

moyenne générale ?

Médiane

Définition 7. La médiane d’une série statistique permet de couper la population étudiée en deux groupes de même taille de la façon suivante : 50% de la population a un caractère inférieur à la médiane, et 50% de la population a un caractère supérieur à la médiane.

Si l’effectif total est impair, par exemple pour la série (0; 1; 3; 3; 4; 7; 10), il n’y a pas d’ambiguité dans la définition de la médiane, celle-ci vaut :3.

En revanche, si l’effectif total est pair, par exemple pour la série (0; 1; 3; 3; 4; 5; 7; 10), on parle d’intervalle médian :[3; 4]La médiane est alors définie comme la moyenne des bornes de l’intervalle médian :3:5

Remarque :

On peut calculer la médiane d’une variable quantitative, ou d’une variable qualitative ordinale.

La médiane permet de limiter l’impact de données extrêmes, contrairement à la moyenne.

Exemple : Voici la série des notes obtenues par un très bon élève (qui a été malade au dernier devoir) : 17; 16; 17; 15; 17; 5. Calculer la moyenne et la médiane de cet élève, et commenter l’impact de la dernière note.

Quartiles, déciles

Définition 8. Quartiles

Le premier quartile d’une série, noté Q1, est la plus petite valeur pour laquelle au moins 25 % des données sont inférieures ou égales à Q1.

Le troisième quartile d’une série, noté Q3, est la plus petite valeur pour laquelle au moins 75 % des données sont inférieures ou égales à Q3.

Remarque : Le deuxième quartile est la médiane.

Méthode :

Calculer les effectifs cumulés pour déterminer la position du quart puis des trois-quarts des effectifs.

Exercice4 : Le tableau suivant donne les résultats des relevés pluviométriques à Brest en2008:

Pluviométrie en mm 0 1 2 3 4 5 6 7 8 9 10 15 20 25 30

Nombre de jours 207 14 8 13 14 21 19 17 9 10 14 8 4 5 3

Calculer les effectifs cumulés associés à cette série statistique. Les dictons suivants : « il pleut plus de la moitié de l’année en Bretagne » et « il pleut au moins1cm d’eau par jour le quart de l’année » se vérifient-ils sur l’année2008?

Page 4/10 144

Définition 9. Déciles

Le premier décile d’une série, noté D1, est la plus petite valeur pour laquelle au moins 10

% des données sont inférieures ou égales à D1.

Le neuvième déciled’une série, noté D9, est la plus petite valeur pour laquelle au moins 90

% des données sont inférieures ou égales à D9. Remarques :

Les déciles sont largement utilisés en géologie minière, en hydrologie (niveau de crue décennale), et dans le milieu médical.

On définit de la même manière les centiles (ou percentiles), quintiles, terciles, ...

2.2 Paramètres de dispersion Étendue, diagramme de Tuckey

Définition 10.

L’étendue d’une série statistique est la différence entre la plus grande et la plus petite valeur observée.

L’intervalle interquartile est l’intervalle [Q1; Q3] La distance interquartile est le nombre Q3 Q1

L’intervalle interdécile est l’intervalle [D1; D9] La distance interdécile est le nombre D9 D1 On peut à l’aide de ces données construire le diagramme de Tuckey (ou diagramme en boite, ou encore « boite à moustache ») associé à la série statistique. Ce diagramme se présente sous la forme suivante :

min Q1 Me Q3 max

Il sépare la série statistique en4 blocs de taille environ égale.

Exemple : Tracer de diagramme de Tuckey de l’exercice 4.

Variance et écart type

Définition 11. Soit x = (x1; : : : ; xN) une série statistique d’effectifs (n1; : : : ; nN). La va-riance de x est donnée par

V (x) = 1 ntot

XN i=1

ni(xi x)2; où : ntot=Xn

k=1

nk:

Propriété 2. On a V (x) = 1 ntot

XN i=1

nix2i (x)2

Preuve :

Propriété 3. Soit y la série statistiques définie pary = (ax1+ b; : : : ; axN+ b) , et ayant les mêmes effectifs que x. Alors on aV (y) = a2V (x).

Remarque : Contrairement à la moyenne, la variance n’est pas linéaire !

Définition 12. Soit x = (x1; : : : ; xN) une série statistique d’effectifs (n1; : : : ; nN). L’écart typede x est donné par x =pV (x).

Remarque : L’écart type donne une indication de la dispersion des valeurs d’une série statistique autour de sa moyenne. Plus l’écart type est petits, plus les valeurs de la série sont resserrées autour de la moyenne. Au contraire, plus l’écart type est grand, plus les valeurs sont dispersées.

On en particulier la propriété suivante :V (x) = 0 , x = 0 , xest une série constante.

Exercice5 : Un entrepreneur souhaite fabriquer des chaussures pour hommes. Il fait une étude statistique pour connaître la répartition des pointures :

Taille 37 38 39 40 41 42 43 44 45 46 47

Effectifs 2 4 7 17 31 56 85 50 33 12 5

1. Calculer la moyenne et l’écart type de cette série statistique à10 1 près.

2. L’entrepreneur décide de ne produire que les tailles de l’intervalle[x 2x; x + 2x]. Quelles sont les tailles qu’il va fabriquer ? Quel pourcentage de l’étude cela représente-t-il ?

2.3 Calcul d’un intervalle de confiance

L’étendue d’une série statistique ou son écart type donnent une indication de la dispersion des valeurs d’une série statistique, mais ne permettent pas de comparer efficacement deux séries statistiques.

Pour interpréter des résultats d’expériences, on utilise plutôt la notion d’intervalle de confiance. En Biologie, c’est l’intervalle de confiance à95% qui est le plus couramment utilisé.

On considère dans la suite que l’on a effectué une série de mesures x = (x1; : : : ; xN) (et que chaque mesure a un effectif de 1).

Définition 13. Soit x = (x1; : : : ; xN) une série statistique de moyenne x et d’écart type x. L’ intervalle de confiance à 95% de x est donné par

I(x) = où la valeur de t(N 1) est donnée dans le tableau suivant.

N 1 1 2 3 4 5 6 7 8 9 10 Figure 1 – Table dutde Student

Remarque : Ce calcul n’est statistiquement valable que si le nombre de mesures est grand (typiquement, plus de 20 mesures), ou si l’on sait d’avance que les valeurs de la série suivent une loi normale.

Remarque : Ce calcul permet de prédire à partir des données récoltées que la moyenne réelle du phénomène observé se trouve avec 95%de chance dans l’intervalle I(x). Cela reste une estimation, donc il faut rester

prudent dans les conclusions : il y a tout de même une probabilité de 5%que la moyenne réelle ne se trouve pas dans l’intervalle calculé !

Page 6/10 146

Exercice6 : On place des vers de terre à l’obscurité ou à la lumière, et on mesure leur consommation enO2 (en mg/min/g). On obtient les résultats suivants :

Valeurs à l’obscurité 0:12 0:20 0:18 0:17 0:23 0:21 0:14 Valeurs à la lumière 0:07 0:02 0:10 0:15 0:05 0:04 0:12

Calculer la moyenne, l’écart type et l’intervalle de confiance de chaque série. Que pouvez-vous conclure de cette expérience ?

Remarque : Dans le cas où la valeur étudiée est une proportion, on utilise plutôt la formule suivant pour l’intervalle de confiance :

Pour être statistiquement valable, il faut que le nombre d’expériences pour obtenir la proportion soit grand, typiquement supérieur à 20.

Exemple : On met des graines de radis dans un milieu sans compost ou avec compost. On bout de3 jours, on détermine la proportion de graines ayant effectivement germé. Sans compost, 58 graines sur100ont germé. Avec compost, 42 sur90 ont germé. La présence de compost a-t-elle un effet sur la germination des graines de radis ?

Comparer deux moyennes ou deux proportions

Lorsque l’on fait de nombreuses mesures, la comparaison entre les résultats se fait essentiellement en vérifiant graphiquement que les intervalles de confiance ne se chevauchent pas. Lorsque l’on ne compare que deux

moyennes ou deux proportions, on peut faire un test sur la différence des deux moyennes ou proportions, afin de vérifier s’ils sont statistiquement différents.

Différence de deux moyennes.

On considère deux séries contenant respectivement N1 et N2 mesures. Soient x1, x2 et s1, s2 leurs moyennes et écarts types respectifs. L’intervalle de confiance à95%de la différence des deux moyennes est alors

où le coefficient test donné par le tableau du tde Student, et oùsest l’écart type commun aux deux échantillons, défini pars =

Définition 14. Une série statistique double est une série statistique portant sur deux variables d’une même population.

On étudie donc des N-uplets d’éléments de R2 : ((x1; y1); (x2; y2); : : : ; (xN; yn)). Exemple : On étudie la taille et le poids de10 individus :

Taille (cm) 158 180 170 193 175 160 164 178 182 175

Poids (kg) 48 64 70 81 75 55 60 72 90 85

La série statistique double est la série des couples(xi; yi) ou xi est la taille de l’individu ietyiest son poids.

Chaque couple de nombre peut ainsi être représenté comme un point dans le plan R2. On représente graphiquement une série double en traçant l’ensemble des points qu’elle contient : c’est ce qu’on appelle le nuage de pointsassocié. On obtient pour l’exemple précédent

160 170 180 190

155 165 175 185 195

60 80

50 70 90

45 55 65 75 85

Page 8/10 148

Point moyen

Définition 15. On appelle point moyen d’une série statistique le point (x; y), où x est la moyenne de la série (x1; : : : ; xN) et y la moyenne de la série (y1; : : : ; yN).

Exemple : Calculer le point moyen de la série de l’exemple précédent.

3.2 Caractéristiques d’une série statistique double

Pour une série double, l’un des objectifs est de chercher une dépendance entre les deux variables étudiées.

Covariance

Définition 16. La covariance d’une série double est donnée par : Cov(x; y) = 1 N

XN i=1

(xi x)(yi y)

Propriété 4. Formule de Koenig-Huygens : Cov(x; y) = xy x y. Exemple : Calculer la covariance pour l’exemple précédent.

Remarque : Si les deux variables ont tendance à varier dans le même sens, la covariance est positive. Au contraire, si les deux variables varient en sens contraire, la covariance est négative.

Coefficient de corrélation linéaire

Définition 17. On définit le coefficient de corrélation linéaire à l’aide de la covariance par (x; y) = Cov(x; y)

xy

Exemple : Calculer le coefficient de corrélation pour l’exemple précédent.

Remarques :

On a toujours 1 (x; y) 1.

Le coefficient de corrélation indique s’il y a un lien linéaire entrex ety. Si(x; y) = 1(resp 1), y dépend linéairement dex, et le nuage de points est aligné dur une droite croissante (resp. décroissante).

S’il n’y a aucun lien linéaire entrex ety, le coefficient de corrélation est nul. Mais il peut y avoir un lien non linéaire entrex ety.

Exemple :

3.3 Droite d’ajustement affine

Lorsque deux variables semblent corrélées linéairement, il est naturel de chercher quelle relation linéaire les lie l’une à l’autre. On cherche donc des réelsa etbtels que les valeurs dey se rapprochent “le plus” (en un sens que nous définiront) des valeurs de ax + b. C’est ce qu’on appelle l’ajustement affine.

Définition 18. Soient((x1; y1); : : : ; (xN; yN))une série statistique double. Ladroite d’ajus-tement affine (ou droite de régression linéaire) de cette série est la droite ajustant le mieux un nuage de point au sens des moindres carrés. Elle a pour équation

y = ax + b; avec a = Cov(x; y) V (x) = y

x (x; y); et b = y ax:

Exemple : Calculer l’équation de la droite d’ajustement linéaire sur l’exemple précédent.

Remarque : L’ajustement se fait au sens des moindres carrés : ceci veut dire que l’on minimise la somme des carrés des erreurs que l’on commet avec cette approximation linéaire.

160 170 180 190

155 165 175 185 195

60 80

50 70 90

45 55 65 75 85

Page 10/10 150

Outils

Dans le document Notes du cours de Mathématiques (Page 141-151)

Documents relatifs