Chapitre 1
Statistique descriptive
1.1 Introduction
La statistique descriptive est un ensemble de méthodes qui permettent de récolter des données, de les synthétiser, de les représenter et de les résumer à l’aide de certaines caractéristiques appelées paramètres statistiques. La statistique descriptive a pour objet alors de fournir, à l’aide de représentations graphiques ou à l’aide d’un nombre limité de valeurs, une visualisation ou une description simple et aussi complète que possible d’un phénomène. Ces données sont récoltées sur des populations entières ou (c’est le cas le plus fréquent) sur des échantillons choisis au hasard dans ces populations.
La statistique mathématique, inductive ou inférentielle a pour but de nous aider à prendre des décisions concernant les propriétés d’un caractère sur une population très grande en se basant sur des observations sur un échantillon tiré dans cette population. Alors que la statistique descriptive est facile à appréhender la statistique inductive s’appuie sur la théorie des probabilités, théorie abstraite sans rapport avec l’univers essentiellement fini de l’utilisateur. L’utilisateur, souvent non mathématicien et encore moins probabiliste, doit alors trouver un compromis entre la théorie et l’utilisation concrète.
1.2 Vocabulaire et représentation des variables statistiques
1.2.1 Vocabulaire
Définition 1.2.1. La statistique tire son vocabulaire de la démographie. Voici quelques termes de base.
• Individus: ce sont les éléments, des sujets, qui sont visés par l’étude statistique.
• Population: c’est l’ensemble des individus sur lesquels porte l’étude statistique.
• Caractère: c’est l’objet de l’étude statistique, une grandeur ou un attribu, qui varie d’un individu à l’autre, dont les valeurs (les observations) vont donner des séries de données statistiques.
• Échantillon : c’est un sous ensemble de la population. Les échantillons sont en principe choisis au hasard dans la population mère. Les observations seront faites sur l’échantillon dans le but est d’extrapoler les résultats à toute la population.
– Échantillon représentatif : c’est un échantillon qui reflète fidèlement la stratification et la structure de la population selon un ou plusieurs critères.
– Échantillon aléatoire: c’est un échantillon “variable” dans lequel chaque individu de la po- pulation a une probabilité non nulle et connue de faire partie. Ces probabilités d’appartenance à l’échantillon sont données en fonction de critères ou règles de sondage. Elles dépendent de la façon dont est structurée la population.
• Effectif: c’est le nombre d’individus d’un échantillon ou vérifiant une propriété du caractère étudié.
Définition 1.2.2. Une variable statistiqueest une quantité ou une qualité définie sur une population et qui est susceptible de varier d’un individu à l’autre. Les différentes valeurs ou aspects de la variable sont appelés modalités. On distingue plusieurs types de variables statistiques :
• Variables quantitatives : les modalités sont des quantités mesurables et comparables (ordon- nables) deux a deux. On parle aussi de variables ordinales. Elles sont essentiellement de deux types :
1. Variables discrètes : les modalités (en nombre fini ou infini) d’une variable discrète sont isolées. Souvent, ces valeurs sont des nombres entiers, correspondant à des effectifs.
2. Variables continues : les modalités peuvent prendre toutes les valeurs comprises dans un intervalle donné, notamment un nombre infini de valeurs. Par exemple, toutes les grandeurs liées à l’espace et au temps sont par nature des variables quantitatives continues.
• Variables qualitatives : les modalités d’une variable qualitative ne sont pas objectivement com- parables. Ce sont souvent des noms ou des étiquettes qui permettent de répartir la population en plusieurs groupes sans aucune hiérarchie entre ces groupes. On les appelle aussi variables nomi- nales. Remarquons que les modalités peuvent être des numéros, comme pour les faces d’un dé, mais ce ne sont pas des quantités, mais des noms donnés aux faces.
Exemples 1.2.3.
– Sur une population de mammifères de même espèce, on désigne parxle nombre de petits par portée.
C’est une variable quantitative discrète.
– Sur la population des jeunes mammifères de 6 mois, soit y la variable taille. C’est une variable quantitative continue.
– Les variables sexe et couleur du pelage sont des variables qualitatives.
1.2.2 Présentation des variables statistiques.
a) Variables qualitatives.
Les données dépouillées d’une étude sont présentées en un tableau où apparaissent les différentes modalitésdu caractère ainsi que leseffectifsde ces modalités.
Modalités a1 . . . ai . . . ap
Effectifs n1 . . . ni . . . np – pest le nombre de modalités possibles de la variablexétudiée.
– ni représente le nombre (l’effectif) d’individus pour lesquels la variable xprend la modalitéai. – La sommeN =n1+n2+. . .+np est l’effectif total ou la taille de la population étudiée.
Exemple 1.2.4. On a effectué le croisement de balsamines blanches avec des balsamines pourpres. En première génération, les fleurs sont toutes pourpres. On obtient en deuxième génération quatre catégories avec les effectifs suivants.
Couleurs Pourpre Rose Blanc
lavande Blanc Total
Effectifs 2983 912 913 355 5163
Définition 1.2.5. Fréquences relatives. Soit x une variable statistique de modalités a1, . . . , ap et d’effectifs n1. . . , np etN l’effectif total.
La fréquence (relative)de la modalitéai est par définition le rapport
fi=ni
N.
L’intérêt de la notion de fréquence (relative) est d’être un élément de comparaison pour un même caractère sur deux populations différentes et surtout si elles n’ont pas la même taille. Souvent il plus commode pour l’interprétation d’exprimer ces fréquences en pourcentage. Dans l’exemple précédent on obtient :
Couleurs Pourpre rose Blanc
lavande blanc Total
Effectifsni 2983 912 913 355 5163
Fréquencesfi (en %) 57,78 17,66 17,68 6,88 100
Les représentations graphiques sont en général associées aux fréquences et rarement aux effectifs, selon le principe :
les surfaces affectées aux modalités sont proportionnelles aux fréquences.
Les principales représentations graphiques pour des variables qualitatives sont les représentations dites en barres (ou tuyaux d’orgue) ou en secteurs circulaires (ou camemberts). Dans la représentation en secteurs circulaires, les anglesθi (et donc les surfaces) des divers secteurs associés aux modalitésai sont proportionnels aux fréquences de ces modalités :θi=fi×360◦.
couleur blanc
blanc lavande
rose
pourpre
Histogramme (Feuille de données1 2v*4c)
58%
18% 18%
7%
pourpre rose blanc lavande blanc couleur 0
500 1000 1500 2000 2500 3000 3500
Nbre d'obs.
Figure1.1 – Secteurs circulaires et tuyaux d’orgue
b) Variables quantitatives
• Variables discrètes. Dans le cas d’une variable discrète, la présentation est analogue à celle d’une variable qualitative, les modalités de la variable étant désignées par des valeurs numériques xi et leurs effectifs par ni. De la même façon on a également les fréquences fi = nNi des valeurs xi. Comme ces valeurs sont ordonnéesx1< x2<· · ·< xp,on peut, contrairement aux variables qualitatives, introduire les effectifs et les fréquences cumulés.
– L’effectif cumulé relatif à une valeur xi est la somme des effectifs de toutes les valeurs inférieures ou égales àxi :
Ni=
i
X
k=1
nk
– La fréquence cumulée relative à une valeur xi est la somme des fréquences de toutes les valeurs inférieures ou égales àxi :
Fi=
i
X
k=1
fk =Ni
N
Pour plus de commodité, on va introduire la notion de fonction de répartition, qui est plutôt utilisée en probabilités, mais son utilisation dans ce cadre rend les choses plus simples à introduire.
Notations 1.2.6. Pour une variable statistique xdéfinie sur une population, et pour deux valeursaet b, on désigne par {a < x < b} l’ensemble des individus pour lesquels la valeur x est comprise entre a et b. De même on considère les ensembles{x < a},{x≥b}, etc. dans le même contexte. Les inégalités peuvent être strictes ou larges.
On note alors
prop(a < x < b) prop(x≤a) · · ·
la proportion des individus pour lesquels la valeur xest strictement comprise entre aet b, inférieure ou égale à a, etc.
Définition 1.2.7. la fonction cumulative ou fonction de répartition d’une variable statistique quantitative xest
F :R7→[0,1] définie par F(t) = prop(x≤t) C’est en fait la proportion des individus dont la valeur est inférieure àt.
On peut représenter graphiquement la distribution des fréquence à l’aide d’un diagrammes en bâtons, et la distribution des fréquences cumulées â l’aide du “polygone” des fréquences cumulées. Ce dernier est le graphe de la fonction de répartition. Dans le cas d’une variable discrète, c’est une fonction en escalier dont les points de discontinuité sont les valeurs observéesxi. Plus précisément on a :
F(t) =
0 si t < x1
Fi si xi≤t < xi+1 1 si t≥xp
Exemple 1.2.8. Une étude concernant la distribution du nombrexde petits par portée pour une espèce de rongeurs a fourni la distribution statistique suivante :
Nombre de petits par portée : xi 1 2 3 4 5 6 7 8 Total
Nombre de portées : ni 10 19 32 38 55 62 30 4 N = 250
Fréquences : fi(%) 4,0 7,6 12,8 15,2 22,0 24,8 12,0 1,6 100 fréquences cumulées :Fi(%) 4,0 11,6 24,4 39,6 61,6 86,4 98,4 100 ∗ ∗ ∗
x
4,0%
1
7,6%
2
12,8%
3
15,2%
4
22,0%
5
24,8%
6
12,0%
7
1,6%
8 0 1 2 3 4 5 6 7 8 x
20 40 60 80 100 Fréquences
en %
Figure1.2 – diagramme en batons, polygone des fréquences cumulées
•Variables continues.Dans le cas des variables continues, les données sont groupées en intervalles (les classes) [a0;a1[, [a1;a2[, . . .[ap−1;ap[. L’amplitude d’une classe est la longueur de l’intervalle. Il n’est pas nécessaire que toutes les classes aient les mêmes amplitudes. Mais généralement les classes situées aux extrêmes de la distribution sont plus larges et celles centrales sont les mêmes. Il est difficile d’établir une règle qui permet de décider du nombre de classes ni de leurs amplitudes éventuelles, exception faite de certaines variables dites régulières telles que les lois normales par exemple.
Exemple 1.2.9. On a mesuré la longueurx(en mm) de 335 individus d’une variété de poissons vivant dans un lac. Les données sont rangées en classes. Les résultats figurent sur le tableau suivant :
Classes [250; 300[ [300; 350[ [350; 400[ [400; 450[ [450; 500[ [500; 550[ [550; 600[ Total
Effectifsni 6 22 66 122 72 35 12 N = 335
Dans le cas des variables continues, on représente l’histogramme des fréquences : à chaque classe on associe un rectangle dont l’aire est égale à la fréquence de la classe. Le choix des échelles sur les axes est alors fondamentale. De telles échelles doivent être choisies de telle sorte que la représentation ne soit ni trop aplatie ni trop grande.
Le polygone des fréquences cumulées est la représentation graphique de la fonction de répartition qui est ici continue et affine par morceaux. Plus précisément si on dispose depclasses [a0, a1[. . .[ap−1, ap[ si on désigne par Fi la fréquence cumulée de la classe [ai−1, ai[ (on convient que F0 = 0, alors on a (par interpolation linéaire) :
F(x) =
0 si x≤a0
Fi+Fai+1−Fi
i+1−ai(x−ai) si ai≤x≤ai+1
1 si x≥ap
Classes [250; 300[ [300; 350[ [350; 400[ [400; 450[ [450; 500[ [500; 550[ [550; 600[ Total
Effectifsni 6 22 66 122 72 35 12 335
Fréq.fi 1,8% 6,6% 19,7% 36,4% 21,5% 10,4% 3,6% 100%
Fréq. cum.Fi 1,8% 8,4% 28,1% 64,5% 86,0% 96,4% 100% ∗ ∗ ∗
250 x
1.8%
300
6.6%
350
19.7%
400
36.4%
450
21.5%
500
10.4%
550
3.6%
600 200 300 400 500 600 x
20 40 60 80 100
Figure1.3 – Histogramme des fréquences, courbe cumulative.
1.3 Paramètres d’une variable statistique
1.3.1 Paramètres de position
a) Les quartiles.
Pour la simplicité, on ne considère dans ce paragraphe que les variables statistiques continues.
Définition 1.3.1.
1. Le premier quartile. Le premier quartile Q1 est la valeur de x telle que F(x) = 0,25(25%).
C’est la valeur où on cumule le premier quart de la population.
2. Le deuxième quartile : La médiane. La médiane Me=Q2 est le deuxième quartile ; c’est la valeur dextelle que F(x) = 0,5(= 50%). C’est la valeur où on l’on cumule la premère moitié le la population.
3. Le troisième quartile.Le troisième quartileQ3est la valeur dextelle queF(x) = 0,75(= 75%).
C’est la valeur où on cumule les trois premiers quarts le la population.
Remarque 1.3.2. Comme la fonction de répartition est affine par morceau, pour calculer les quartiles, on doit d’abord déterminer la classe qui contient le quartile en question. On effectue une interpolation.
Exemple 1.3.3. on reprend l’exemple 1.2.9précédent, on a :
1. La classe qui contient le premier quartile est[350; 400[, On obtient alors Q1= 350 + 400−350
28,1−8,4(25−8,4) = 392,236 2. La classe qui contient la médiane est[400; 450[, On obtient alors
Q2=Me= 400 + 450−400
64,5−28,1(50−28,1) = 430,12 3. La classe qui contient le troisième quartile est [450; 500[, On obtient alors
Q3= 450 + 500−450
86,0−64,5(75−64,5) = 474,48
Remarque 1.3.4. On peut considérer des quantiles autres que les quartiles selon le nombre d’intervalles qu’on veut utiliser pour subdiviser la population. Les plus courants sont les déciles : on utilise10%,20%, . . . b) La moyenne arithmétique
•cas d’une variable discrète
Si on dispose denobservations x1, x2, . . . xn alors la moyenne arithmétique de ces observations est m= 1
n
n
X
i=1
xi
Si on a une variable statistique discrète xayant p modalitésx1, x2, . . . , xp d’effectifs n1, . . . np alors la moyenne arithmétique dexest :
m= 1 n
p
X
i=1
nixi=
p
X
i=1
fixi, n=
p
X
i=1
ni, fi= ni
n On reprend l’exemple 1.2.8sur le nombre xde petits par portée :
xi 1 2 3 4 5 6 7 8 Total
ni 10 19 32 38 55 62 30 4 N = 250
nixi 10 38 96 152 275 372 210 32 1185 nix2i 10 76 288 608 1375 2232 1470 256 6315
on a : m(x) =1185
250 = 4,74.
•cas d’une variable continue
On commence par calculer les centres des classes ci = 12(ai+ai−1) pour i = 1, . . . , p. La moyenne arithmétique de la population est alors :
m= 1 n
p
X
i=1
nici=
p
X
i=1
fici, n=
p
X
i=1
ni.
Dans l’exemple 1.2.9 on obtient :
Classes [250; 300[ [300; 350[ [350; 400[ [400; 450[ [450; 500[ [500; 550[ [550; 600[ Total
eff. :ni 6 22 66 122 72 35 12 N= 335
Centres :ci 275 325 375 425 475 525 575
nici 1 650 7 150 24 750 51 850 34 200 18 375 6 900 144 875
nic2i 453 750 2 323 750 9 281 250 22 036 250 16 245 000 9 646 875 3 967 500 63 954 375
c0i −3 −2 −1 0 1 2 3
nic0i −18 −44 −66 0 72 70 36 50
ni(c0i)2 54 88 66 0 72 140 108 528
m= 145820
335 = 432,463
Remarques 1.3.5. 1. Il ne faut pas confondre moyenne et médiane.
2. Changement de variable : Les calculs peuvent être simplifiés à l’aide d’un changement affine de la variable. Plus présisemment si on posex0 = x−b
a , on calcule la moyenne de la nouvelle variable x0 et on a :
m(x) =a m(x0) +b.
Dans l’exemple on effectue le changementx0= x−425
50 et on obtient : m(x0) = 50
335 = 0,14925 donc m(x) = 0,14925×50 + 425 = 432,463 c) La moyenne géométrique d’une variable à valeurs positives
•cas d’une variable discrète
Si on dispose denobservations x1, x2, . . . xn alors la moyenne géométrique de ces observations est mG= (
n
Y
i=1
xi)1n
Si on a une variable statistique discrète xayant p modalitésx1, x2, . . . , xp d’effectifs n1, . . . np alors la moyenne géométrique dexest
m= (
p
Y
i=1
xnii)n1, n=
p
X
i=1
ni.
•cas d’une variable continue
Dans ce cas on désigne parci les centre de classes d’effectifsni,on a mG= (
p
Y
i=1
cnii)n1, n=
p
X
i=1
ni.
Remarque 1.3.6. Pour simplifier le calcul de la moyenne géométrique on utilise le fait suivant : le logarithme de la moyenne géométrique est la moyenne arithmétique du logarithme de la variablex.
ln(mG) = 1 n
p
X
i=1
niln(ci).
Dans le cas des deux exemples 1.2.8et 1.2.9précédents on obtient :
xi 1 2 3 4 5 6 7 8
ni 10 19 32 38 55 62 30 4 N = 250
niln(xi) 0,00 13,17 35,16 52,68 88,52 111,09 58,38 8,32 367,31
ln(mG) =367,31
250 = 1,469 et mG= exp(1,469) = 4,346 et :
effectifs :ni 6 22 66 122 72 35 12 N = 335
ci 275 325 375 425 475 525 575
niln(ci) 33,70 127,24 391,18 738,36 443,76 219,22 76,25 2029,7 ln(mG) = 2029,7
335 = 6,059 et mG= exp(6,059) = 427,87.
d) La moyenne harmonique d’une variable à valeurs positives
L’inverse de la moyenne harmonique est la moyenne des inverses d’une série statistique.
1 mH
= 1 n
p
X
i=1
ni xi
xi 1 2 3 4 5 6 7 8
ni 10 19 32 38 55 62 30 4 N = 250
ni
xi 10,000 9,500 10,667 9,500 11,000 10,333 4,286 0,500 65,786 On obtient :
1 mH
=65,786
250 = 0,263 et mH= 1
0,263 = 3,80
effectifs :ni 6 22 66 122 72 35 12 N = 335
ci 275 325 375 425 475 525 575
ni
ci 0,022 0,068 0,176 0,287 0,152 0,067 0,021 0,792
On obtient :
1
mH = 0,792
335 = 0,002 et mH= 1
0,002 = 423,148 Remarque 1.3.7. On a dans tous les cas la double inégalité
mH≤mG ≤m
e) Le mode
Le mode d’une distribution statistique est la modalité qui a la plus grande fréquence. Cette modalité n’est pas nécessairement unique. Dans le cas d’une variable continue on parle de classe modale. Dans le premier exemple le mode est la valeur 6 et dans le deuxième la classe modale est [400,450[.
1.3.2 Paramètres de dispersion
L’étendue
L’étendue d’une distribution statistique est la différence entre la plus grande valeur observée et la plus petite. Dans le premier exemple l’étendue est 8−1 = 7 le deuxième l’étendue est 600−250 = 350.
L’espace inter-quartiles
L’espace inter-quartiles ou étendue inter-quartiles est la différence Q3−Q1. Dans l’exemple 2 on obtient :
Q3−Q1= 454,52−356,56 = 97,96.
L’écart absolue moyen
Si on considère une variable statistique x de moyenne m alors l’écart absolu moyen de x est par définition la moyenne de la variable|x−m|. plus précisément on a :
eA(x) = 1 n
p
X
i=1
ni|xi−m|
Pour une variable continue on utilise les centres de classeci à la place des valeurs xi. Pour les exemples1.2.8et1.2.9traités ci-dessus on obtient :
p
X
i=1
ni|xi−m|= 346,520, eA(x) = 1,386
p
X
i=1
ni|ci−m|= 16023,881 eA(x) = 47,832
La variance et l’écart type
La variance d’une variable statistique x de moyennem est par définition la moyenne de la variable (x−m)2. Plus précisément on a :
Var(x) = 1 n
p
X
i=1
ni(xi−m)2
Pour une variable continue on utilise les centres de classeci à la place des valeurs xi. Propriété 1.3.8. On a :
Var(x) = 1 n
p
X
i=1
ni(xi−m)2= 1 n
p
X
i=1
ni(xi)2−m2= 1 n
p
X
i=1
ni(xi)2−1 n
p
X
i=1
nixi
2
L’écart type est la racine carrée de la variance.
σ(x) =p Var(x) Dans le cas des deux exemples1.2.8et1.2.9étudiés on obtient :
X
i
nix2i = 6315, m(x) = 4,74 ,Var(x) = 6315
250 −4,742= 2,7924 σ(x) =p
2,7924 = 1,671.
X
i
nic2i = 63954375, m(x) = 432,463,Var(x) = 3884,61 σ(x) = 62,33.
Remarques 1.3.9. 1. Dans la pratique , la formuleVar(x) =n1Pp
i=1ni(xi)2−m2est plus commode.
2. La plupart des calculatrices donne deux écarts types souvent notésσn et σn−1. La formule qu’on utilise ci-haut permet de calculer σn. En fait on a la relation suivante :
σn−1= r n
n−1σn.
On verra plus tard que l’écart typeσn−1 sert à donner une estimation de l’écart type d’une popu- lation en se basant sur celui d’un échantillon de taillenextrait de cette population.
3. Changement de variable : quand on effectue un changement de variable affine de la forme
x0 =x−b
a , a >0 alors on obtient :
Var(x) =a2Var(x0), σ(x) =aσ(x).
Exercice 1.3.10. Dans l’exemple 1.2.9, effectuer le changement de variablex0 = x−42550 et retrouver la variance et l’écart type dex.
1.4 Séries statistiques à deux variables
Dans cette section on considèreP une population et (x, y) un couple de variables statistiques définies sur cette population. On veut étudier simultanément les deux variables, et plus précisément voir s’il y a un lien entre elles. On va alors définir des paramètres statistique qui vont nous informer sur l’intensité de ce lien et ensuite donner des équations de prédiction de l’une des variables connaissant l’autre si l’intensité du lien est importante.
Par soucis de simplicité, on va d’abord commencer par des petites populations et ensuite donner les méthodes pour des grandes populations.
1.4.1 Nuage statistique
On se donne un couple de variable statistiques définies sur une même population de taille n. On considère un repère de coordonnées et à chaque individu ωi on associe le point Mi de coordonnées (xi, yi). L’ensemble de ces points représente le nuage statistique de la distribution.
Exemple 1.4.1.
La Fréquence Cardiaque Maximum, notée FCM, est un pa- ramètre essentiel pour permettre au coureur de fond d’éla- borer des plans d’entraînement efficaces. Cette fréquence peut se mesurer, soit en laboratoire sur tapis roulant, soit sur le terrain à l’aide d’un cardio-fréquencemètre.
Une première étude a été faite auprès de 15 hommes s’en- traînant régulièrement (2 à 4 fois par semaine), et par- ticipant à de petites compétitions. On a mesuré leur fré- quence cardiaque maximum. On souhaite étudier une re- lation éventuelle entre l’âge d’un individu et sa fréquence
cardiaque maximum. 20 25 30 35 Age40 45 50 55 60
178 180 182 184 186 188 190 192 194 196 198 200 202
FCM
Âge 40 36 51 49 47 51 32 55 55 23 49 52 35 30 37
FCM 187 195 180 190 185 183 195 185 189 201 189 185 195 192 197 Remarques 1.4.2. En général on doit s’attendre à 4 types de nuages statistiques :
1. Le nuage est situé dans une zone elliptique peu large et dont l’axe principal est de pente positive.
Dans ce cas on doit s’attendre à un lien linéaire important entre les variables. Les deux variables évoluent en plus dans le même sens. Il y aura une bonnecorrélation positive (figure (a));
2. Le nuage est situé dans une zone elliptique peu large et dont l’axe principal est de pente négative.
Dans ce cas on doit s’attendre à un lien linéaire important entre les variables. Les deux variables évoluent en plus en sens opposés. Il y aura une bonnecorrélation négative (figure (b)); 3. Le nuage est situé dans une zone curviligne peu large sans direction principale, Dans ce cas on
doit s’attendre à unlien fonctionnel non linéaire entre les variables (figure (c)); 4. Le nuage statistique est assez dispersé, sans tendance ni linéaire ni curviligne, dans ce cas on doit
s’attendre à une absence de lien significatif entre les deux variables. Elles doivent être indépen- dantes (figure (d)).
20 25 30 35 40 45 50 55 60
178 180 182 184 186 188 190 192 194 196 198
(a) Corrélation positive
20 25 30 35 40 45 50 55 60
182 184 186 188 190 192 194 196 198 200 202
(b) corrélation négative
20 25 30 35 40 45 50 55 60
50 100 150 200 250 300 350 400 450
( c) Dépendance non linéaire
-20 0 20 40 60 80 100 120 140 160 180 200 220
0 20 40 60 80 100 120 140 160 180 200
(d) Pas de lien
1.4.2 Coefficient de corrélation linéaire
On se donne sur une population un couple de variables statistiques (x, y) de moyennes x = m(x), y=m(y) de variancesV(x) ,V(y) et d’écarts typesσ(x) etσ(y).
Définition 1.4.3. Covariance. La covariance des deux variables xety, notéCov(x, y)est l’espérance de la variable (x−x)×(y−y).
Proposition 1.4.4. On a :
Cov(x, y) =m (x−x)(y−y)
=m(xy)−m(x)m(y) = 1 n
n
X
i=1
xiyi−1 n
n
X
i=1
xi1 n
n
X
i=1
yi .
FMC en fonction de l’âge Σ
x 40 36 51 49 47 51 32 55 55 23 49 52 35 30 37 642
y 187 195 180 190 185 183 195 185 189 201 189 185 195 192 197 2848 x2 1 600 1 296 2 601 2 401 2 209 2 601 1 024 3 025 3 025 529 2 401 2 704 1 225 900 1 369 28 910 y234 969 38 025 32 400 36 100 34 225 33 489 38 025 34 225 35 721 40 401 35 721 34 225 38 025 36 864 38 809 541 224 xy 7 480 7 020 9 180 9 310 8 695 9 333 6 240 10 175 10 395 4 623 9 261 9 620 6 825 5 760 7 289 121 206
Définition 1.4.5. Coefficient de corrélation. Le coefficient de corrélation noté ρ(x, y) est la cova- riance divisée par le produit des écarts types.
ρ(x, y) =Cov(x, y) σ(x)σ(y)
Dans le cas de l’exemple 1.4.1 précédent : On obtient : m(x) =642
15 = 42,8 m(y) = 2848
15 = 189,87; m(xy) = 121206
15 = 8080,4 V(x) = 95,493; V(y) = 32,249; Cov(x, y) =−45,89
σ(x) = 9,772 σ(y) = 5,679; ρ(x, y) =−0,827.
On constate alors une corrélation négatives assez forte, par conséquent on peut prédire linéairement l’une des deux variables connaissant l’autre. C’est l’objet des droites de régression.
Pour simplifier les calculs, on est amené quelques fois à effectuer un changement de variable affine.
On utilise la proposition suivante :
Proposition 1.4.6. Si on posex0= x−ba ety0= y−dc avec aetc positifs, alors on obtient :
• m(x) =a m(x0) +b, m(y) =c m(y0) +d
• V(x) =a2V(x0), V(y) =c2V(y0).
• σ(x) =a σ(x0), σ(y) =c σ(y0).
• Cov(x, y) =acCov(x0, y0)
• ρ(x, y) =ρ(x0, y0): le coefficient de corrélation est inchangé.
1.4.3 Droites de régression
Si on veut donner une estimation d’une variable connaissant l’autre à l’aide d’une approximation affine, on doit chercher une droite qui approche au mieux l’ensemble du nuage statistique au sens des moindres carrés. Par exemple si on veut estimery connaissantx, on cherche une droite d’équation :
y=ax+b.
Pour chaque valeur observéexidexon a d’une part la valeur observéeyiet la valeur estiméeyesti =axi+b.
L’écart entre les deux valeurs est donné par le résidus :
ei=yi−yesti =yi−(axi+b).
La droite cherchée est celle qui réalise la plus petite somme des carrés des résidus, plus précisément on chercheaetb pour que :
X(ei)2=
n
X
i=1
(yi−(axi+b))2
soit la plus petite possible.
On démontre que les valeurs deaetbqui réalisent cette condition d’optimalité sont données par : a= Cov(x, y)
V(x) =ρ(x, y)σ(y)
σ(x); b=m(y)−a m(x).
On trouve dans le cas de l’exemple 1.4.1 étudié :
a=−0,48; b= 210,436; Dy|x:y=−0,48x+ 210,436
Si on veut estimerxconnaissant y, on doit alors chercher une autre équation de la forme x=a0x+b0
qui minimise les résidus qui sont sous la formes X(ei)2=X
(xi−(a0yi+b0))2
On trouve alors des coefficienta0 etb0 de la même forme queaet ben permutant les rôles dexety.
a0= Cov(x, y)
V(y) =ρ(x, y)σ(x)
σ(y); b0 =m(x)−a0m(y) on obtient dans le cas de l’exemple 1.4.1:
a0=−1,423; b0= 313 Dx|y:x=−1.423y+ 313.
1.4.4 Cas des grands échantillons
Dans ce cas les données sont présentées sous forme d’un tableau de contingence de la forme : y y1 y2 . . . yj . . . yq effectif
x marginal(x)
x1 n11 n12 . . . n1j . . . n1q n1∗
x2 n11 n22 . . . n2j . . . n2q n2∗
... ... ... . . . ... . . . ... ... xi ni1 ni2 . . . nij . . . niq ni∗
... ... ... . . . ... . . . ... ... xp np1 np2 . . . npj . . . npq np∗
effectif
marginal(y) n∗1 n.2 . . . n∗j . . . n∗q n Les effectifsnij représentent les nombres d’individus associés aux valeurs xi et yj. Les effectifs marginaux des lignes et de colonnes sont ;
ni∗=
q
X
j=1
nij; n∗j =
p
X
i=1
nij
qui sont respectivement les effectifs des valeursxi etyj.
Les nombrespetqreprésentent les nombres de valeurs xi et yj.
On peut ainsi représenter à part les distributions statistiques dexet deyet calculer leurs paramètres statistiques (moyennes, variances et écart types) et ensuite calculer la covariance en utilisant le tableau de contingence :
m(xy) =X
i,j
nijxiyj; Cov(x, y) =m(xy)−m(x)m(y).
Exemple 1.4.7. Un échantillon de 80 parcelles de 0,4 hectares chacune a été traité avec différentes quantités d’un engrais azoté. Le tableau suivant donne le nombre des parcelles suivant la quantité x(en kg) d’engrais et le rendement obtenuy en quintaux par hectare par parcelle.
On demande de calculer le coefficient de corrélation et la droite de régression de y en fonction dex.
Dans le tableau suivant on indique chaque case les effectifs nij ainsi que les produit nijxiyj sur la deuxième ligne de la case.
y 3 8 13 18 23 28 33 ni∗ X
j
nijxiyj x
50 1 3 1 4
150 1 200 650 0 0 0 0 2 000
60 1 3 2 4 10
0 480 2 340 2 160 5 520 0 0 10 500
70 7 8 5 4
0 0 0 8 820 12 880 9 800 0 31 500
80 8 12 2 22
0 0 0 0 14 720 26 880 5 280 46 880
90 1 6 7 6 20
0 0 0 1 620 12 420 17 640 17 820 49 500
100 2 1 3
0 0 0 0 0 5 600 3 300 8 900
n∗j 1 4 4 10 26 26 9 80
X
i
nijxiyj 150 1 680 2 990 12 600 45 540 59 920 26 400 149 280 Les deux tableaux suivants représentent les distributions statistiques des deux ariables :
xi 50 60 70 80 90 100 P
ni∗ 5 10 20 22 20 3 80
ni∗xi 250 600 1400 1760 1800 300 6110
ni∗x2i 12500 36000 98000 140800 162000 30000 479300
yj 3 8 13 18 23 28 33 P
n∗j 1 4 4 10 26 26 9 80
n∗jyj 3 32 52 180 598 728 297 1890
n∗jyj2 9 256 676 3240 13754 20384 9801 48120 On a
Xni∗xi= 6110; X
ni∗x2i = 479300 X
n∗jyj= 1890; X
n∗jyj2= 48120; X
i,j
nijxiyj= 149280 D’où
m(x) =6110
80 = 76,375; V(x) =479300
80 −(76,375)2= 158,1094 s(x) = 12,574 m(y) = 1890
80 = 23,625; V(y) = 48120
80 −(23,625)2= 43,359 s(y) = 6.585 m(xy) = 149280
80 = 1866; Cov(x, y) = 1866−76.325∗23.625 = 61.64 r(x, y) = 61.64
12,574∗6.585 = 0.744 On constate alors une bonne corrélation entre les deux variable. Il est donc légitime de donner une approximation affine du rendement en fonction de la quantité d’engrais utilisée. On a :
Dy|x:y=ax+b a= Cov(x, y)
V(x) = 61,64
158,1094 = 0,39, b=m(y)−am(x) = 26.625−0.39×76.375 =−6.15.