Chapitre 1 : statistiques descriptives

(1)

Chapitre 1

Statistique descriptive

1.1 Introduction

La statistique descriptive est un ensemble de méthodes qui permettent de récolter des données, de les synthétiser, de les représenter et de les résumer à l’aide de certaines caractéristiques appelées paramètres statistiques. La statistique descriptive a pour objet alors de fournir, à l’aide de représentations graphiques ou à l’aide d’un nombre limité de valeurs, une visualisation ou une description simple et aussi complète que possible d’un phénomène. Ces données sont récoltées sur des populations entières ou (c’est le cas le plus fréquent) sur des échantillons choisis au hasard dans ces populations.

La statistique mathématique, inductive ou inférentielle a pour but de nous aider à prendre des décisions concernant les propriétés d’un caractère sur une population très grande en se basant sur des observations sur un échantillon tiré dans cette population. Alors que la statistique descriptive est facile à appréhender la statistique inductive s’appuie sur la théorie des probabilités, théorie abstraite sans rapport avec l’univers essentiellement fini de l’utilisateur. L’utilisateur, souvent non mathématicien et encore moins probabiliste, doit alors trouver un compromis entre la théorie et l’utilisation concrète.

1.2 Vocabulaire et représentation des variables statistiques

1.2.1 Vocabulaire

Définition 1.2.1. La statistique tire son vocabulaire de la démographie. Voici quelques termes de base.

• Individus: ce sont les éléments, des sujets, qui sont visés par l’étude statistique.

• Population: c’est l’ensemble des individus sur lesquels porte l’étude statistique.

• Caractère: c’est l’objet de l’étude statistique, une grandeur ou un attribu, qui varie d’un individu à l’autre, dont les valeurs (les observations) vont donner des séries de données statistiques.

• Échantillon : c’est un sous ensemble de la population. Les échantillons sont en principe choisis au hasard dans la population mère. Les observations seront faites sur l’échantillon dans le but est d’extrapoler les résultats à toute la population.

– Échantillon représentatif : c’est un échantillon qui reflète fidèlement la stratification et la structure de la population selon un ou plusieurs critères.

(2)

– Échantillon aléatoire: c’est un échantillon “variable” dans lequel chaque individu de la po- pulation a une probabilité non nulle et connue de faire partie. Ces probabilités d’appartenance à l’échantillon sont données en fonction de critères ou règles de sondage. Elles dépendent de la façon dont est structurée la population.

• Effectif: c’est le nombre d’individus d’un échantillon ou vérifiant une propriété du caractère étudié.

Définition 1.2.2. Une variable statistiqueest une quantité ou une qualité définie sur une population et qui est susceptible de varier d’un individu à l’autre. Les différentes valeurs ou aspects de la variable sont appelés modalités. On distingue plusieurs types de variables statistiques :

• Variables quantitatives : les modalités sont des quantités mesurables et comparables (ordon- nables) deux a deux. On parle aussi de variables ordinales. Elles sont essentiellement de deux types :

1. Variables discrètes : les modalités (en nombre fini ou infini) d’une variable discrète sont isolées. Souvent, ces valeurs sont des nombres entiers, correspondant à des effectifs.

2. Variables continues : les modalités peuvent prendre toutes les valeurs comprises dans un intervalle donné, notamment un nombre infini de valeurs. Par exemple, toutes les grandeurs liées à l’espace et au temps sont par nature des variables quantitatives continues.

• Variables qualitatives : les modalités d’une variable qualitative ne sont pas objectivement com- parables. Ce sont souvent des noms ou des étiquettes qui permettent de répartir la population en plusieurs groupes sans aucune hiérarchie entre ces groupes. On les appelle aussi variables nomi- nales. Remarquons que les modalités peuvent être des numéros, comme pour les faces d’un dé, mais ce ne sont pas des quantités, mais des noms donnés aux faces.

Exemples 1.2.3.

– Sur une population de mammifères de même espèce, on désigne parxle nombre de petits par portée.

C’est une variable quantitative discrète.

– Sur la population des jeunes mammifères de 6 mois, soit y la variable taille. C’est une variable quantitative continue.

– Les variables sexe et couleur du pelage sont des variables qualitatives.

1.2.2 Présentation des variables statistiques.

a) Variables qualitatives.

Les données dépouillées d’une étude sont présentées en un tableau où apparaissent les différentes modalitésdu caractère ainsi que leseffectifsde ces modalités.

Modalités a1 . . . ai . . . ap

Effectifs n₁ . . . n_i . . . n_p – pest le nombre de modalités possibles de la variablexétudiée.

– ni représente le nombre (l’effectif) d’individus pour lesquels la variable xprend la modalitéai. – La sommeN =n₁+n₂+. . .+n_p est l’effectif total ou la taille de la population étudiée.

(3)

Exemple 1.2.4. On a effectué le croisement de balsamines blanches avec des balsamines pourpres. En première génération, les fleurs sont toutes pourpres. On obtient en deuxième génération quatre catégories avec les effectifs suivants.

Couleurs Pourpre Rose Blanc

lavande Blanc Total

Effectifs 2983 912 913 355 5163

Définition 1.2.5. Fréquences relatives. Soit x une variable statistique de modalités a1, . . . , ap et d’effectifs n1. . . , np etN l’effectif total.

La fréquence (relative)de la modalitéai est par définition le rapport

fi=ni

N.

L’intérêt de la notion de fréquence (relative) est d’être un élément de comparaison pour un même caractère sur deux populations différentes et surtout si elles n’ont pas la même taille. Souvent il plus commode pour l’interprétation d’exprimer ces fréquences en pourcentage. Dans l’exemple précédent on obtient :

Couleurs Pourpre rose Blanc

lavande blanc Total

Effectifsni 2983 912 913 355 5163

Fréquencesfi (en %) 57,78 17,66 17,68 6,88 100

Les représentations graphiques sont en général associées aux fréquences et rarement aux effectifs, selon le principe :

les surfaces affectées aux modalités sont proportionnelles aux fréquences.

Les principales représentations graphiques pour des variables qualitatives sont les représentations dites en barres (ou tuyaux d’orgue) ou en secteurs circulaires (ou camemberts). Dans la représentation en secteurs circulaires, les anglesθi (et donc les surfaces) des divers secteurs associés aux modalitésai sont proportionnels aux fréquences de ces modalités :θi=fi×360^◦.

couleur blanc

blanc lavande

rose

pourpre

Histogramme (Feuille de données1 2v*4c)

58%

18% 18%

7%

pourpre rose blanc lavande blanc couleur 0

500 1000 1500 2000 2500 3000 3500

Nbre d'obs.

Figure1.1 – Secteurs circulaires et tuyaux d’orgue

(4)

b) Variables quantitatives

• Variables discrètes. Dans le cas d’une variable discrète, la présentation est analogue à celle d’une variable qualitative, les modalités de la variable étant désignées par des valeurs numériques xi et leurs effectifs par ni. De la même façon on a également les fréquences fi = ⁿ_Nⁱ des valeurs xi. Comme ces valeurs sont ordonnéesx1< x2<· · ·< xp,on peut, contrairement aux variables qualitatives, introduire les effectifs et les fréquences cumulés.

– L’effectif cumulé relatif à une valeur xi est la somme des effectifs de toutes les valeurs inférieures ou égales àx_i :

Ni=

i

X

k=1

nk

– La fréquence cumulée relative à une valeur xi est la somme des fréquences de toutes les valeurs inférieures ou égales àxi :

Fi=

i

X

k=1

fk =Ni

N

Pour plus de commodité, on va introduire la notion de fonction de répartition, qui est plutôt utilisée en probabilités, mais son utilisation dans ce cadre rend les choses plus simples à introduire.

Notations 1.2.6. Pour une variable statistique xdéfinie sur une population, et pour deux valeursaet b, on désigne par {a < x < b} l’ensemble des individus pour lesquels la valeur x est comprise entre a et b. De même on considère les ensembles{x < a},{x≥b}, etc. dans le même contexte. Les inégalités peuvent être strictes ou larges.

On note alors

prop(a < x < b) prop(x≤a) · · ·

la proportion des individus pour lesquels la valeur xest strictement comprise entre aet b, inférieure ou égale à a, etc.

Définition 1.2.7. la fonction cumulative ou fonction de répartition d’une variable statistique quantitative xest

F :R7→[0,1] définie par F(t) = prop(x≤t) C’est en fait la proportion des individus dont la valeur est inférieure àt.

On peut représenter graphiquement la distribution des fréquence à l’aide d’un diagrammes en bâtons, et la distribution des fréquences cumulées â l’aide du “polygone” des fréquences cumulées. Ce dernier est le graphe de la fonction de répartition. Dans le cas d’une variable discrète, c’est une fonction en escalier dont les points de discontinuité sont les valeurs observéesxi. Plus précisément on a :

F(t) =







0 si t < x1

F_i si x_i≤t < x_i+1 1 si t≥x_p

Exemple 1.2.8. Une étude concernant la distribution du nombrexde petits par portée pour une espèce de rongeurs a fourni la distribution statistique suivante :

Nombre de petits par portée : xi 1 2 3 4 5 6 7 8 Total

Nombre de portées : n_i 10 19 32 38 55 62 30 4 N = 250

Fréquences : fi(%) 4,0 7,6 12,8 15,2 22,0 24,8 12,0 1,6 100 fréquences cumulées :Fi(%) 4,0 11,6 24,4 39,6 61,6 86,4 98,4 100 ∗ ∗ ∗

(5)

x

4,0%

1

7,6%

2

12,8%

3

15,2%

4

22,0%

5

24,8%

6

12,0%

7

1,6%

8 0 1 2 3 4 5 6 7 8 x

20 40 60 80 100 Fréquences

en %

Figure1.2 – diagramme en batons, polygone des fréquences cumulées

•Variables continues.Dans le cas des variables continues, les données sont groupées en intervalles (les classes) [a₀;a₁[, [a₁;a₂[, . . .[a_p−1;a_p[. L’amplitude d’une classe est la longueur de l’intervalle. Il n’est pas nécessaire que toutes les classes aient les mêmes amplitudes. Mais généralement les classes situées aux extrêmes de la distribution sont plus larges et celles centrales sont les mêmes. Il est difficile d’établir une règle qui permet de décider du nombre de classes ni de leurs amplitudes éventuelles, exception faite de certaines variables dites régulières telles que les lois normales par exemple.

Exemple 1.2.9. On a mesuré la longueurx(en mm) de 335 individus d’une variété de poissons vivant dans un lac. Les données sont rangées en classes. Les résultats figurent sur le tableau suivant :

Classes [250; 300[ [300; 350[ [350; 400[ [400; 450[ [450; 500[ [500; 550[ [550; 600[ Total

Effectifsni 6 22 66 122 72 35 12 N = 335

Dans le cas des variables continues, on représente l’histogramme des fréquences : à chaque classe on associe un rectangle dont l’aire est égale à la fréquence de la classe. Le choix des échelles sur les axes est alors fondamentale. De telles échelles doivent être choisies de telle sorte que la représentation ne soit ni trop aplatie ni trop grande.

Le polygone des fréquences cumulées est la représentation graphique de la fonction de répartition qui est ici continue et affine par morceaux. Plus précisément si on dispose depclasses [a0, a1[. . .[ap−1, ap[ si on désigne par F_i la fréquence cumulée de la classe [a_i−1, a_i[ (on convient que F₀ = 0, alors on a (par interpolation linéaire) :

F(x) =







0 si x≤a₀

F_i+^F_aⁱ⁺¹^−Fⁱ

i+1−ai(x−a_i) si a_i≤x≤a_i+1

1 si x≥ap

Classes [250; 300[ [300; 350[ [350; 400[ [400; 450[ [450; 500[ [500; 550[ [550; 600[ Total

Effectifsni 6 22 66 122 72 35 12 335

Fréq.fi 1,8% 6,6% 19,7% 36,4% 21,5% 10,4% 3,6% 100%

Fréq. cum.Fi 1,8% 8,4% 28,1% 64,5% 86,0% 96,4% 100% ∗ ∗ ∗

(6)

250 x

1.8%

300

6.6%

350

19.7%

400

36.4%

450

21.5%

500

10.4%

550

3.6%

600 200 300 400 500 600 ^x

20 40 60 80 100

Figure1.3 – Histogramme des fréquences, courbe cumulative.

1.3 Paramètres d’une variable statistique

1.3.1 Paramètres de position

a) Les quartiles.

Pour la simplicité, on ne considère dans ce paragraphe que les variables statistiques continues.

Définition 1.3.1.

1. Le premier quartile. Le premier quartile Q1 est la valeur de x telle que F(x) = 0,25(25%).

C’est la valeur où on cumule le premier quart de la population.

2. Le deuxième quartile : La médiane. La médiane Me=Q2 est le deuxième quartile ; c’est la valeur dextelle que F(x) = 0,5(= 50%). C’est la valeur où on l’on cumule la premère moitié le la population.

3. Le troisième quartile.Le troisième quartileQ3est la valeur dextelle queF(x) = 0,75(= 75%).

C’est la valeur où on cumule les trois premiers quarts le la population.

Remarque 1.3.2. Comme la fonction de répartition est affine par morceau, pour calculer les quartiles, on doit d’abord déterminer la classe qui contient le quartile en question. On effectue une interpolation.

Exemple 1.3.3. on reprend l’exemple 1.2.9précédent, on a :

1. La classe qui contient le premier quartile est[350; 400[, On obtient alors Q1= 350 + 400−350

28,1−8,4(25−8,4) = 392,236 2. La classe qui contient la médiane est[400; 450[, On obtient alors

Q2=Me= 400 + 450−400

64,5−28,1(50−28,1) = 430,12 3. La classe qui contient le troisième quartile est [450; 500[, On obtient alors

Q₃= 450 + 500−450

86,0−64,5(75−64,5) = 474,48

(7)

Remarque 1.3.4. On peut considérer des quantiles autres que les quartiles selon le nombre d’intervalles qu’on veut utiliser pour subdiviser la population. Les plus courants sont les déciles : on utilise10%,20%, . . . b) La moyenne arithmétique

•cas d’une variable discrète

Si on dispose denobservations x₁, x₂, . . . x_n alors la moyenne arithmétique de ces observations est m= 1

n

X

i=1

x_i

Si on a une variable statistique discrète xayant p modalitésx1, x2, . . . , xp d’effectifs n1, . . . np alors la moyenne arithmétique dexest :

m= 1 n

p

X

i=1

n_ix_i=

p

X

i=1

f_ix_i, n=

p

X

i=1

n_i, f_i= ni

n On reprend l’exemple 1.2.8sur le nombre xde petits par portée :

xi 1 2 3 4 5 6 7 8 Total

ni 10 19 32 38 55 62 30 4 N = 250

nixi 10 38 96 152 275 372 210 32 1185 nix²_i 10 76 288 608 1375 2232 1470 256 6315

on a : m(x) =1185

250 = 4,74.

•cas d’une variable continue

On commence par calculer les centres des classes ci = ¹₂(ai+a_i−1) pour i = 1, . . . , p. La moyenne arithmétique de la population est alors :

m= 1 n

p

X

i=1

n_ic_i=

p

X

i=1

f_ic_i, n=

p

X

i=1

n_i.

Dans l’exemple 1.2.9 on obtient :

Classes [250; 300[ [300; 350[ [350; 400[ [400; 450[ [450; 500[ [500; 550[ [550; 600[ Total

eff. :ni 6 22 66 122 72 35 12 N= 335

Centres :ci 275 325 375 425 475 525 575

nici 1 650 7 150 24 750 51 850 34 200 18 375 6 900 144 875

nic²i 453 750 2 323 750 9 281 250 22 036 250 16 245 000 9 646 875 3 967 500 63 954 375

c⁰i −3 −2 −1 0 1 2 3

nic⁰i −18 −44 −66 0 72 70 36 50

ni(c⁰i)² 54 88 66 0 72 140 108 528

m= 145820

335 = 432,463

Remarques 1.3.5. 1. Il ne faut pas confondre moyenne et médiane.

2. Changement de variable : Les calculs peuvent être simplifiés à l’aide d’un changement affine de la variable. Plus présisemment si on posex⁰ = x−b

a , on calcule la moyenne de la nouvelle variable x⁰ et on a :

m(x) =a m(x⁰) +b.

(8)

Dans l’exemple on effectue le changementx⁰= x−425

50 et on obtient : m(x⁰) = 50

335 = 0,14925 donc m(x) = 0,14925×50 + 425 = 432,463 c) La moyenne géométrique d’une variable à valeurs positives

•cas d’une variable discrète

Si on dispose denobservations x1, x2, . . . xn alors la moyenne géométrique de ces observations est mG= (

n

Y

i=1

xi)¹ⁿ

Si on a une variable statistique discrète xayant p modalitésx₁, x₂, . . . , xp d’effectifs n₁, . . . np alors la moyenne géométrique dexest

m= (

p

Y

i=1

xⁿ_iⁱ)ⁿ¹, n=

p

X

i=1

ni.

•cas d’une variable continue

Dans ce cas on désigne parci les centre de classes d’effectifsni,on a m_G= (

p

Y

i=1

cⁿ_iⁱ)ⁿ¹, n=

p

X

i=1

n_i.

Remarque 1.3.6. Pour simplifier le calcul de la moyenne géométrique on utilise le fait suivant : le logarithme de la moyenne géométrique est la moyenne arithmétique du logarithme de la variablex.

ln(mG) = 1 n

p

X

i=1

niln(ci).

Dans le cas des deux exemples 1.2.8et 1.2.9précédents on obtient :

x_i 1 2 3 4 5 6 7 8

ni 10 19 32 38 55 62 30 4 N = 250

n_iln(x_i) 0,00 13,17 35,16 52,68 88,52 111,09 58,38 8,32 367,31

ln(mG) =367,31

250 = 1,469 et mG= exp(1,469) = 4,346 et :

effectifs :n_i 6 22 66 122 72 35 12 N = 335

ci 275 325 375 425 475 525 575

n_iln(c_i) 33,70 127,24 391,18 738,36 443,76 219,22 76,25 2029,7 ln(m_G) = 2029,7

335 = 6,059 et m_G= exp(6,059) = 427,87.

(9)

d) La moyenne harmonique d’une variable à valeurs positives

L’inverse de la moyenne harmonique est la moyenne des inverses d’une série statistique.

1 mH

= 1 n

p

X

i=1

n_i xi

x_i 1 2 3 4 5 6 7 8

ni 10 19 32 38 55 62 30 4 N = 250

n_i

xi 10,000 9,500 10,667 9,500 11,000 10,333 4,286 0,500 65,786 On obtient :

1 mH

=65,786

250 = 0,263 et m_H= 1

0,263 = 3,80

effectifs :ni 6 22 66 122 72 35 12 N = 335

ci 275 325 375 425 475 525 575

n_i

c_i 0,022 0,068 0,176 0,287 0,152 0,067 0,021 0,792

On obtient :

1

m_H = 0,792

335 = 0,002 et mH= 1

0,002 = 423,148 Remarque 1.3.7. On a dans tous les cas la double inégalité

mH≤mG ≤m

e) Le mode

Le mode d’une distribution statistique est la modalité qui a la plus grande fréquence. Cette modalité n’est pas nécessairement unique. Dans le cas d’une variable continue on parle de classe modale. Dans le premier exemple le mode est la valeur 6 et dans le deuxième la classe modale est [400,450[.

1.3.2 Paramètres de dispersion

L’étendue

L’étendue d’une distribution statistique est la différence entre la plus grande valeur observée et la plus petite. Dans le premier exemple l’étendue est 8−1 = 7 le deuxième l’étendue est 600−250 = 350.

L’espace inter-quartiles

L’espace inter-quartiles ou étendue inter-quartiles est la différence Q₃−Q₁. Dans l’exemple 2 on obtient :

Q3−Q1= 454,52−356,56 = 97,96.

(10)

L’écart absolue moyen

Si on considère une variable statistique x de moyenne m alors l’écart absolu moyen de x est par définition la moyenne de la variable|x−m|. plus précisément on a :

eA(x) = 1 n

p

X

i=1

ni|xi−m|

Pour une variable continue on utilise les centres de classeci à la place des valeurs xi. Pour les exemples1.2.8et1.2.9traités ci-dessus on obtient :

p

X

i=1

ni|xi−m|= 346,520, eA(x) = 1,386

p

X

i=1

ni|ci−m|= 16023,881 eA(x) = 47,832

La variance et l’écart type

La variance d’une variable statistique x de moyennem est par définition la moyenne de la variable (x−m)². Plus précisément on a :

Var(x) = 1 n

p

X

i=1

n_i(x_i−m)²

Pour une variable continue on utilise les centres de classeci à la place des valeurs xi. Propriété 1.3.8. On a :

Var(x) = 1 n

p

X

i=1

ni(xi−m)²= 1 n

p

X

i=1

ni(xi)²−m²= 1 n

p

X

i=1

ni(xi)²−1 n

p

X

i=1

nixi

²

L’écart type est la racine carrée de la variance.

σ(x) =p Var(x) Dans le cas des deux exemples1.2.8et1.2.9étudiés on obtient :

X

i

nix²_i = 6315, m(x) = 4,74 ,Var(x) = 6315

250 −4,74²= 2,7924 σ(x) =p

2,7924 = 1,671.

X

i

n_ic²_i = 63954375, m(x) = 432,463,Var(x) = 3884,61 σ(x) = 62,33.

Remarques 1.3.9. 1. Dans la pratique , la formuleVar(x) =_n¹Pp

i=1n_i(x_i)²−m²est plus commode.

2. La plupart des calculatrices donne deux écarts types souvent notésσ_n et σ_n−1. La formule qu’on utilise ci-haut permet de calculer σ_n. En fait on a la relation suivante :

σ_n−1= r n

n−1σ_n.

On verra plus tard que l’écart typeσ_n−1 sert à donner une estimation de l’écart type d’une popu- lation en se basant sur celui d’un échantillon de taillenextrait de cette population.

(11)

3. Changement de variable : quand on effectue un changement de variable affine de la forme

x⁰ =x−b

a , a >0 alors on obtient :

Var(x) =a²Var(x⁰), σ(x) =aσ(x).

Exercice 1.3.10. Dans l’exemple 1.2.9, effectuer le changement de variablex⁰ = ^x−425₅₀ et retrouver la variance et l’écart type dex.

1.4 Séries statistiques à deux variables

Dans cette section on considèreP une population et (x, y) un couple de variables statistiques définies sur cette population. On veut étudier simultanément les deux variables, et plus précisément voir s’il y a un lien entre elles. On va alors définir des paramètres statistique qui vont nous informer sur l’intensité de ce lien et ensuite donner des équations de prédiction de l’une des variables connaissant l’autre si l’intensité du lien est importante.

Par soucis de simplicité, on va d’abord commencer par des petites populations et ensuite donner les méthodes pour des grandes populations.

1.4.1 Nuage statistique

On se donne un couple de variable statistiques définies sur une même population de taille n. On considère un repère de coordonnées et à chaque individu ω_i on associe le point M_i de coordonnées (x_i, y_i). L’ensemble de ces points représente le nuage statistique de la distribution.

Exemple 1.4.1.

La Fréquence Cardiaque Maximum, notée FCM, est un pa- ramètre essentiel pour permettre au coureur de fond d’éla- borer des plans d’entraînement efficaces. Cette fréquence peut se mesurer, soit en laboratoire sur tapis roulant, soit sur le terrain à l’aide d’un cardio-fréquencemètre.

Une première étude a été faite auprès de 15 hommes s’en- traînant régulièrement (2 à 4 fois par semaine), et par- ticipant à de petites compétitions. On a mesuré leur fré- quence cardiaque maximum. On souhaite étudier une re- lation éventuelle entre l’âge d’un individu et sa fréquence

cardiaque maximum. ²⁰ ²⁵ ³⁰ ³⁵ Age⁴⁰ ⁴⁵ ⁵⁰ ⁵⁵ ⁶⁰

178 180 182 184 186 188 190 192 194 196 198 200 202

FCM

Âge 40 36 51 49 47 51 32 55 55 23 49 52 35 30 37

FCM 187 195 180 190 185 183 195 185 189 201 189 185 195 192 197 Remarques 1.4.2. En général on doit s’attendre à 4 types de nuages statistiques :

1. Le nuage est situé dans une zone elliptique peu large et dont l’axe principal est de pente positive.

Dans ce cas on doit s’attendre à un lien linéaire important entre les variables. Les deux variables évoluent en plus dans le même sens. Il y aura une bonnecorrélation positive (figure (a));

(12)

2. Le nuage est situé dans une zone elliptique peu large et dont l’axe principal est de pente négative.

Dans ce cas on doit s’attendre à un lien linéaire important entre les variables. Les deux variables évoluent en plus en sens opposés. Il y aura une bonnecorrélation négative (figure (b)); 3. Le nuage est situé dans une zone curviligne peu large sans direction principale, Dans ce cas on

doit s’attendre à unlien fonctionnel non linéaire entre les variables (figure (c)); 4. Le nuage statistique est assez dispersé, sans tendance ni linéaire ni curviligne, dans ce cas on doit

s’attendre à une absence de lien significatif entre les deux variables. Elles doivent être indépen- dantes (figure (d)).

20 25 30 35 40 45 50 55 60

178 180 182 184 186 188 190 192 194 196 198

(a) Corrélation positive

20 25 30 35 40 45 50 55 60

182 184 186 188 190 192 194 196 198 200 202

(b) corrélation négative

20 25 30 35 40 45 50 55 60

50 100 150 200 250 300 350 400 450

( c) Dépendance non linéaire

-20 0 20 40 60 80 100 120 140 160 180 200 220

0 20 40 60 80 100 120 140 160 180 200

(d) Pas de lien

1.4.2 Coefficient de corrélation linéaire

On se donne sur une population un couple de variables statistiques (x, y) de moyennes x = m(x), y=m(y) de variancesV(x) ,V(y) et d’écarts typesσ(x) etσ(y).

Définition 1.4.3. Covariance. La covariance des deux variables xety, notéCov(x, y)est l’espérance de la variable (x−x)×(y−y).

Proposition 1.4.4. On a :

Cov(x, y) =m (x−x)(y−y)

=m(xy)−m(x)m(y) = 1 n

n

X

i=1

x_iy_i−1 n

n

X

i=1

x_i1 n

n

X

i=1

y_i .

(13)

FMC en fonction de l’âge Σ

x 40 36 51 49 47 51 32 55 55 23 49 52 35 30 37 642

y 187 195 180 190 185 183 195 185 189 201 189 185 195 192 197 2848 x² 1 600 1 296 2 601 2 401 2 209 2 601 1 024 3 025 3 025 529 2 401 2 704 1 225 900 1 369 28 910 y²34 969 38 025 32 400 36 100 34 225 33 489 38 025 34 225 35 721 40 401 35 721 34 225 38 025 36 864 38 809 541 224 xy 7 480 7 020 9 180 9 310 8 695 9 333 6 240 10 175 10 395 4 623 9 261 9 620 6 825 5 760 7 289 121 206

Définition 1.4.5. Coefficient de corrélation. Le coefficient de corrélation noté ρ(x, y) est la cova- riance divisée par le produit des écarts types.

ρ(x, y) =Cov(x, y) σ(x)σ(y)

Dans le cas de l’exemple 1.4.1 précédent : On obtient : m(x) =642

15 = 42,8 m(y) = 2848

15 = 189,87; m(xy) = 121206

15 = 8080,4 V(x) = 95,493; V(y) = 32,249; Cov(x, y) =−45,89

σ(x) = 9,772 σ(y) = 5,679; ρ(x, y) =−0,827.

On constate alors une corrélation négatives assez forte, par conséquent on peut prédire linéairement l’une des deux variables connaissant l’autre. C’est l’objet des droites de régression.

Pour simplifier les calculs, on est amené quelques fois à effectuer un changement de variable affine.

On utilise la proposition suivante :

Proposition 1.4.6. Si on posex⁰= ^x−b_a ety⁰= ^y−d_c avec aetc positifs, alors on obtient :

• m(x) =a m(x⁰) +b, m(y) =c m(y⁰) +d

• V(x) =a²V(x⁰), V(y) =c²V(y⁰).

• σ(x) =a σ(x⁰), σ(y) =c σ(y⁰).

• Cov(x, y) =acCov(x⁰, y⁰)

• ρ(x, y) =ρ(x⁰, y⁰): le coefficient de corrélation est inchangé.

1.4.3 Droites de régression

Si on veut donner une estimation d’une variable connaissant l’autre à l’aide d’une approximation affine, on doit chercher une droite qui approche au mieux l’ensemble du nuage statistique au sens des moindres carrés. Par exemple si on veut estimery connaissantx, on cherche une droite d’équation :

y=ax+b.

Pour chaque valeur observéex_idexon a d’une part la valeur observéey_iet la valeur estiméey^est_i =ax_i+b.

L’écart entre les deux valeurs est donné par le résidus :

e_i=y_i−y^est_i =y_i−(ax_i+b).

La droite cherchée est celle qui réalise la plus petite somme des carrés des résidus, plus précisément on chercheaetb pour que :

X(e_i)²=

n

X

i=1

(y_i−(ax_i+b))²

(14)

soit la plus petite possible.

On démontre que les valeurs deaetbqui réalisent cette condition d’optimalité sont données par : a= Cov(x, y)

V(x) =ρ(x, y)σ(y)

σ(x); b=m(y)−a m(x).

On trouve dans le cas de l’exemple 1.4.1 étudié :

a=−0,48; b= 210,436; D_y|x:y=−0,48x+ 210,436

Si on veut estimerxconnaissant y, on doit alors chercher une autre équation de la forme x=a⁰x+b⁰

qui minimise les résidus qui sont sous la formes X(ei)²=X

(xi−(a⁰yi+b⁰))²

On trouve alors des coefficienta⁰ etb⁰ de la même forme queaet ben permutant les rôles dexety.

a⁰= Cov(x, y)

V(y) =ρ(x, y)σ(x)

σ(y); b⁰ =m(x)−a⁰m(y) on obtient dans le cas de l’exemple 1.4.1:

a⁰=−1,423; b⁰= 313 D_x|y:x=−1.423y+ 313.

1.4.4 Cas des grands échantillons

Dans ce cas les données sont présentées sous forme d’un tableau de contingence de la forme : y y1 y2 . . . yj . . . yq effectif

x marginal(x)

x1 n11 n12 . . . n1j . . . n1q n_1∗

x2 n11 n22 . . . n2j . . . n2q n_2∗

... ... ... . . . ... . . . ... ... x_i n_i1 n_i2 . . . n_ij . . . n_iq n_i∗

... ... ... . . . ... . . . ... ... x_p n_p1 n_p2 . . . n_pj . . . n_pq n_p∗

effectif

marginal(y) n_∗1 n_.2 . . . n_∗j . . . n_∗q n Les effectifsn_ij représentent les nombres d’individus associés aux valeurs x_i et y_j. Les effectifs marginaux des lignes et de colonnes sont ;

n_i∗=

q

X

j=1

n_ij; n_∗j =

p

X

i=1

n_ij

(15)

qui sont respectivement les effectifs des valeursxi etyj.

Les nombrespetqreprésentent les nombres de valeurs xi et yj.

On peut ainsi représenter à part les distributions statistiques dexet deyet calculer leurs paramètres statistiques (moyennes, variances et écart types) et ensuite calculer la covariance en utilisant le tableau de contingence :

m(xy) =X

i,j

n_ijx_iy_j; Cov(x, y) =m(xy)−m(x)m(y).

Exemple 1.4.7. Un échantillon de 80 parcelles de 0,4 hectares chacune a été traité avec différentes quantités d’un engrais azoté. Le tableau suivant donne le nombre des parcelles suivant la quantité x(en kg) d’engrais et le rendement obtenuy en quintaux par hectare par parcelle.

On demande de calculer le coefficient de corrélation et la droite de régression de y en fonction dex.

Dans le tableau suivant on indique chaque case les effectifs nij ainsi que les produit nijxiyj sur la deuxième ligne de la case.

y 3 8 13 18 23 28 33 n_i∗ X

j

n_ijx_iy_j x

50 1 3 1 4

150 1 200 650 0 0 0 0 2 000

60 1 3 2 4 10

0 480 2 340 2 160 5 520 0 0 10 500

70 7 8 5 4

0 0 0 8 820 12 880 9 800 0 31 500

80 8 12 2 22

0 0 0 0 14 720 26 880 5 280 46 880

90 1 6 7 6 20

0 0 0 1 620 12 420 17 640 17 820 49 500

100 2 1 3

0 0 0 0 0 5 600 3 300 8 900

n_∗j 1 4 4 10 26 26 9 80

X

i

nijxiyj 150 1 680 2 990 12 600 45 540 59 920 26 400 149 280 Les deux tableaux suivants représentent les distributions statistiques des deux ariables :

xi 50 60 70 80 90 100 P

n_i∗ 5 10 20 22 20 3 80

n_i∗xi 250 600 1400 1760 1800 300 6110

ni∗x²_i 12500 36000 98000 140800 162000 30000 479300

(16)

yj 3 8 13 18 23 28 33 P

n_∗j 1 4 4 10 26 26 9 80

n_∗jyj 3 32 52 180 598 728 297 1890

n_∗jy_j² 9 256 676 3240 13754 20384 9801 48120 On a

Xni∗xi= 6110; X

ni∗x²_i = 479300 X

n∗jyj= 1890; X

n∗jy_j²= 48120; X

i,j

nijxiyj= 149280 D’où

m(x) =6110

80 = 76,375; V(x) =479300

80 −(76,375)²= 158,1094 s(x) = 12,574 m(y) = 1890

80 = 23,625; V(y) = 48120

80 −(23,625)²= 43,359 s(y) = 6.585 m(xy) = 149280

80 = 1866; Cov(x, y) = 1866−76.325∗23.625 = 61.64 r(x, y) = 61.64

12,574∗6.585 = 0.744 On constate alors une bonne corrélation entre les deux variable. Il est donc légitime de donner une approximation affine du rendement en fonction de la quantité d’engrais utilisée. On a :

D_y|x:y=ax+b a= Cov(x, y)

V(x) = 61,64

158,1094 = 0,39, b=m(y)−am(x) = 26.625−0.39×76.375 =−6.15.