Statistiques descriptives

(1)

Chapitre 4

Statistiques descriptives

4.1 Statistiques à une variable

4.1.1 Vocabulaire

Effectuer une étude statistique consiste à exploiter des informations sur un ensemble, appelé population, constitué d’individus. L’étude porte sur uncaractère (ex. âge, taille, couleur des yeux...). Le caractère peut être qualitatif (ex. couleur des yeux) ou quantitatif (ex. poids). La variable est dite discrète si elle ne prend que des valeurs isolées. Elle est ditecontinuesi elle peut prendre toutes les valeurs d’un intervalle deR. Le nombre d’individus d’une valeur estl’effectif de cette valeur. Le nombre d’individus de la population est l’effectif total.

4.1.2 Variables discrètes Représentation

On représente les variables statistiques discrètres sous forme de diagramme en bâtons, histogramme ou de graphique circulaire à l’aide des fréquences de chaque valeur du caratère.

Caractéristiques

1. La moyenne pondérée

Soientnvaleurs de la variable. Si cette variable prendpvaleurs disctinctes (p≤n),x1,· · ·, xp, d’effectifs respectifsn1,· · ·, npalors la moyenne est donnée par :

x= 1 n

p

X

i=1

nixi

Propriété 1 Si pour tout i∈N_p on opére un changement de variable affine x⁰i =axi+b avec (a∈R^∗ etb∈R) alors on a x⁰ =ax+b

2. La variance

La variance est un indicateur de dispersion de la variable statistique : V = 1

n

p

X

i=1

ni(xi−x)²= 1 n

p

X

i=1

nixi2

−x² 3. L’ecart-type

L’ecart-type est égal à la racine carrée de la variance : σ =√ V

Propriété 2 Si pour tout i∈N_p on opére un changement de variable affine x⁰i =axi+b avec (a∈R^∗ etb∈R) alors on a Vx⁰ =a²Vx etσx⁰ =|a|σx.

1

(2)

4.1.3 Variables continues Représentation

Pour leur représentation, on les regroupe en général dans des classes adjacentes d’amplitude pas forcément égale.

Ceci est représenté dans le tableau ci-dessous :

Classes [X⁰;X¹[ [X¹;X²[ · · · [Xp−1;Xp]

Centre des classes x1 x2 xp

Effectifs n1 n2 np

Fréquences n1

n

n2

n

np

n

4.2 Statistiques à deux variables

4.2.1 Tableau de données et nuages de points

Il existe parfois une relation entre deux caractères d’une population. On définit alors une série statistique à deux variablesx ety, prenant les valeursx1,· · · , xn ety1,· · ·, yn.

Tableau de données :

Exemple : on a mesuré, pour huit coulées d’acier, la teneur en carbonex (unité : 0,01 %) et la résistance à la tractiony (unité : 1 daN/mm²).

x 2 4 6 8 10 12 15 20

y 0,83 1,34 1,63 2,29 2,44 2,93 4,06 4,48

Nuages de points : Dans le plan muni d’un repère orthogonal (O;~i,~j), on peut associer à chaque couple (xi;yi)de la série statistique, le pointMi de coordonnées(xi;yi).

L’ensemble des pointsMi s’appelle le nuage de points représentant la série statistique.

0 1 2 3 4 5

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 COULEES D’ACIER

Teneur en carbone 0.01 %

Résitance en 1 daN/mm²

On cherche alors à trouver une fonctionf telle que la courbe d’équation y=f(x)"passe le plus près possible"

des points du nuage.

Points moyens

On appelle point moyen d’un nuage denpointsMi(xi;yi), le pointGdéfini par :











xG =x= 1 n

n

X

i=1

xi

yG=y= 1 n

n

X

i=1

yi

4.3 Ajustement affine

4.3.1 Méthode graphique

a. Ajustement à la règle :

2

(3)

Lorsque les points Mi semblent alignés, on recherche une équation du typey =ax+b, pour cela on trace au jugé une droiteDen s’efforcant d’équilibrer le nombre de points situés de part et d’autre. Ensuite on détermine par lecture graphique les réelsaetb.

b. Ajustement par la méthode de Mayer :

On partage le nuage de points en deux nuages, on détermine les coordonnées G1 et G2 des points moyens respectifs du premier nuage et du deuxième nuage.

La droite(G¹G2), droite deMayer, constitue une "bonne" droite d’ajustement si le nuage est allongé.

4.3.2 Ajustement affine : Méthode des moindres carrés

a. Droites de régression :

y

axi + b yi

xi

Pi

G

D

Mi

x

y

a'yi + b' yi

xi

Qi

G

D'

Mi

x

SoientD une droite d’ajustement d’équationy =ax+b, et Mi(xi;yi)un nuage de points. On posePi le point d’abscissexi situé sur la droiteD.

On appelledroite de régression dey en xla droiteD telle que la somme

n

X

i=1

MiPi 2=

n

X

i=1

[yi−(axi+b)]² soit minimale.

SoientD⁰ une droite d’ajustement d’équationx=a⁰y+b⁰, etMi(xi;yi)un nuage de points. On poseQile point d’ordonnéeyi situé sur la droiteD⁰.

On appelledroite de régression dex en y la droiteD⁰ telle que la somme

n

X

i=1

MiQi 2=

n

X

i=1

[xi−(a⁰yi+b⁰)]²soit minimale.b. Covariance : La covariance de la série statistique double de caractèresx ety est le réel : σxy = 1

n

X

i=1

(xi−x)(yi−y) = 1 n

n

X

i=1

xiyi−x¯y.¯

c. Equations des droites de regression : On montre que :

• La droite de régressionD deyenx a pour équationy=ax+bavec :a= σxy

[σx]² et b= ¯y−a¯x La droiteD passe par le point moyenG(¯x; ¯y)du nuage.

• La droite de régressionD⁰ dexeny a pour équationx=a⁰y+b⁰ avec :a⁰= σxy

[σy]² etb⁰= ¯x−a⁰y¯ La droiteD⁰ passe par le point moyenG(¯x; ¯y)du nuage.

4.4 Coefficient de corrélation linéaire

Pour apprécier la qualité d’un ajustement affine, on introduit un nouveau paramètre.

Définition :

3

(4)

Le coefficient de corrélation linéaire d’une série statistique double de variablesxet yest le nombre défini par : r= σxy

σx×σy

4