Chapitre 4
Statistiques descriptives
4.1 Statistiques à une variable
4.1.1 Vocabulaire
Effectuer une étude statistique consiste à exploiter des informations sur un ensemble, appelé population, constitué d’individus. L’étude porte sur uncaractère (ex. âge, taille, couleur des yeux...). Le caractère peut être qualitatif (ex. couleur des yeux) ou quantitatif (ex. poids). La variable est dite discrète si elle ne prend que des valeurs isolées. Elle est ditecontinuesi elle peut prendre toutes les valeurs d’un intervalle deR. Le nombre d’individus d’une valeur estl’effectif de cette valeur. Le nombre d’individus de la population est l’effectif total.
4.1.2 Variables discrètes Représentation
On représente les variables statistiques discrètres sous forme de diagramme en bâtons, histogramme ou de graphique circulaire à l’aide des fréquences de chaque valeur du caratère.
Caractéristiques
1. La moyenne pondérée
Soientnvaleurs de la variable. Si cette variable prendpvaleurs disctinctes (p≤n),x1,· · ·, xp, d’effectifs respectifsn1,· · ·, npalors la moyenne est donnée par :
x= 1 n
p
X
i=1
nixi
Propriété 1 Si pour tout i∈Np on opére un changement de variable affine x0i =axi+b avec (a∈R∗ etb∈R) alors on a x0 =ax+b
2. La variance
La variance est un indicateur de dispersion de la variable statistique : V = 1
n
p
X
i=1
ni(xi−x)2= 1 n
p
X
i=1
nixi2
−x2 3. L’ecart-type
L’ecart-type est égal à la racine carrée de la variance : σ =√ V
Propriété 2 Si pour tout i∈Np on opére un changement de variable affine x0i =axi+b avec (a∈R∗ etb∈R) alors on a Vx0 =a2Vx etσx0 =|a|σx.
1
4.1.3 Variables continues Représentation
Pour leur représentation, on les regroupe en général dans des classes adjacentes d’amplitude pas forcément égale.
Ceci est représenté dans le tableau ci-dessous :
Classes [X0;X1[ [X1;X2[ · · · [Xp−1;Xp]
Centre des classes x1 x2 xp
Effectifs n1 n2 np
Fréquences n1
n
n2
n
np
n
4.2 Statistiques à deux variables
4.2.1 Tableau de données et nuages de points
Il existe parfois une relation entre deux caractères d’une population. On définit alors une série statistique à deux variablesx ety, prenant les valeursx1,· · · , xn ety1,· · ·, yn.
Tableau de données :
Exemple : on a mesuré, pour huit coulées d’acier, la teneur en carbonex (unité : 0,01 %) et la résistance à la tractiony (unité : 1 daN/mm2).
x 2 4 6 8 10 12 15 20
y 0,83 1,34 1,63 2,29 2,44 2,93 4,06 4,48
Nuages de points : Dans le plan muni d’un repère orthogonal (O;~i,~j), on peut associer à chaque couple (xi;yi)de la série statistique, le pointMi de coordonnées(xi;yi).
L’ensemble des pointsMi s’appelle le nuage de points représentant la série statistique.
0 1 2 3 4 5
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 COULEES D’ACIER
Teneur en carbone 0.01 %
Résitance en 1 daN/mm²
On cherche alors à trouver une fonctionf telle que la courbe d’équation y=f(x)"passe le plus près possible"
des points du nuage.
Points moyens
On appelle point moyen d’un nuage denpointsMi(xi;yi), le pointGdéfini par :
xG =x= 1 n
n
X
i=1
xi
yG=y= 1 n
n
X
i=1
yi
4.3 Ajustement affine
4.3.1 Méthode graphique
a. Ajustement à la règle :
2
Lorsque les points Mi semblent alignés, on recherche une équation du typey =ax+b, pour cela on trace au jugé une droiteDen s’efforcant d’équilibrer le nombre de points situés de part et d’autre. Ensuite on détermine par lecture graphique les réelsaetb.
b. Ajustement par la méthode de Mayer :
On partage le nuage de points en deux nuages, on détermine les coordonnées G1 et G2 des points moyens respectifs du premier nuage et du deuxième nuage.
La droite(G1G2), droite deMayer, constitue une "bonne" droite d’ajustement si le nuage est allongé.
4.3.2 Ajustement affine : Méthode des moindres carrés
a. Droites de régression :
y
axi + b yi
xi
Pi
G
D
Mi
x
y
a'yi + b' yi
xi
Qi
G
D'
Mi
x
SoientD une droite d’ajustement d’équationy =ax+b, et Mi(xi;yi)un nuage de points. On posePi le point d’abscissexi situé sur la droiteD.
On appelledroite de régression dey en xla droiteD telle que la somme
n
X
i=1
MiPi 2=
n
X
i=1
[yi−(axi+b)]2 soit minimale.
SoientD0 une droite d’ajustement d’équationx=a0y+b0, etMi(xi;yi)un nuage de points. On poseQile point d’ordonnéeyi situé sur la droiteD0.
On appelledroite de régression dex en y la droiteD0 telle que la somme
n
X
i=1
MiQi 2=
n
X
i=1
[xi−(a0yi+b0)]2soit minimale.b. Covariance : La covariance de la série statistique double de caractèresx ety est le réel : σxy = 1
n
n
X
i=1
(xi−x)(yi−y) = 1 n
n
X
i=1
xiyi−x¯y.¯
c. Equations des droites de regression : On montre que :
• La droite de régressionD deyenx a pour équationy=ax+bavec :a= σxy
[σx]2 et b= ¯y−a¯x La droiteD passe par le point moyenG(¯x; ¯y)du nuage.
• La droite de régressionD0 dexeny a pour équationx=a0y+b0 avec :a0= σxy
[σy]2 etb0= ¯x−a0y¯ La droiteD0 passe par le point moyenG(¯x; ¯y)du nuage.
4.4 Coefficient de corrélation linéaire
Pour apprécier la qualité d’un ajustement affine, on introduit un nouveau paramètre.
Définition :
3
Le coefficient de corrélation linéaire d’une série statistique double de variablesxet yest le nombre défini par : r= σxy
σx×σy
4