A - Série statistique à une variable

(1)

Séries statistiques

A - Série statistique à une variable

1.Vocabulaire de la statistique

Population – échantillon : Ensemble ou partie d’un ensemble d’unités statistiques dont on observe un ou plusieurs caractères.

Le nombre de ses éléments est sa taille ou son effectif.

Caractère qualitatif : forme, couleur, … ; il est seulement repérable.

Caractère quantitatif : poids, taille, prix, … ; il est mesurable. On prend une variable numérique statistique, discrète si elle ne prend que des valeurs isolées (par exemple entières), continue si elle peut prendre toutes les valeurs d’un intervalle.

Série statistique : ensemble des valeurs prises par une variable statistique sur une population ou un échantillon.

2.Etude d’une série à variable discrète

a)Mise en forme des données. Représentation.

On rassemble les données par valeurs croissante dans le tableau :

Valeurs de la variable

x

₁

x

₂ …

x

_i …

x

_p

Effectifs

n

₁

n

₂ …

n

_i …

n

_p

On indique si nécessaire les fréquences des différentes valeurs.

Fréquence de

x

_i

: f

_i

= n n

_i

/

(n effectif total).

On représente la série discrète par un diagramme en bâtons.

b)Valeurs caractéristiques

• Moyenne , variance , écart-type .

1 1 2 2 1

1

... ...

p i i

i i p p i

p i i

n x n x n x n x n x

x n

n

=

+ + +

= =

∑

2 2 2

1 1

V ( ) ; V.

p p

i i i i

i i

n x x n x x

n n σ

= =

= ∑ − = ∑ − =

• Autres caractéristiques : mode, médiane.

Mode : valeur de la variable pour laquelle l’effectif est maximum.

Médiane : ¹

1

si 2 1; = si 2 . 2

q q

e q e

x x

m x

₊

n q m +

⁺

n q

= = + =

3.Etude d’une série à variable continue

a)Mise en forme des données et représentation

Les résultats sont rassemblés dans un tableau faisant apparaître les classes et les effectifs.

Classes

[ X , X

0 1

] [ X , X

1 2

]

^…

[ X , X

_i₋1 _i

]

^… 

X

_p₋₁

, X

_p

Centres de classes

x

₁

x

₂ …

x

_i …

x

_p

Effectifs

n

₁

n

₂ …

n

_i …

n

_p

(2)

La représentation est faite à l’aide d’un histogramme formé de rectangles dont les aires sont proportionnelles aux effectifs.

On complète par le tracé du polygone des effectifs.

b)Valeurs caractéristiques

Moyenne. Variance. Ecart-type : ils se calculent avec les mêmes formules que pour une variable discrète en associant aux effectifs partiels les centres des classes correspondantes.

Mode : c’est le centre de la classe d’effectif maximum.

Médiane : valeur telle que la moitié des observations lui soit inférieure. Elle se calcule par interpolation linéaire en supposant la répartition uniforme à l’intérieur de la classe médiane.

B – Série statistique double

4.Série statistique double – Représentation

Si l’étude d’une population porte sur deux critères quantitatifs, il correspond à chaque unité statistique un couple de nombres

( , x y

_i _i

)

^.

L’ensemble de ces couples constitue une série statistique double.

Dans le plan muni d’un repère, on peut représenter la série par le nuage de points

M( , x y

_i _i

)

. Une série double peut être pondérée et présentée sous forme de tableau.

5.Ajustement linéaire (ou affine) (Méthode graphique)

Il consiste à « résumer » un nuage longiligne par une droite. Plusieurs méthodes sont utilisées

a)Méthode graphique

C’est le procédé le plus rapide, il consiste à effectuer un ajustement à l’œil. Cet ajustement peut être amélioré en faisant passer la droite par le point moyen

G( , x y

_i _i

)

(figure 1)

b)Méthode de Mayer

Elle consiste à fractionner le nuage en deux nuages partiels d’importances équivalentes et à joindre les points moyens G1 et G2 de ces deux nuages (figure 2).

c)Lissage par utilisation de moyennes partielles O

G y

x Figure 1

O

G1

y

x G2

Figure 2

(3)

Le lissage de nuage consiste à le remplacer par un nuage dont les points présentent moins d’écarts par rapport à la droite d’ajustement

1°) Moyennes mobiles – Moyennes échelonnées

Les couples étant rangés dans l’ordre croissant des valeurs de x, on remplace tous les groupes de 2 (ou plusieurs valeurs consécutives de x (et de y) par leur moyenne. On ajuste ensuite graphiquement le nouveau nuage lissé (figure 3). C’est la méthode des moyennes mobiles.

Dans la même hypothèse on regroupe les n premiers couples, puis les n suivants…etc. C’est ma méthode des moyennes échelonnées (on obtient alors les points fléchés, figure 3).

2°) Moyennes discontinues

On regroupe les couples ayant même valeur de x et on les remplace par m couples ayant cette valeur de x et pour valeur de y, la moyenne des valeurs de y du groupe (figure 4).

6.Ajustement analytique

a) Covariance des variables x et y (ou de la série).

1 1

cov( , ) ( )( ) .

n n

xy i i i i

i i

x y x x y y x y x y

n n

σ

= =

= = ∑ − − = ∑ −

b) Droites de régression

D

de y en x et

D’

de x en y

D

a pour équation

y − y = m x ( − x )

^{, avec :}

1 1

2 2 2

1 1

( )( )

cov( , )

ou

V( ) ( )

n n

i i i i

i i

n n

i i

x x y y x y nx y

m x y m

x x x x nx

= =

− − −

= = =

− −

∑ ∑

D’

a pour équation

y − y = m x '( − x )

O y

x Figure 3

O y

x Figure 4

(4)

2 2

1 1

2

1 1

( )( )

cov( , )

ou '

V( ) ( )

n n

i i i

i i

n n

i i i

i i

x x y y y ny

m x y m

y y y x y nx y

= =

− − −

= = =

− −

∑ ∑

7.Coefficient de corrélation linéaire

1 1 '

xy

x y

r m r

m σ

σ σ

= = − ≤ ≤

×

La corrélation entre x et y est d’autant plus forte que

r

est voisin de 1.

Ex

On a noté à 8 h, 16 h, 24 h dans une station de montagne, les températures

y

_i pendant une période de redoux. On a obtenu, aux dates

x

_i correspondantes à une période de 8 h.

x

i ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹

y

i -8 -2 -5 -4 1 -3 0 5 -2

1) Représenter la série par un nuage de points.

2) Effectuer un lissage en faisant correspondre aux dates 2, 5 et 8, les températures moyennes de la journée.

Ajuster à l’œil le nuage obtenu par une droite.

3) Déterminer pour le nuage réduit l’équation de la droite d’ajustement par la méthode des moindres carrés.

1) Le nuage de points est représenté figure 2. On note une tendance à l’accroissement mais avec des variations sensibles.

Figure 5

(5)

2) La méthode des moyennes (échelonnées) permet de réduire le nuage à trois points sensiblement alignés.

L’ajustement, alors aisé, est réalisé par la droite (figure 5)

x

i 2 5 8 15

y

i -5 -2,67 1 -6,67

i i

x y

-10 -13,35 8 -15,35

2

x

i ⁴ ²⁵ ⁶⁴ ⁹³

15 6, 67

5 ou 2, 223

3 3

x y −

= = = =

( )

15,35 3 5 2, 223 18

soit 1

93 3 25 18

m − − × × − m

= = =

− ×

Equation de

D

_:

y − − _{( 2, 223)} = x − 5, soit y = x − 7, 22.