Chapitre III : Analyses statistiques pour la gestion

(1)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 1

Chapitre III : Analyses statistiques pour la gestion

I- Rappels

1) Définitions

La statistique est l’ensemble des méthodes permettant la collecte et l’analyse d’ensembles de données relatives à des groupes d’éléments. La statistique est un domaine des mathématiques qui possède une composante théorique ainsi qu’une composante appliquée.

Souvent, on parle non pas de groupes et d’éléments mais de populations et d’individus, termes issus de la démographie, domaine d’application initial de la statistique. Ainsi parlera-t-on de population de consommateurs comme de population d’entreprises.

Pour étudier ces populations, on constitue un ensemble d’individus, appelés encore unités statistiques, que l’on nommera échantillon lorsqu’il n’est constitué que d’une partie de la population.

La population est étudiée suivant un ou plusieurs caractères. Par exemple, on étudiera les

consommateurs selon leur sexe, âge ou le nombre de leurs enfants, les entreprises selon leur chiffre d’affaires et leur résultat. Chaque caractère comprend différentes modalités.

Par exemple, l’âge a pour modalités les éléments de ℝ compris entre 0 et 120, en prenant pour hypothèse que 120 ans est la limite raisonnable de la durée de vie humaine.

En fait, on distingue deux grandes catégories de caractères :

• d’une part, les caractères qualitatifs, communément appelées variables qualitatives, non mesurables comme le sexe, la couleur des yeux, le fait de posséder ou non une voiture ;

• et d’autre part, les caractères quantitatifs, communément nommés variables quantitatives, dont les modalités sont des nombres tels que l’âge, le salaire ou le chiffre d’affaires.

Les variables quantitatives sont dites discrètes si elles ne peuvent prendre qu’un nombre fini dénombrable de valeurs, tel que le nombre d’enfants.

Elles sont dites continues si elles peuvent prendre une infinité non dénombrable de valeurs, telle que la taille ou encore le chiffre d’affaires.

Exemple 1 :

Les données suivantes se réfèrent à l’absentéisme des étudiants de l’IUT GEA sur un mois : Nombre de journées

d’absence Effectifs

0 30

1 14

2 22

3 8

4 9

5 14

6 5

7 6

8 2

9 3

10 7

(2)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 2 2) Indicateurs de concentration

Les effectifs et fréquences, simples ou cumulés, servent à cerner le poids respectif de chaque classe dans une population.

Pour chaque classe avec = 1, … , , l’effectif représente le nombre d’éléments observés, noté , la fréquence étant le rapport de cet effectif à l’effectif total N de l’échantillon : = /.

L’effectif est parfois appelé fréquence absolue et la fréquence est nommée effectif relatif.

La fréquence se présente sous la forme d’un nombre compris entre 0 et 1 ou sous forme d’un pourcentage compris entre 0 % et 100 %.

L’effectif cumulé donne le nombre d’observations inférieures, strictement ou non, (respectivement supérieures) à une valeur donnée.

Exemple 2 : Compléter les colonnes du tableau ci-dessous : Nombre de

journées d’absence

Effectifs

Effectifs cumulés croissants

Effectifs cumulés décroissants

Fréquences

Fréquences cumulées croissantes

Fréquences cumulées décroissantes

0 30 30 120

1 14

2 22

3 8

4 9

5 14

6 5

7 6

8 2

9 3

10 7 120 7

Total :

0 5 10 15 20 25 30 35

0 1 2 3 4 5 6 7 8 9 10

(3)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 3 3) Indicateurs de position

a) Moyenne arithmétique On considère dans la suite, la série statistique définie par le tableau ci-contre.

L’effectif total est = + + . . . + .

Définition 1 : La moyenne de la série statistique est le nombre réel, noté ̅ défini par :

̅ = + + . . . +

=∑

Remarque 1 :

Pour les variables quantitatives continues, il est d’usage de choisir pour le centre des classes.

Exemple 3 :

On étudie l’âge des abonnés d’un stade de rugby sur un échantillon de 100 personnes :

Classe d’âge Effectifs Centre des classes

[0 ;20[ 12

[20 ;40[ 25

[40 ;60[ 27

[60 ;80[ 32

[80 ;100[ 4

100

L’âge moyen des abonnés dans cet échantillon est :

̅ =12 × 10 + 25 × 30 + 27 × 50 + 32 × 70 + 4 × 90

100 = 48,2

Exemple 4 :

Dans l’exemple sur l’absentéisme :

̅ =30 × 0 + 14 × 1 + 22 × 2 + ⋯ + 7 × 10

120 ≈ 3,1

Valeur …

Effectif …

(4)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 4 b) Mode, classe modale

Le mode, valeur modale ou dominante, désigne la valeur que la variable prend le plus fréquemment, soit la valeur la plus représentée, c’est-à-dire qui présente le plus fort effectif ou la fréquence la plus élevée.

De manière similaire, dans le cas de données regroupées, la classe modale désigne la classe la plus représentée.

Exemple 5 :

Dans l’exemple sur l’absentéisme, le mode est 0 journée d’absence (effectif le plus important).

Dans l’exemple sur les abonnés, la classe modale est [60 ;80[.

c) Médiane

Définition 2 : On appelle médiane tout réel "_# tel que :

Au moins 50% des termes de la série ont une valeur inférieure ou égale à $_%et au moins 50%

des termes de la série ont une valeur supérieure ou égale à $_%.

Remarque 2 :

La médiane partage l'ensemble des termes en deux sous-ensembles de même effectif.

La détermination de la médiane est différente suivant que l'effectif total est pair ou impair :

• Lorsque l'effectif total est impair, il n'y a pas de difficulté, la médiane "_# est le terme central, à savoir le terme de rang ^&' : on a donc : "_# = ^()*

+

• Lorsque l'effectif total est pair, l'usage veut que l'on choisisse pour médiane "_# la moyenne des deux termes centraux, à savoir les termes de rang ^& et ^& + 1. On a donc : "_# = ^,⁽⁺^',⁽^+)*

Mais tout réel de l'intervalle -⁽

+ ; ⁽

+'/ conviendrait également.

En effet, dans certaines situations, la moyenne des deux termes centraux, qui n'est pas une valeur de la série, n'a pas de sens : par exemple, quel est le jour médian du mois de juin ?

Le mois de juin comporte 30 jours. Les deux termes centraux sont 15 et 16 (15ê jour et 16ê jour). Dire que « le jour médian est le 15,5ê » n'a pas de sens.

Mieux vaut dire (dans ce type de situation) : « le jour médian est le 15^e jour » ou « le jour médian est le 16^e jour » (au choix) ...

Remarque 3 : Pour une variable continue, la classe médiane est la classe qui contient l’observation centrale ou médiane, en d’autres termes, c’est la première classe qui voit les fréquences cumulées atteindre 50 %. Si l’on souhaite une valeur ponctuelle de la médiane, une approximation de celle-ci pourra être obtenue par interpolation linéaire dans la classe médiane.

(5)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 5 Exemple 6 :

L'étudiant A a obtenu les 8 notes suivantes :

= 5 ; = 5 ; ₀ = 6 ; ₂ = 9 ; ₃ = 10 ; ₄ = 12 ; ₅ = 13 ; ₆ = 13 L'étudiant B a obtenu les 9 notes suivantes :

= 2 ; = 3 ; ₀ = 5 ; ₂ = 6 ; ₃ = 8 ; ₄ = 9 ; ₅ = 9 ; ₆ = 10 ; ₇ = 10 L'étudiant C a obtenu les 10 notes suivantes :

= 6 ; = 6 ; ₀ = 10 ; ₂ = 12 ; ₃ = 12 ; ₄ = 12 ; ₅ = 14 ; ₆ = 15 ; ₇ = 16 ; ₈ = 16 L'étudiant D a obtenu les 11 notes suivantes :

= 0 ; = 0 ; ₀ = 1 ; ₂ = 4 ; ₃ = 5 ; ₄ = 8 ; ₅ = 10 ; ₆ = 12 ; ₇ = 13 ; ₈= 16 ; = 17 Pour l’étudiant A ( = 8) : "_# = ^,⁹^', ^: = 9,5

Pour l’étudiant B ( = 9) : "_# = ₃ = 8

Pour l’étudiant C ( = 10) : "_# = ^,^:^', ^; = 12 (ici, c’est une valeur de la série) Pour l’étudiant D ( = 11) : "_# = ₄ = 8

Exemple 7 :

Dans l’exemple sur l’absentéisme, l’effectif est pair, la médiane est la moyenne des 60^ème et 61^ème valeurs : elles sont toutes deux égales à 2, la médiane est donc 2.

Dans l’exemple sur les abonnés, l’effectif est encore pair, la classe médiane est la classe qui contient la 50^ème et la 51^ème valeur de la série : c’est la classe [40 ;60[.

d) Quartiles, déciles, centiles

En plus des indicateurs de tendances centrales, il existe plus généralement des indicateurs de position : les quartiles, les déciles et les centiles sont les valeurs du caractère qui partagent l’effectif total en respectivement 4, 10 et 100 parties égales.

Définition 3 :

On appelle premier quartile < la plus petite valeur de la série tel qu’au moins 25% des termes de la série ont une valeur inférieure ou égale à <.

On appelle troisième quartile <₀ la plus petite valeur de la série tel qu’au moins 75% des termes de la série ont une valeur inférieure ou égale à <₀.

Remarque 4 :

• Le deuxième quartile < ne se définit pas puisqu'il s'agit de la médiane "_#.

• Les trois quartiles partagent l'ensemble des valeurs en quatre sous-ensembles de (presque) même effectif.

• On a toujours : <≤"_# ≤<₀

• Lorsque l'effectif total n'est pas un multiple de 4, il n'y a pas de difficulté, les quartiles < et <₀ sont les termes de rang immédiatement supérieur à ^&

2 et ^0&

• Lorsque l'effectif total est un multiple de 4, les quartiles 2< et <₀ sont les termes de rang ^&₂ et

0&

2 : On a donc < = ⁽

9 et <₀ = ^>(

9 .

(6)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 6 Exemple 8 :

Pour l'étudiant A ( = 8) : < = = 5 et <₀ = ₄ = 12 Pour l'étudiant B ( = 9) : < = ₀ = 5 et <₀ = ₅ = 9 Pour l'étudiant C ( = 10) : < = ₀ = 10 et <₀ = ₆ = 15 Pour l'étudiant D ( = 11) : < = ₀ = 1 et <₀ = ₇ = 13 Définition 4 :

On appelle premier décile ? (respectivement premier centile @ ) la plus petite valeur de la série tel qu’au moins 10% (respectivement 1%) des termes de la série ont une valeur inférieure ou égale à ? (respectivement @).

On appelle deuxième décile ? (respectivement deuxième centile @ ) la plus petite valeur de la série tel qu’au moins 20% (respectivement 2%) des termes de la série ont une valeur inférieure ou égale à

@ et ainsi de suite jusqu’à ?₇ et @₇₇.

4) Indicateurs de dispersion

La dispersion représente « l’étendue » des différentes valeurs que peut prendre une variable

statistique. Il existe différentes mesures de la dispersion : les plus courantes sont la variance et l’écart- type ou encore l’étendue, les intervalles interquartiles et interdéciles.

Exemple 9 :

Un premier jeu de loterie permet de gagner 9 € dans 10% des cas et perdre 1€ dans 90% des cas.

Un deuxième permet de gagner 490€ dans 2 % des cas et perdre 10€ dans 98% des cas.

Ces deux jeux ont un point commun : le gain moyen est nul (la moyenne arithmétique est égale à 0) Mais ils ont une grande différence : la « dispersion » des données n’est pas la même.

a) Variance – écart-type

On considère à nouveau la série statistique définie par le tableau ci-contre.

L’effectif total est = + + . . . + .

Définition 5 :

La variance et l’écart-type sont des éléments de mesure de la dispersion des valeurs de la série autour de la moyenne.

La variance de la série statistique est le nombre réel, noté CDE(G) ou C ou I défini par : C =(− ̅)+ (− ̅)+ . . . + K− ̅L

=∑ (− ̅)

L’écart-type de la série statistique est le nombre réel, noté I défini par :

I = √C = N∑ (− ̅)

Valeur …

Effectif …

(7)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 7 Remarque 5 :

• Plus les valeurs sont concentrées au voisinage de la moyenne, plus la variance (l’écart-type) est faible.

• Plus les valeurs sont éloignées de la moyenne, plus la variance (l’écart-type) est grande.

• La variance est en quelque sorte « une moyenne d’écarts à la moyenne ».

• L’écart-type est exprimé dans la même unité que la variable étudiée.

• On utilise une expression plus pratique de la variance d’après le théorème de Koenig-Huygens : C =()+ ()+ . . . + KL

− (̅) = ∑ ()

− (̅)

Exemple 10 :

Le premier jeu de loterie a une variance de 9 et donc un écart-type de 3 : C =10 × 9+ 90 × (−1)

100 − 0 = 9 et I = √9 = 3

Le deuxième jeu a une variance de 4900 et donc un écart-type de 70 : C =2 × 490+ 98 × (−10)

100 − 0 = 4900 et I = √4900 = 70

Exemple 11 :

Dans l’exemple sur l’absentéisme :

C =30 × 0+ 14 × 1 + 22 × 2+ ⋯ + 7 × 10

120 − (3,1) ≈ 8,83 et I ≈ 2,97 Dans l’exemple sur les abonnés :

C =12 × 10+ 25 × 30+ 27 × 50 + 32 × 70+ 4 × 90

100 − (48,2) = 480,46 et I ≈ 21,9

b) Étendue – Intervalles interquartiles, interdéciles

Sur la base des indicateurs de position, on peut définir d’autres indicateurs de dispersion apportant une information très différente de celle fournie par la variance et l’écart-type.

L’étendue d’une série statistique est l’écart entre la plus grande et la plus petite valeur observée.

L’étendue d’une série correspond à la même notion que l’amplitude d’une classe.

Pour limiter l’effet de valeurs extrêmes, on peut s’intéresser à l’intervalle interquartiles.

L’intervalle interquartiles correspond à l’étendue de la « moitié centrale » de la série statistique, c’est-à-dire la série statistique « amputée » de ses deux quarts extérieurs d’observations, soit les 50 % d’observations centrales.

(8)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 8 De même, l’intervalle interdéciles correspond à l’étendue de la série statistique diminuée de ses deux déciles extérieurs d’observations, c’est-à-dire 10 % des valeurs observées ont été supprimées de part et d’autre de la distribution, il reste 80 % des données.

Exemple 12 : Dans l’exemple sur l’absentéisme : Étendue : 10 − 0 = 10.

< = 0 et <₀ = 5 donc l’écart interquartiles est 5 − 0 = 5.

? = 0 et ?₇ = 8 donc l’écart interdéciles est 8.

Exemple 13 :

On regroupe dans ce tableau le nombre de buts marqués par une équipe sur les 38 matchs de la saison d’un championnat de foot :

Nombre de buts marqués

Effectifs (nombre

de matchs)

Fréquences

Fréquences cumulées croissantes

Fréquences cumulées décroissantes

0 8

1 10

2 10

3 6

4 2

5 1

6 1

Total : 38

Compléter le tableau et donner les différents paramètres étudiés précédemment et associés à cette série de valeurs.

(9)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 9 II- Série statistique à deux variables

En économie et en gestion, on recherche très souvent l’existence ou non d’une relation entre deux (ou plusieurs) variables, soit entre deux caractères d’une même population.

Une fois cette relation supposée existante, on cherche à l’exprimer mathématiquement par une équation.

Cependant, en général, si une telle relation existe, elle ne se révèle pas parfaitement exacte empiriquement. On comprend aisément qu’en de multiples domaines, de nombreuses variables influent les unes sur les autres et qu’il est difficile de les répertorier et même de les considérer exhaustivement dans le cadre d’une étude statistique.

1) Contexte d’application

Pour établir la relation existant entre deux variables X et Y, il s’agit d’abord de recueillir des données représentant les différentes valeurs que les deux variables peuvent prendre.

On obtient alors un ensemble de couples de variables (, O) ou encore deux ensembles de données {, , … , } et {O, O, … , O}.

Dans un second temps, il est nécessaire de classer ces données. Ceci prend la forme d’un tableau statistique. Dans le cas le plus simple où les données sont discrètes et non regroupées (données énumérées), ce tableau est similaire au tableau d’une série statistique simple auquel on ajoute simplement une colonne :

N° de l’observation R_S T_S 1

2

…

Exemple 14 :

Dans un hypermarché, chaque semaine de l’année, on a relevé la recette du lundi et du samedi, en milliers d’euros. Un échantillon de 7 semaines a donné les résultats suivants :

Semaine n°i Recette du lundi R_S Recette du samedi T_S

1 57 84

2 50 72

3 52 74

4 53 77

5 48 68

6 56 82

7 54 78

Quelle relation y a-t-il entre les recettes du lundi et du samedi ? Comment la représenter ?

(10)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 10 2) Courbes d’ajustement

Une fois le tableau statistique établi, il convient de le représenter graphiquement.

Cette représentation graphique, généralement nommé diagramme de dispersion, se présente sous la forme d’un nuage de points qui peut mettre en évidence une courbe continue qui suit

approximativement les données.

Cette courbe, nommée courbe d’ajustement, peut prendre la forme d’une droite si la relation mis en évidence est linéaire (fonction affine : O = D + U) ou la forme d’une courbe si la relation mis en évidence est non-linéaire, comme par exemple dans le cas d’une relation quadratique (parabole ou polynôme du second degré : O = D+ U + V).

Le problème de l’ajustement des courbes, nommé aussi régression, est de trouver les équations d’approximation des courbes suggérées par le diagramme de dispersion.

Ces équations représentent l’expression de l’une des variables, la variable dépendante ou variable expliquée, en fonction de l’autre, la variable indépendante ou variable explicative.

Dans la pratique, à la vue du nuage de points, plusieurs courbes peuvent sembler représenter la relation entre les deux variables. Il est donc nécessaire de faire appel à des méthodes rigoureuses afin de déterminer la « meilleure » courbe ou équation d’approximation suggérée par le diagramme de dispersion.

Ces méthodes sont multiples et peuvent être complexes.

Exemple 15 :

Reprenons notre exemple sur les recettes de l’hypermarché.

Les données peuvent être représentées par un nuage de points.

La forme du nuage laisse penser qu’il existe une relation affine entre les deux variables, il reste alors à déterminer cette relation le plus précisément possible.

65 67 69 71 73 75 77 79 81 83

47 48 49 50 51 52 53 54 55 56 57

Recettes du samedi

Recettes du lundi

(11)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 11 a) Ajustement linéaire par la méthode des moindres carrés

i) Droite des moindres carrés

Comme dans le cas général, les données recueillies (, O) sont représentées par un nuage de N points dans le plan (, O).

La régression linéaire s’effectue lorsque le nuage est de forme allongé et rectiligne.

Dans ce cas, la relation recherchée est supposée être une fonction affine, soit de la forme O = D + U. Rechercher une relation affine entre les variables X et Y revient alors à rechercher la droite qui

« décrit » au mieux ce nuage de points.

La droite des moindres carrés est définie comme étant la droite qui rend minimale la somme des carrés des écarts des valeurs observées OX_W à la droite d’équation O = D + U : les points de la droite d’abscisse ont pour ordonnée O = D+ U, à ne pas confondre avec OX_W qui est l’ordonnée du point du nuage.

En termes simples, la « distance » entre la droite des moindres carrés et le nuage de points est

minimale, la distance étant ici définie par la somme de la différence, élevée au carré, de l’ordonnée de chaque point du nuage avec l’ordonnée du point de la droite ayant même abscisse.

Si Y représente cet écart, appelé aussi résidu, le principe des moindres carrés ordinaire (MCO) consiste à choisir les valeurs de D et de U qui minimisent E, somme du carré des résidus, défini par :

Z = [ Y = [(OX − O_W ) = [(OX − (D_W + U))

(12)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 12 Les valeurs D et U cherchées sont données par les formules :

D =V\](G, ^)

C(G) =∑( − )(O− O)

∑( − ) =∑ O− O

∑ − U = O − D

Exemple 16 :

=57 + 50 + 52 + 53 + 48 + 56 + 54

7 ≈ 52,86

O =84 + 72 + 74 + 77 + 68 + 82 + 78

7 ≈ 76,43

D =57 × 84 + 50 × 72 + 53 × 74 + 53 × 77 + 48 × 68 + 56 × 82 + 54 × 78 − 7 × 52,86 × 76,43 57+ 20+ 52+ 53+ 48+ 56+ 54− 7 × 52,86

D ≈ 1,7488

U = O − D ≈ −16,009

On peut en déduire une estimation des recettes du vendredi lorsque les recettes du lundi ont été de 51 000 € : 1,7488 × 51 − 16,009 ≈ 73,2

Ou encore estimer les recettes du lundi pour un vendredi à 80 000 € : 1,7488 − 16,009 = 80 ⇔ =80 + 16,009

1,7488 ≈ 54,9

y = 1,7488x - 16,009

65 67 69 71 73 75 77 79 81 83

47 48 49 50 51 52 53 54 55 56 57

Recettes du samedi

Recettes du lundi

(13)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 13 ii) Coefficient de corrélation linéaire – Étude de qualité

Pour mesurer la qualité de l’approximation d’un nuage (, O) par sa droite des moindres carrés, on calcule le coefficient de corrélation linéaire défini par :

E_`a= @\](G, ^)

I_`I_a = ∑( − )(O − O)

b∑( − )× ∑(O− O) = ∑ O− O

cK∑ − L × K∑ O− OL

C’est un nombre compris entre −1 et +1, qui vaut +1 (respectivement −1) si les points du nuage sont exactement alignés sur la droite de pente D positive (respectivement négative).

Ce coefficient est une mesure de la dispersion du nuage.

On considère que l’approximation d’un nuage par sa droite des moindres carrés est de bonne qualité lorsque |E_à| est proche de 1 (donc E_à proche de +1 ou de −1) et de médiocre qualité lorsque |E_à| est proche de 0.

En pratique on estime souvent la régression acceptable lorsque :

|E_`a| ≥ √3

2 ≈ 0,87

Parfois on préfère calculer non plus E_à mais son carré noté E = E_à× E_à at appelé coefficient de détermination.

Si l’on obtient une valeur de E= 0,85 (et donc r = ± 0,92 . . .), cela signifie que la modélisation par la droite des moindres carrés explique 85 % de la variation totale, ce qui est un très bon résultat.

Cependant, il est important de noter que même avec un E de bonne qualité, notre modèle linéaire peut être rejeté.

Pour valider les estimations de la pente et de l’ordonnée à l’origine de la droite de régression, il est nécessaire que les résidus Y soient indépendants et distribués aléatoirement autour de 0.

Ces hypothèses ne sont pas forcément faciles à vérifier et il peut être nécessaire de faire appel à des techniques statistiques très sophistiquées.

Exemple 17 :

E =57 × 84 + 50 × 72 + 53 × 74 + 53 × 77 + 48 × 68 + 56 × 82 + 54 × 78 − 7 × 52,86 × 76,43 b57+ 20 + ⋯ + 54− 7 × 52,86× b84+ 72+ ⋯ + 78− 7 × 76,43

E ≈ 0,9958

Le calcul de E est plus pratique car il évite les racines carrées du dénominateur E≈ 0,9915

Ces calculs sont accessibles sur Excel et toute calculatrice graphique.

(14)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 14 b) Autres ajustements

i) Ajustement exponentiel

L’ajustement exponentiel s’effectue lorsque le nuage de points a une forme « longue et courbe » qui évoque les courbes des fonctions exponentielles soit de la forme O = fD^, avec f et D des nombres réels.

Or, si O = fD^,, alors log O = log f + log D Donc il existe une relation affine entre log O et .

Ainsi, pour réaliser un ajustement exponentiel entre les variables Y et X, il suffit de réaliser un ajustement affine entre les variables log(Y) et X, en d’autres termes, il convient de chercher une fonction affine, qui minimise la quantité ∑(log O− (()).

Exemple 18 :

Le tableau ci-dessous donne l’évolution de la production d’énergie d’origine éolienne en France, exprimée en milliers de tonnes d’équivalent pétrole (Ktep) :

Année 2000 2002 2003 2004 2005 2006 2007

Rang de l’année xi 0 2 3 4 5 6 7

Production yi 7 23 34 51 83 188 348

Le nuage de points associé est donné ci-dessous :

0 50 100 150 200 250 300 350 400

0 1 2 3 4 5 6 7 8

Production yi

Rang de l'année xi

(15)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 15 Au vu de la forme du nuage, un ajustement affine est peu envisageable.

Le calcul du coefficient de détermination donne :

E≈ 0,7115 ainsi E ≈ 0,8435 ce qui est relativement faible et trop éloigné de 1.

On rajoute alors une ligne au tableau pour le calcul de log ^ :

Année 2000 2002 2003 2004 2005 2006 2007

Rang de l’année xi 0 2 3 4 5 6 7

Production yi 7 23 34 51 83 188 348

Ln yi 1,95 3,14 3,53 3,93 4,42 5,24 5,85

Au vu de la forme du nuage, un ajustement affine est cette fois envisageable.

E≈ 0,9893 ainsi E ≈ 0,9946 ce qui est relativement proche de 1.

On en déduit une équation de la droite d’ajustement par la méthode des moindres carrés : ln O = 0,5415 + 1,9182

Ainsi : O = k^8,323,',76 = 6,81 × k^8,323, = 6,809 × 1,7186^,

On estimait alors la consommation en 2010 à 6,809 × 1,7186⁸ ≈ 1530.

0 50 100 150 200 250 300 350 400

0 1 2 3 4 5 6 7 8

Production yi

Rang de l'année xi

(16)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 16 ii) Ajustement logarithmique

L’ajustement logarithmique s’effectue lorsque le nuage de points évoque la courbe représentative d’une fonction logarithme, soit de la forme O = D log() + U, D et U étant des nombres réels.

Il existe donc une relation affine entre les variables Y et log(X).

Ainsi, pour réaliser un ajustement par une fonction logarithme, il convient de chercher une fonction affine, qui minimise la quantité ∑(O − ((log )).

Exemple 19 :

Le tableau ci-dessous donne l’évolution de la population allemande de 1950 à 2016 :

Année 1950 1960 1970 1980 1990 2000 2010 2015 2017

Rang de l’année xi 0 10 20 30 40 50 60 65 67

Population yi

(en millions) ^69,8 ^73,2 ^77,1 ^78,2 ⁷⁹ ^80,1 ^80,4 ^80,7 ^80,6

Au vu de la forme du nuage, un ajustement affine est peu envisageable.

E≈ 0,8534 ainsi E ≈ 0,92 ce qui est relativement correct mais il est possible d’être plus précis.

La forme du nuage indique un éventuel ajustement logarithmique.

68 70 72 74 76 78 80 82

0 10 20 30 40 50 60 70 80

Population en millions yi

Rang de l'année xi

(17)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 17 On rajoute alors une ligne au tableau pour le calcul de log G :

Année 1950 1960 1970 1980 1990 2000 2010 2015 2017

Rang de l’année xi 0 10 20 30 40 50 60 65 67

Ln xi / 2,3 3 3,4 3,69 3,91 4,09 4,17 4,2

Population yi

(en millions) ^69,8 ^73,2 ^77,1 ^78,2 ⁷⁹ ^80,1 ^80,4 ^80,7 ^80,6

On en déduit une équation de la droite d’ajustement par la méthode des moindres carrés : O = 3,7671 ln + 65,113

Dans ce contexte, on estime alors la population allemande en 2020 : 13,7671 × ln 70 + 65,11 = 81,1

72 73 74 75 76 77 78 79 80 81 82

2 2,5 3 3,5 4 4,5

Population yi en millions

ln xi

(18)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 18 ii) Ajustement puissance

L’ajustement « puissance » s’effectue lorsque le nuage de points évoque une courbe représentative d’équation O = f^l, soit de la forme log(O) = D log() + log(f), D et f étant des nombres réels.

Il existe donc une relation affine entre les variables log(Y) et log(X).

Ainsi, pour réaliser un ajustement par une fonction logarithme, il convient de chercher une fonction affine, qui minimise la quantité ∑(log O) − ((log )).

Exemple 20 :

Le tableau ci-dessous donne l’évolution de la population bactérienne (en milliers) dans une piscine en fonction du temps (exprimé en jours) :

0,5 1 1,5 2 2,5 3 3,5 4 4,5 5

O 0,1 0,5 1,4 2,7 5,1 7,6 11,2 15,9 22,3 28,1

Au vu de la forme du nuage, un ajustement affine est peu envisageable.

E≈ 0,8964 ainsi E ≈ 0,95 ce qui est relativement correct mais il est possible d’être plus précis.

La forme du nuage indique un éventuel ajustement « puissance ».

On rajoute les lignes log(x) et log(y) dans le tableau, la droite d’ajustement a pour équation : ln O = 2,4639 ln − 0,6523 qui se transforme en O = 0,52^,24

Ainsi, on estime à O = 0,52 × 6^,24≈ 42,7 milliers la population de bactéries au bout de 6 jours.

0,00 5,00 10,00 15,00 20,00 25,00

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5

Population yi

Temps xi

(19)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 19 III- Échantillonnage et estimation

Les statisticiens connaissent en général le type de loi qui décrit un phénomène (grâce à des

observations) mais souvent, ils ne connaissent pas tous les paramètres de ladite loi. Ils doivent donc les estimer : c’est ce que l’on appelle la statistique inférentielle.

L’objectif de ce chapitre est d’introduire le vocabulaire et la démarche de la statistique inférentielle en abordant, sur quelques cas simples, le problème de l’estimation, ponctuelle ou par intervalle de

conﬁance.

Par exemple, dans une population, un caractère est présent dans la proportion .

Cette proportion peut être connue (échantillonnage), supposée connue (prise de décision) ou encore inconnue (estimation).

On prélève dans la population au hasard et avec remise, un échantillon de taille sur lequel on observe une fréquence de ce caractère.

En pratique, la taille de l’échantillon est largement inférieure à la population entière étudiée : un tirage sans remise (plus logique pour les sondages) peut être assimilé à un tirage avec remise (indispensable pour l’utilisation de la loi binomiale).

1) Échantillonnage

On appelle -échantillon d’une loi G tout -uplet (G, G, . . . , G_m) de variables aléatoires réelles, mutuellement indépendantes et suivant toutes la même loi que G.

Si (G, G, . . . , G_m) est un échantillon d’une loi G, on appelle moyenne empirique associée à l’échantillon (G, G, . . . , G_m), la variable aléatoire notée G_m et définie par :

G_m = 1 [ G

m

n

On considère une variable aléatoire G admettant une espérance o et une variance I et un échantillon (G, G, . . . , G_m) de la loi G. La moyenne empirique G_m, associée à l’échantillon (G, G, . . . , G_m), admet une variance et une espérance et :

ZKG_mL = o et CKG_mL =I 2) Théorème central limite – Loi normale

Théorème central limite :

Soit un entier naturel non nul et (G, G, . . . , G_m) un échantillon d’une loi G d’espérance o et de variance I.

Soit Gpppp la moyenne empirique associée à cet échantillon. _m Construisons la variable centrée réduite associée :

q_m = G_m − o

√I

= √G_m− o I

Alors, pour tous réels D et U tels que D < U : _u→'wlim x(D ≤ q_m ≤ U) = y(U) − y(D) où y est la fonction de répartition de la loi normale centrée réduite.

(20)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 20 Cas particulier :

Pour tout réel > 0,

u→'wlim x(− ≤ q_m ≤ ) = y() − y(−) = y() − (1 − y()) = 2y() − 1

Rappel sur la loi normale : Soit G une variable aléatoire de loi normale centrée réduite.

Pour tout réel { ∈ }0; 1~, il existe un unique réel positif tel que : x(−≤ G ≤ ) = 1 − { Ce qui revient à 2y() − 1 = 1 − { et donc y() = 1 − Les valeurs usuelles de { sont 0,1 , 0,05 , 0,02 et 0,01.

• Pour { = 0,1, 1 − = 0,95 : on lit dans la table y(1,64) ≈ 0,9495 et y(1,65) ≈ 0,9505, ce qui donne _8, = y(0,95) ≈ 1,645

• Pour { = 0,05, 1 − = 0,975 : on lit dans la table y(1,96) ≈ 0,9750, ce qui donne

_8,83 = y(0,975) ≈ 1,96

• Pour { = 0,02, 1 − = 0,99 : on lit dans la table y(2,32) ≈ 0,9898 et y(2,33) ≈ 0,9901, ce qui donne _8,8= y(0,99) ≈ 2,33

• Pour { = 0,01, 1 − = 0,995 : on lit dans la table y(2,57) ≈ 0,9949 et y(2,58) ≈ 0,9951, ce qui donne _8,8 = y(0,995) ≈ 2,575

3) Estimation d’une moyenne par intervalle de confiance

D’après ce qui précède, il est possible de déterminer un intervalle pour lequel il y a une probabilité de (1 − {) % que la moyenne o étudiée lui appartienne.

Cet intervalle est de la forme :

-G_m−I

√ ; G_m+I

√/

Le nombre { représente le niveau d’erreur associé à l’intervalle de confiance.

Réciproquement, le nombre 1 − { représente le niveau de confiance de l’intervalle.

Exemple 21 :

La variable G suit une loi normale d’écart-type 0,5.

Pour = 100 et une réalisation de G_m égale à 1,56 déterminer les intervalles de confiance aux niveaux d’erreurs classiques.

Recommencer avec un échantillon de taille = 400.

(21)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 21 Solutions :

• Pour { = 0,1 : ~1,47; 1,65}, en effet G_m−_√m = 1,56 −^8,3×,423₈ = 1,47 approché par défaut et G_m+_√m = 1,56 +^8,3×,423₈ = 1,65 approché par excès.

Pour = 400 et une réalisation de G_m toujours égale à 1,56, on obtient les intervalles de confiance asymptotiques réalisés suivants :

• Pour { = 0,1 : ~1,518; 1,602}

• Pour { = 0,05 : ~1,511; 1,609}

• Pour { = 0,02 : ~1,501; 1,619}

• Pour { = 0,01 : ~1,495; 1,625}

Exemple 22 : Application à un cas concret

Une machine remplit des boîtes de sucre de 500g. On admet que la distribution a un écart-type de 6g.

On effectue un sondage sur 400 paquets : le poids moyen observé est 500,85g.

Peut-on estimer au risque de 5 % que la machine est bien réglée ?

On a o = 500,85 (moyenne observée), { = 0,05, = 1,96, I = 6 et = 400. On obtient I

√ ≈ 0,59 et donc pour intervalle de confiance ~500,26; 501,44}

Il ne contient pas la valeur 500.

On estime donc au risque de 0,05 que la machine n’est pas bien réglée.

En affirmant cela, on a 95 % de chances de ne pas se tromper.

Que dire si la moyenne de 500,85g a été obtenue dans un échantillon de 100 paquets de sucre ? Et avec un intervalle au risque de 1 % ?

(22)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 22 Détermination de la taille de l’échantillon

Parfois, pour obtenir une marge d’erreur précise, le statisticien doit déterminer la taille de l’échantillon d’observation.

La marge d’erreur est donnée par la formule : "Z =I

√

Il suffit de modifier l’écriture précédente pour exprimer en fonction de ME :

√ =I

"Z ⇔ =I

"Z

On arrondit ensuite à l’entier supérieur.

Exemple 23 :

Dans l’exemple 21, pour = 100 et { = 0,02, la marge d’erreur est de ^8,3×,00₈ = 0,1165 Pour = 400 et { = 0,02, la marge d’erreur est de ^8,3×,00₈ = 0,05825

On souhaite obtenir une marge d’erreur de 0,08, quel doit être l’effectif ? On cherche alors l’entier tel que :

=I

"Z =0,5× 2,33

0,08 ≈ 212,07

Il faut donc un échantillon de 213 individus pour avoir une marge d’erreur de 0,08.

Même question pour { = 0,01 : On cherche alors l’entier tel que : =I

"Z =0,5× 2,575

0,08 ≈ 259,009

Il faut donc un échantillon de 260 individus pour avoir une marge d’erreur de 0,08.

4) Estimation d’une proportion par intervalle de confiance

Le principe est le même, il suffit de remplacer I par b(1 − ) qui correspond à l’écart-type d’une variable de Bernoulli de paramètre (que l’on cherche à estimer).

Cet intervalle est de la forme : −b(1 − )

√ ; +b(1 − )

√

De la même façon, la marge d’erreur est donnée ici par le réel b(1 − )

√ .

Les valeurs sont celles précisées au 2).

Exemple 24 :

Dans un échantillon de 400 personnes, la proportion d’électeurs pour le candidat A est 0,55.

Déterminer un intervalle de confiance au risque de 5 % de la proportion théorique d’électeurs pour ce candidat.

(23)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 23 IV- Test d’indépendance du khi deux

Le test d’indépendance du khi-deux () est utilisé pour tester un éventuel lien entre deux variables qualitatives. On cherche ainsi à savoir si les deux variables sont liées.

Exemple 25 :

Soit le tableau ci-dessous, qui donne les résultats d’une enquête hypothétique effectuée auprès de 400 étudiants, sur leurs préférences en matière de cours. On leur a demandé :

« Parmi ces 4 matières : Maths, Droit, Micro et Macro, laquelle préférez-vous ?» (Il était interdit de répondre : « aucune »).

F H

Maths 50 50

Droit 25 110

Micro 25 40

Macro 50 50

Dans cet exemple, le caractère Y est le sexe et comprend deux modalités (« H » et « F »).

Le caractère X est la matière, qui comprend 4 modalités (« maths », « Droit » « Micro » et « Macro »).

On remarquera que les « catégories » des caractères X et Y ne sont pas issues d’un regroupement, mais qu’il s’agit simplement des modalités brutes de chacun des deux caractères étudiés.

Pour savoir si le sexe a une influence significative sur le choix des matières, nous allons faire un test du khi-deux.

On remarque que le droit et la micro sont davantage préférés par la population masculine tandis que les maths et la macro semblent ne pas être préférés plus par la population masculine que par la population féminine.

1) Formulation des hypothèses

Dans le contexte d’un test d’indépendance, deux hypothèses d’indépendance sont confrontées :

• L’hypothèse nulle ₈ qui stipule l’indépendance des deux variables ;

• L’hypothèse alternative qui affirme que les variables sont liées et donc dépendantes.

2) Seuil de signification, valeur critique et degré de liberté Définitions :

1) Le seuil de signification, noté {, correspond au niveau de risque associé au test : il correspond à la probabilité de rejeter à tort l’hypothèse nulle ₈, alors que celle-ci est vraie.

Ce seuil est fixé par la personne qui réalise le test et généralement égal à 5 %, 2 % ou 1 %.

2) Le degré de liberté, noté ddl, se calcule à partir du nombre de modalités des deux variables étudiées avec la formule suivante :

¡ = (U k o\ D¡¢é£ k ¡D 1èEk ]DEDU¡k − 1) × (U k o\ D¡¢é£ k ¡D 2èok ]DEDU¡k − 1) La valeur critique, notée _,¤¤¥ , s’obtient à partir des deux paramètres définis ci-dessus avec une table de valeurs du Khi-deux.

(24)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 24 Table du Khi-deux :

Exemple 26 : Reprenons les données de l’exemple 25 : ¡ = (4 − 1) × (2 − 1) = 3 × 1 = 3

On choisit un seuil de signification de 2 %.

D’après la table ci-dessus, la valeur critique est _{8,8 ,0} = 9,8374 3) Règle de décision

La règle de décision d’un test d’indépendance du khi-deux stipule que l’hypothèse ₈ est rejetée dès lors que > _,¤¤¥ où est à calculer à partir des données de l’échantillon.

Cela signifie que les fréquences observées s’éloignent trop des fréquences théoriques obtenues dans l’hypothèse d’indépendance des deux variables.

Dans ce cas, c’est l’hypothèse alternative de dépendance des variables qui est confirmée.

(25)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 25 4) Calcul du khi-deux

a) Calcul des fréquences théoriques

La fréquence ou effectif théorique de chaque cellule du tableau s’obtient à partir de la formule suivante :

_¦ = ¢\¢D¡ k ¡D ¡§k × ¢\¢D¡ k ¡D V\¡\k ¨ kkV¢ ¢\¢D¡

Ces résultats correspondent aux fréquences ou effectifs que l’on observerait si les deux variables étudiées étaient totalement indépendantes.

Exemple 27 : Reprenons les données de l’exemple 25 :

On calcule les effectifs théoriques associés à la situation et on les regroupe dans un nouveau tableau :

F H Total

Maths 150 × 100

400 = 37,5 250 × 100

400 = 62,5 100

Droit 150 × 135

400 = 50,625 250 × 135

400 = 84,375 135 Micro 150 × 65

400 = 24,375 250 × 65

400 = 40,625 65

Macro 150 × 100

400 = 37,5 250 × 100

400 = 62,5 100

Total 150 250 400

b) Calcul du khi-deux

Le khi-deux mesure l’écart relatif entre les fréquences théoriques _¦ (calculées ci-dessus) et les fréquences observées ₈ de l’échantillon. Il se calcule à partir de la formule :

= [(₈− _¦) _¦

Remarque : cette formule s’adapte si les effectifs sont utilisés en lieu et place des fréquences comme dans l’exemple des matières préférées.

(26)

FA Vaz – DUT GEA CHAM2 – M 31 07 – Chapitre 3 Page 26 Exemple 28 : Reprenons les données de l’exemple 25 :

F H

Maths (50 − 37,5)

37,5 ≈ 4,17 (50 − 62,5) 62,5 = 2,5 Droit (25 − 50,625)

50,625 ≈ 12,97 (110 − 84,375)

84,375 ≈ 7,78 Micro (25 − 24,375)

24,375 ≈ 0,016 (40 − 40,625)

40,625 ≈ 0,0096 Macro (50 − 37,5)

37,5 ≈ 4,17 (50 − 62,5) 62,5 = 2,5

On calcule alors la somme des valeurs de chacune des cellules du tableau :

= 4,17 + 2,5 + 12,97 + ⋯ + 2,5 = 34,1156

On compare enfin cette valeur à la valeur critique _{8,8 ,0} = 9,8374 déterminée précédemment.

34,1156 > 9,8374 donc > _{8,8 ,0} .

On rejette alors l’hypothèse d’indépendance ₈.

L’hypothèse alternative de dépendance des deux variables est donc validée : on conclut donc que le sexe a une influence sur la matière préférée.

Notre observation initiale sur la base de l’échantillon est donc probablement vraie à l’extérieur de l’échantillon (avec cependant 2 % de risques de nous tromper).