FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 1
Chapitre III : Statistiques
I- Contexte d’application
1) Définitions
Il n’est pas aisé de définir la statistique car elle est à la fois une science, une méthode et une technique et montre une très grande diversité suivant les époques et les domaines.
Le vocabulaire de la statistique est très étendu et ne peut être présenté exhaustivement.
La définition classique actuelle de la statistique peut se résumer ainsi : La statistique est l’ensemble des méthodes permettant la collecte et l’analyse d’ensembles de données relatives à des groupes d’éléments. La statistique est un domaine des mathématiques qui possède une composante théorique ainsi qu’une composante appliquée.
Nous nous intéressons ici à cette dernière composante utilisée dans de nombreux domaines dont l’économie et la gestion. La statistique appliquée comprend la collecte des données, le traitement des données collectées, la représentation et l’interprétation des données.
Souvent, on parle non pas de groupes et d’éléments mais de populations et d’individus, termes issus de la démographie, domaine d’application initial de la statistique. Ainsi parlera-t-on de population de consommateurs comme de population d’entreprises.
Pour étudier ces populations, on constitue un ensemble d’individus, appelés encore unités statistiques, que l’on nommera échantillon lorsqu’il n’est constitué que d’une partie de la population.
La population est étudiée suivant un ou plusieurs caractères. Par exemple, on étudiera les
consommateurs selon leur sexe, âge ou le nombre de leurs enfants, les entreprises selon leur chiffre d’affaires et leur résultat. Chaque caractère comprend différentes modalités.
Par exemple, le sexe comprend deux modalités : féminin, masculin.
Autre exemple, l’âge a pour modalités les éléments de ℝ compris entre 0 et 120, en prenant pour hypothèse que 120 ans est la limite raisonnable de la durée de vie humaine. On voit ici la grande variété des modalités des caractères.
En fait, on distingue deux grandes catégories de caractères :
• d’une part, les caractères qualitatifs, communément appelées variables qualitatives, non mesurables comme le sexe, la couleur des yeux, le fait de posséder ou non une voiture ;
• et d’autre part, les caractères quantitatifs, communément nommés variables quantitatives, dont les modalités sont des nombres tels que l’âge, le salaire ou le chiffre d’affaires.
Les variables quantitatives sont dites discrètes si elles ne peuvent prendre qu’un nombre fini dénombrable de valeurs, tel que le nombre d’enfants.
Elles sont dites continues si elles peuvent prendre une infinité non dénombrable de valeurs, telle que la taille ou encore le chiffre d’affaires.
2. Organisation – Représentations graphiques
La collecte des données s’effectue différemment selon l’objet étudié. Elle peut s’effectuer par mesures, par exemple en météorologie ou en physique expérimentale et, dans les sciences sociales, par
enquêtes ou sondages, directement ou indirectement.
Une fois récoltées, les données sont classées. Pour ce faire, une partition est réalisée, c’est-à-dire un découpage de la population en classes ou catégories – sous-ensembles exhaustifs et disjoints – selon les modalités de chaque caractère.
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 2 Par exemple, si l’on étudie le caractère « sexe » des consommateurs, on bâtit naturellement deux classes : « féminin » et « masculin ».
En revanche, si l’on étudie l’âge des consommateurs, il est possible d’établir différentes partitions. Par exemple, on peut découper la population en deux classes – les plus et les moins de 50 ans – mais on peut aussi effectuer un découpage en 12 classes, soit 12 intervalles, représentant une décennie chacune. Dans tous les cas, le choix sera défini par les objectifs de l’étude.
Une fois la partition réalisée et les données collectées, on observe qu’à chaque classe correspond un certain nombre de données collectées, nommé effectif de la classe.
Une série, ou distribution statistique, correspond à l’arrangement qui en résulte : classes et effectifs correspondants.
La série statistique est généralement présentée sous la forme d’un tableau statistique complété d’un graphique pour plus de clarté.
Pour les séries statistiques à caractère qualitatif, on utilise souvent un diagramme à secteurs, nommé aussi diagramme circulaire ou « camembert ».
Pour les séries statistiques à caractère quantitatif, deux types de représentation sont principalement utilisés :
• pour les caractères discrets, un diagramme « en bâtons » qui fait apparaître la discontinuité entre 2 valeurs de la variable ;
• pour les caractères continus, regroupés en classes, un histogramme.
En principe, dans les deux types de représentation graphique, le caractère est porté en abscisses et l’effectif en ordonnées. Les aires des secteurs ou des rectangles sont proportionnelles au nombre de données observées, cependant, dans le cas des séries composées de classes d’amplitude différente, un retraitement sera effectué.
Exemples de représentation graphique :
0 5 10 15 20 25 30 35 40 45
1 2 3 4 5 6
Diagramme en bâtons Diagramme circulaire
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 3 Exemple 1 :
Les données suivantes se réfèrent à l’absentéisme des étudiants de l’IUT GEA sur un mois : Nombre de journées
d’absence Effectifs
0 30
1 14
2 22
3 8
4 9
5 14
6 5
7 6
8 2
9 3
10 7
La représentation graphique naturelle est le diagramme en bâtons :
0 5 10 15 20 25 30 35
0 1 2 3 4 5 6 7 8 9 10
Histogramme
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 4 Remarque 1 :
Dans le cas d’un caractère quantitatif continu, lorsque les amplitudes des classes sont différentes, il faut d’abord calculer la densité : effectif de l’intervalle / amplitude de l’intervalle.
On choisit l’amplitude la plus faible et on la considère comme référence.
Exemple 2 :
Une entreprise cherche à étudier l’âge des consommateurs quotidiens de lait dans la population française. Pour ce faire, un sondage est effectué auprès d’un échantillon représentatif de la population française.
En particulier, chaque classe d’âge doit être représentée dans l’échantillon comme dans l’ensemble de la population française. La répartition par classes d’âge de ces consommateurs, selon ce sondage, est déterminée par l’effectif de chaque classe.
Le tableau statistique suivant répertorie les résultats collectés bruts :
Classes d’âge Effectifs Amplitude Densité Effectifs rectifiés
Fréquences rectifiées Moins de 15 ans 1 875
De 15 à 25 ans 375 Plus de 25 ans 250
Total 2 500
On considère la dernière classe comme l’intervalle [25; 120[.
Les trois classes ont des amplitudes différentes (respectivement 15, 10 et 95).
On choisit comme référence la classe [15; 25[ d’amplitude 10.
Les effectifs rectifiés correspondent aux effectifs ramenés à une classe d’amplitude 10 : 1 875
15 × 10 = 1 250 pour la première ligne.
On obtient ainsi l’histogramme des effectifs rectifiés :
On détermine ensuite l’histogramme des fréquences rectifiées :
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 5 II- Série statistique simple
1) Indicateurs de concentration
Les effectifs et fréquences, simples ou cumulés, servent à cerner le poids respectif de chaque classe dans une population.
Pour chaque classe avec = 1, … , , l’effectif représente le nombre d’éléments observés, noté , la fréquence étant le rapport de cet effectif à l’effectif total N de l’échantillon : ! = /#.
L’effectif est parfois appelé fréquence absolue et la fréquence est nommée effectif relatif.
La fréquence se présente sous la forme d’un nombre compris entre 0 et 1 ou sous forme d’un pourcentage compris entre 0 % et 100 %.
L’effectif cumulé donne le nombre d’observations inférieures, strictement ou non, (respectivement supérieures) à une valeur donnée.
De même, les fréquences cumulées donnent le pourcentage d’observations inférieures, strictement ou non, (respectivement supérieures) à une valeur donnée. Elles permettent de traduire l’évolution des fréquences d’une série. Elles se calculent, une fois les modalités ordonnées, par additions successives des fréquences simples.
Exemple 3 : Compléter les colonnes du tableau ci-dessous :
Nombre de journées d’absence
Effectifs
Effectifs cumulés croissants
Effectifs cumulés décroissants
Fréquences
!
Fréquences cumulées croissantes
Fréquences cumulées décroissantes
0 30 30 120
1 14
2 22
3 8
4 9
5 14
6 5
7 6
8 2
9 3
10 7 120 7
Total :
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 6 2) Indicateurs de position
a) Moyenne arithmétique
On considère dans la suite, la série statistique définie par le tableau ci-contre.
L’effectif total est # = $ + &+ . . . + '.
Définition 1 : La moyenne de la série statistique est le nombre réel, noté ̅ défini par :
̅ =$$ + &&+ . . . + ''
# =∑ **
# Remarque 2 :
Pour les variables quantitatives continues, il est d’usage de choisir pour le centre des classes.
Exemple 4 : Dans l’exemple sur les consommateurs de lait :
̅ =1 875 × 7,5 + 375 × 20 + 250 × 47,5
2 500 = 13,375
Dans l’exemple sur l’absentéisme :
̅ =30 × 0 + 14 × 1 + 22 × 2 + ⋯ + 7 × 10
120 ≈ 3,1
b) Mode, classe modale
Le mode, valeur modale ou dominante, désigne la valeur que la variable prend le plus fréquemment, soit la valeur la plus représentée, c’est-à-dire qui présente le plus fort effectif ou la fréquence la plus élevée.
De manière similaire, dans le cas de données regroupées, la classe modale désigne la classe la plus représentée.
Attention, si les classes n’ont pas la même amplitude, c’est-à-dire correspondent à des intervalles de tailles différentes, il est nécessaire de ramener l’effectif à l’unité d’amplitude. En fait, la classe modale est celle qui présente la plus forte densité.
Variable discrète : Le tableau statistique ou le diagramme en bâtons donnent le mode immédiatement.
Variable continue : Le tableau statistique peut prêter à confusion si les données répertoriées sont brutes et les classes d’amplitudes différentes. L’histogramme des données rectifiées fournit la réponse immédiatement.
Exemple 5 : Dans l’exemple sur les consommateurs de lait, la classe modale est « moins de 15 ans ».
On regarde la plus forte densité (ici l’effectif aussi est le plus important pour cette classe).
Dans l’exemple sur l’absentéisme, le mode est 0 journée d’absence (effectif le plus important).
Valeur $ & … '
Effectif $ & … '
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 7 c) Médiane
Définition 2 : On appelle médiane tout réel /0 tel que :
Au moins 50% des termes de la série ont une valeur inférieure ou égale à 12et au moins 50%
des termes de la série ont une valeur supérieure ou égale à 12.
Remarque 3 : La médiane partage l'ensemble des termes en deux sous-ensembles de même effectif.
La détermination de la médiane est différente suivant que l'effectif total # est pair ou impair :
• Lorsque l'effectif total # est impair, il n'y a pas de difficulté, la médiane /0 est le terme central, à savoir le terme de rang 34$& : on a donc : /0 = 567
8
• Lorsque l'effectif total # est pair, l'usage veut que l'on choisisse pour médiane /0 la moyenne des deux termes centraux, à savoir les termes de rang 3
& et 3
& + 1. On a donc : /0 = 95849&5867 Mais tout réel de l'intervalle :5
8 ; 5
84$; conviendrait également.
En effet, dans certaines situations, la moyenne des deux termes centraux, qui n'est pas une valeur de la série, n'a pas de sens : par exemple, quel est le jour médian du mois de juin ?
Le mois de juin comporte 30 jours. Les deux termes centraux sont 15 et 16 (15e jour et 16e jour). Dire que « le jour médian est le 15,5e » n'a pas de sens.
Mieux vaut dire (dans ce type de situation) : « le jour médian est le 15e jour » ou « le jour médian est le 16e jour » (au choix) ...
Remarque 4 : Pour une variable continue, la classe médiane est la classe qui contient l’observation centrale ou médiane, en d’autres termes, c’est la première classe qui voit les fréquences cumulées atteindre 50 %. Si l’on souhaite une valeur ponctuelle de la médiane, une approximation de celle-ci pourra être obtenue par interpolation linéaire dans la classe médiane.
Exemple 6 :
L'étudiant A a obtenu les 8 notes suivantes :
$ = 5 ; & = 5 ; < = 6 ; > = 9 ; @ = 10 ; A = 12 ; B = 13 ; C = 13 L'étudiant B a obtenu les 9 notes suivantes :
$ = 2 ; & = 3 ; < = 5 ; > = 6 ; @ = 8 ; A = 9 ; B = 9 ; C = 10 ; D = 10 L'étudiant C a obtenu les 10 notes suivantes :
$ = 6 ; & = 6 ; < = 10 ; > = 12 ; @ = 12 ; A = 12 ; B = 14 ; C = 15 ; D = 16 ; $E = 16 L'étudiant D a obtenu les 11 notes suivantes :
$ = 0 ; & = 0 ; < = 1 ; > = 4 ; @ = 5 ; A = 8 ; B = 10 ; C = 12 ; D = 13 ; $E= 16 ; $$ = 17 Pour l’étudiant A (# = 8) : /0 = 9F49& G = 9,5
Pour l’étudiant B (# = 9) : /0 = @ = 8
Pour l’étudiant C (# = 10) : /0 = 9G49& H = 12 (ici, c’est une valeur de la série) Pour l’étudiant D (# = 11) : /0 = A = 8
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 8 Exemple 7 : Dans l’exemple sur les consommateurs de lait, l’effectif est pair, la classe médiane est la classe qui contient la 1 250ème et la 1251ème valeur de la série : c’est la classe « moins de 15 ans » Dans l’exemple sur l’absentéisme, l’effectif est encore pair, la médiane est la moyenne des 60ème et 61ème valeurs : elles sont toutes deux égales à 2, la médiane est donc 2.
d) Quartiles, déciles, centiles
En plus des indicateurs de tendances centrales, il existe plus généralement des indicateurs de position : les quartiles, les déciles et les centiles sont les valeurs du caractère qui partagent l’effectif total en respectivement 4, 10 et 100 parties égales.
Définition 3 :
On appelle premier quartile I$ la plus petite valeur de la série tel qu’au moins 25% des termes de la série ont une valeur inférieure ou égale à I$.
On appelle troisième quartile I< la plus petite valeur de la série tel qu’au moins 75% des termes de la série ont une valeur inférieure ou égale à I<.
Remarque 5 :
• Le deuxième quartile I& ne se définit pas puisqu'il s'agit de la médiane /0.
• Les trois quartiles partagent l'ensemble des valeurs en quatre sous-ensembles de (presque) même effectif.
• On a toujours : I$≤/0 ≤I<
• Lorsque l'effectif total # n'est pas un multiple de 4, il n'y a pas de difficulté, les quartiles I$ et I<
sont les termes de rang immédiatement supérieur à 3> et <3>
• Lorsque l'effectif total # est un multiple de 4, les quartiles I$ et I< sont les termes de rang 3> et
<3
> : On a donc I$ = 5
F et I< = K5
F . Exemple 8 :
Pour l'étudiant A (# = 8) : I$ = & = 5 et I< = A = 12 Pour l'étudiant B (# = 9) : I$ = < = 5 et I< = B = 9 Pour l'étudiant C (# = 10) : I$ = < = 10 et I< = C = 15 Pour l'étudiant D (# = 11) : I$ = < = 1 et I< = D = 13 Définition 4 :
On appelle premier décile L$ (respectivement premier centile M$ ) la plus petite valeur de la série tel qu’au moins 10% (respectivement 1%) des termes de la série ont une valeur inférieure ou égale à L$ (respectivement M$).
On appelle deuxième décile L& (respectivement deuxième centile M& ) la plus petite valeur de la série tel qu’au moins 20% (respectivement 2%) des termes de la série ont une valeur inférieure ou égale à
M& et ainsi de suite jusqu’à LD et MDD.
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 9 3) Indicateurs de dispersion
La dispersion représente « l’étendue » des différentes valeurs que peut prendre une variable
statistique. Il existe différentes mesures de la dispersion : les plus courantes sont la variance et l’écart- type ou encore l’étendue, les intervalles interquartiles et interdéciles.
Exemple 9 :
Un premier jeu de loterie permet de gagner 9 € dans 10% des cas et perdre 1€ dans 90% des cas.
Un deuxième permet de gagner 490€ dans 2 % des cas et perdre 10€ dans 98% des cas.
Ces deux jeux ont un point commun : le gain moyen est nul (la moyenne arithmétique est égale à 0) Mais ils ont une grande différence : la « dispersion » des données n’est pas la même.
a) Variance – écart-type
On considère à nouveau la série statistique définie par le tableau ci-contre.
L’effectif total est # = $ + &+ . . . + '.
Définition 5 :
La variance et l’écart-type sont des éléments de mesure de la dispersion des valeurs de la série autour de la moyenne.
La variance de la série statistique est le nombre réel, noté OPQ(S) ou O ou U& défini par :
O =$($− ̅)&+ &(&− ̅)&+ . . . + 'W'− ̅X&
# =∑ *(*− ̅)&
L’écart-type de la série statistique est le nombre réel, noté U défini par : #
U = √O = Z∑ *(*− ̅)&
# Remarque 6 :
• Plus les valeurs sont concentrées au voisinage de la moyenne, plus la variance (l’écart-type) est faible.
• Plus les valeurs sont éloignées de la moyenne, plus la variance (l’écart-type) est grande.
• La variance est en quelque sorte « une moyenne d’écarts à la moyenne ».
• L’écart-type est exprimé dans la même unité que la variable étudiée.
• On utilise une expression plus pratique de la variance d’après le théorème de Koenig-Huygens : O =$($)&+ &(&)&+ . . . + 'W'X&
# − (̅)& = ∑ *(*)&
# − (̅)&
Exemple 10 :
Le premier jeu de loterie a une variance de 9 et donc un écart-type de 3 : O =10 × 9&+ 90 × (−1)&
100 − 0& = 9 et U = √9 = 3
Le deuxième jeu a une variance de 4900 et donc un écart-type de 70 : O =2 × 490&+ 98 × (−10)&
100 − 0& = 4900 et U = √4900 = 70
Valeur $ & … '
Effectif $ & … '
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 10 Exemple 11 : Dans l’exemple sur l’absentéisme :
O =30 × 0&+ 14 × 1& + 22 × 2&+ ⋯ + 7 × 10&
120 − (3,1)& ≈ 8,83 et U ≈ 2,97
b) Étendue – Intervalles interquartiles, interdéciles
Sur la base des indicateurs de position, on peut définir d’autres indicateurs de dispersion apportant une information très différente de celle fournie par la variance et l’écart-type.
L’étendue d’une série statistique est l’écart entre la plus grande et la plus petite valeur observée.
L’étendue d’une série correspond à la même notion que l’amplitude d’une classe.
Pour limiter l’effet de valeurs extrêmes, on peut s’intéresser à l’intervalle interquartiles.
L’intervalle interquartiles correspond à l’étendue de la « moitié centrale » de la série statistique, c’est-à-dire la série statistique « amputée » de ses deux quarts extérieurs d’observations, soit les 50 % d’observations centrales.
De même, l’intervalle interdéciles correspond à l’étendue de la série statistique diminuée de ses deux déciles extérieurs d’observations, c’est-à-dire 10 % des valeurs observées ont été supprimées de part et d’autre de la distribution, il reste 80 % des données.
Exemple 12 : Dans l’exemple sur l’absentéisme : Étendue : 10 − 0 = 10.
I$ = 0 et I< = 5 donc l’écart interquartiles est 5 − 0 = 5. L$ = 0 et LD = 8 donc l’écart interdéciles est 8.
Exemple 13 : On regroupe dans ce tableau le nombre de buts marqués par une équipe sur les 38 matchs de la saison d’un championnat de foot :
Nombre de buts marqués
Effectifs (nombre
de matchs)
Effectifs cumulés croissants
Effectifs cumulés décroissants
Fréquences
!
Fréquences cumulées croissantes
Fréquences cumulées décroissantes
0 6
1 9
2 9
3 3
4 1
5 1
6 1
Total : 30
Compléter le tableau et donner les différents paramètres étudiés précédemment et associés à cette série de valeurs.
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 11 III- Série statistique à deux variables
En économie et en gestion, on recherche très souvent l’existence ou non d’une relation entre deux (ou plusieurs) variables, soit entre deux caractères d’une même population.
Une fois cette relation supposée existante, on cherche à l’exprimer mathématiquement par une équation.
Cependant, en général, si une telle relation existe, elle ne se révèle pas parfaitement exacte empiriquement. On comprend aisément qu’en de multiples domaines, de nombreuses variables influent les unes sur les autres et qu’il est difficile de les répertorier et même de les considérer exhaustivement dans le cadre d’une étude statistique.
1) Contexte d’application
Pour établir la relation existant entre deux variables X et Y, il s’agit d’abord de recueillir des données représentant les différentes valeurs que les deux variables peuvent prendre.
On obtient alors un ensemble de couples de variables (, [) ou encore deux ensembles de données {$, &, … , '} et {[$, [&, … , ['}.
Dans un second temps, il est nécessaire de classer ces données. Ceci prend la forme d’un tableau statistique. Dans le cas le plus simple où les données sont discrètes et non regroupées (données énumérées), ce tableau est similaire au tableau d’une série statistique simple auquel on ajoute simplement une colonne :
N° de l’observation ^_ `_ 1
2
…
Exemple 14 :
Dans un hypermarché, chaque semaine de l’année, on a relevé la recette du lundi et du samedi, en milliers d’euros. Un échantillon de 7 semaines a donné les résultats suivants :
Semaine n°i Recette du lundi ^_ Recette du samedi `_
1 57 84
2 50 72
3 52 74
4 53 77
5 48 68
6 56 82
7 54 78
Quelle relation y a-t-il entre les recettes du lundi et du samedi ? Comment la représenter ?
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 12 2) Courbes d’ajustement
Une fois le tableau statistique établi, il convient de le représenter graphiquement.
Cette représentation graphique, généralement nommé diagramme de dispersion, se présente sous la forme d’un nuage de points qui peut mettre en évidence une courbe continue qui suit
approximativement les données.
Cette courbe, nommée courbe d’ajustement, peut prendre la forme d’une droite si la relation mis en évidence est linéaire (fonction affine : [ = P + a) ou la forme d’une courbe si la relation mis en évidence est non-linéaire, comme par exemple dans le cas d’une relation quadratique (parabole ou polynôme du second degré : [ = P&+ a + b).
Le problème de l’ajustement des courbes, nommé aussi régression, est de trouver les équations d’approximation des courbes suggérées par le diagramme de dispersion.
Ces équations représentent l’expression de l’une des variables, la variable dépendante ou variable expliquée, en fonction de l’autre, la variable indépendante ou variable explicative.
Dans la pratique, à la vue du nuage de points, plusieurs courbes peuvent sembler représenter la relation entre les deux variables. Il est donc nécessaire de faire appel à des méthodes rigoureuses afin de déterminer la « meilleure » courbe ou équation d’approximation suggérée par le diagramme de dispersion.
Ces méthodes sont multiples et peuvent être complexes.
Exemple 15 :
Reprenons notre exemple sur les recettes de l’hypermarché.
Les données peuvent être représentées par un nuage de points.
La forme du nuage laisse penser qu’il existe une relation affine entre les deux variables, il reste alors à déterminer cette relation le plus précisément possible.
65 67 69 71 73 75 77 79 81 83 85
47 48 49 50 51 52 53 54 55 56 57 58
Recettes du samedi
Recettes du lundi
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 13 a) Ajustement linéaire par la méthode des moindres carrés
i) Droite des moindres carrés
Comme dans le cas général, les données recueillies (, [) sont représentées par un nuage de N points dans le plan (, [).
La régression linéaire s’effectue lorsque le nuage est de forme allongé et rectiligne.
Dans ce cas, la relation recherchée est supposée être une fonction affine, soit de la forme [ = P + a. Rechercher une relation affine entre les variables X et Y revient alors à rechercher la droite qui
« décrit » au mieux ce nuage de points.
La droite des moindres carrés est définie comme étant la droite qui rend minimale la somme des carrés des écarts des valeurs observées [dc à la droite d’équation [ = P + a : les points de la droite d’abscisse ont pour ordonnée [ = P+ a, à ne pas confondre avec [dc qui est l’ordonnée du point du nuage.
En termes simples, la « distance » entre la droite des moindres carrés et le nuage de points est
minimale, la distance étant ici définie par la somme de la différence, élevée au carré, de l’ordonnée de chaque point du nuage avec l’ordonnée du point de la droite ayant même abscisse.
Si e représente cet écart, appelé aussi résidu, le principe des moindres carrés ordinaire (MCO) consiste à choisir les valeurs de P et de a qui minimisent E, somme du carré des résidus, défini par :
f = g e = g([d − [c )& = g([d − (Pc + a))&
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 14 Les valeurs P et a cherchées sont données par les formules :
P =bhi(S, j)
O(S) =∑( − )([− [)
∑( − )& =∑ [− [
∑ &− &
a = [ − P Exemple 16 :
Reprenons notre exemple sur les recettes de l’hypermarché.
=57 + 50 + 52 + 53 + 48 + 56 + 54
7 ≈ 52,86
[ =84 + 72 + 74 + 77 + 68 + 82 + 78
7 ≈ 76,43
P =57 × 84 + 50 × 72 + 53 × 74 + 53 × 77 + 48 × 68 + 56 × 82 + 54 × 78 − 7 × 52,86 × 76,43 57&+ 20&+ 52&+ 53&+ 48&+ 56&+ 54&− 7 × 52,86&
P ≈ 1,7488
a = [ − P ≈ −16,009
On peut en déduire une estimation des recettes du vendredi lorsque les recettes du lundi ont été de 51 000 € : 1,7488 × 51 − 16,009 ≈ 73,2
Ou encore estimer les recettes du lundi pour un vendredi à 80 000 € : 1,7488 − 16,009 = 80 ⇔ =80 + 16,009
1,7488 ≈ 54,9
y = 1,7488x - 16,009
65 67 69 71 73 75 77 79 81 83 85
47 48 49 50 51 52 53 54 55 56 57 58
Recettes du samedi
Recettes du lundi
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 15 ii) Coefficient de corrélation linéaire – Étude de qualité
Pour mesurer la qualité de l’approximation d’un nuage (, [) par sa droite des moindres carrés, on calcule le coefficient de corrélation linéaire défini par :
Qlm= Mhi(S, j)
UlUm = ∑( − )([ − [)
n∑( − )&× ∑([− [)& = ∑ [− [
oW∑ &− &X × W∑ [&− [&X
C’est un nombre compris entre −1 et +1, qui vaut +1 (respectivement −1) si les points du nuage sont exactement alignés sur la droite de pente P positive (respectivement négative).
Ce coefficient est une mesure de la dispersion du nuage.
On considère que l’approximation d’un nuage par sa droite des moindres carrés est de bonne qualité lorsque |Qlm| est proche de 1 (donc Qlm proche de +1 ou de −1) et de médiocre qualité lorsque |Qlm| est proche de 0.
En pratique on estime souvent la régression acceptable lorsque :
|Qlm| ≥ √3
2 ≈ 0,87
Parfois on préfère calculer non plus Qlm mais son carré noté Q& = Qlm× Qlm at appelé coefficient de détermination.
Si l’on obtient une valeur de Q&= 0,85 (et donc r = ± 0,92 . . .), cela signifie que la modélisation par la droite des moindres carrés explique 85 % de la variation totale, ce qui est un très bon résultat.
Cependant, il est important de noter que même avec un Q& de bonne qualité, notre modèle linéaire peut être rejeté.
Pour valider les estimations de la pente et de l’ordonnée à l’origine de la droite de régression, il est nécessaire que les résidus e soient indépendants et distribués aléatoirement autour de 0.
Ces hypothèses ne sont pas forcément faciles à vérifier et il peut être nécessaire de faire appel à des techniques statistiques très sophistiquées.
Exemple 17 :
Reprenons notre exemple sur les recettes de l’hypermarché.
Q =57 × 84 + 50 × 72 + 53 × 74 + 53 × 77 + 48 × 68 + 56 × 82 + 54 × 78 − 7 × 52,86 × 76,43
n57&+ 20& + ⋯ + 54&− 7 × 52,86&× n84&+ 72&+ ⋯ + 78&− 7 × 76,43&
Q ≈ 0,9958
Le calcul de Q& est plus pratique car il évite les racines carrées du dénominateur
Q&≈ 0,9915
Ces calculs sont accessibles sur Excel et toute calculatrice graphique.
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 16 b) Autres ajustements
i) Ajustement exponentiel
L’ajustement exponentiel s’effectue lorsque le nuage de points a une forme « longue et courbe » qui évoque les courbes des fonctions exponentielles soit de la forme [ = rP9 avec r et P des nombres réels.
Or, si [ = rP9, alors log [ = log r + log P Donc il existe une relation affine entre log [ et .
Ainsi, pour réaliser un ajustement exponentiel entre les variables Y et X, il suffit de réaliser un ajustement affine entre les variables log(Y) et X, en d’autres termes, il convient de chercher une fonction ! affine, qui minimise la quantité ∑(log [− (!())&.
Exemple 18 :
Le tableau ci-dessous donne l’évolution de la production d’énergie d’origine éolienne en France, exprimée en milliers de tonnes d’équivalent pétrole (Ktep) :
Année 2000 2002 2003 2004 2005 2006 2007
Rang de l’année xi 0 2 3 4 5 6 7
Production yi 7 23 34 51 83 188 348
Le nuage de points associé est donné ci-dessous :
0 50 100 150 200 250 300 350 400
0 1 2 3 4 5 6 7 8
Production yi
Rang de l'année xi
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 17 Au vu de la forme du nuage, un ajustement affine est peu envisageable.
Le calcul du coefficient de détermination donne :
Q&≈ 0,7115 ainsi Q ≈ 0,8435 ce qui est relativement faible et trop éloigné de 1.
On rajoute alors une ligne au tableau pour le calcul de log j :
Année 2000 2002 2003 2004 2005 2006 2007
Rang de l’année xi 0 2 3 4 5 6 7
Production yi 7 23 34 51 83 188 348
Ln yi 1,95 3,14 3,53 3,93 4,42 5,24 5,85
Au vu de la forme du nuage, un ajustement affine est cette fois envisageable.
Le calcul du coefficient de détermination donne :
Q&≈ 0,9893 ainsi Q ≈ 0,9946 ce qui est relativement proche de 1.
On en déduit une équation de la droite d’ajustement par la méthode des moindres carrés : ln [ = 0,5415 + 1,9182
Ainsi : [ = sE,@>$@94$,D$C& = 6,81 × sE,@>$@9 = 6,809 × 1,71869
On estimait alors la consommation en 2010 à 6,809 × 1,7186$E ≈ 1530.
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6 7 8
ln yi
Rang de l'année xi
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 18 ii) Ajustement logarithmique
L’ajustement logarithmique s’effectue lorsque le nuage de points évoque la courbe représentative d’une fonction logarithme, soit de la forme [ = P log() + a, P et a étant des nombres réels.
Il existe donc une relation affine entre les variables Y et log(X).
Ainsi, pour réaliser un ajustement par une fonction logarithme, il convient de chercher une fonction ! affine, qui minimise la quantité ∑([ − (!(log ))&.
Exemple 19 :
Le tableau ci-dessous donne l’évolution de la population allemande de 1950 à 2016 :
Année 1950 1960 1970 1980 1990 2000 2010 2015 2017
Rang de l’année xi 0 10 20 30 40 50 60 65 67
Population yi
(en millions) 69,8 73,2 77,1 78,2 79 80,1 80,4 80,7 80,6
Au vu de la forme du nuage, un ajustement affine est peu envisageable.
Le calcul du coefficient de détermination donne :
Q&≈ 0,8534 ainsi Q ≈ 0,92 ce qui est relativement correct mais il est possible d’être plus précis.
La forme du nuage indique un éventuel ajustement logarithmique.
68 70 72 74 76 78 80 82
0 10 20 30 40 50 60 70 80
Population en millions yi
Rang de l'année xi
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 19 On rajoute alors une ligne au tableau pour le calcul de log S :
Année 1950 1960 1970 1980 1990 2000 2010 2015 2017
Rang de l’année xi 0 10 20 30 40 50 60 65 67
Ln xi / 2,3 3 3,4 3,69 3,91 4,09 4,17 4,2
Population yi
(en millions) 69,8 73,2 77,1 78,2 79 80,1 80,4 80,7 80,6
On en déduit une équation de la droite d’ajustement par la méthode des moindres carrés : [ = 3,7671 ln + 65,113
Dans ce contexte, on estime alors la population allemande en 2020 : 13,7671 × ln 70 + 65,11 = 81,1
72 73 74 75 76 77 78 79 80 81 82
2 2,5 3 3,5 4 4,5
Population yi en millions
ln xi
FA Vaz – DUT GEA CHAM1 – M 12 05 – Chapitre 3 Page 20 ii) Ajustement puissance
L’ajustement « puissance » s’effectue lorsque le nuage de points évoque une courbe représentative d’équation [ = rt, soit de la forme log([) = P log() + log(r), P et r étant des nombres réels.
Il existe donc une relation affine entre les variables log(Y) et log(X).
Ainsi, pour réaliser un ajustement par une fonction logarithme, il convient de chercher une fonction ! affine, qui minimise la quantité ∑(log [) − (!(log ))&.
Exemple 20 :
Le tableau ci-dessous donne l’évolution de la population bactérienne (en milliers) dans une piscine en fonction du temps (exprimé en jours) :
0,5 1 1,5 2 2,5 3 3,5 4 4,5 5
[ 0,1 0,5 1,4 2,7 5,1 7,6 11,2 15,9 22,3 28,1
Au vu de la forme du nuage, un ajustement affine est peu envisageable.
Le calcul du coefficient de détermination donne :
Q&≈ 0,8964 ainsi Q ≈ 0,95 ce qui est relativement correct mais il est possible d’être plus précis.
La forme du nuage indique un éventuel ajustement « puissance ».
On rajoute les lignes log(x) et log(y) dans le tableau, la droite d’ajustement a pour équation : ln [ = 2,4639 ln − 0,6523 qui se transforme en [ = 0,52&,>A
Ainsi, on estime à [ = 0,52 × 6&,>A≈ 42,7 milliers la population de bactéries au bout de 6 jours.
0,00 5,00 10,00 15,00 20,00 25,00
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5
Population yi
Temps xi