Partie 1
STATISTIQUES DESCRIPTIVES
La statistique : « C’est un ensemble de méthodes permettant de décrire et d’analyser, de façon quantifiée, des phénomènes repérés par des éléments nombreux, de même nature,
susceptibles d’être dénombrés et classés. »
La statistique descriptive se compose de 3 domaines distincts :
la statistique uni variée : étudie la répartition d'une population selon une variable (la taille, le poids ...)
la statistique bivariée : étudie la relation qui peut exister entre deux variables (entre la taille et le poids, par exemple...)
la statistique multi variée: s’intéresse plutôt aux relations qui
peuvent exister entre plusieurs variables que l'on traite avec
des méthodes comme l'analyse factorielle.
Les statistiques descriptives recouvrent les différentes
techniques de description des données, synthèse sous forme de tableaux, représentations graphiques ou de paramètres statistiques.
Pour les grands tableaux, les techniques peuvent devenir plus complexes. Elles ne sont pas abordées ici. Pour mémoire, les principales méthodes d'analyse de données sont :
● Analyse en composantes principales (ACP) dans le cas de plusieurs variables quantitatives,
● Analyse des correspondances (AFC) dans le cas de grands tableaux de contingence,
● Classification (CAH)
Les statistiques descriptives sont importantes pour présenter les données, déterminer communiquer, les hypothèses à tester ...
On oppose les statistiques descriptives aux statistiques inférentielles dont l'objectif est de mettre en place des règles de décision afin de réaliser des tests statistiques.
Nous aborderons ce type de statistique dans la partie 3.
Série Statistique Univariée
I-1 Définitions et Vocabulaire de la statistique
Population : La population est l’ensemble des individus sur lesquels portent les observations.
Échantillon : C’est la portion de population servant à l’étude.
Unité statistique ou individu : élément qui constitue la population.
Caractère : Le caractère est la propriété étudiée.
Le caractère est qualitatif s’il n’est pas une valeur numérique.
Soit mesuré dans une échelle nominale, les modalités sont exprimables par
des noms et ne sont pas hiérarchisées. Un caractère nominal est dit dichotomiques’il ne peut prendre que deux modalités.
Exemple: la couleur du pelage, les groupes sanguins, les différents nucléotides de l’ADN, la présence ou l’absence d’un caractère (dichotomique), etc.
Mesuré dans une échelle ordinale: les modalités traduisent le degré d’un état caractérisant un individu sans que ce degré ne puisse être défini par un nombre qui résulte d’une mesure. Les modalités sont alors hiérarchisées.
Exemple: Moral d’un individu : bas ; moyen ; bon ; très bon Le caractère est quantitatif s’il peut être mesuré :
Il est quantitatif discret s’il ne prend que des valeurs isolées.
Exemple : le nombre de petits par portée, le nombre de cellules dans une culture, le nombre d’accidents pour une période
donnée, etc.
Il est quantitatif continu s’il peut prendre toutes les valeurs dans un intervalle donné. Exemple : le poids ; la taille ; le taux de
glycémie ; le rendement etc.
Couleur
Départements Profession
Sexe
Moral d’un individu
Taille vestimentair
e
Variable
Quantitative
Discrète Continue Nominale Ordinale
Qualitative
Nombre d’enfants
Nombre de pièces d’une habitation
Surface
Poids Taille
Précipitations
:
Exemple : taille de vêtement
XS < S < M < L < XL < XXL
Il faudra, notamment pour les représentations graphiques, présenter toujours les modalités dans l'ordre.
Répartition d'une population en fonction de sa taille vestimentaire
Diagramme en bâtons : On l’utilise pour les séries à caractère discret. Les hauteurs des différents bâtons sont proportionnelles aux effectifs
correspondants.
Diagramme à secteurs circulaires : On l’utilise le plus souvent dans le cas d’une variable discrète. Chaque secteur a un angle au centre de mesure proportionnelle à la fréquence de la classe correspondante exprimée en pourcentage.
Foot. 38%
Rugby. 30%
Hand. 14%
Tennis. 8%
Autre. 10%
Diagramme circulaire
Histogramme : On l’utilise pour les séries à caractère continu, lorsque les valeurs de la variable sont réparties en classes. Les aires des différents rectangles sont proportionnelles aux effectifs (aux fréquences) correspondantes.
Effectifs
Xi
Polygone des effectifs : est la ligne polygonale joignant les milieux de chaque côté supérieur des rectangles constituant l’histogramme.
Mode et classe modale : On appelle mode d’une série statistique à caractère discret la valeur du caractère statistique qui correspond au plus grand
effectif.
On appelle classe modale d’une série statistique à caractère continu la classe qui correspond au plus grand effectif. Le mode est le centre de la classe
modale.
Effectif : L’effectif d’une classe est le nombre d’éléments de la classe, on le note ni.
L’effectif total (noté N) est la somme des effectifs de chaque classe.
Le polygone des effectifs cumulés croissants est la ligne polygonale joignant les points ayant:
- pour abscisse : la borne supérieur de la classe.
- pour ordonnées : l’effectif cumulé croisant de la classe.
Fréquence : La fréquence de la nième classe est : f
i= n
i/N (elle peut être exprimée en %).
La médiane est la valeur du caractère qui partage l’effectif total en deux parties de même effectifs.
Dans le cas d’un caractère continu la médiane peut être recherchée par lecture sur le polygone des effectifs cumulés. C’est l’abscisse du point ayant pour ordonnée N/2.
L’étendue
d’une série statistique est la différence entre la plus grande et la plus petite valeur du caractère.
Moyenne : On appelle moyenne d’une série statistique et on note le nombre :
xi désigne le centre de la classe.
k : le nombre de classes
Quartile : Les trois quartiles sont les trois valeurs du caractère qui partagent la population totale en quatre parties d’effectifs égaux.
Le premier quartile Q1 correspond à 25 % de l’effectif total.
Le deuxième quartile Q2 correspond à la médiane (50 % de l’effectif total).
Le troisième quartile Q3 correspond à 75 % de l’effectif total.
Décile : chaque décile partage en dix parties égales l’effectif
Variance : La variance V est la moyenne des carrés des écarts à la moyenne
.Avec N : effectif total xi : Centre de la classe i ni : Effectif de la classe i
X bar= m : Moyenne de la série
Écart-type : L’écart-type σ (lire : sigma) est la racine carrée de la
variance : σ =
Distribution normale : De nombreuses séries statistiques dont l’ effectif est important ont une population distribuée suivant une loi dite normale avec une courbe des effectifs appelée courbe de Gauss.
Dans une loi normale, valeur moyenne, valeur médiane, valeur modale, sont égales.
Pour une série statistique « normalement » distribuée, il y a environ :
- 68 % de la population dans l’intervalle [ m -σ ; m +σ]
- 95 % de la population dans l’intervalle [ m - 2σ ; m + 2σ]
- 99% de la population dans l’intervalle [ m - 3σ ; m + 3σ]
Exercice 1 : Le tableau ci-dessous est extrait d’une liste de
dossiers. Associer à chacune des colonnes (1 ; 2 ; 3 ; 4 ; 5 ; 6 et 7) le type de variable qui lui correspond.
1 2 3 4 5 6 7
Sexe Âge
(en années)
Taille (en cm)
Nationalit é
Couleur des yeux
Niveau d’étude
Fratrie n
m 23.5 170 Mar. noir Secondair
e
4
m 38 172 F bleu Primaire 3
m 32 168 Bel. vert Supérieur 2
f 45.5 165 Mar. marron Supérieur 3
f 26 160 Esp. vert Secondair
e
3
m 41.5 163 F noir Primaire 0
A : Variable quantitative continue B : Variable quantitative discrète C : Variable qualitative ordinale D : Variable qualitative nominale
E : Variable qualitative dichotomique
Exercice 2 : Associer à chaque type suivant le type de variable qui lui correspond :
1. Poids ;
2. Indice poids/Taille ;
3. Catégorie socioprofessionnelle (CSP) ; 4. Groupe sanguin ;
5. Statut Cas/Témoin dans une enquête ; 6. Durée de la gestation
A : Variable quantitative continue B : Variable quantitative discrète C : Variable qualitative ordinale D : Variable qualitative nominale
E : Variable qualitative dichotomique
I-2 Synthèse sous forme de tableaux
I-2-1 Séries statistiques
Une série statistique correspond aux différentes modalités d’un caractère sur un échantillon d’individus appartenant à une
population donnée.
Le nombre d’individus qui constituent l’échantillon étudié s’appelle la taille de l’échantillon.
Exemple :
Afin d’étudier la répartition du poids chez la population
des étudiants SVTU S1 de la faculté des sciences Ben
M’Sik, de l’année universitaire 2011/2012; nous avons
prélevé d’une manière aléatoire 50 livrets médicales.
Les résultats observés exprimés en kilogrammes sur un échantillon de 50 étudiants sont notés dans la série ci- dessus :
Tableau des données brutes
55 61 64 66 69
56 62 65 66 69
57 62 65 66 70
57 62 65 67 71
58 63 65 67 71
58 63 65 67 71
59 63 65 68 72
59 64 65 68 73
60 64 65 68 74
61 64 66 69 75
I-2-2 Tableaux statistiques
Le tableau de distribution de fréquences est un mode synthétique de présentation des données. Sa constitution est immédiate dans le cas d’un
caractère discret mais nécessite en revanche une transformation des données dans le cas d’un caractère continu.
I-2-2-1 Caractères quantitatifs continues
Dans le cas d'un caractère quantitatif continu, l’établissement du tableau de fréquences implique d’effectuer au préalable une répartition en classes des données. Cela nécessite de définir le nombre de classes attendu et donc l’amplitude associée à chaque classe ou intervalle de classe.
En règle générale, on choisit des classes de même amplitude. Pour que la
distribution en fréquence est un sens, il faut que chaque classe comprenne
un nombre suffisant de valeurs (ni).
Exemple : Dans le cadre de l’étude de la population des étudiants SVTU S1 de la faculté des sciences Ben M’Sik , de l’année universitaire 2011/2012, les valeurs du poids peuvent être réparties de la façon suivante :
• définition du nombre de classes : Règle de Sturge : 1 + (3,3 log 50) = 6,60
• définition de l’intervalle de classe : = 3.02 KG que l’on arrondit à 3kg par commodité
• Tableau de distribution des fréquences
Classes Effectifs ni
[55 - 58[ 4
[58 - 61[ 5
[61 - 64[ 8
[64 - 67[ 16
[67 - 70[ 9
[70 - 73[ 5
[73 - 76[ 3
Indice de classe = Xi = (Borne supérieure + Borne inférieure)/2
Xi ni
56,5 4
59,5 5
62,5 8
65,5 16
68,5 9
71,5 5
74,5 3
I-2-2-2 Caractères quantitatifs discrets
Les variables discrètes sont des variables numériques
discontinues. Le plus souvent, il s’agit des nombres entiers. Il n’existe aucune valeur intermédiaire possible. Une variable discrète est le résultat d’un dénombrement. Exemple:
Répartition de 30 sujets selon leur composition de leur fratrie (nombre de frères et sœurs dans la famille).
Fratrie 1 2 3 4 >4
Effectif 11 6 5 4 4
I-2-2-3 Caractères qualitatifs
Groupe Sanguin
A B AB O
Effectif 20 25 40 10
I-3 Représentations graphiques
Les représentations graphiques ont l’avantage de renseigner immédiatement sur l’allure générale de la distribution. Elles facilitent l’interprétation des données recueillies.
I.3.1 Caractères quantitatifs discrets
Pour les caractères quantitatifs discrets, la représentation graphique est le
diagramme en bâtons où la hauteur des bâtons correspond à l’effectif ni associé à chaque modalité du caractère xi.
Exemple : Cécidomyie du hêtre
I.3.2 Caractères quantitatifs continus
Pour les caractères quantitatifs continus, la représentation graphique est l’histogramme où la hauteur du rectangle est proportionnelle à l’effectif ni.
Exemple :
Dans l’exemple de la répartition du poids des étudiants, SVTU S1, la distribution des fréquences observées est représentée par un histogramme avec en ordonnée les effectifs ni et en abscisse les limites de classe de la variable étudiée.
0 4 8 12 16 20
55 58 61 64 67 70 73
Effectif ni
Limites de classes
Histogramme
I-4 Paramètres statistiques.
Le dernier niveau de description statistique est le résumé numérique d’une distribution statistique par des paramètres statistiques ou indicateurs
numériques.
Remarque : Ces derniers représentent une transition entre la statistique purement descriptive et l’estimation des paramètres qui caractérisent les distributions de probabilité
I.4.1 Indicateurs de position
Ces paramètres ont pour objectif dans le cas d'un caractère quantitatif de caractériser l’ordre de grandeur des observations.
I.4.1.1 La moyenne arithmétique
Soit un échantillon de n valeurs observées x1, x2, ….,xi,….,xn d’un caractère quantitatif X, on définit sa moyenne observée x comme la moyenne arithmétique des n valeurs :
Si les données observées xi sont regroupées en k classes d’effectif ni (caractère continu regroupé en classe ou caractère discret), il faut les pondérer par les effectifs correspondants:
Exemples :
Dans le cas de notre exemple le poids moyen des étudiants SVTU S1 2011 est:
dans le cas des données non groupées
Dans le cas des données groupées
Remarque :
La moyenne obtenue après regroupement des données en classes diffère légèrement de la moyenne calculée à partir des données non groupées en raison d’une perte d’information.
Si l’échantillonnage n’est pas de type aléatoire simple, les deux moyennes peuvent être très différentes.
I.4.1.2 La médiane
La médiane, Me, est la valeur du caractère pour laquelle la fréquence
cumulée est égale à 0,5 ou 50%. Elle correspond donc au centre de la série statistique classée par ordre croissant, ou à la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont inférieures.
• Dans le cas où les valeurs prises par le caractère étudié ne sont pas regroupées en classe,
si n est impair, alors n = 2m + 1 et la médiane est la valeur du milieu Me =
xm+1.
si n est pair, alors n = 2m et une médiane est une valeur quelconque entre
xm et xm+1.
Dans ce cas il peut être commode de prendre le milieu.
•
Dans le cas où les valeurs prises par le caractère étudié sont groupées en classe, on cherche la classe contenant le ne/2 individu de l’échantillon. En supposant que tous les individus de cette classe sont uniformément répartis à l’intérieur, la position exacte du ne/2 individu de la façon suivante par
interpolation linéaire :
Avec :
xm : limite inférieure de la classe dans laquelle se trouve le ne/2 individu (classe médiane).
xm+1 : limite supérieure de la classe dans laquelle se trouve le ne/2 individu (classe médiane).
ni : effectif de la classe médiane
Ni. : Effectif cumulé inférieur à xm
n : taille de l’échantillon.
Exemple :
Dans le cas de la distribution des poids, la valeur de la médiane est :
Cas des données groupées :
Soit Me ∈ [65kg, 65kg] ou Me =65kg (voir tableau des données brutes)
Cas des données non groupées :
n=50, la 25ème valeur se situe dans la classe [64-67[qui contient les individus de 18 à 33. d’où avec xm = 64 kg, ni = 16 individus, Ni. = 17 individus et i = 3kg
Me = 65.5
Remarque :
Si la distribution des valeurs est symétrique, la valeur de la médiane est proche de la valeur de la moyenne arithmétique.
I.4.1.3 Le mode
Le mode, Mo d’une série statistique est la valeur du caractère la plus fréquente ou dominante dans l'échantillon. Le mode correspond à la classe de fréquence maximale dans la distribution des fréquences.
On peut identifier le mode comme la valeur médiane de la classe de fréquence maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit :
Avec
x
m: limite inférieure de la classe d’effectif maximal i : intervalle de classe (x
m+1– x
m)
Δi : Ecart d’effectif entre la classe modale et la classe inférieure la plus proche Δs : Ecart d’effectif entre la classe modale et la classe supérieure la plus
proche
Dans le cas de la distribution du poids, la valeur du mode est :
Valeur approchée :
La classe de fréquence maximale est [64,67[ avec ni = 16 d’où Mo = 65,5 kg
Valeur exacte :
Mo = 64 + 3*8/( 8+7) = 65,6
avec x
m= 64 kg, Δi = 16-8 = 8 , Δs = 16-9 = 7 et i = 3 kg
Remarque : Une distribution de fréquences peut présenter un seul mode (distribution uni modale) ou plusieurs modes (distribution bi ou tri modale).
Si la distribution des valeurs est symétrique, la valeur du mode est proche de
la valeur de la moyenne arithmétique.
Avantages Inconvénients
Moyenne
Arithmétique
Facile à calculer Fortement influencée par les valeurs extrêmes de la V.A ; Représente mal une population hétérogène (Polymodale)
Médiane
N’est pas influencée par les valeurs extrêmes de la V.A ; Peu sensible aux variations d’amplitudes des classes; Calculable sur des caractères cycliques (ou la moyenne a peu de signification) ;
Se prête mal aux calculs statistiques ;
Suppose l’équi-répartition des données ;
Ne représente que la valeur qui sépare l’échantillon en 2 parties égales.
Mode
N’est pas influencée par les valeurs extrêmes de la V.A ; Calculable sur des caractères cycliques (ou la moyenne a peu de signification) ;
Bon indicateur de population hétérogène
Se prête mal aux calculs statistiques ;
Très sensible aux variations d’amplitudes des classes ; Son calcul ne tient compte que des individus dont les valeurs se rapprochent de la classe modale.
I.4.1.4 Comparaison des indicateurs de position
Dans le cas où le caractère étudié se distribue selon une loi normale Laplace-Gauss, alors, la moyenne m , la médiane Me et le mode Mo prennent la même valeur.
I.4.2 Indicateurs de dispersion
Ces paramètres ont pour objectif dans le cas d'un caractère quantitatif de caractériser la variabilité des données dans l’échantillon.
Les indicateurs de dispersion fondamentaux sont la variance observée et l’écart-type observé.
I.4.2.1 La variance
Soit un échantillon de n valeurs observées x1, x2, ….,xi,….,xn d’un caractère quantitatif X et soit m (xbar) sa moyenne observée. On définit la variance observée notée s^2 comme la moyenne arithmétique des carrés des écarts à la moyenne.
Pour des commodités de calcul, on se sert du théorème de Koenig que nous démontrons dans un cas particulier.
Soit d’où
d’où
Ainsi
La formule de la variance qui résulte du théorème de Koenig est donc :
Dans le cas de données regroupées en k classes d'effectif ni (variable continue regroupée en classes ou variable discrète), la formule de la variance est la suivante :
I.4.2.2 L’écart-type
L’écart-type observé correspond à la racine carrée de la variance observée:
N.B : sx2 et sx représentent respectivement la variance et l’écart type au niveau d’un échantillon.
Remarque : De part sa définition, la variance est toujours un nombre positif. Sa
dimension est le carré de celle de la variable. Il est toutefois difficile d’utiliser la variance comme mesure de dispersion car le recours au carré conduit à un changement d’unités.
Elle n’a donc pas de sens biologique direct contrairement à l'écart-type qui s’exprime dans les mêmes unités que la moyenne.
I.4.2.3 Coefficient de variation
La variance et l’écart-type sont des paramètres de dispersion absolue qui mesurent la variation absolue des données.
Le coefficient de variation noté C.V. est un indice de dispersion relatif
Ce coefficient nous renseigne sur l’homogénéité d’une distribution statistique. En général, on considère une distribution est homogène si son C.V est inférieur à 15%.
Exercice 3: Calculer : - La moyenne
- La variance - L’écart type
- Le coefficient de variation pour une
série statistique de poids de 80 individus;
sachant que la somme des Xi est de 5824 et la somme des Xi au carré est de
428126. La série est-elle homogène?
1.4.3.1’’ Coefficient d’asymétrie de Pearson
Le coefficient d’asymétrie de Pearson est basé sur une comparaison de la moyenne et du mode, et est standardisé par l’écart-type :
Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la distribution est symétrique, négatifs si la distribution est allongée à gauche (left asymmetry), et
positifs si la distribution est allongée à droite (right asymmetry) comme montrée dans la Figure suivante.
Les quantiles:
Les quantiles sont des valeurs qui divisent une série statistique ordonnée en plusieurs groupes comprenant la même proportion des données. Voici un arbre représentant les quantiles les plus fréquemment utilisés.Les quantiles
Quartiles Déciles Quintiles Centiles
Définiion1:
Les quartiles
, notés par Q1,Q2 et Q3,divisent une série statistique ordonnée en quatres groupes égaux comprenant chacun 25% des données de la série.
On dit que
1) 25% des données sont inférieures à Q1 2) 50% des données sont inférieures à Q2 3) 75% des données sont inférieures à Q3
Les déciles
, notés par D1,D2, ...,D8 et D9,divisent une série statistique ordonnée en dix groupes égaux comprenant chacun 10% des données de la série.
On dit que:
1) 10% des données sont inférieures à D1 2) 20% des données sont inférieures à D2 3) ...
4) 90% des données sont inférieures à D9
Les quintiles
, notés par V1, V2, V3 et V4,divisent une série statistique ordonnée en 5 groupes égaux comprenant chacun 20% des données de la série.
On dit que
1) 20% des données sont inférieures à V1 2) 40% des données sont inférieures à V2 3) 60% des données sont inférieures à V3 4) 80% des données sont inférieures à V4
Les centiles
, notés par C1,C2, ...C98 et C99,divisent une série statistique ordonnée en 100 groupes égaux comprenant chacun 1% des données de la série.
On dit que:
1) 1% des données sont inférieures à C1 2) 2% des données sont inférieures à C2 3) ...
4) 99% des données sont inférieures à C99
Graphique base sur les quantiles: Box Plot (boîte à moustache)
Définition de base:
Définition des valeurs pivots:
a1 = Q1 -1,5(Q3 – Q1) a2 = Q3 +1,5(Q3 – Q1)
Définition des valeurs extérieures: dites aussi aberrantes
Toutes les valeurs qui se trouvent en dehors de l'intervalle [a1; a2] sont dites aberrantes.
Q1 Q2 Q3
Exercice 4 :
Le diagramme en boîtes d’une série est le suivant :
a) Déterminer la médiane et l’intervalle interquartile de la série.
b) Sachant que la population étudiée est d’un
effectif total égal à 72, combien d’individus ont
une valeur du caractère comprise entre 50 et
70 ?
Exercice 5: On considère la série:
Valeur 1 5 13 17
Effectif 2 1 3 2
a) Calculer la moyenne et l’écart-type de la série.
b) Calculer la médiane et l’écart interquartile de la
série.
Exercice 6: Soit la distribution de 50 femmes selon leur nombre d’enfants :
Nombre d’enfants
0 1 2 3 4 5 6
Nombre femmes
1 4 14 10 9 8 4
1. Tracer le diagramme approprié.
2. Déterminer le mode.
3. Calculer la médiane.
4. Calculer la moyenne arithmétique.
5. Quelle conclusion concernant la forme de la
distribution, peut-on tirer de la position respective
des trois précédents paramètres ?
Exercice7: La direction générale de l’agriculture et de la forêt nous donne la répartition par tranches d’âge des chefs
d’exploitation agricole d’une région.
Tranches d’âge Nombres
d’Exploitations
20-30 2
30-40 3
40-50 8
50-60 7
60-70 3
70-80 1
1- Définir la population étudiée, l’individu et le caractère ainsi que les modalités de celui-ci
2- Compléter le tableau des données en calculant les % de fréquences et les % des fréquences cumulées croissantes et décroissantes.
Tracer le graphique correspondant et en déduire la médiane.
3- Calculer l’écart interquartile et l’écart inter décile, en déduire le paramètres de forme d’après YULE.
B- Série Statistique bivariée
QU'EST-CE QUE LA STATISTIQUE DESCRIPTIVE BIVARIEE ?
On s’intéresse à deux variables x et y. Ces deux variables sont
mesurées sur les n unités d’observation. Pour chaque unité, on obtient donc deux mesures. La série statistique est alors une suite de n
couples des valeurs prises par les deux variables sur chaque individu : (x1, y1), . . . , (xi, yi), . . . , (xn, yn).
Deux variables quantitatives
Exemple: On mesure le poids Y et la taille X de 20 individus.
xi 60 61 64 67 68 69 70 70 72 73 75 76 78 80 85 90 96 96 98 101
yi 155 162 157 170 164 162 169 170 178 173 180 175 173 175 179 175 180 185 189 187
Deux variables qualitatives
Si les deux variables x et y sont qualitatives, alors les données observées sont une suite de couples de variables:
(x1, y1), . . . , (xi, yi), . . . , (xn, yn).
chacune des deux variables prend comme valeurs des modalités qualitatives.
Exemple : On s’intéresse à une éventuelle relation entre le sexe de 200 personnes et la couleur des yeux. Le tableau de contingence regroupe les résultats:
Bleu Vert Marron
Hommes 10 50 20
Femmes 20 60 40
Exemple: 2 variables quantitatives (Poids et Taille)
1 25 132 21 33 139 41 33 140
2 25 132 22 33 132 42 41 142
3 29 132 23 31 139 43 35 143
4 23 131 24 31 132 44 38 140
5 24 132 25 34 135 45 33 140
6 21 128 26 29 134 46 38 141
7 26 133 27 34 140 47 36 144
8 24 125 28 35 140 48 35 141
9 29 125 29 29 136 49 35 140
10 28 133 30 32 134 50 37 146
11 28 132 31 31 140 51 35 146
12 28 132 32 31 137 52 34 139
13 24 133 33 34 133 53 33 146
14 28 128 34 34 136 54 34 140
15 26 129 35 32 137 55 41 144
16 29 126 36 33 140 56 39 146
17 22 133 37 33 137 57 34 147
18 28 128 38 31 135 58 37 139
19 27 125 39 27 136 59 39 140
20 26 128 40 28 133 60 38 141
Tableau de distribution de fréquence: tableau de corrélation
Taille/Poids 21-24 24-27 27-30 30-33 33-36 36-39 39-42 Somme
125-128 1 1 3 5
128-131 1 2 2 5
131-134 1 5 5 2 13
134-137 3 2 3 8
137-140 4 2 1 7
140-143 2 7 4 1 14
143-146 3 1 1 5
>=146 1 1 1 3
Somme 3 8 13 10 16 7 3
40 35
30 25
20 150 145 140 135 130 125
Poids
Taille
Représentation graphique: Diagramme de dispersion
Paramètres statistiques:
Paramètre de Position:
Centroïde ou centre de gravité
Le centre de gravité d'un nuage de points Mi de coordonnées (xi, yi) est le point G de coordonnées (ẋ ,ẏ ) ; c'est le point moyen du nuage.
ẋ est la moyenne des xi et ẏ la moyenne des yi
Paramètre de dispersion:
a) Covariance
On appelle covariance de deux variables statistiques X et Y sur les mêmes n individus le nombre :
Ce nombre est positif si X et Y ont tendance à varier dans le même sens, et négatif si elles ont tendance à varier en sens contraire.
Si les données sont groupées en (xi, yi) d'effectifs ni,
La covariance peut varier de -∞ à +∞ ce qui rend l’interprétation de degré de liaison entre X et Y difficile on préfère d’utiliser le coefficient de corrélation (linéaire) pour quantifier le degré de liaison entre deux variables quantitatif
b) Coefficient de corrélation (linéaire)
Le coefficient de corrélation entre deux variables statistiques X et Y sur les mêmes individus est le nombre :
Ce coefficient est toujours compris entre -1 et + 1.
S'il est proche de + 1 ou - 1, X et Y sont bien corrélées, c'est-à-dire qu'elles sont liées entre elles par une relation presque affine ; le nuage de points est presque aligné le long d'une droite (croissante si r = + 1, décroissante si r = - 1). S'il n'y a aucun lien entre X et Y, ce coefficient est nul, ou presque nul.
Le R2 ou coefficient de détermination mesure la qualité de l'ajustement des estimations de l'équation de régression. Il est utilisé à la fois en régression simple et en régression multiple. Il permet d'avoir une idée globale de l'ajustement du modèle. Il s'interprète
comme la part de la variance de la variable Y expliquée par la régression, varie entre 0 et 1 et s'exprime souvent en pourcentage.
En régression simple, un R2 proche de 1 est suffisant pour dire que l'ajustement est bon.
Exercice 8: L’observation des prix et des quantités sur un marché de la tomate a donné les résultats suivants:
X : Quantité en Kg 10 20 35 50 70 90 110 130
Y : Prix au kg en dh 5 3.75 2.75 2.25 1.75 1.25 0.8 0.5
Déterminer la droite d’ajustement linéaire y= ax+b qui permet d’expliquer le prix au kg par la quantité achetée. Calculer r et expliquer son signe. Prévoir le prix d’un kg de tomates pour un achat de 140 kg. Commenter le résultat.
Chercher maintenant un ajustement par une fonction logarithme de la forme y =a ln(x) +b (en posant U= ln(x) on se ramène à un ajustement linéaire: y= a U + B. Calculer r2. Prévoir le prix d’un kg de tomates pour un achat de 140 kg.
Indiquer lequel des ajustements vous semble le plus judicieux (justifier votre réponse)
Exemple d’application
Dans une étude sur le mécanisme de détoxication du brochet (Esox lucius), Boileau et Alary (1975) ont dosé la concentration en pesticides (DDT ; DDD et DDE) contenus dans l’organisme d’individus capturés dans la rivière Bleury (Province de Québec). Les auteurs cherchaient si la concentration en pesticides dans les graisses croissait avec l’âge des individus. Les résultats obtenus figurent dans le tableau suivant :
2ans 3ans 4ans 5ans 6ans
0,144 0,285 0,418 0,675 1,13 0,171 0,295 0,441 0,685 1,18 0,178 0,321 0,451 0,726 1,21 0,184 0,354 0,451 0,736 1,23 0,193 0,359 0,458
0,197 0,361 0,461 0,198 0,362 0,464 0,199 0,364 0,465 0,199 0,373 0,465 0,206 0,382 0,469 0,216 0,403 0,475 0,258 0,407 0,48
0,413
a) Déterminer la droite de régression permettant de prévoir la concentration en pesticide à partir de l’âge.
b) Quelle est la concentration attendue en pesticide d’un brochet de 3 ans? c) Quelle est la moyenne observée pour cette classe d’âge?
d) Comparer les résultats obtenus en b) et c) et conclure.