Partie 1

(1)

Partie 1

(2)

STATISTIQUES DESCRIPTIVES

La statistique : « C’est un ensemble de méthodes permettant de décrire et d’analyser, de façon quantifiée, des phénomènes repérés par des éléments nombreux, de même nature,

susceptibles d’être dénombrés et classés. »

La statistique descriptive se compose de 3 domaines distincts :

la statistique uni variée : étudie la répartition d'une population selon une variable (la taille, le poids ...)

la statistique bivariée : étudie la relation qui peut exister entre deux variables (entre la taille et le poids, par exemple...)

la statistique multi variée: s’intéresse plutôt aux relations qui

peuvent exister entre plusieurs variables que l'on traite avec

des méthodes comme l'analyse factorielle.

(3)

Les statistiques descriptives recouvrent les différentes

techniques de description des données, synthèse sous forme de tableaux, représentations graphiques ou de paramètres statistiques.

Pour les grands tableaux, les techniques peuvent devenir plus complexes. Elles ne sont pas abordées ici. Pour mémoire, les principales méthodes d'analyse de données sont :

● Analyse en composantes principales (ACP) dans le cas de plusieurs variables quantitatives,

● Analyse des correspondances (AFC) dans le cas de grands tableaux de contingence,

● Classification (CAH)

(4)

Les statistiques descriptives sont importantes pour présenter les données, déterminer communiquer, les hypothèses à tester ...

On oppose les statistiques descriptives aux statistiques inférentielles dont l'objectif est de mettre en place des règles de décision afin de réaliser des tests statistiques.

Nous aborderons ce type de statistique dans la partie 3.

(5)

Série Statistique Univariée

I-1 Définitions et Vocabulaire de la statistique

Population : La population est l’ensemble des individus sur lesquels portent les observations.

Échantillon : C’est la portion de population servant à l’étude.

Unité statistique ou individu : élément qui constitue la population.

Caractère : Le caractère est la propriété étudiée.

Le caractère est qualitatif s’il n’est pas une valeur numérique.

Soit mesuré dans une échelle nominale, les modalités sont exprimables par

des noms et ne sont pas hiérarchisées. Un caractère nominal est dit dichotomique

s’il ne peut prendre que deux modalités.

Exemple: la couleur du pelage, les groupes sanguins, les différents nucléotides de l’ADN, la présence ou l’absence d’un caractère (dichotomique), etc.

(6)

Mesuré dans une échelle ordinale: les modalités traduisent le degré d’un état caractérisant un individu sans que ce degré ne puisse être défini par un nombre qui résulte d’une mesure. Les modalités sont alors hiérarchisées.

Exemple: Moral d’un individu : bas ; moyen ; bon ; très bon Le caractère est quantitatif s’il peut être mesuré :

Il est quantitatif discret s’il ne prend que des valeurs isolées.

Exemple : le nombre de petits par portée, le nombre de cellules dans une culture, le nombre d’accidents pour une période

donnée, etc.

Il est quantitatif continu s’il peut prendre toutes les valeurs dans un intervalle donné. Exemple : le poids ; la taille ; le taux de

glycémie ; le rendement etc.

(7)

Couleur

Départements Profession

Sexe

Moral d’un individu

Taille vestimentair

e

Variable

Quantitative

Discrète Continue Nominale Ordinale

Qualitative

Nombre d’enfants

Nombre de pièces d’une habitation

Surface

Poids Taille

Précipitations

(8)

:

Exemple : taille de vêtement

XS < S < M < L < XL < XXL

Il faudra, notamment pour les représentations graphiques, présenter toujours les modalités dans l'ordre.

Répartition d'une population en fonction de sa taille vestimentaire

(9)

Diagramme en bâtons : On l’utilise pour les séries à caractère discret. Les hauteurs des différents bâtons sont proportionnelles aux effectifs

correspondants.

(10)

Diagramme à secteurs circulaires : On l’utilise le plus souvent dans le cas d’une variable discrète. Chaque secteur a un angle au centre de mesure proportionnelle à la fréquence de la classe correspondante exprimée en pourcentage.

Foot. 38%

Rugby. 30%

Hand. 14%

Tennis. 8%

Autre. 10%

Diagramme circulaire

(11)

Histogramme ^: On l’utilise pour les séries à caractère continu, lorsque les valeurs de la variable sont réparties en classes. Les aires des différents rectangles sont proportionnelles aux effectifs (aux fréquences) correspondantes.

Effectifs

Xi

(12)

Polygone des effectifs : est la ligne polygonale joignant les milieux de chaque côté supérieur des rectangles constituant l’histogramme.

Mode et classe modale : On appelle mode d’une série statistique à caractère discret la valeur du caractère statistique qui correspond au plus grand

effectif.

On appelle classe modale d’une série statistique à caractère continu la classe qui correspond au plus grand effectif. Le mode est le centre de la classe

modale.

Effectif : L’effectif d’une classe est le nombre d’éléments de la classe, on le note ni.

L’effectif total (noté N) est la somme des effectifs de chaque classe.

Le polygone des effectifs cumulés croissants est la ligne polygonale joignant les points ayant:

- pour abscisse : la borne supérieur de la classe.

- pour ordonnées : l’effectif cumulé croisant de la classe.

(13)

Fréquence : La fréquence de la nième classe est : f

_i

= n

_i

/N (elle peut être exprimée en %).

La médiane est la valeur du caractère qui partage l’effectif total en deux parties de même effectifs.

Dans le cas d’un caractère continu la médiane peut être recherchée par lecture sur le polygone des effectifs cumulés. C’est l’abscisse du point ayant pour ordonnée N/2.

L’étendue

d’une série statistique est la différence entre la plus grande et la plus petite valeur du caractère.

Moyenne : On appelle moyenne d’une série statistique et on note le nombre :

xi désigne le centre de la classe.

k : le nombre de classes

(14)

Quartile : Les trois quartiles sont les trois valeurs du caractère qui partagent la population totale en quatre parties d’effectifs égaux.

Le premier quartile Q1 correspond à 25 % de l’effectif total.

Le deuxième quartile Q2 correspond à la médiane (50 % de l’effectif total).

Le troisième quartile Q3 correspond à 75 % de l’effectif total.

Décile : chaque décile partage en dix parties égales l’effectif

(15)

Variance : La variance V est la moyenne des carrés des écarts à la moyenne

.

Avec N : effectif total xi : Centre de la classe i ni : Effectif de la classe i

X bar= m : Moyenne de la série

Écart-type : L’écart-type σ (lire : sigma) est la racine carrée de la

variance : σ =

(16)

Distribution normale : De nombreuses séries statistiques dont l’ effectif est important ont une population distribuée suivant une loi dite normale avec une courbe des effectifs appelée courbe de Gauss.

Dans une loi normale, valeur moyenne, valeur médiane, valeur modale, sont égales.

Pour une série statistique « normalement » distribuée, il y a environ :

- 68 % de la population dans l’intervalle [ m -σ ; m +σ]

- 95 % de la population dans l’intervalle [ m - 2σ ; m + 2σ]

- 99% de la population dans l’intervalle [ m - 3σ ; m + 3σ]

(17)

Exercice 1 : Le tableau ci-dessous est extrait d’une liste de

dossiers. Associer à chacune des colonnes (1 ; 2 ; 3 ; 4 ; 5 ; 6 et 7) le type de variable qui lui correspond.

1 2 3 4 5 6 7

Sexe Âge

(en années)

Taille (en cm)

Nationalit é

Couleur des yeux

Niveau d’étude

Fratrie n

m 23.5 170 Mar. noir Secondair

e

4

m 38 172 F bleu Primaire 3

m 32 168 Bel. vert Supérieur 2

f 45.5 165 Mar. marron Supérieur 3

f 26 160 Esp. vert Secondair

e

3

m 41.5 163 F noir Primaire 0

A : Variable quantitative continue B : Variable quantitative discrète C : Variable qualitative ordinale D : Variable qualitative nominale

E : Variable qualitative dichotomique

(18)

Exercice 2 : Associer à chaque type suivant le type de variable qui lui correspond :

1. Poids ;

2. Indice poids/Taille ;

3. Catégorie socioprofessionnelle (CSP) ; 4. Groupe sanguin ;

5. Statut Cas/Témoin dans une enquête ; 6. Durée de la gestation

A : Variable quantitative continue B : Variable quantitative discrète C : Variable qualitative ordinale D : Variable qualitative nominale

E : Variable qualitative dichotomique

(19)

I-2 Synthèse sous forme de tableaux

I-2-1 Séries statistiques

Une série statistique correspond aux différentes modalités d’un caractère sur un échantillon d’individus appartenant à une

population donnée.

Le nombre d’individus qui constituent l’échantillon étudié s’appelle la taille de l’échantillon.

Exemple :

Afin d’étudier la répartition du poids chez la population

des étudiants SVTU S1 de la faculté des sciences Ben

M’Sik, de l’année universitaire 2011/2012; nous avons

prélevé d’une manière aléatoire 50 livrets médicales.

(20)

Les résultats observés exprimés en kilogrammes sur un échantillon de 50 étudiants sont notés dans la série ci- dessus :

Tableau des données brutes

55 61 64 66 69

56 62 65 66 69

57 62 65 66 70

57 62 65 67 71

58 63 65 67 71

59 63 65 68 72

59 64 65 68 73

60 64 65 68 74

61 64 66 69 75

(21)

I-2-2 Tableaux statistiques

Le tableau de distribution de fréquences est un mode synthétique de présentation des données. Sa constitution est immédiate dans le cas d’un

caractère discret mais nécessite en revanche une transformation des données dans le cas d’un caractère continu.

I-2-2-1 Caractères quantitatifs continues

Dans le cas d'un caractère quantitatif continu, l’établissement du tableau de fréquences implique d’effectuer au préalable une répartition en classes des données. Cela nécessite de définir le nombre de classes attendu et donc l’amplitude associée à chaque classe ou intervalle de classe.

En règle générale, on choisit des classes de même amplitude. Pour que la

distribution en fréquence est un sens, il faut que chaque classe comprenne

un nombre suffisant de valeurs (ni).

(22)

(23)

Exemple : Dans le cadre de l’étude de la population des étudiants SVTU S1 de la faculté des sciences Ben M’Sik , de l’année universitaire 2011/2012, les valeurs du poids peuvent être réparties de la façon suivante :

• définition du nombre de classes : Règle de Sturge : 1 + (3,3 log 50) = 6,60

• définition de l’intervalle de classe : = 3.02 KG que l’on arrondit à 3kg par commodité

• Tableau de distribution des fréquences

Classes Effectifs n_i

[55 - 58[ 4

[58 - 61[ 5

[61 - 64[ 8

[64 - 67[ 16

[67 - 70[ 9

[70 - 73[ 5

[73 - 76[ 3

(24)

Indice de classe = Xi = (Borne supérieure + Borne inférieure)/2

X_i n_i

56,5 4

59,5 5

62,5 8

65,5 16

68,5 9

71,5 5

74,5 3

(25)

I-2-2-2 Caractères quantitatifs discrets

Les variables discrètes sont des variables numériques

discontinues. Le plus souvent, il s’agit des nombres entiers. Il n’existe aucune valeur intermédiaire possible. Une variable discrète est le résultat d’un dénombrement. Exemple:

Répartition de 30 sujets selon leur composition de leur fratrie (nombre de frères et sœurs dans la famille).

Fratrie 1 2 3 4 >4

Effectif 11 6 5 4 4

(26)

I-2-2-3 Caractères qualitatifs

Groupe Sanguin

A B AB O

Effectif 20 25 40 10

(27)

I-3 Représentations graphiques

Les représentations graphiques ont l’avantage de renseigner immédiatement sur l’allure générale de la distribution. Elles facilitent l’interprétation des données recueillies.

I.3.1 Caractères quantitatifs discrets

Pour les caractères quantitatifs discrets, la représentation graphique est le

diagramme en bâtons où la hauteur des bâtons correspond à l’effectif ni associé à chaque modalité du caractère xi.

Exemple : Cécidomyie du hêtre

(28)

I.3.2 Caractères quantitatifs continus

Pour les caractères quantitatifs continus, la représentation graphique est l’histogramme où la hauteur du rectangle est proportionnelle à l’effectif ni.

Exemple :

Dans l’exemple de la répartition du poids des étudiants, SVTU S1, la distribution des fréquences observées est représentée par un histogramme avec en ordonnée les effectifs ni et en abscisse les limites de classe de la variable étudiée.

0 4 8 12 16 20

55 58 61 64 67 70 73

Effectif ni

Limites de classes

Histogramme

(29)

I-4 Paramètres statistiques.

Le dernier niveau de description statistique est le résumé numérique d’une distribution statistique par des paramètres statistiques ou indicateurs

numériques.

Remarque : Ces derniers représentent une transition entre la statistique purement descriptive et l’estimation des paramètres qui caractérisent les distributions de probabilité

I.4.1 Indicateurs de position

Ces paramètres ont pour objectif dans le cas d'un caractère quantitatif de caractériser l’ordre de grandeur des observations.

I.4.1.1 La moyenne arithmétique

Soit un échantillon de n valeurs observées x1, x2, ….,xi,….,xn d’un caractère quantitatif X, on définit sa moyenne observée x comme la moyenne arithmétique des n valeurs :

(30)

Si les données observées xi sont regroupées en k classes d’effectif ni (caractère continu regroupé en classe ou caractère discret), il faut les pondérer par les effectifs correspondants:

Exemples :

Dans le cas de notre exemple le poids moyen des étudiants SVTU S1 2011 est:

dans le cas des données non groupées

Dans le cas des données groupées

(31)

Remarque :

La moyenne obtenue après regroupement des données en classes diffère légèrement de la moyenne calculée à partir des données non groupées en raison d’une perte d’information.

Si l’échantillonnage n’est pas de type aléatoire simple, les deux moyennes peuvent être très différentes.

I.4.1.2 La médiane

La médiane, Me, est la valeur du caractère pour laquelle la fréquence

cumulée est égale à 0,5 ou 50%. Elle correspond donc au centre de la série statistique classée par ordre croissant, ou à la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont inférieures.

• Dans le cas où les valeurs prises par le caractère étudié ne sont pas regroupées en classe,

si n est impair, alors n = 2m + 1 et la médiane est la valeur du milieu Me =

xm+1.

si n est pair, alors n = 2m et une médiane est une valeur quelconque entre

xm et xm+1.

Dans ce cas il peut être commode de prendre le milieu.

(32)

•

Dans le cas où les valeurs prises par le caractère étudié sont groupées en classe, on cherche la classe contenant le ne/2 individu de l’échantillon. En supposant que tous les individus de cette classe sont uniformément répartis à l’intérieur, la position exacte du ne/2 individu de la façon suivante par

interpolation linéaire :

Avec :

xm : limite inférieure de la classe dans laquelle se trouve le ne/2 individu (classe médiane).

xm+1 : limite supérieure de la classe dans laquelle se trouve le ne/2 individu (classe médiane).

ni : effectif de la classe médiane

Ni. : Effectif cumulé inférieur à xm

n : taille de l’échantillon.

(33)

Exemple :

Dans le cas de la distribution des poids, la valeur de la médiane est :

 Cas des données groupées :

Soit Me ∈ [65kg, 65kg] ou Me =65kg (voir tableau des données brutes)

Cas des données non groupées :

n=50, la 25ème valeur se situe dans la classe [64-67[qui contient les individus de 18 à 33. d’où avec x_m= 64 kg, ni = 16 individus, Ni. = 17 individus et i = 3kg

Me = 65.5

Remarque :

Si la distribution des valeurs est symétrique, la valeur de la médiane est proche de la valeur de la moyenne arithmétique.

(34)

I.4.1.3 Le mode

Le mode, Mo d’une série statistique est la valeur du caractère la plus fréquente ou dominante dans l'échantillon. Le mode correspond à la classe de fréquence maximale dans la distribution des fréquences.

On peut identifier le mode comme la valeur médiane de la classe de fréquence maximale ou bien effectuer une interpolation linaire pour obtenir la valeur

exacte du mode comme suit :

Avec

x

_m

: limite inférieure de la classe d’effectif maximal i : intervalle de classe (x

_m+1

– x

_m

)

Δi : Ecart d’effectif entre la classe modale et la classe inférieure la plus proche Δs : Ecart d’effectif entre la classe modale et la classe supérieure la plus

proche

(35)

Dans le cas de la distribution du poids, la valeur du mode est :



Valeur approchée :

La classe de fréquence maximale est [64,67[ avec ni = 16 d’où Mo = 65,5 kg



Valeur exacte :

Mo = 64 + 38/( 8+7) = 65,6*

avec x

_m

= 64 kg, Δi = 16-8 = 8 , Δs = 16-9 = 7 et i = 3 kg

Remarque : Une distribution de fréquences peut présenter un seul mode (distribution uni modale) ou plusieurs modes (distribution bi ou tri modale).

Si la distribution des valeurs est symétrique, la valeur du mode est proche de

la valeur de la moyenne arithmétique.

(36)

Avantages Inconvénients

Moyenne

Arithmétique

Facile à calculer Fortement influencée par les valeurs extrêmes de la V.A ; Représente mal une population hétérogène (Polymodale)

Médiane

N’est pas influencée par les valeurs extrêmes de la V.A ; Peu sensible aux variations d’amplitudes des classes; Calculable sur des caractères cycliques (ou la moyenne a peu de signification) ;

Se prête mal aux calculs statistiques ;

Suppose l’équi-répartition des données ;

Ne représente que la valeur qui sépare l’échantillon en 2 parties égales.

Mode

N’est pas influencée par les valeurs extrêmes de la V.A ; Calculable sur des caractères cycliques (ou la moyenne a peu de signification) ;

Bon indicateur de population hétérogène

Se prête mal aux calculs statistiques ;

Très sensible aux variations d’amplitudes des classes ; Son calcul ne tient compte que des individus dont les valeurs se rapprochent de la classe modale.

I.4.1.4 Comparaison des indicateurs de position

Dans le cas où le caractère étudié se distribue selon une loi normale Laplace-Gauss, alors, la moyenne m , la médiane Me et le mode Mo prennent la même valeur.

(37)

I.4.2 Indicateurs de dispersion

Ces paramètres ont pour objectif dans le cas d'un caractère quantitatif de caractériser la variabilité des données dans l’échantillon.

Les indicateurs de dispersion fondamentaux sont la variance observée et l’écart-type observé.

I.4.2.1 La variance

Soit un échantillon de n valeurs observées x1, x2, ….,xi,….,xn d’un caractère quantitatif X et soit m (xbar) sa moyenne observée. On définit la variance observée notée s^2 comme la moyenne arithmétique des carrés des écarts à la moyenne.

Pour des commodités de calcul, on se sert du théorème de Koenig que nous démontrons dans un cas particulier.

(38)

Soit d’où

d’où

Ainsi

La formule de la variance qui résulte du théorème de Koenig est donc :

(39)

Dans le cas de données regroupées en k classes d'effectif ni (variable continue regroupée en classes ou variable discrète), la formule de la variance est la suivante :

I.4.2.2 L’écart-type

L’écart-type observé correspond à la racine carrée de la variance observée:

N.B : s_x² et s_x représentent respectivement la variance et l’écart type au niveau d’un échantillon.

(40)

Remarque : De part sa définition, la variance est toujours un nombre positif. Sa

dimension est le carré de celle de la variable. Il est toutefois difficile d’utiliser la variance comme mesure de dispersion car le recours au carré conduit à un changement d’unités.

Elle n’a donc pas de sens biologique direct contrairement à l'écart-type qui s’exprime dans les mêmes unités que la moyenne.

I.4.2.3 Coefficient de variation

La variance et l’écart-type sont des paramètres de dispersion absolue qui mesurent la variation absolue des données.

Le coefficient de variation noté C.V. est un indice de dispersion relatif

Ce coefficient nous renseigne sur l’homogénéité d’une distribution statistique. En général, on considère une distribution est homogène si son C.V est inférieur à 15%.

(41)

Exercice 3: Calculer : - La moyenne

- La variance - L’écart type

- Le coefficient de variation pour une

série statistique de poids de 80 individus;

sachant que la somme des Xi est de 5824 et la somme des Xi au carré est de

428126. La série est-elle homogène?

(42)

(43)

1.4.3.1’’ Coefficient d’asymétrie de Pearson

Le coefficient d’asymétrie de Pearson est basé sur une comparaison de la moyenne et du mode, et est standardisé par l’écart-type :

Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la distribution est symétrique, négatifs si la distribution est allongée à gauche (left asymmetry), et

positifs si la distribution est allongée à droite (right asymmetry) comme montrée dans la Figure suivante.

(44)

(45)

(46)

(47)

Les quantiles:

Les quantiles sont des valeurs qui divisent une série statistique ordonnée en plusieurs groupes comprenant la même proportion des données. Voici un arbre représentant les quantiles les plus fréquemment utilisés.

Les quantiles

Quartiles Déciles Quintiles Centiles

Définiion1:

Les quartiles

, notés par Q1,Q2 et Q3,

divisent une série statistique ordonnée en quatres groupes égaux comprenant chacun 25% des données de la série.

On dit que

1) 25% des données sont inférieures à Q1 2) 50% des données sont inférieures à Q2 3) 75% des données sont inférieures à Q3

(48)

Les déciles

, notés par D1,D2, ...,D8 et D9,

divisent une série statistique ordonnée en dix groupes égaux comprenant chacun 10% des données de la série.

On dit que:

1) 10% des données sont inférieures à D1 2) 20% des données sont inférieures à D2 3) ...

4) 90% des données sont inférieures à D9

Les quintiles

, notés par V1, V2, V3 et V4,

divisent une série statistique ordonnée en 5 groupes égaux comprenant chacun 20% des données de la série.

On dit que

1) 20% des données sont inférieures à V1 2) 40% des données sont inférieures à V2 3) 60% des données sont inférieures à V3 4) 80% des données sont inférieures à V4

(49)

Les centiles

, notés par C1,C2, ...C98 et C99,

divisent une série statistique ordonnée en 100 groupes égaux comprenant chacun 1% des données de la série.

On dit que:

1) 1% des données sont inférieures à C1 2) 2% des données sont inférieures à C2 3) ...

4) 99% des données sont inférieures à C99

Graphique base sur les quantiles: Box Plot (boîte à moustache)

Définition de base:

(50)

Définition des valeurs pivots:

a1 = Q1 -1,5(Q3 – Q1) a2 = Q3 +1,5(Q3 – Q1)

Définition des valeurs extérieures: dites aussi aberrantes

Toutes les valeurs qui se trouvent en dehors de l'intervalle [a1; a2] sont dites aberrantes.

Q1 Q2 Q3

(51)

Exercice 4 :

Le diagramme en boîtes d’une série est le suivant :

a) Déterminer la médiane et l’intervalle interquartile de la série.

b) Sachant que la population étudiée est d’un

effectif total égal à 72, combien d’individus ont

une valeur du caractère comprise entre 50 et

70 ?

(52)

Exercice 5: On considère la série:

Valeur 1 5 13 17

Effectif 2 1 3 2

a) Calculer la moyenne et l’écart-type de la série.

b) Calculer la médiane et l’écart interquartile de la

série.

(53)

Exercice 6: Soit la distribution de 50 femmes selon leur nombre d’enfants :

Nombre d’enfants

0 1 2 3 4 5 6

Nombre femmes

1 4 14 10 9 8 4

1. Tracer le diagramme approprié.

2. Déterminer le mode.

3. Calculer la médiane.

4. Calculer la moyenne arithmétique.

5. Quelle conclusion concernant la forme de la

distribution, peut-on tirer de la position respective

des trois précédents paramètres ?

(54)

Exercice7: La direction générale de l’agriculture et de la forêt nous donne la répartition par tranches d’âge des chefs

d’exploitation agricole d’une région.

Tranches d’âge Nombres

d’Exploitations

20-30 2

30-40 3

40-50 8

50-60 7

60-70 3

70-80 1

1- Définir la population étudiée, l’individu et le caractère ainsi que les modalités de celui-ci

2- Compléter le tableau des données en calculant les % de fréquences et les % des fréquences cumulées croissantes et décroissantes.

Tracer le graphique correspondant et en déduire la médiane.

3- Calculer l’écart interquartile et l’écart inter décile, en déduire le paramètres de forme d’après YULE.

(55)

B- Série Statistique bivariée

QU'EST-CE QUE LA STATISTIQUE DESCRIPTIVE BIVARIEE ?

On s’intéresse à deux variables x et y. Ces deux variables sont

mesurées sur les n unités d’observation. Pour chaque unité, on obtient donc deux mesures. La série statistique est alors une suite de n

couples des valeurs prises par les deux variables sur chaque individu : (x1, y1), . . . , (xi, yi), . . . , (xn, yn).

Deux variables quantitatives

Exemple: On mesure le poids Y et la taille X de 20 individus.

xi 60 61 64 67 68 69 70 70 72 73 75 76 78 80 85 90 96 96 98 101

yi 155 162 157 170 164 162 169 170 178 173 180 175 173 175 179 175 180 185 189 187

(56)

Deux variables qualitatives

Si les deux variables x et y sont qualitatives, alors les données observées sont une suite de couples de variables:

(x1, y1), . . . , (xi, yi), . . . , (xn, yn).

chacune des deux variables prend comme valeurs des modalités qualitatives.

Exemple : On s’intéresse à une éventuelle relation entre le sexe de 200 personnes et la couleur des yeux. Le tableau de contingence regroupe les résultats:

Bleu Vert Marron

Hommes 10 50 20

Femmes 20 60 40

(57)

Exemple: 2 variables quantitatives (Poids et Taille)

1 25 132 21 33 139 41 33 140

2 25 132 22 33 132 42 41 142

3 29 132 23 31 139 43 35 143

4 23 131 24 31 132 44 38 140

5 24 132 25 34 135 45 33 140

6 21 128 26 29 134 46 38 141

7 26 133 27 34 140 47 36 144

8 24 125 28 35 140 48 35 141

9 29 125 29 29 136 49 35 140

10 28 133 30 32 134 50 37 146

11 28 132 31 31 140 51 35 146

12 28 132 32 31 137 52 34 139

13 24 133 33 34 133 53 33 146

14 28 128 34 34 136 54 34 140

15 26 129 35 32 137 55 41 144

16 29 126 36 33 140 56 39 146

17 22 133 37 33 137 57 34 147

18 28 128 38 31 135 58 37 139

19 27 125 39 27 136 59 39 140

20 26 128 40 28 133 60 38 141

(58)

Tableau de distribution de fréquence: tableau de corrélation

Taille/Poids 21-24 24-27 27-30 30-33 33-36 36-39 39-42 Somme

125-128 1 1 3 5

128-131 1 2 2 5

131-134 1 5 5 2 13

134-137 3 2 3 8

137-140 4 2 1 7

140-143 2 7 4 1 14

143-146 3 1 1 5

>=146 1 1 1 3

Somme 3 8 13 10 16 7 3

(59)

40 35

30 25

20 150 145 140 135 130 125

Poids

Taille

Représentation graphique: Diagramme de dispersion

(60)

Paramètres statistiques:

Paramètre de Position:

Centroïde ou centre de gravité

Le centre de gravité d'un nuage de points M_i de coordonnées (xi, y_i) est le point G de coordonnées (ẋ ,ẏ ) ; c'est le point moyen du nuage.

ẋ est la moyenne des x_i et ẏ la moyenne des y_i

(61)

Paramètre de dispersion:

a) Covariance

On appelle covariance de deux variables statistiques X et Y sur les mêmes n individus le nombre :

Ce nombre est positif si X et Y ont tendance à varier dans le même sens, et négatif si elles ont tendance à varier en sens contraire.

Si les données sont groupées en (xi, y_i) d'effectifs n_i,

(62)

La covariance peut varier de -∞ à +∞ ce qui rend l’interprétation de degré de liaison entre X et Y difficile on préfère d’utiliser le coefficient de corrélation (linéaire) pour quantifier le degré de liaison entre deux variables quantitatif

b) Coefficient de corrélation (linéaire)

Le coefficient de corrélation entre deux variables statistiques X et Y sur les mêmes individus est le nombre :

Ce coefficient est toujours compris entre -1 et + 1.

S'il est proche de + 1 ou - 1, X et Y sont bien corrélées, c'est-à-dire qu'elles sont liées entre elles par une relation presque affine ; le nuage de points est presque aligné le long d'une droite (croissante si r = + 1, décroissante si r = - 1). S'il n'y a aucun lien entre X et Y, ce coefficient est nul, ou presque nul.

(63)

(64)

(65)

(66)

(67)

(68)

(69)

(70)

(71)

(72)

(73)

Le R² ou coefficient de détermination mesure la qualité de l'ajustement des estimations de l'équation de régression. Il est utilisé à la fois en régression simple et en régression multiple. Il permet d'avoir une idée globale de l'ajustement du modèle. Il s'interprète

comme la part de la variance de la variable Y expliquée par la régression, varie entre 0 et 1 et s'exprime souvent en pourcentage.

En régression simple, un R² proche de 1 est suffisant pour dire que l'ajustement est bon.

(74)

Exercice 8: L’observation des prix et des quantités sur un marché de la tomate a donné les résultats suivants:

X : Quantité en Kg 10 20 35 50 70 90 110 130

Y : Prix au kg en dh 5 3.75 2.75 2.25 1.75 1.25 0.8 0.5

Déterminer la droite d’ajustement linéaire y= ax+b qui permet d’expliquer le prix au kg par la quantité achetée. Calculer r et expliquer son signe. Prévoir le prix d’un kg de tomates pour un achat de 140 kg. Commenter le résultat.

Chercher maintenant un ajustement par une fonction logarithme de la forme y =a ln(x) +b (en posant U= ln(x) on se ramène à un ajustement linéaire: y= a U + B. Calculer r2. Prévoir le prix d’un kg de tomates pour un achat de 140 kg.

Indiquer lequel des ajustements vous semble le plus judicieux (justifier votre réponse)

(75)

Exemple d’application

Dans une étude sur le mécanisme de détoxication du brochet (Esox lucius), Boileau et Alary (1975) ont dosé la concentration en pesticides (DDT ; DDD et DDE) contenus dans l’organisme d’individus capturés dans la rivière Bleury (Province de Québec). Les auteurs cherchaient si la concentration en pesticides dans les graisses croissait avec l’âge des individus. Les résultats obtenus figurent dans le tableau suivant :

2ans 3ans 4ans 5ans 6ans

0,144 0,285 0,418 0,675 1,13 0,171 0,295 0,441 0,685 1,18 0,178 0,321 0,451 0,726 1,21 0,184 0,354 0,451 0,736 1,23 0,193 0,359 0,458

0,197 0,361 0,461 0,198 0,362 0,464 0,199 0,364 0,465 0,199 0,373 0,465 0,206 0,382 0,469 0,216 0,403 0,475 0,258 0,407 0,48

0,413

(76)

a) Déterminer la droite de régression permettant de prévoir la concentration en pesticide à partir de l’âge.

b) Quelle est la concentration attendue en pesticide d’un brochet de 3 ans? c) Quelle est la moyenne observée pour cette classe d’âge?

d) Comparer les résultats obtenus en b) et c) et conclure.

Partie 1

Partie 1

STATISTIQUES DESCRIPTIVES

La statistique : « C’est un ensemble de méthodes permettant de décrire et d’analyser, de façon quantifiée, des phénomènes repérés par des éléments nombreux, de même nature,

susceptibles d’être dénombrés et classés. »

La statistique descriptive se compose de 3 domaines distincts :

la statistique uni variée : étudie la répartition d'une population selon une variable (la taille, le poids ...)

la statistique bivariée : étudie la relation qui peut exister entre deux variables (entre la taille et le poids, par exemple...)

la statistique multi variée: s’intéresse plutôt aux relations qui

peuvent exister entre plusieurs variables que l'on traite avec

des méthodes comme l'analyse factorielle.

Les statistiques descriptives recouvrent les différentes

techniques de description des données, synthèse sous forme de tableaux, représentations graphiques ou de paramètres statistiques.

Pour les grands tableaux, les techniques peuvent devenir plus complexes. Elles ne sont pas abordées ici. Pour mémoire, les principales méthodes d'analyse de données sont :

● Analyse en composantes principales (ACP) dans le cas de plusieurs variables quantitatives,

● Analyse des correspondances (AFC) dans le cas de grands tableaux de contingence,

● Classification (CAH)

Les statistiques descriptives sont importantes pour présenter les données, déterminer communiquer, les hypothèses à tester ...

On oppose les statistiques descriptives aux statistiques inférentielles dont l'objectif est de mettre en place des règles de décision afin de réaliser des tests statistiques.

Nous aborderons ce type de statistique dans la partie 3.

Série Statistique Univariée

I-1 Définitions et Vocabulaire de la statistique

Population : La population est l’ensemble des individus sur lesquels portent les observations.

Échantillon : C’est la portion de population servant à l’étude.

Unité statistique ou individu : élément qui constitue la population.

Caractère : Le caractère est la propriété étudiée.

Le caractère est qualitatif s’il n’est pas une valeur numérique.

Soit mesuré dans une échelle nominale, les modalités sont exprimables par

s’il ne peut prendre que deux modalités.

Mesuré dans une échelle ordinale: les modalités traduisent le degré d’un état caractérisant un individu sans que ce degré ne puisse être défini par un nombre qui résulte d’une mesure. Les modalités sont alors hiérarchisées.

Exemple: Moral d’un individu : bas ; moyen ; bon ; très bon Le caractère est quantitatif s’il peut être mesuré :

Il est quantitatif discret s’il ne prend que des valeurs isolées.

Exemple : le nombre de petits par portée, le nombre de cellules dans une culture, le nombre d’accidents pour une période

donnée, etc.

Il est quantitatif continu s’il peut prendre toutes les valeurs dans un intervalle donné. Exemple : le poids ; la taille ; le taux de

glycémie ; le rendement etc.

Diagramme en bâtons : On l’utilise pour les séries à caractère discret. Les hauteurs des différents bâtons sont proportionnelles aux effectifs

correspondants.

Histogramme : On l’utilise pour les séries à caractère continu, lorsque les valeurs de la variable sont réparties en classes. Les aires des différents rectangles sont proportionnelles aux effectifs (aux fréquences) correspondantes.

Polygone des effectifs : est la ligne polygonale joignant les milieux de chaque côté supérieur des rectangles constituant l’histogramme.

Mode et classe modale : On appelle mode d’une série statistique à caractère discret la valeur du caractère statistique qui correspond au plus grand

effectif.

On appelle classe modale d’une série statistique à caractère continu la classe qui correspond au plus grand effectif. Le mode est le centre de la classe

modale.

Effectif : L’effectif d’une classe est le nombre d’éléments de la classe, on le note ni.

L’effectif total (noté N) est la somme des effectifs de chaque classe.

Le polygone des effectifs cumulés croissants est la ligne polygonale joignant les points ayant:

- pour abscisse : la borne supérieur de la classe.

- pour ordonnées : l’effectif cumulé croisant de la classe.

Fréquence : La fréquence de la nième classe est : f

= n

/N (elle peut être exprimée en %).

La médiane est la valeur du caractère qui partage l’effectif total en deux parties de même effectifs.

Dans le cas d’un caractère continu la médiane peut être recherchée par lecture sur le polygone des effectifs cumulés. C’est l’abscisse du point ayant pour ordonnée N/2.

d’une série statistique est la différence entre la plus grande et la plus petite valeur du caractère.

Moyenne : On appelle moyenne d’une série statistique et on note le nombre :

Quartile : Les trois quartiles sont les trois valeurs du caractère qui partagent la population totale en quatre parties d’effectifs égaux.

Le premier quartile Q1 correspond à 25 % de l’effectif total.

Le deuxième quartile Q2 correspond à la médiane (50 % de l’effectif total).

Le troisième quartile Q3 correspond à 75 % de l’effectif total.

Décile : chaque décile partage en dix parties égales l’effectif

Variance : La variance V est la moyenne des carrés des écarts à la moyenne

Avec N : effectif total xi : Centre de la classe i ni : Effectif de la classe i

X bar= m : Moyenne de la série

Écart-type : L’écart-type σ (lire : sigma) est la racine carrée de la

variance : σ =

Distribution normale : De nombreuses séries statistiques dont l’ effectif est important ont une population distribuée suivant une loi dite normale avec une courbe des effectifs appelée courbe de Gauss.

Dans une loi normale, valeur moyenne, valeur médiane, valeur modale, sont égales.

Pour une série statistique « normalement » distribuée, il y a environ :

- 68 % de la population dans l’intervalle [ m -σ ; m +σ]

- 95 % de la population dans l’intervalle [ m - 2σ ; m + 2σ]

- 99% de la population dans l’intervalle [ m - 3σ ; m + 3σ]

Exercice 1 : Le tableau ci-dessous est extrait d’une liste de

dossiers. Associer à chacune des colonnes (1 ; 2 ; 3 ; 4 ; 5 ; 6 et 7) le type de variable qui lui correspond.

A : Variable quantitative continue B : Variable quantitative discrète C : Variable qualitative ordinale D : Variable qualitative nominale

E : Variable qualitative dichotomique

Exercice 2 : Associer à chaque type suivant le type de variable qui lui correspond :

1. Poids ;

2. Indice poids/Taille ;

3. Catégorie socioprofessionnelle (CSP) ; 4. Groupe sanguin ;

Histogramme ^: On l’utilise pour les séries à caractère continu, lorsque les valeurs de la variable sont réparties en classes. Les aires des différents rectangles sont proportionnelles aux effectifs (aux fréquences) correspondantes.

Mo = 64 + 38/( 8+7) = 65,6*