• Aucun résultat trouvé

Chapitre 1 : Statistiques en Scilab

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre 1 : Statistiques en Scilab"

Copied!
16
0
0

Texte intégral

(1)

Statistiques en Scilab

Table des matières

1 Vocabulaire des statistiques 2

2 Statistique descriptive univariée 2

2.1 Modalités . . . 2

2.2 Dénombrement . . . 3

2.2.1 Effectifs . . . 3

2.2.2 Fréquences . . . 4

2.3 Classes . . . 6

2.4 Paramètres . . . 7

2.4.1 Mode . . . 7

2.4.2 Moyenne . . . 7

2.4.3 Médiane . . . 8

2.4.4 Quartile, décile . . . 9

2.4.5 Etendue . . . 9

2.4.6 Variance . . . 10

2.4.7 Ecart type . . . 11

3 Statistique descriptive bivariée 11 3.1 Définition . . . 11

3.2 Covariance et corrélation . . . 12

3.3 Ajustement linéaire . . . 13

3.3.1 Définition . . . 13

3.3.2 Problème des moindres carrés . . . 13

1

(2)

1 Vocabulaire des statistiques

Définition 1.1 : Population, individu, effectif

L’ensemble des éléments Ω = {ω1, ω2, . . . , ωN} dont on étudie les données s’appelle population, ses éléments sont appelés individus. Le cardinalN de Ω est l’effectif de la population.

Définition 1.2 : Echantillon

Un échantillon est la portion de population servant à l’étude.

Exemple 1. Une étude sur la population française en âge de travailler peut s’effectuer sur un échantillon de 100 000 français (exemple : enquête emploi INSEE).

Définition 1.3 : Variable

Une variable (ou caractère) est une applicationX définie sur Ω.

• SiX est à valeurs réelles,X est une variable quantitative.

• SinonX est une variable qualitative.

Exemple 2. On a :

La taille des habitants d’un pays donné ou les notes obtenues à une épreuve de concours par des candidats sont des variables quantitatives.

La couleur des yeux des habitants d’un pays donné est une variable qualitative.

2 Statistique descriptive univariée

2.1 Modalités

Définition 2.1 : Modalités

Les valeurs prises par une variableX s’appellent les modalités deX.

Définition 2.2 : Série statistique

La liste des valeurs prises (des modalités) par X est une série statistique : [x1, x2, . . . , xN] avec xi=X(ωi).

Remarque 2.3 : Série ordonnée

Une série ordonnée est une série statistique telle que

[x1, x2, . . . , xN] avec x1x2 ≤ · · · ≤xN.

(3)

Remarque 2.4 : Série dépouillée

Si certaines valeurs d’une série ordonnée sont égales, on peut grouper les valeurs égales, notons-les y1, . . . , yp avec pN, en indiquant le nombre ni de fois où la valeur yi apparait. On parle alors de série dépouillée.

Exemple 3. Une série statistique "brute"

modalités xi 7 2 8 5 2 5 10 5 5 7 4 7 2 8 7 La même série ordonnée

modalités xi 2 2 2 4 5 5 5 5 7 7 7 7 8 8 10 La même série dépouillée

modalités yi 2 4 5 7 8 10 effectifs ni 3 1 4 4 2 1 2.2 Dénombrement

2.2.1 Effectifs

Définition 2.5 : Effectif

L’effectif de la modalitéxi est le nombreni d’individus de cette modalité.

Calculer l’effectif d’une modalité : la fonction tabul Méthode 2.6 : Comment calculer l’effectif d’une modalité ?

On utilise la fonctiontabul(x)qui ordonne la sériexdans l’ordre décroissant et donne l’effectif de chaque modalité de la série.

Exemple 4. En reprenant le même exemple : --> x=[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7];

--> m=tabul(x) m =

10. 1.

8. 2.

7. 4.

5. 4.

4. 1.

2. 3.

--> bar(m(:,1),m(:,2)) // on trace le diagramme en bâtons correspondant à la série dépouillée.

3

(4)

m(:,1)(la première colonne du vecteur m) donne les abscisses, ce sont les valeurs des modalités.

m(:,2)(la deuxième colonne du vecteur m) donne les ordonnées, ce sont les effectifs.

Remarque 2.7 : Classer dans l’ordre croissant

Par défaut le classement se fait dans l’ordre décroissant. On écrittabul(x,’i’)pour classer la série dans l’ordre croissant (’i’comme increasing).

--> m=tabul(x,’i’) m =

2. 3.

4. 1.

5. 4.

7. 4.

8. 2.

10. 1.

Définition 2.8 : Effectif cumulé

L’effectif cumulé d’une modalité est la somme des effectifs des modalités qui lui sont inférieures ou égales.

2.2.2 Fréquences

Définition 2.9 : Fréquence La fréquence dexi est le réel

fi= ni N SiX prendp valeurs distinctes, alors

p

X

i=1

fi = 1.

(5)

Définition 2.10 : Fréquence cumulée

La fréquence cumulée d’une modalité est la somme des fréquences des modalités qui lui sont inférieures ou égales. Pour une série ordonnée, on peut écrire

pi =X

j≤i

fj.

Remarque 2.11 : Important : lien avec les probabilités

Les notions suivantes se correspondent en probabilités et en statistiques : X variable aléatoire X variable statistique

probabilité P(X =xi) fréquence fi fonction de répartition FX fréquence cumulée pi

Méthode 2.12 : Comment calculer l’effectif cumulé ou la fréquence cumulée ? On utilise la fonction sumetcumsum.

Exemple 5. On reprend la série précédente.

--> x=[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7];

--> m=tabul(x,’i’) // on utilise la fonction tabul pour ordonner la série m =

2. 3.

4. 1.

5. 4.

7. 4.

8. 2.

10. 1.

--> effc=cumsum(m(:,2)) // on effectue la somme cumulée de la 2e colonne de m pour obtenir l’effectif cumulé

effc = 3.

4.

8.

12.

14.

15.

--> frec=effc/sum(m(:,2)) // on divise l’effectif cumulée par l’effectif de la population totale frec =

0.2

0.2666667 0.5333333 0.8

0.9333333 1.

Remarque 2.13 : Rappel !

m(:,2)renvoie la deuxième colonne dem.

m(:,1)renvoie la première colonne dem.

m(1,:)renvoie la première ligne dem.

m(5,:)renvoie la cinquième ligne de m.

5

(6)

Remarque 2.13 :Rappel !

m(:,2)renvoie la deuxième colonne dem.

m(:,1)renvoie la première colonne dem.

m(1,:)renvoie la première ligne dem.

m(5,:)renvoie la cinquième ligne de m.

2.3 Classes

Définition 2.14 : Classes

Lorsque le nombre de valeurs prises par X est trop grand, on regroupe les modalités par intervalles, appelés classes de la série. On dit alors que la série est groupée par classes.

Remarque 2.15

Scilabpermet de choisir les extrémités de chaque classe, ainsi que le nombre de classes. Par exemple, en prenantc1, c2, . . . , cq, cq+1, on considèreq classes

[c1, c2],]c2, c3], . . .]cq, cq+1]

La première est un intervalle fermé, les autres sont des intervalles ouverts à gauche et fermés à droite.

Définition 2.16 : Amplitude d’une classe

Le réel ci+1ci est l’amplitude de la classe ]ci, ci+1].

Exemple 6. On reprend l’exemple précédent. On groupe cette série statistique par classes.

classes [2,4] ]4,6] ]6,8] ]8,10]

effectifs 4 4 6 1

Grouper une série brute : la fonction dsearch

Méthode 2.17 : Comment grouper par classes une série brute ?

On utilise les fonctions linspace et dsearch pour grouper par classes une série brute. La fonction linspacepermet de déterminer l’amplitude commune de chaque classe etdsearch renvoie le nombre de modalités présentes dans chacune de ces classes.

Exemple 7. Reprenons le même exemple.

--> x=[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7];

--> c=linspace(2,10,5) // on découpe l’intervalle [2,10] en 4 intervalles c =

2. 4. 6. 8. 10.

--> histplot(c,x) // on trace l’histogramme correspondant.

(7)

--> [ind,occ]=dsearch(x,c) occ =

4. 4. 6. 1.

ind =

3. 1. 3. 2. 1. 2. 4. 2. 2. 3. 1. 3. 1. 3. 3.

occretourne le nombres d’éléments dans chaque classe.

indretourne le numéro de la classe dans laquelle se trouve chaque élément de x. Dans cet exemple, on affecte la valeur 1 aux éléments dans l’intervalle[2,4], la valeur 2 aux éléments dans l’intervalle ]4,6], la valeur3 aux éléments dans l’intervalle]6,8]....

2.4 Paramètres 2.4.1 Mode

Définition 2.18 : Mode

On appelle mode d’une série statistique toute valeur de la variable correspondant au plus grand effectif (il peut donc y en avoir plusieurs).

Exemple 8. Pour la série,

[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7]

5 et 7 sont les modalités aux plus grands effectifs (4 fois chacun). 5 et 7 sont les modes de cette série statistique.

2.4.2 Moyenne

Définition 2.19 : Moyenne

On appelle ¯X la moyenne de la série statistique (xi)1≤i≤N X¯ = 1

N

N

X

i=1

xi.

7

(8)

Remarque 2.20 : Moyenne d’une série dépouillée Si la série est groupée par modalités (yi, ni)1≤i≤p, on a :

X¯ = 1 N

p

X

i=1

niyi.

Méthode 2.21 : Comment calculer la moyenne d’une série statistique ? On utilise la fonction mean.

Exemple 9. La série de notre exemple a pour moyenne : --> x=[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7];

--> m=mean(x) m =

5.6

2.4.3 Médiane

Définition 2.22 : Médiane

On appelle médiane de la série statistique (xi)1≤i≤N la valeur, souvent notéeMe, en laquelle la fréquence cumulée est égale à 1

2.

Remarque 2.23

La médiane partage la série en deux séries d’effectifs égaux.

Méthode 2.24 : Comment calculer la médiane d’une série statistique ? On utilise la fonction median.

Exemple 10. La série de notre exemple a pour médiane : --> x=[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7];

--> M=median(x) M =

5

(9)

2.4.4 Quartile, décile Définition 2.25 : Quartile

Un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l’échantillon de population.

— Le premier quartile, noté q1, est la plus petite valeur telle qu’au moins 25% des termes de la série soient inférieurs ou égaux àq1.

— Le deuxième quartile est la médiane de la série.

— Le troisième quartile, notéq3, est la plus petite valeur telle qu’au moins 75% des termes de la série soient inférieurs ou égaux àq3.

Méthode 2.26 : Comment calculer les quartiles d’une série statistique ?

On peut utiliser la fonctionquart, mais il faut faire attention car celui-ci peut donner un calcul erroné.

Exemple 11. La série de notre exemple a pour quartiles : --> x=[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7];

--> quart(x) ans =

4.25 // Scilab devrait renvoyer 4 mais donne ici un calcul suivant la //définition internationale qui diffère de la définition francaise.

5.

7.

Définition 2.27 : Ecart interquartile

Le nombreq3q1 est appelé écart interquartile (l’idée est de mettre en valeur l’écart entre les 2 quarts de la population correspondant aux valeurs extrêmes de la série).

Exemple 12. Pour notre série, l’écart interquartile est 7-4=3.

Définition 2.28 : Décile

On appellekème décile d’une série statistique, le réel correspondant à 10k% des fréquences cumulées (le 5ème décile est donc la médiane de la série).

Exemple 13. Pour notre série, le neuvième décile est 8.

2.4.5 Etendue

Définition 2.29 : Etendue

On appelle étendue d’une série statistique la différence entre la plus grande modalité et la plus petite modalité.

9

(10)

Méthode 2.30 : Comment calculer l’étendue d’une série statistique ? On utilise les fonctions maxetmin.

Exemple 14. La série de notre exemple a pour étendue : --> x=[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7];

--> max(x)-min(x) ans =

8.

2.4.6 Variance

Définition 2.31 : Variance

On appelleV(X) la variance de la série statistique (xi)1≤i≤N le réel V(X) = 1

N

N

X

i=1

xiX¯2.

Remarque 2.32

Si la série est groupée par modalités (yi, ni)1≤i≤p, on a : V(X) = 1

N

p

X

i=1

ni yiX¯2

Méthode 2.33 : Comment calculer la variance d’une série statistique ? On utilise la fonction variance.

Exemple 15. La série de notre exemple a pour variance : --> x=[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7];

--> V=variance(x) V =

5.8285714

Attention, la variance calculée avec 1 N

N

X

i=1

xiX¯2 donne 5.44. Avec la fonctionvariance, Scilabcalcule 1

N−1

N

X

i=1

xiX¯2 qui est la variance empirique, on verra plus tard que c’est un estimateur sans biais de la variance de la population entière.

(11)

2.4.7 Ecart type

Définition 2.34 : Ecart type

On appelleσX l’écart type d’une série statistique

σX =qV(X).

Méthode 2.35 : Comment calculer l’écart type d’une série statistique ? On utilise la fonction stdev.

Exemple 16. La série de notre exemple a pour écart type : --> x=[7 2 8 5 2 5 10 5 5 7 4 7 2 8 7];

--> ec=stdev(x) ec =

2.4142434

Attention, de même que pour la variance, l’écart type calculée parScilabest la racine carrée devariance(x), ce qui diffère de l’écart type de l’échantillon observé.

3 Statistique descriptive bivariée

3.1 Définition

Définition 3.1 : Série statistique double

Soient un échantillon Ω = {ω1, ω2, . . . , ωn} et deux séries statistiques X = [x1, x2, . . . , xn] et Y = [y1, y2, . . . , yn]. On appelle série statistique double la donnée de la liste

[(x1, y1),(x2, y2), . . . ,(xn, yn)], chaque couple (xi, yi) étant associé à un seul individu ωi de la population.

Remarque 3.2 : Objectif

C’est le recueil simultané des modalités de deux variablesX et Y chez les mêmes sujets. L’intérêt se porte le plus souvent sur la relation entre les deux variables : la recherche de corrélation.

Exemple 17. On mesure le poids X et la taille Y de 10 individus.

modalités xi 60 64 68 70 72 75 78 85 96 98 modalités yi 155 157 164 170 178 180 173 179 180 189

11

(12)

3.2 Covariance et corrélation Définition 3.3 : Covariance empirique

On appelle covariance empirique de la série statistique double (xi, yi)i∈[[1,n]] le réel : Cov(X, Y) = 1

n

n

X

i=1

xiX¯ yiY¯.

Définition 3.4 : Coefficient de corrélation empirique

Le coefficient de corrélation empirique de la série (xi, yi)i∈[[1,n]] est le réel : ρX,Y = Cov(X, Y)

σXσY

.

On a |ρX,Y| ≤1.

Remarque 3.5

Le coefficient de corrélation empirique mesure la dépendance linéaire entre deux variables.

• S’il est proche de 1 ou−1, alorsX etY sont fortement corrélés.

• S’il est proche de 0, alorsX etY sont faiblement corrélés (voire ne le sont pas).

Méthode 3.6 : Comment calculer la covariance empirique et le coefficient de corrélation empirique ? On utilise la fonctioncorr(X,Y,1)pour calculer la covariance empirique deXet Y. Afin de calculer le coefficient de corrélation empirique, il suffit de diviser la covariance empirique deXetYpar l’écart-type deX et celui deY.

Exemple 18. On reprend la série précédente.

modalités xi 60 64 68 70 72 75 78 85 96 98 modalités yi 155 157 164 170 178 180 173 179 180 189 --> x=[60 64 68 70 72 75 78 85 96 98];

--> y=[155 157 164 170 178 180 173 179 180 189];

--> corr(x,y,1) ans =

109.2

--> corr(x,y,1)/stdev(x)/stdev(y) ans =

0.7758334

(13)

3.3 Ajustement linéaire 3.3.1 Définition

Définition 3.7 : Nuage de points

On appelle nuage de points d’une série statistique double, l’ensemble des points Mi de coordonnées (xi, yi).

Définition 3.8 : Point moyen

On appelle point moyen du nuage, le point de coordonnéesX,¯ Y¯.

Méthode 3.9 : Comment tracer un nuage de points ?

On construit les vecteursx et y de même taille, puis on utilise la commande plot2d(x,y,style=Z)où Z est une des valeurs suivantes :

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5

M ♦ ⊕ × + · noir bleu foncé vert bleu clair rouge

Exemple 19. Avec la série des exemples précédents, --> x=[60 64 68 70 72 75 78 85 96 98];

--> y=[155 157 164 170 178 180 173 179 180 189];

--> plot2d(x,y,style=-3)

--> plot2d(mean(x),mean(y),style=-4) // point moyen du nuage

3.3.2 Problème des moindres carrés

Si le nuage de points associé à une série statistique double possède une forme étirée, on peut avoir l’idée de chercher quelle droite approcherait au mieux les points de ce nuage.

Le problème consiste donc à identifier une droite y=ax+b qui ajuste bien le nuage de points. L’erreur que l’on commet en utilisant la droite de régression pour prédireyi à partir de xi est yi−(axi+b).

13

(14)

erreur commise au point (72,178)

Pour déterminer la valeur des coefficients aetb, on utilise le principe des moindres carrés qui consiste à chercher la droite qui minimise la somme des carrés de ces erreurs :

n

X

i=1

(yiaxib)2.

Proposition 3.10 : Droite de régression linéaire L’unique droite rendant minimale

n

X

i=1

(yiaxib)2 est la droite d’équation

y=a x+b avec a= Cov(X, Y)

V(X) et b= ¯YaX.¯

Cette droite est appelée droite de régression linéaire deY enX. On dit queXest la variable explicative et Yla variable expliquée.

Démonstration. Le minimum de la fonction F(a, b) =

n

X

i=1

(yiaxib)2 correspond au point où les dérivées partielles s’annulent.

D’après les formules de Huygens, comme Cov(X, Y) = 1 n

n

X

i=1

xiyiX¯Y¯ etV(X) = 1 n

n

X

i=1

x2iX¯2, alors

∂F

∂a(a, b) = 2

n

X

i=1

xi(yiaxib) = 2

n

X

i=1

xiyi−2a

n

X

i=1

x2i −2b

n

X

i=1

xi

= 2nCov(X, Y) + ¯XY¯aV(X) + ¯X2bX¯

∂F

∂b(a, b) = −2

n

X

i=1

(yiaxib) =−2nY¯ −aX¯ −b

(15)

Ainsi le point (a, b) où F atteint son minimum vérifie le système suivant

0 =Cov(X, Y) + ¯XY¯aV(X) + ¯X2bX,¯ 0 = ¯YaX¯ −b.

0 =Cov(X, Y) + ¯XY¯aV(X) + ¯X2Y¯ −aX¯X,¯ b = ¯YaX.¯

( 0 =Cov(X, Y)−aV(X), b= ¯YaX.¯ ⇔

a = Cov(X, Y) V(X) , b = ¯YaX.¯ Ainsi y= Cov(X, Y)

V(X) x+

Y¯ −Cov(X, Y) V(X)

X¯

= Cov(X, Y) V(X)

xX¯+ ¯Y .

Propriété 3.11 : Point moyen et droite de régression linéaire Les droites de régression linéaire passent par le point moyen.

Proposition 3.12 : Lien avec le coefficient de corrélation empirique

Plus|ρX,Y|est proche de 1, plus les points sont proches de l’alignement et plus les prévisions données par les droites de régression sont pertinentes.|ρX,Y|ne valant 1 que lorsque les points du nuage sont alignés.

Démonstration. En effet, on rappelle queF(a, b) =

n

X

i=1

(yiaxib)2 permet de calculer la distance du nuage de points à la droite de régression pour une droitey =ax+bdonné,

F(a, b) =

n

X

i=1

yi2+ (axi)2+b2−2axiyi−2yib+ 2abxi

On utilise le fait que Cov(X, Y) = 1 n

n

X

i=1

xiyiX¯Y¯ etV(X) = 1 n

n

X

i=1

x2iX¯2.

F(a, b) = nV(Y) + ¯Y2+a∗2(V(X) + ¯X2) +b∗2+ 2n−aCov(X, Y) + ¯XY¯bY¯ +abX¯

= n

V(Y) + ¯Y2+a∗2(V(X) + ¯X2) +Y¯ −aX¯2

+ 2−aCov(X, Y) + ¯XY¯Y¯ −aX¯Y¯ +aY¯ −aX¯X¯carb= ¯YaX¯

= n V(Y) + ¯Y2+a∗2(V(X) + ¯X2) + ¯Y2+a∗2X¯2−2 ¯Y aX¯

− 2aCov(X, Y)−2aX¯Y¯ −2 ¯Y2+ 2aX¯Y¯ + 2aY¯X¯ −2a∗2X¯2

= n a∗2V(X)−2aCov(X, Y) +V(Y)

= n V(Y)−Cov(X, Y)2 V(X)

!

car a = Cov(X, Y) V(X)

= nV(Y)1−ρ2X,Y

Plus|ρX,Y|est proche de 1, plusF(a, b) est petit et donc le nuage de points est proche de la droite de régression.

15

(16)

Remarque 3.13 : Sens de variation suivant le coefficient de corrélation empirique

SiρX,Y >0 (respectivement ρX,Y <0 ), alors les droites sont de pente positive (resp. négative) : XetY varient dans le même sens (resp. en sens opposé).

Méthode 3.14 : Comment tracer la droite de régression linéaire ? On trace une droite à l’aide de la fonction plot2d.

Exemple 20. Avec la série des exemples précédents, --> x=[60 64 68 70 72 75 78 85 96 98];

--> y=[155 157 164 170 178 180 173 179 180 189];

--> plot2d(x,y,style=-3); // on trace le nuage de points

--> plot2d(mean(x),mean(y),style=-4) // point moyen du nuage (pas nécessaire) --> a=corr(x,y,1)/variance(x); b=mean(y)-a*mean(x); // coefficients de la droite --> xx=60:0.01:98; // abscisses de la droite

--> yy=a*xx+b; // ordonnées de la droite

--> plot2d(xx,yy) // on trace la droite de régression linéaire

Références

Documents relatifs

La biblioth` eque municipal s’int´ eresse aux nombres de livres emprunt´ es par ses lecteurs. Elle obtient deux s´ eries statiques, une pour les enfants et une pour

Utiliser le tableau pour déterminer la médiane, les premier et troisième

Utiliser le tableau pour déterminer la médiane, les premier et

Le premier quartile d’une série statistique, noté Q 1 , est la plus petite valeur telle qu’au moins 25 % des données lui soient inférieures ou égales.. Le troisième quartile

• Le premier quartile, noté Q 1 , est la plus petite valeur de la série telle qu’au moins 25% des valeurs lui soient inférieures ou égales.. • Le troisième quartile, noté Q 3

• Le premier quartile, noté Q 1 , est la plus petite valeur de la série telle qu’au moins 25% des valeurs lui soient inférieures ou égales.. • Le troisième quartile, noté Q 3

[r]

Le premier quartile d’une série statistique, noté Q 1 , est la plus petite valeur de la série telle qu’au moins un quart des valeurs soient inférieures ou égales à Q 1. De même,