• Aucun résultat trouvé

D´epartement Biosciences V´eg´etales Module : Statistique 1

N/A
N/A
Protected

Academic year: 2022

Partager "D´epartement Biosciences V´eg´etales Module : Statistique 1"

Copied!
135
0
0

Texte intégral

(1)

Module : Statistique 1

J. Gergaud

19 septembre 2006

(2)

Table des mati` eres

1 Introduction 1

1 Image de la statistique . . . 1

2 Exemples de probl`emes . . . 1

2.1 Cas `a une seule variable . . . 1

2.2 Cas `a deux variables . . . 1

2.3 Cas d’un nombre fini de variables . . . 1

3 Sch´ema g´en´eral . . . 2

4 Enseignement des math´ematiques en tronc commun . . . 2

5 Modules Statistique 1 et 2, premi`ere ann´ee . . . 2

5.1 Objectifs . . . 2

5.2 Statistique 1 : Outils et concepts . . . 3

6 Difficult´e de cet enseignement . . . 3

6.1 Petite approche historique . . . 3

6.2 Mon sentiment sur cet enseignement . . . 3

7 Contrˆole de connaissance . . . 4

2 Statistique descriptive 5 1 Introduction . . . 5

2 Types de donn´ees trait´ees . . . 5

2.1 Notion de caract`ere . . . 5

2.2 Types de caract`eres qualitatifs . . . 5

2.3 Types de variables statistiques . . . 5

3 Statistique descriptive `a une dimension . . . 6

3.1 Introduction . . . 6

3.2 Les distributions de fr´equences . . . 6

3.3 R´eduction des donn´ees . . . 10

3.4 Exemples . . . 15

4 Statistique descriptive `a 2 dimensions . . . 16

4.1 Introduction . . . 16

4.2 Les distributions en fr´equences . . . 17

4.3 Repr´esentations graphiques . . . 19

4.4 R´eduction des donn´ees . . . 20

4.5 Droite de r´egression . . . 21

5 Compl´ements . . . 26

5.1 Changement de variables . . . 26

5.2 Cas `a plus d’une variable explicative . . . 27

6 Exercices . . . 29

6.1 Exercices avec solutions . . . 29

6.2 Exercices avec indications . . . 32

6.3 Exercices sans indications . . . 33

3 Probabilit´es 35 1 Introduction . . . 35

2 D´efinition des probabilit´es . . . 36

2.1 Exemples . . . 36

2.2 D´efinitions . . . 37

2.3 Repr´esentation graphique . . . 37

3 Probabilit´es conditionnelles et ind´ependance . . . 39 i

(3)

3.1 Probabilit´es conditionnelles . . . 39

3.2 Ind´ependance d’´ev´enements . . . 39

4 Variables al´eatoires . . . 40

4.1 Introduction . . . 40

4.2 D´efinition . . . 41

4.3 Fonction de r´epartition . . . 43

4.4 Fonction d’une variable al´eatoire r´eelle continue . . . 46

4.5 Variables al´eatoires vectorielles . . . 47

4.6 Variables al´eatoires ind´ependantes . . . 49

5 Esp´erance math´ematique . . . 50

5.1 D´efinitions . . . 50

5.2 Esp´erance d’une somme de variables al´eatoires . . . 51

5.3 Variance–Covariance . . . 51

6 Th´eor`emes limites . . . 54

6.1 Introduction . . . 54

6.2 Lois des grands nombres . . . 54

4 Th´eorie de l’´echantillonnage 59 1 Mod´elisation des variables . . . 59

1.1 Introduction . . . 59

1.2 Variable al´eatoire . . . 59

2 Introduction `a la th´eorie de l’´echantillonnage . . . 62

2.1 Mod´elisation des donn´ees . . . 62

2.2 Exemple de l’urne . . . 62

2.3 Exemple du r´ef´erendum . . . 65

3 Echantillonnage . . . 67´

3.1 Echantillon . . . 67´

3.2 Sch´ema g´en´eral . . . 68

4 Distribution d’´echantillonnage de certaines statistiques . . . 68

4.1 Distribution d´echantillonnage de la moyenne . . . 68

4.2 Distribution d’´echantillonnage de la variance . . . 70

4.3 Distribution d’´echantillonnage de T . . . 72

4.4 Distribution d’´echantillonnage du rapport de variance . . . 72

4.5 Distribution d’´echantillonnage d’une fr´equence . . . 72

5 Principales lois de probabilit´e . . . 73

6 Exercices . . . 78

6.1 Exercices avec corrig´es . . . 78

6.2 Exercices avec indications . . . 83

6.3 Exercices sans indications . . . 84

5 Tests statistiques : principes g´en´eraux 87 1 Introduction . . . 87

2 Exemple . . . 87

2.1 Probl`eme . . . 87

2.2 Cas simplifi´e . . . 88

2.3 Cas g´en´eral . . . 89

3 Principes g´en´eraux . . . 91

3.1 Logique g´en´erale d’un test statistique . . . 91

3.2 D´efinitions . . . 93

4 Test bilat´eral . . . 94

4.1 Puissance d’un test bilat´eral . . . 94

4.2 Puissance et param`etresα, σ2 etn . . . 95

4.3 Tests multiples . . . 97

5 Conclusion . . . 97

5.1 Pr´esentation et conclusion d’un test . . . 97

5.2 Risque de troisi`eme esp`ece . . . 97

6 Exercices . . . 99

6.1 Exercices avec corrig´es . . . 99

6.2 Exercices avec indications . . . 103

6.3 Exercices sans indications . . . 104

(4)

6 Estimation 109

1 Introduction . . . 109

1.1 Exemples . . . 109

1.2 Position du probl`eme . . . 110

2 Principes g´en´eraux . . . 110

2.1 Formalisme math´ematique, d´efinitions . . . 110

2.2 Propri´et´es des estimateurs . . . 112

3 Estimations des principaux param`etres . . . 115

3.1 Estimation d’une variance . . . 115

3.2 Estimation d’une moyenne . . . 116

3.3 Estimation d’une proportion . . . 119

4 Compl´ements . . . 120

4.1 Lien entre intervalle de confiance et test . . . 120

4.2 Illustration . . . 120

4.3 Estimation robuste . . . 121

4.4 Repr´esentation graphique . . . 121

5 Exercices . . . 122

5.1 Exercices avec corrig´es . . . 122

5.2 Exercices avec indications . . . 126

5.3 Exercices sans indications . . . 128

(5)

Chapitre 1

Introduction

1 Image de la statistique

– Il existe 3 formes de mensonges : les simples mensonges, les affreux mensonges et les statistiques.

– Le lit est plus dangereux que l’automobile car il est prouv´e statistiquement que l’on meurt plus dans un lit que dans une voiture.

– Le statisticien est un homme qui pr´etend qu’avoir la tˆete dans une fournaise et les pieds dans la glace permet de b´en´eficier d’une temp´erature moyenne agr´eable.

2 Exemples de probl` emes

2.1 Cas ` a une seule variable

Exemple 2.1.1. On d´esire estimer le nombre d’animaux d’une esp`ece donn´ee dans une r´egion donn´ee.

Outil statistique : l’estimation

Exemple 2.1.2. On d´esire estimer le taux de germination d’une vari´et´e donn´ee.

Outil statistique : l’estimation

Exemple 2.1.3. On d´esire savoir laquelle de deux vari´et´es (ou plus) a le plus fort rendement.

Outils statistiques : le test de Student, l’analyse de la variance.

2.2 Cas ` a deux variables

Exemple 2.2.1. Quelle est la relation entre le rendement et la pluviom´etrie `a une p´eriode donn´ee ? Exemple 2.2.2. Y-a-til une liaison entre le rendement et la teneur du grain en prot´eines

La r´eponse `a ces questions repose sur l’´etude de mod`eles math´ematiques de nature al´eatoire : – la r´egression lin´eaire simple

– la r´egression non lin´eaire – la corr´elation

2.3 Cas d’un nombre fini de variables

Exemple 2.3.1. Quelle est la relation entre le rendement d’une vari´et´e donn´ee et un ensemble de variables m´et´eorologiques.

Outil statistique : la r´egression lin´eaire multiple

Exemple 2.3.2. Quelles sont les relations existant entrep caract`eres morphologiques, physiologiques et agrono- miques d’une plante donn´ee : hauteur totale, dimension foliaire, ramification, ... ? On s’int´eresse alors `a la structure de l’ensemble des individus et/ou de l’ensemble des caract`eres.

Outil statistique : l’Analyse factorielle en Composantes Principales (ACP) et l’Analyse Factorielle des Corres- pondances (AFC)

1

(6)

Exemple 2.3.3. En taxinomie biologique et en ´ecologie on est souvent amen´e `a des probl`emes de classifications.

Outil statistique : l’Analyse Factorielle Discriminante (AFD), m´ethodes de classification

3 Sch´ ema g´ en´ eral

Les statistiques La statistique

La statistique descriptive La statistique math´ematique

9 ?

La statistique descriptive

` a 1, 2, 3 dimensions

=

Analyse des donn´ees Z

Z Z

Z Z

Z

~

Inf´erence statistique

=

Th´eorie des tests Z

Z Z

Z Z

Z

~

4 Enseignement des math´ ematiques en tronc commun

– Modules Statistique 1 et 2 1`ere ann´ee – Module Alg`ebre Lin´eaire 1`ere ann´ee – Module Optimisation 1`ere ann´ee – Module Plans d’exp´erience 2`eme ann´ee – Module Analyse Multivariable 2`eme ann´ee

5 Modules Statistique 1 et 2, premi` ere ann´ ee

5.1 Objectifs

Objectifs finaux

– Savoir sur un cas concret simple et pour une question donn´ee simple choisir la m´ethode statistique adapt´ee et savoir appliquer cette m´ethode

– Connaˆıtre les limites de chaque m´ethode et interpr´eter correctement les r´esultats – Prendre conscience de l’importance d’une bonne collecte des donn´ees

Sous objectifs

– Savoir ce qu’est un ”bon” estimateur – Savoir ce qu’est un intervalle de confiance – Savoir ce qu’est un test statistique

– Hypoth`ese nulle et alternative

– Risque de premi`ere esp`ece, notion de puissance – Connaˆıtre la r´egression lin´eaire simple.

(7)

5.2 Statistique 1 : Outils et concepts

Cours

– Statistique descriptive `a 1 et 2 dimensions

– Th´eorie de l’´echantillonnage ; lois du χ2, de Student et de Fisher – Th´eorie des tests

– Estimation TD

TD1 : Statistique descriptive. D´ecrire les donn´ees par des graphiques et/ou quelques quantit´es num´eriques TD2 : Probabilit´es, th´eorie de l’estimation

TD3 : Th´eorie des tests statistiques TD4 : Tests statistiques et estimation TD5 : Estimation

6 Difficult´ e de cet enseignement

6.1 Petite approche historique

– En 2238 avant J.C. l’empereur chinois Yao organisa un recensement des productions agricoles – Sans le recensement d’H´erode J´esus Christ ne serait pas n´e dans une ´etable

– Rˆole pr´ecurseur des marchands de la R´epublique de Venise rassemblant au XIIIe et XIVesi`ecles des donn´ees sur le commerce ext´erieur.

– Premiers concepts au XVIIesi`ecle

– En Prusse : ´Ecole descriptive allemande qui cr´ea le mot statistique1 (Statistik)

– En Angleterre : ´Ecole des arithm´eticiens politiques qui s’est attach´ee `a l’aspect math´ematique des assurances – En France : L’´etat, avec Colbert et Vauban ex´ecute de nombreux inventaires et recensements

– Au XVIIIe et XIXe si`ecle on assiste surtout au d´eveloppement de bureaux de statistiques – D´eveloppement des probabilit´es

– Pierre Simon de FERMAT (1601-1665) – Blaise PASCAL (1623-1662)

– Jacques BERNOULLI (1654-1705) – Abraham de MOIVRE (1667-1754) – Thomas BAYES (1702-1761)

– Pierre Simon de LAPLACE (1749-1827) – Simeon Denis POISSON (1781-1840) – Karl Friedrich GAUSS (1777-1855) – Ir´en´ee Jules BIENAYME (1796-1878) – Pafnuti Livovic TCHEBYCHEV (1821-1894)

– Adolphe QUETELET (1796-1874) : Lien entre les probabilit´es et les statistiques – Francis GALTON (1822-1911) : Droite de r´egression

– Karl PEARSON (1857-1936) : Khi-2, corr´elation, tables statistiques – William Sealy GOSSET (1876-1937) : Pseudonyme de STUDENT

– Ronald Aylmer FISHER (1890-1962) : Analyse de la variance, maximum de vraisemblance – Jerzy NEYMAN (1894-1981) : Th´eorie des tests, intervalle de confiance

– Egon PEARSON (1895-1980) : Th´eorie des tests – ...

6.2 Mon sentiment sur cet enseignement

– Difficult´e li´ee `a l’assimilation de concepts et `a la formalisation math´ematique.

– Gros probl`eme de terminologie et de notations

– Lorsque l’on fait des statistiques on est toujours avec du concret et de l’abstrait. On travaille avec des donn´ees et on utilise de la th´eorie.

– Un bon statisticien doit : – ˆEtre rigoureux

1Ce mot vient du substantif latinstatusqui signifie ´etat

(8)

– Savoir utiliser le formalisme math´ematique – ˆEtre pragmatique et plein de bon sens

– La formation en France est encore tr`es d´eterministe (Descarte, Laplace,...) – On aimerait avoir une r´eponse par oui ou non ! ! !

– La d´emarche statistique ne s’acquiert pas en 40 heures ! ! ! – C’est difficile mais passionnant.

7 Contrˆ ole de connaissance

– Examen ´ecrit de 2 heures avec une page A4 recto-verso, calculatrice et tables statistiques ; – Notations de TD ;

(9)

Chapitre 2

Statistique descriptive

1 Introduction

2 Types de donn´ ees trait´ ees

2.1 Notion de caract` ere

D´efinition 2.1.1 (Caract`ere). On appelle caract`ere tout crit`ere sur lequel repose une ´etude statistique.

Exemple 2.1.2. La taille d’un individu, le poids d’un objet, la concentration d’une substance.

D´efinition 2.1.3 (Caract`ere quantitatif, variable statistique). On appelle caract`ere quantitatif ou variable statis- tique tout caract`ere directement repr´esentable par des nombres.

Exemple 2.1.4. La taille, l’ˆage d’un individu, le nombre de particules.

D´efinition 2.1.5 (Caract`ere qualitatif). On appelle caract`ere qualitatif tout caract`ere non quantitatif Exemple 2.1.6. La couleur des yeux, pile ou face.

Remarque 2.1.7. On pourrait tr`es bien coder pile ou face par 0 et 1, mais nous aurions tout de mˆeme un caract`ere qualitatif d’o`u le mot directement dans la d´efinition. On peut aussi dire qu’une variable statistique est un caract`ere mesurable. Les op´erations comme l’addition ont donc un sens sur un caract`ere quantitatif, ce qui n’est pas le cas sur un caract`ere qualitatif.

2.2 Types de caract` eres qualitatifs

On range les caract`eres qualitatifs en plusieurs cat´egories :

– Les caract`eres qualitatifs ordonn´es (i.e. que l’on peut les classer) comme le niveau d’un ´el`eve (bon, moyen, mauvais).

– Les caract`eres qualitatifs non ordonn´es comme la couleur des yeux.

– Les caract`eres dichotomiques (i.e. qui ne peuvent prendre que deux valeurs diff´erentes) comme le sexe, pile ou face.

2.3 Types de variables statistiques

D´efinition 2.3.1(Variable discr`ete). On appelle variable discr`ete toute variable qui ne peut prendre qu’un nombre fini ou d´enombrable de valeurs.

Exemple 2.3.2. – Nombre de points sur la face sup´erieur d’un d´e.

– Nombre de lanc´es d’une pi`ece de monnaie avant d’obtenir face.

D´efinition 2.3.3 (Variable continue). On appelle variable continue toute variable pouvant prendre un nombre infini non d´enombrable de valeurs.

Exemple 2.3.4. – Poids d’un individu.

– Taille d’un individu.

– Concentration d’une substance.

5

(10)

3 Statistique descriptive ` a une dimension

3.1 Introduction

Nous allons nous int´eresser dans cette section au cas d’un seul caract`ere quantitatif. Nous avons donc au d´epart une suite dennombres :y1, y2, . . . , yn. Nous pouvons bien ´evidemment avoir dans cette suite plusieurs fois la mˆeme valeur.

D´efinition 3.1.1 (S´erie statistique). On appelle s´erie statistique la suite y1, y2, . . . , yn. Exemple 3.1.2. Notes sur 10 de 10 ´el`eves `a un devoir de fran¸cais.

10; 05; 01; 09; 02; 05; 01; 09; 09; 01

3.2 Les distributions de fr´ equences

Lorsque la s´erie est trop grande mais que les valeurs prises par la variable ne sont pas trop nombreuses nous pouvons condenser les r´esultats sous la forme d’une distribution de fr´equences. Notonsxi les diff´erentes valeurs du caract`ere ´etudi´e obtenuesi= 1, . . . , p.

D´efinition 3.2.1 (Fr´equence absolue ou fr´equence). On appelle fr´equence absolue le nombre d’occurrences d’une mˆeme valeur observ´eexi, c’est-`a-dire le nombre de fois o`u la valeurxi est observ´ee. On notenicette fr´equence li´ee

`

a la valeurxi.

Remarque 3.2.2. On a toujours n=Pp i=1ni

Notation 3.2.3. On note aussin.=n

Le point signifie que l’on a fait une sommation sur l’indicei.

D´efinition 3.2.4 (Fr´equence relative). On appelle fr´equence relative associ´ee `a xi la quantit´e : fi= ni

n Remarque 3.2.5. On a toujours :

p

X

i=1

fi=

p

X

i=1

ni

n = 1 n

p

X

i=1

ni= 1

D´efinition 3.2.6 (Fr´equences cumul´ees absolues). Les fr´equences cumul´ees absolues sont donn´ees par : N0 = 0

N1 = n1

... Nk =

k

X

i=1

ni si k∈ {1, . . . , p}

...

Nk = n si k > p

D´efinition 3.2.7 (Fr´equences cumul´ees relatives). Les fr´equences cumul´ees relatives sont donn´ees par : F0 = 0

F1 = f1 ... Fk =

k

X

i=1

fi si k∈ {1, . . . , p}

...

Fk = 1 si k > p

(11)

Exemple 3.2.8. Nous donnons dans le tableau ci-dessous les valeurs des diff´erentes fr´equences d´efinies pr´ec´edemment pour l’exemple (3.1.2).

Notes Fr´equences Fr´equences Fr´equences cumul´ees Fr´equences cumul´ees

absolues relatives absolues relatives

0 0 0 0 0

1 3 0,3 3 0,3

2 1 0,1 4 0,4

3 0 0 4 0,4

4 0 0 4 0,4

5 2 0,2 6 0,6

6 0 0 6 0,6

7 0 0 6 0,6

8 0 0 6 0,6

9 3 0,3 9 0,9

10 1 0,1 10 1

Nous avons ´etudi´e le cas o`u la variable ne pouvait prendre que peu de valeurs diff´erentes. Il se pose donc la question de savoir ce que l’on fait lorsque l’on a des valeurs observ´ees distinctes en grand nombre (ce qui est le cas en particulier lorsque l’on ´etudie des variables continues). Dans ce cas nous condensons les donn´ees en groupant les observations en classes. Le nombre de classes est en g´en´eral compris entre 10 et 20 et l’intervalle de classe est constant (mais ceci n’est pas obligatoire). Une classe est d´efinie par ses limites. La limite sup´erieure d’une classe

´

etant la limite inf´erieure de la classe suivante. Quant `a la valeur de la classe, on choisit souvent le milieu de la classe. Une fois que les classes ont ´et´e d´efinies nous pouvons comme pr´ec´edemment calculer les fr´equences absolues, relatives, cumul´ees absolues et cumul´ees relatives.

Exemple 3.2.9. Distribution de fr´equence des ´etendues des exploitations agricoles belges (ces donn´ee proviennent de l’ouvrage de Dagn´elie “Th´eorie et m´ethodes statistiques” volume 1).

Etendues des Valeurs des Fr´equences Fr´equences Fr´equences cumul´ees exploitations classes absolues relatives relatives

de 1 `a 3ha 2ha 58122 0,2925 0,2925

de 3 `a 5ha 4ha 38221 0,1924 0,4849

de 5 `a 10ha 7,5ha 52684 0,2651 0,75

de 10 `a 20ha 15ha 35188 0,1771 0,9271

de 20 `a 30ha 25ha 8344 0,0420 0,9691

de 30 `a 50ha 40ha 3965 0,0199 0,9890

de 50 `a 100ha 75ha 1873 0,0094 0,9984

plus de 100ha ? 309 0,0016 1,000

Remarque 3.2.10. Dans l’exemple ci-dessus la derni`ere classe n’a pas de limite sup´erieure. On dit que la classe est ouverte.

Nous avons jusqu’`a pr´esent travaill´e directement avec des nombres, mais un tableau de chiffres (mˆeme en quantit´e restreinte) n’est jamais tr`es lisible aussi nous allons maintenant ´etudier les repr´esentations graphiques des fr´equences. Dans tous les cas nous aurons ici en abscisse les valeurs des variables et en ordonn´ees les fr´equences.

Consid´erons tout d’abord le cas des fr´equences non cumul´ees. Deux cas se pr´esentent suivant que les donn´ees sont group´ees (i.e. mises en classes) ou non. Lorsque celles-ci sont non group´ees, nous utiliserons des diagrammes en bˆatons : Pour chaque valeur dexi, nous tra¸cons un segment de droite de longueur ´egale `a la fr´equence (absolue ou relative suivant les cas) associ´ee `a xi.

Exemple 3.2.11. Reprenons les donn´ees de l’exemple (3.1.2), la figure (2.1) est le diagramme en bˆatons relatif aux fr´equences relatives.

Lorsque les donn´ees sont group´ees, nous repr´esentons ces fr´equences par des rectangles contigus dont les inter- valles de classes sont les bases et les hauteurs des quantit´es telles que l’aire de chaque rectangle soit proportionnelle

`

a la fr´equence de la classe correspondante.

Remarque 3.2.12. Si les classes sont ´equidistantes nous pouvons alors prendre comme hauteur les fr´equences.

Exemple 3.2.13. Repr´esentons les fr´equences relatives des ´etendues des exploitations agricoles belges (exemple (3.2.9))

(12)

0 2 4 6 8 10 0

0.05 0.1 0.15 0.2 0.25 0.3 0.35

Notes

Fréquences relatives

Fig.2.1 – Diagramme en bˆatons

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

← Aire=0.01771×10=0.1771

Surfaces en ha

Fig.2.2 – Histogramme

D´efinition 3.2.14 (Histogramme). On appelle histogramme un diagramme du type pr´ec´edent.

Remarque 3.2.15. (i) Lorsque nous ´etudions une variable continue nous avons dans la pratique un grand nombre de mesures, certaines ´etant tr`es proches les unes des autres, d’autres ´etant plus ´eloign´ees. Si nous repr´esentions ces donn´ees sous la forme d’un diagramme en bˆatons nous aurions un graphique du type suivant :

0 1 2 3 4 5 6 7 8

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

Valeurs de la variable

Fréquences absolues

Fig.2.3 – ”Densit´e”

La densit´e d’une zone indiquerait alors que beaucoup de donn´ees seraient dans cette zone. Mais un tel gra- phique n’est pas tr`es lisible et une id´ee est donc de repr´esenter cette densit´e en ordonn´ees. Celle-ci est obtenue en divisant le nombre de mesures obtenues dans une classe (i.e. la fr´equence absolue) par la longueur d’in- tervalle de classe. C’est bien ceci que nous repr´esentons dans un histogramme.

(ii) Les fr´equences relatives sont en fait dans la pratique des estimations de probabilit´es. On verra que dans le cas continu la probabilit´e qu’une variable al´eatoire X appartienne `a un intervalle]xi, xi+1[ est donn´ee par l’aire A d´elimit´ee par cet intervalle et la fonction de densit´e :

(13)

−1 0 1 2 3 4 5 0

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

xi x

i+1

← A

x

f(x)

Fig.2.4 – Fonction de densit´e

L’histogramme des fr´equences relatives n’est alors qu’une approximation empirique de cette fonction de densit´e (si le facteur de proportionnalit´e est 1).

(iii) Si l’on veut mettre sur un mˆeme graphique une loi th´eorique de distribution de probabilit´es, il faut imp´erativement travailler avec les fr´equences relatives, et un facteur de proportionnalit´e de 1 pour l’histogramme.

Remarque 3.2.16. Attention, dans un logiciel comme Excel , le terme histogramme n’a pas le sens ci-dessus.

Remarque 3.2.17. La d´etermination du nombre de classes d’un histogramme ainsi que de leurs amplitudes est difficile. De plus, repr´esenter une distribution d’une variable continue par une fonction en escalier n’est pas tr`es logique. La th´eorie de l’estimation de densit´e permet de r´esoudre ces difficult´es. Nous allons ici donner quelques

´

el´ements de la m´ethode du noyau.

Consid´erons tout d’abord le cas d’histogrammes `a classes d’´egales amplitudesh. Dans l’histogramme on estime la densit´e en x par nhni si x appartient `a la classe i. La densit´e est donc constante sur chaque classe. On peut am´eliorer ceci en utilisant la m´ethode de la ”fenˆetre mobile”. On suppose ici que la s´erie statistique esty1, . . . , yn. On construit autour dexune classe de longueurh:Ix= [x−h/2;x+h/2[et on compte le nombre d’observations nx qui appartiennent `a cette classe. On estime alors la densit´e en x par nnhx. On peut ainsi construire point par point cette fonction de densit´e estim´eefˆ(x). On peut en fait ´ecrire cette derni`ere de la fa¸con suivante :

fˆ(x) = 1 nh

n

X

i=1

K

x−yi

h

o`uK est la fonction indicatrice de l’intervalle[−1/2; 1/2[, c’est-`a-dire la fonction deR dans{0,1} d´efinie par : K(u) = 0 si u6∈[−1/2; 1/2[

K(u) = 1 si u∈[−1/2; 1/2[

Par suite

K

x−yi

h

= 1⇐⇒yi∈Ix

Cette m´ethode donne encore des r´esultats trop peu r´egulier. Pour obtenir une fonction suffisamment ”lisse”, il faut prendre des fonction noyau K plus r´eguli`ere. En pratique on prend souvent un noyau gaussien :

K(u) = 1

√2πe−u2/2 ou parabolique :

K(u) = 3 4√ 5

1−u2

5

pour |u|<5

L’exemple (3.2.18) donne une comparaison entre l’histogramme et l’estimation de densit´e.

Exemple 3.2.18. 1Le tableau (2.1) donne les hauteurs de 50 pi`eces usin´ees. On a sur la figure (2.5) l’histogramme de ces donn´ees pour un intervalle de classe de 0.03 et l’estimation de densit´e par la m´ethode du noyau avec le noyau de Lejeune :

K(u) =105

64(1−u2)2(1−3u2) pour |u| ≤1

avec une constante h ´egale `a 30% de l’´etendue de l’´echantillon. L’estimation de densit´e montre clairement une distribution bimodale que nous ne voyons pas avec l’histogramme.

1exemple provenant du livre de G. Saporta page 121

(14)

21.86 21.90 21.98 21.84 21.89 21.96 21.88 21.92 21.98 21.90 21.91 21.95 21.92 21.91 21.97 21.87 21.92 21.94 21.90 21.91 22.01 21.87 21.93 21.96 21.90 21.96 21.95 21.93 21.91 21.95 21.92 21.97 21.97 21.90 21.97 21.96 21.91 21.97 21.95 21.89 21.97 21.94 21.91 21.98 21.97 21.87 21.95 21.95 21.89 21.89

Tab.2.1 – hauteurs de 50 pi`eces usin´ees

21.8 21.85 21.9 21.95 22 22.05 22.1 22.15

−2 0 2 4 6 8 10 12

Fig.2.5 – Histogramme et densit´e estim´ee

Il nous reste maintenant `a ´etudier le cas des fr´equences cumul´ees. Celles-ci sont repr´esent´es par des polygˆones de fr´equences cumul´es, mais nous avons encore ici une distinction suivant que les donn´ees soient group´ees ou non.

Lorsque les donn´ees sont non group´ees nous obtenons un polygˆone en escalier : la valeur de la fonction en un pointxest le nombre d’observations (absolues ou relatives) qui sont inf´erieures ou ´egales `ax.

Exemple 3.2.19. Reprenons encore l’exemple (3.1.2)

Quant aux donn´ees group´ees, on joint par une ligne bris´ee les points obtenus en portant, pour les limites de classes sup´erieures des ordonn´ees ´egales aux fr´equences cumul´ees.

Exemple 3.2.20. Fr´equences cumul´ees relatives des ´etendues des exploitations agricoles belges (exemple (3.2.9)).

Remarque 3.2.21. Les polygˆones de fr´equences relatives sont une repr´esentation empirique des fonctions de r´epartitions comme les histogrammes sont une repr´esentation empirique des fonctions de densit´e.

3.3 R´ eduction des donn´ ees

Le but est ici de caract´eriser les donn´ees `a l’aide de quelques param`etres. Il y a deux grands types de param`etres : les param`etres de position ou de tendance centrale que nous ´etudierons en premier et les param`etres de dispersion que nous verrons ensuite.

Nous donnerons pour chaque param`etre que nous d´efinirons la valeur num´erique correspondant `a l’exemple suivant :

(15)

0 2 4 6 8 10 12 0

0.2 0.4 0.6 0.8 1 1.2

Notes

Fréquences cumulées relatives

Fig.2.6 – Fr´equences cumul´ees relatives : donn´ees (3.1.2)

0 20 40 60 80 100 120

0 0.2 0.4 0.6 0.8 1 1.2

Surfaces en ha

Fréquences cumulées relatives

Fig.2.7 – Fr´equences cumul´ees relatives : donn´ees (3.2.9)

Exemple 3.3.1. Nous consid´erons 11 mesures faites de la hauteur du maˆıtre-brin d’une c´er´eale donn´ee (en cm).

Nous avons obtenu la s´erie statistique suivante (mise en ordre croissant) : 59; 62; 63; 63; 64; 66; 66; 67; 69; 70; 70.

Les param`etres de position que nous allons ´etudier maintenant permettent de caract´eriser l’ordre de grandeur des observations. Le param`etre le plus utilis´e dans la pratique est la moyenne arithm´etique ou moyenne.

D´efinition 3.3.2 (Moyenne arithm´etique). On appelle moyenne arithm´etique ou moyenne la quantit´e donn´ee par :

– Si les observations sont donn´ees par une s´erie statistique

¯ x= 1

n

n

X

i=1

xi

– Si les observations sont donn´ees par leurs fr´equences absolues

¯ x= 1

n

p

X

i=1

nixi

Exemple 3.3.3. Pour les donn´ees de l’exemple (3.3.1), nous avons :

¯

x= 65,3636cm

Remarque 3.3.4. Lorsque les donn´ees sont group´eesxi est la valeur de la classei.

D´efinition 3.3.5 (M´ediane). La m´ediane est la valeur de part et d’autre de laquelle se trouve un nombre ´egal d’observations.

Remarque 3.3.6. (i) Pour les s´eries statistiques monotones (c’est-`a-dire croissante ou d´ecroissante) :

– si le nombre d’observations est pair la m´ediane est toute quantit´e comprise entrexn/2etxn/2+1(en g´en´eral on prendxe= 1/2(xn/2+xn/2+1))

(16)

– si le nombre d’observations est impair la m´ediane estxe=xn/2+1.

(ii) Pour les donn´ees group´ees la classe m´ediane est celle qui contient la m´ediane. En admettant que les obser- vations appartenant `a cette classe sont r´eparties uniform´ement, la m´ediane aura pour expression :

xe=x0i+ ∆xi

1/2−Fi

ni

o`u

i est l’indice de la classe m´ediane.

x0i est la limite inf´erieure de cette classe.

∆xi est l’intervalle de la classe i.

Fi est la fr´equence cumul´ee relative de la classei.

Exemple 3.3.7. Pour les donn´ees de l’exemple (3.3.1), nous avons :

xe= 66

D´efinition 3.3.8(Quartiles). On d´efinit de fa¸con similaire les quartiles i.e les 3 quantit´es qui s´eparent les donn´ees en 4 groupes contenant le mˆeme nombre de donn´ees. On noteraQ1, Q2 etQ3 les trois quartiles.

Exemple 3.3.9. Consid´erons les 24 donn´ees suivantes :

8 13 27 32 25 16 32 27 8 28 79 25 35 25 38 29 80 50 38 30 20 20 49 9 Ces donn´ees mises en ordre croissant sont :

8 8 9 13 16 20 20 25 25 25 27 27 28 29 30 32 32 35 38 38 49 50 79 80 Les quartiles sont alors :Q1= 20,Q2=xe= 27,5 etQ3= 36,5.

Remarque 3.3.10. Le deuxi`eme quartile est ´egale `a la m´ediane.

D´efinition 3.3.11 (Mode). On appelle mode d’une distribution non group´ee toute valeur rendant maximale la fr´equence. On appelle classe modale d’une distribution group´ee toute classe rendant maximale le rapport :

Fr´equence Intervalle de classe

Exemple 3.3.12. Pour les donn´ees de l’exemple (3.3.1), il y a 3 modes : 63,66,70.

Remarque 3.3.13. (i) Le mode est une valeur qui rend maximum la repr´esentation graphique des fr´equences non cumul´ees.

(ii) Dans le cas d’une distribution th´eorique d’une variable al´eatoire continue le mode est toute valeur qui maximise la fonction de densit´e. C’est la valeur “la plus probable”.

Les param`etres de position sont tr`es insuffisants pour caract´eriser des donn´ees ; aussi nous avons besoin de savoir si les observations sont concentr´ees ou non autour d’un param`etre de position. C’est ce crit`ere que l’on qualifie `a l’aide des param`etres de dispersion. Le param`etre le plus connu et le plus utilis´e est la variance d’un ´echantillon.

D´efinition 3.3.14 (Variance d’un ´echantillon). On appelle variance de l’´echantillon la quantit´e : – Si les donn´ees sont sous la forme d’une s´erie statistique

s2= 1 n

n

X

i=1

(xi−x)¯ 2

– Si les donn´ees sont sous la forme d’une distribution de fr´equences absolues s2= 1

n

p

X

i=1

ni(xi−x)¯ 2

Remarque 3.3.15. (i) On note souvent SCE = Pn

i=1(xi−x)¯ 2. SCE est la Somme des Carr´es des ´Ecarts, sous entendu `a la moyenne.

(17)

0 10 20 30 0

0.02 0.04 0.06 0.08 0.1

densité mode moyenne médiane

−1 0 1 2 3 4 5

0 0.1 0.2 0.3 0.4

densité mode moyenne médiane

0 5 10 15

0 0.1 0.2 0.3 0.4

densité mode moyenne médiane

0 5 10 15

0 0.05 0.1 0.15 0.2

densité mode moyenne médiane

Fig.2.8 – Diff´erences entre le mode, la moyenne et la m´ediane (ii) On peut aussi ´ecrire :

SCE=

n

X

i=1

(x2i −2xix¯+ ¯x2) (2.1)

=

n

X

i=1

x2i −2¯x

n

X

i=1

xi+

n

X

i=1

¯

x2 (2.2)

=

n

X

i=1

x2i −2n¯x2+n¯x2 (2.3)

=

n

X

i=1

x2i −n¯x2 (2.4)

Lorsque l’on effectue les calculs `a la main, c’est la formule (2.4) que l’on utilise.

Exemple 3.3.16. Pour les donn´ees de l’exemple (3.3.1), nous avons : s2= 11,3223cm2 Remarque 3.3.17. On d´emontre que l’on a toujours :

n

X

i=1

(xi−a)2>

n

X

i=1

(xi−x)¯ 2=ns2 si a6= ¯x D´efinition 3.3.18 ( ´Ecart type2). L’´ecart type est la racine carr´e de la variance.

Exemple 3.3.19. Pour les donn´ees de l’exemple (3.3.1), nous avons : s=√

s2= 3,3649cm

Remarque 3.3.20. L’´ecart type a la mˆeme dimension que les donn´ees (ce qui n’est pas le cas de la variance).

D´efinition 3.3.21(Cœfficient de variation). On appelle cœfficient de variation l’indice de dispersion relatif exprim´e en pourcentage :

cv= s

¯ x×100 On suppose bien ´evidemment que ¯xest diff´erent de 0.

2standard deviation en anglais

(18)

Exemple 3.3.22. Pour les donn´ees de l’exemple (3.3.1), nous avons : cv= 5,148%

D´efinition 3.3.23 (Amplitude). On appelle amplitude l’´ecart entre les valeurs extrˆemes des donn´ees Exemple 3.3.24. Pour les donn´ees de l’exemple (3.3.1), nous avons :

w= 11

D´efinition 3.3.25( ´Ecart interquartile). On appelle ´ecart interquartile la diff´erence entre le troisi`eme et le premier quartile :Q3−Q1

Exemple 3.3.26. Pour les donn´ees de l’exemple (3.3.9), nous avons : Q3−Q1= 16,5

D´efinition 3.3.27(boˆıte `a moustaches3).Le diagramme en boˆıte `a moustaches oubox-plotrepr´esente sch´ematiquement les principales caract´eristiques d’une variable num´erique en utilisant les quartiles. On repr´esente la partie centrale de la distribution par une boˆıte de largeur quelconque et de longueur l’intervalle interquartile. On trace `a l’int´erieur la position de la m´ediane et on compl`ete la boˆıte par des ”moustaches“ de valeurs :

– Pour la ”moustache sup´erieure“ : la plus grande valeur inf´erieure `a Q3+ 1,5(Q3−Q1).

– Pour la ”moustache inf´erieure“ : la plus petite valeur sup´erieure `aQ1−1,5(Q3−Q1).

Les valeurs ext´erieures repr´esent´ees par des * sont celles qui sortent des ” moustaches“.

Exemple 3.3.28. Reprenons l’exemple (3.3.9). Nous avons Q1 = 20, ex= 27,5 Q3 = 36,5 et Q3−Q1 = 16,5.

Par suite :

– la plus grande des donn´ees inf´erieure `aQ3+ 1,5(Q3−Q1)est 50 ; – la plus petite des donn´ees sup´erieure `aQ1−1,5(Q3−Q1) est 8.

D’o`u le sch´ema suivant :

10 20 30 40 50 60 70 80

1

Values

Column Number

Fig.2.9 – Boˆıte `a moustaches

D´efinition 3.3.29(Moment d’ordrek par rapport `a un pointc). On appelle moment d’ordrekpar rapport `a un pointcla quantit´e :

– Si les donn´ees sont sous la forme d’une s´erie statistique 1 n

n

X

i=1

(xi−c)k – Si les donn´ees sont sous la forme d’une distribution de fr´equences

1 n

p

X

i=1

ni(xi−c)k

Notation 3.3.30. (i) Lorsquec= 0le moment d’ordrek s’appelle moment par rapport `a l’origine et on le note ak.

3boxplot en anglais

(19)

(ii) Lorsquec= ¯xle moment d’ordre k s’appelle moment centr´e et on le notemk. Remarque 3.3.31. a1= ¯x,m1= 0 etm2=s2.

Remarque 3.3.32. (i) Les moments centr´es d’ordrekpairs sont des param`etres de dispersion.

(ii) Les moments centr´es d’ordrek impairs sont des indices de dissym´etrie ou d’obliquit´e : Ils sont nuls pour les distributions sym´etriques et diff´erentes de 0 pour les distributions dissym´etriques.

D´efinition 3.3.33 (Cœfficients de Pearson). Les cœfficients de Pearson sont : (i) Le degr´e de sym´etrie donn´e par

b1= m23 m32 = m23

s6 (ii) Le degr´e d’aplatissement4 donn´e par :

b2= m4

m22 = m4

s4 Exemple 3.3.34. Pour les donn´ees de l’exemple (3.3.1), nous avons :

b1= 0,0298 b2= 2,12 D´efinition 3.3.35 (Cœfficient de Fisher). Les cœfficients de Fisher sont :

(i) Le degr´e de sym´etrie5donn´e par :

g1= m3

m3/22

=m3

s3 =p b1

(ii) Le degr´e d’aplatissement donn´e par :

g2= m4

m22 −3 = m4

s4 −3 =b2−3 Exemple 3.3.36. Pour les donn´ees de l’exemple (3.3.1), nous avons :

g1= 0,1726 g2=−0,88

Remarque 3.3.37. Pour la loi normale r´eduite (cf. chapitre sur les probabilit´es) on a : g1= 0 etg2= 0.

Les figures (2.10,2.11) donnent des exemples de distributions th´eoriques avec diff´erentes valeurs des cœfficients de sym´etrie et d’aplatissement.

0 1 2 3 4 5 6

0 0.1 0.2 0.3 0.4

0.5 β1=0

β1=1.75 β1=1.5

Fig.2.10 – Diff´erentes fonctions de densit´e pour diff´erentes valeur du cœfficient de sym´etrie

3.4 Exemples

Exemple 3.4.1. Les donn´ees de la table (2.2) sont des longueurs de la rectrice centrale de la g´elinotte hupp´ee mˆale, juv´enile. La figure (2.12) donne les diff´erentes repr´esentations graphiques de ces donn´ees.

Exemple 3.4.2. Les figures (2.13) et (2.14) donnent pour les mˆemes donn´ees respectivement les histogrammes et les boˆıtes `a moustaches pour les longueurs d’ailes de m´esanges noires selon leur ˆages et leurs sexes.

4kurtosis en anglais, attention le terme kurtosis est parfois aussi utilis´e pour d´esigner le cœfficientg2 de Fisher ci-apr`es

5skewness en anglais

(20)

−3 −2 −1 0 1 2 3 0

0.1 0.2 0.3 0.4

γ2=0 γ2=2 γ2=−1.2

Fig.2.11 – Diff´erentes fonctions de densit´e pour diff´erentes valeur du cœfficient d’applatissement 153 165 160 150 159 151 163

160 158 149 154 153 163 140 158 150 158 155 163 159 157 162 160 152 164 158 153 162 166 162 165 157 174 158 171 162 155 156 159 162 152 158 164 164 162 158 156 171 164 158

Tab.2.2 – Longueurs de la rectrice centrale de la g´elinotte hupp´ee mˆale, juv´enile

140 150 160 170 180

0 0.5 1 1.5 2

longueur

140 150 160 170

1

longueur

150 160 170

0 0.02 0.04 0.06 0.08

longueur

Fig.2.12 – Donn´ees, boˆıte `a moustaches et histogramme

58 59 60 61 62 63 64 65 66 67 68 0

0.1 0.2 0.3 0.4 0.5 0.6

longueur d’ailes en mm Mâles adultes

58 59 60 61 62 63 64 65 66 67 68 0

0.1 0.2 0.3 0.4 0.5 0.6

longueur d’ailes en mm Mâles immatures

58 59 60 61 62 63 64 65 66 67 68 0

0.1 0.2 0.3 0.4 0.5 0.6

longueur d’ailes en mm Femelles adultes

58 59 60 61 62 63 64 65 66 67 68 0

0.1 0.2 0.3 0.4 0.5 0.6

longueur d’ailes en mm Femelles immatures

Fig.2.13 – Distributions des longueurs d’ailes de m´esanges noires selon leur ˆage et sexe

4 Statistique descriptive ` a 2 dimensions

4.1 Introduction

De mˆeme qu’en dimension 1 nous d´esirons repr´esenter les donn´ees sous la forme de tableaux ou de graphiques ou de r´eduire les donn´ees `a quelques param`etres. La grande diff´erence avec la section pr´ec´edente est que nous

(21)

1 2 3 4 58

59 60 61 62 63 64 65 66 67 68

Longueur d’ailes en mm

Mâles adultes Mâles immatures Femelles adultes Femelles immatures

Fig.2.14 – Distributions des longueurs d’ailes de m´esanges noires selon leur ˆage et sexe pouvons essayer de mettre en ´evidence les relations qui peuvent exister entre deux caract`eres.

Comme en dimension 1 nous nous int´eressons `a des variables quantitatives et nous aurons comme donn´ees initiales une suite double :

x1, x2, . . . , xn

y1, y2, . . . , yn

La valeur du caract`ere 1 pour l’individui estxi La valeur du caract`ere 2 pour l’individuiestyi

D´efinition 4.1.1 (S´erie statistique double). On appelle s´erie statistique double la suite den couples de valeurs (xi, yi).

Exemple 4.1.2. Poids des feuilles et poids des racines (en grammes) de 1000 individus de Cichorium intybus (cet exemple provient de l’ouvrage de Dagn´elie).

feuilles : 71 76 106 108 109 111 111 112 . . . 662 673 679 741 racines : 56 51 40 174 62 59 84 94 . . . 174 290 290 230

4.2 Les distributions en fr´ equences

Comme dans le cas monodimensionnel lorsque le nombre de donn´ees est trop important nous condensons des donn´ees en une distribution de fr´equences. Pour cela nous construisons un tableau `a double entr´ee ; le nombre d’individusnij ayant les occurrences xi et yj des caract`eresxet y se trouve `a l’intersection de la ligne iet de la colonnej. Dans ce paragraphe les indicesietj qualifient les occurrences des caract`eres pour des variables discr`etes et les classes pour des variables continues et non pas des individus : xi 6=xi0 si i 6=i0 et yj 6= yj0 si j 6= j0. Le tableau que l’on construit a donc la structure suivante :

x:y y1 y2 . . . yj . . . yq T otaux x1 n11 n12 . . . n1j . . . n1q n1.

... ... ... ... ... ... xi ni1 ni2 . . . nij . . . niq ni.

... ... ... ... ... ... xp np1 np2 . . . npj . . . npq np.

T otaux n.1 n.2 . . . n.j . . . n.q n..

D´efinition 4.2.1 (Fr´equence marginale). On appelle fr´equence marginale les quantit´es d´efinies par : ni. =

q

X

j=1

nij

n.j =

p

X

i=1

nij

Notation 4.2.2. Nous rappelons que le point en indice signifie que l’on a somm´e sur cet indice. Avec cette notation, nous avons donc aussi :

n..=

p

X

i=1 q

X

j=1

nij=

p

X

i=1

ni.=

q

X

j=1

n.j

(22)

Remarque 4.2.3. (i) Nous avons pris ici le cas des fr´equences absolues mais nous pouvons bien ´evidemment construire des tableaux de fr´equences relatives :

n,ij =nij

n

(ii) Nous ne construisons pas en g´en´eral de tableau de fr´equences cumul´ees.

(iii) Nous pouvons bien entendu ´etudier s´epar´ement les caract`eres x et y et notamment faire deux statistiques descriptives `a une dimension. Cela revient alors `a travailler avec les fr´equences marginales.

D´efinition 4.2.4(Fr´equence conditionnelle relative). On appelle fr´equence conditionnelle relative pour quex=xi

(respectivementy=yj ) sachant quey=yj (respectivementx=xi) la quantit´e : fi/j= nij

n.j

(respectivement

fj/i=nij

ni.

)

D´efinition 4.2.5 (Profils lignes, profils colonnes). On appelle profils lignes (respectivement profils colonnes) le tableau des fr´equences conditionnelles relatives fj/i(respectivement fi/j).

Remarque 4.2.6. (i) Le tableau de fr´equence relative est une repr´esentation empirique de la fonction de proba- bilit´e d’un couple de variables al´eatoires et les fr´equences conditionnelles relatives repr´esentent des probabilit´es conditionnelles.

(ii) le tableau des profils lignes est une repr´esentation empirique les lois de distributions conditionnelles.

(iii) Si la tableau de contingence comporte en fait en ligne diff´erentes populations et en colonne les diff´erentes modalit´es d’un caract`ere qualitatif (c’est-`a-dire les valeurs d’une variable al´eatoire discr`ete), alors les profils lignes sont les lois de probabilit´es sur les diff´erentes populations du caract`ere ´etudi´e.

Exemple 4.2.7. Avec les donn´ees de l’exemple (4.1.2) nous obtenons :

Feuilles :Racines 40 `a 80 `a 120 `a 160 `a 200 `a 240 `a 280 `a 320 `a Totaux

79 119 159 199 239 279 319 259

0 `a 79 2 2

80 `a 159 49 46 5 2 102

160 `a 239 86 137 46 11 280

240 `a 319 27 153 89 25 7 301

320 `a 399 5 45 91 40 6 187

400 `a 479 10 33 21 16 1 1 82

480 `a 559 1 4 11 10 3 29

560 `a 639 2 1 2 4 1 10

640 `a 719 1 3 2 6

720 `a 799 1 1

Totaux 169 392 270 112 42 11 3 1 1000

Exemple 4.2.8. La table (4.2.8) donne l’´evolution de l’ˆage de la population agricole familiale dans un canton du Loiret. La table (2.4) donne quant-`a elle les profils lignes.

Ann´ee : ˆAge <`a 25 ans 25 `a 34 ans 35 `a 44 ans 45 `a 54 ans 55 `a 64 ans >`a 65 ans Total

1970 88 24 27 61 20 25 245

1979 63 17 20 39 27 25 191

1988 41 15 18 22 31 17 144

Total 192 56 65 122 78 67 580

Tab.2.3 – Tableau de contingence, exploitations agricoles dans le Loiret

(23)

Ann´ee : ˆAge <`a 25 ans 25 `a 34 ans 35 `a 44 ans 45 `a 54 ans 55 `a 64 ans >`a 65 ans

1970 0.3592 0.0980 0.1102 0.2490 0.0816 0.1020

1979 0.3298 0.0890 0.1047 0.2042 0.1414 0.1309

1988 0.2847 0.1042 0.1250 0.1528 0.2153 0.1181

Tab.2.4 – Tableau des profils lignes

−3 −2 −1 0 1 2 3 4 5 6 7

−6

−4

−2 0 2 4 6 8 10 12

x

y

Fig.2.15 – Nuage de points

4.3 Repr´ esentations graphiques

Les s´eries statistiques doubles peuvent ˆetre repr´esent´ees par un nuage de points (2.15).

Quant aux distributions de fr´equences elles se repr´esentent dans un espace `a trois dimensions par un diagramme en bˆatons si les variables sont discr`etes et par un st´er´eogramme si la variable est continue. Un st´er´eogramme est un diagramme compos´e de parall´el´epip`edes rectangles de bases les rectangles correspondant aux cellules du tableau statistique et de hauteur les fr´equences divis´ees par la surface de la base (ceci toujours pour avoir une estimation de la densit´e de probabilit´e).

Exemple 4.3.1. Avec les donn´ees de l’exemple (4.1.2) on obtient la figure (2.16)

40 120

200 280

360 440

520 600

680 760 0

50 100 150 200

Racine Feuilles

Fréquences absolues

Fig.2.16 – St´er´eogramme

Exemple 4.3.2. Reprenons l’exemple (4.2.8) de l’´evolution de l’ˆage de la population agricole familiale dans un canton du Loiret. On peut repr´esenter les profils lignes (2.17). ceci nous permet de visualiser les diff´erences de r´epartition des ˆages en fonction des ann´ee. Ici, nous avons l’ensemble des populations ´etudi´ees, les profils lignes sont donc exactement les lois de probabilit´es sur ces 3 populations. Dans le cas o`u nous n’aurions , pour chaque population que des ´echantillons, il faudrait effectuer un test statistique (test duχ2ici) pour savoir s’il y a r´eellement une diff´erence dans les lois de distributions. Ceci est hors de notre programme.

(24)

0 1 2 3 4 5 6 7 0

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

0.45 Profils lignes

Fig.2.17 – Profils lignes

4.4 R´ eduction des donn´ ees

Nous avons ici deux types de param`etres, tout d’abord les param`etres li´es `a une seule variable qui caract´erisent les fr´equences marginales et conditionnelles. Nous avons dans ce cas les param`etres habituels de la statistique descriptive `a une dimension qui sont principalement les moyennes marginales ¯x et ¯y et les variances marginales s2x ets2y, ainsi que les moyennes conditionnelles ¯xj et ¯yi et les variances conditionnelless2x/j et s2i/y. Ensuite nous avons les param`etres permettant de d´ecrire des relations existant entre les deux s´eries d’observations. Ce sont ces param`etres que nous allons ´etudier maintenant.

D´efinition 4.4.1 (Covariance d’un ´echantillon). On appelle covariance d’un ´echantillon la quantit´e : – Si les donn´ees sont sous la forme d’une s´erie statistique double

cov(x, y) = 1 n

n

X

i=1

(xi−x)(y¯ i−y)¯ – Si les donn´ees sont sous la forme d’une distribution en fr´equence

cov(x, y) = 1 n

p

X

i=1 q

X

j=1

nij(xi−x)(y¯ j−y)¯ Remarque 4.4.2.

On note souvent SP E = Pn

i=1(xi−x)(y¯ i−y).¯ SP E est la Somme des Produits des ´Ecarts, sous entendu aux moyennes.

On peut aussi ´ecrire :

SP E=

n

X

i=1

(xiyi−xiy¯−yix¯+ ¯x¯y) (2.5)

=

n

X

i=1

xiyi−y¯

n

X

i=1

xi−x¯

n

X

i=1

yi+

n

X

i=1

¯

x¯y (2.6)

=

n

X

i=1

xiyi−2n¯x¯y+n¯x¯y (2.7)

=

n

X

i=1

xiyi−n¯x¯y (2.8)

Lorsque l’on effectue les calculs `a la main, c’est la formule (2.8) que l’on utilise.

Exemple 4.4.3. On consid`ere la s´erie statistique double suivante :

x 165,5 164,0 156,0 174,0 169,0 157,5 159,0 152,0 155,0 159,0 y 177,0 172,0 163,0 183,5 171,5 165,0 160,5 154,5 163,0 162,0

x(respectivement y) repr´esente la taille (respectivement l’envergure) de 10 adolescents n´es en 1947 (mensura- tions relev´ees en 1962). On a alors :

cov(x, y) = 49,68

(25)

Remarque 4.4.4. (i) La covariance peut-ˆetre positive ou n´egative. Une covariance positive (respectivement n´egative) indique une relation entre les donn´ees croissantes (respectivement d´ecroissantes), i.e. que les valeurs

´

elev´ees d’une s´erie correspondent, dans l’ensemble, `a des valeurs ´elev´ees (respectivement faibles) de l’autre.

(ii) L’existence de termes positifs et n´egatifs dans le calcul de la covariance justifie pour celle-ci l’absence de correction analogue aux corrections de Sheppard.

Th´eor`eme 4.4.5. On a toujours la relation suivante :

|cov(x, y)| ≤sxsy

L’´egalit´e n’a lieu que si les points(xi, yi)sont align´es.

D´emonstration

D´eveloppons l’expression positive suivante : 1

n

n

X

i=1

(λ(xi−x)¯ −(yi−y))¯ 22s2x−2λcov(x, y) +s2y≥0

On sait qu’une condition n´ecessaire et suffisante pour qu’un trinˆome soit toujours de mˆeme signe est que son discriminant ∆ soit n´egatif ou nul. Par suite nous avons :

∆ = 4cov2(x, y)−4s2xs2y ≤ 0

⇐⇒cov2(x, y) ≤ s2xs2y

⇐⇒ |cov(x, y)| ≤ sxsy

De plus nous avons l’´egalit´e|cov(x, y)|=sxsy si et seulement si ∆ = 0 et donc s’il existeλ1=cov(x, y)/s2xtel que

n

X

i=1

1(xi−x)¯ −(yi−y))¯ 2= 0 ⇐⇒ λ1(xi−x) =¯ yi−y¯∀i

⇐⇒ Les points (xi, yi)i=1,...,n sont align´es 2

4.5 Droite de r´ egression

Introduction

Exemple 4.5.1. 6 On d´esire savoir comment le taux de cholest´erol s´erique d´epend de l’ˆage chez l’homme. Pour cela on a pris 5 ´echantillons d’hommes adultes d’ˆages bien d´etermin´es 25, 35, 45, 55 et 65 ans. On a obtenu les donn´ees suivantes :

Agesˆ 25 25 25 25 25 25 25 35 35 35

Taux 1.8 2.3 2 2.4 2 2.5 2.6 2.6 2.9 2.3

Agesˆ 35 35 35 35 45 45 45 45 45 45

Taux 2.4 2.1 2.5 2.7 2.7 3 3.1 2.3 2.5 3

Agesˆ 45 45 55 55 55 55 55 65 65 65

Taux 3.3 2.7 3.1 2.9 3.4 2.4 3.4 3.7 2.8 3.3 Agesˆ 65 65 65

Taux 3.5 3.3 2.6

La figure 2.18 donne la repr´esentation graphique de ces donn´ees.

Que peut-on conclure de ces donn´ees ?

En pratique nous sommes souvent amen´es `a rechercher une relation entre deux variablesxety. Pour cela, dans un premier temps, nous collectons des donn´ees (x1, y1),(x2, y2), . . . ,(xn, yn). Ensuite nous repr´esentons graphique- ment ces donn´ees. Nous pouvons par exemple avoir les cas suivants :

6Exemple provenant de l’ouvrage de Gr´emy et Salmon, ”Bases statistiques”, page 122.

(26)

20 25 30 35 40 45 50 55 60 65 70 1

1.5 2 2.5 3 3.5 4

Ages

Taux

Fig.2.18 – Taux de cholest´erol en fonction de l’ˆage

0 2 4 6

0 2 4 6 8 10 12

x

y

Cas (a)

0 2 4 6

0 1 2 3 4 5 6 7 8 9 10

x

y

Cas (b)

0 2 4 6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

x

y

Cas (c)

Fig.2.19 – Diff´erentes formes de graphes Suivant les cas de la figure 2.19, nous pouvons penser aux mod`eles : Cas (a) y(x) =β01x;

Cas (b) y(x) =β01x+β2x2; Cas (c) pas de mod`ele.

L’objet de la r´egression lin´eaire simple est l’´etude du cas (a). L’un des buts de la r´egression lin´eaire simple est de pr´edire la ”meilleure” valeur dey connaissant x(si le mod`ele lin´eaire est bien ´evidemment correct). L’objectif de cette section est uniquement descriptif, aussi nous n’allons ´etudier que l’estimation ponctuelle des param`etres.

Estimation des param`etres

Une droite sera d’autant plus proche des points Mi(xi, yi) que les ´ecarts entre ces points et la droite seront faibles. L’un des crit`eres les plus utilis´es est le crit`ere des moindres carr´es qui est la somme des carr´es des ´ecarts ri=yi−yˆi (cf figure (2.20)).

Ici, les points (xi, yi)i=1,...,n sont connus, la question est de trouver les valeurs des param`etres β0 et β1 qui rendent la valeur du crit`ere la plus faible possible. Nous sommes ainsi ramen´e au probl`eme d’optimisation suivant :

(P)

M in f(β) =12Pn

i=1ri2=12Pn

i=1(yi−β0−β1xi)2 β ∈R2

En effet, plusf(β) sera proche de 0, plus les carr´es des r´esidus, donc les r´esidus ri seront ”proches” de 0.

(27)

0 2 4 6 8 10 0

5 10 15 20 25

← r1

← r2 ← r3

← r4 ← r5

← r6

← r7 ← r8 ← r9

← r10

x

y

Fig.2.20 – Moindres carr´es.

Th´eor`eme 4.5.2. La solution du probl`eme(P)est :

βˆ0= ¯y−βˆ1x¯ (2.9)

βˆ1= Pn

i=1(yi−y)(x¯ i−x)¯ Pn

i=1(xi−x)¯ 2 = SP E SCEx

(2.10) D´emonstration

On d´emontre qu’une condition n´ecessaire et suffisante de solution du probl`eme d’optimisation est f0(β) = (0,0).

D’o`u le syst`eme lin´eaire suivant :









01

n

X

i=1

xi =

n

X

i=1

yi

β0 n

X

i=1

xi1 n

X

i=1

x2i =

n

X

i=1

xiyi

(2.11)

¯

y=β01x¯ nβ0x¯+β1

n

P

i=1

x2i =

n

P

i=1

xiyi

¯

y=β01x¯ n(¯y−β1x)¯¯ x+β1

n

P

i=1

x2i =

n

P

i=1

xiyi

¯

y=β01x¯ β1(

n

P

i=1

x2i −n¯x2) =

n

P

i=1

xiyi−n¯x¯y

¯

y=β01x¯ β1= SP E

SCEx

2

Remarque 4.5.3. On a suppos´e dans le calcul que SCEx6= 0, c’est-`a-dire que tous lesxi ne sont pas identiques.

Nous noterons dans la suite ˆβ0 et ˆβ1 ces solutions.

Exemple 4.5.4. Reprenons l’exemple (4.5.1). Lorsque l’on effectue les calculs `a la main il est utile de calculer le tableau pr´eliminaire 2.6.

Les estimations ponctuelles sont alors

βˆ1 =

4103.5−1445×90.1 33 69625−14452

33

= 158.2

6351.5 = 0.025 βˆ0 = 2.73−0.025×43.79 = 1.64

Références

Documents relatifs

Le graphe du pr´ esent probl` eme a la propri´ et´ e remarquable d’ˆ etre autodual : partant du graphe dont les sommets sont les 12 ˆılots et les 2 rives, reli´ es par

Elle n’est donc pas génératrice.. La famille de fonctions (f, g) est

Ainsi après un régime de rotation stationnaire, si le cylindre extérieur est arrêté subitement, le temps d’amortissement du cylindre intérieur est plus court avec l’air

Nous nous int´ eressons dans ce chapitre aux fonctions de R n dans R m et plus particuli` erement aux notions de limites, continuit´ es et de d´ eriv´ ees, notions qui nous

Soient A et B deux ´ ev´ enements disjoints, ` a quelle condition sont-ils ind´ ependants?. Exercice 2 On a r´ epertori´ e dans une usine le nombre d’accidents mineurs subis par

On consid` ere le lancer d’un d´ e truqu´ e pour lequel le un le quatre et le cinq sortent deux fois plus souvent que le deux et le trois et trois fois moins souvent que le six..

Calcul de la probabilit´e d’obtenir un num´ero pair sachant que l’on n’a pas obtenu un six dans le cas du d´e truqu´e.. Propri´ et´

Si un événement a k chances sur n de se réaliser, alors la probabilité qu’il se réalise est n k.. Une urne contient 16 boules dont 7 sont blanches et 9