• Aucun résultat trouvé

Les distributions de fr´ equences

Lorsque la s´erie est trop grande mais que les valeurs prises par la variable ne sont pas trop nombreuses nous pouvons condenser les r´esultats sous la forme d’une distribution de fr´equences. Notonsxi les diff´erentes valeurs du caract`ere ´etudi´e obtenuesi= 1, . . . , p.

D´efinition 3.2.1 (Fr´equence absolue ou fr´equence). On appelle fr´equence absolue le nombre d’occurrences d’une mˆeme valeur observ´eexi, c’est-`a-dire le nombre de fois o`u la valeurxi est observ´ee. On notenicette fr´equence li´ee

`

a la valeurxi.

Remarque 3.2.2. On a toujours n=Pp i=1ni

Notation 3.2.3. On note aussin.=n

Le point signifie que l’on a fait une sommation sur l’indicei.

D´efinition 3.2.4 (Fr´equence relative). On appelle fr´equence relative associ´ee `a xi la quantit´e : fi= ni

n Remarque 3.2.5. On a toujours :

p

X

i=1

fi=

p

X

i=1

ni

n = 1 n

p

X

i=1

ni= 1

D´efinition 3.2.6 (Fr´equences cumul´ees absolues). Les fr´equences cumul´ees absolues sont donn´ees par : N0 = 0

N1 = n1

... Nk =

k

X

i=1

ni si k∈ {1, . . . , p}

...

Nk = n si k > p

D´efinition 3.2.7 (Fr´equences cumul´ees relatives). Les fr´equences cumul´ees relatives sont donn´ees par : F0 = 0

F1 = f1 ... Fk =

k

X

i=1

fi si k∈ {1, . . . , p}

...

Fk = 1 si k > p

Exemple 3.2.8. Nous donnons dans le tableau ci-dessous les valeurs des diff´erentes fr´equences d´efinies pr´ec´edemment pour l’exemple (3.1.2).

Notes Fr´equences Fr´equences Fr´equences cumul´ees Fr´equences cumul´ees

absolues relatives absolues relatives

0 0 0 0 0

1 3 0,3 3 0,3

2 1 0,1 4 0,4

3 0 0 4 0,4

4 0 0 4 0,4

5 2 0,2 6 0,6

6 0 0 6 0,6

7 0 0 6 0,6

8 0 0 6 0,6

9 3 0,3 9 0,9

10 1 0,1 10 1

Nous avons ´etudi´e le cas o`u la variable ne pouvait prendre que peu de valeurs diff´erentes. Il se pose donc la question de savoir ce que l’on fait lorsque l’on a des valeurs observ´ees distinctes en grand nombre (ce qui est le cas en particulier lorsque l’on ´etudie des variables continues). Dans ce cas nous condensons les donn´ees en groupant les observations en classes. Le nombre de classes est en g´en´eral compris entre 10 et 20 et l’intervalle de classe est constant (mais ceci n’est pas obligatoire). Une classe est d´efinie par ses limites. La limite sup´erieure d’une classe

´

etant la limite inf´erieure de la classe suivante. Quant `a la valeur de la classe, on choisit souvent le milieu de la classe. Une fois que les classes ont ´et´e d´efinies nous pouvons comme pr´ec´edemment calculer les fr´equences absolues, relatives, cumul´ees absolues et cumul´ees relatives.

Exemple 3.2.9. Distribution de fr´equence des ´etendues des exploitations agricoles belges (ces donn´ee proviennent de l’ouvrage de Dagn´elie “Th´eorie et m´ethodes statistiques” volume 1).

Etendues des Valeurs des Fr´equences Fr´equences Fr´equences cumul´ees exploitations classes absolues relatives relatives

de 1 `a 3ha 2ha 58122 0,2925 0,2925

de 3 `a 5ha 4ha 38221 0,1924 0,4849

de 5 `a 10ha 7,5ha 52684 0,2651 0,75

de 10 `a 20ha 15ha 35188 0,1771 0,9271

de 20 `a 30ha 25ha 8344 0,0420 0,9691

de 30 `a 50ha 40ha 3965 0,0199 0,9890

de 50 `a 100ha 75ha 1873 0,0094 0,9984

plus de 100ha ? 309 0,0016 1,000

Remarque 3.2.10. Dans l’exemple ci-dessus la derni`ere classe n’a pas de limite sup´erieure. On dit que la classe est ouverte.

Nous avons jusqu’`a pr´esent travaill´e directement avec des nombres, mais un tableau de chiffres (mˆeme en quantit´e restreinte) n’est jamais tr`es lisible aussi nous allons maintenant ´etudier les repr´esentations graphiques des fr´equences. Dans tous les cas nous aurons ici en abscisse les valeurs des variables et en ordonn´ees les fr´equences.

Consid´erons tout d’abord le cas des fr´equences non cumul´ees. Deux cas se pr´esentent suivant que les donn´ees sont group´ees (i.e. mises en classes) ou non. Lorsque celles-ci sont non group´ees, nous utiliserons des diagrammes en bˆatons : Pour chaque valeur dexi, nous tra¸cons un segment de droite de longueur ´egale `a la fr´equence (absolue ou relative suivant les cas) associ´ee `a xi.

Exemple 3.2.11. Reprenons les donn´ees de l’exemple (3.1.2), la figure (2.1) est le diagramme en bˆatons relatif aux fr´equences relatives.

Lorsque les donn´ees sont group´ees, nous repr´esentons ces fr´equences par des rectangles contigus dont les inter-valles de classes sont les bases et les hauteurs des quantit´es telles que l’aire de chaque rectangle soit proportionnelle

`

a la fr´equence de la classe correspondante.

Remarque 3.2.12. Si les classes sont ´equidistantes nous pouvons alors prendre comme hauteur les fr´equences.

Exemple 3.2.13. Repr´esentons les fr´equences relatives des ´etendues des exploitations agricoles belges (exemple (3.2.9))

0 2 4 6 8 10 0

0.05 0.1 0.15 0.2 0.25 0.3 0.35

Notes

Fréquences relatives

Fig.2.1 – Diagramme en bˆatons

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

← Aire=0.01771×10=0.1771

Surfaces en ha

Fig.2.2 – Histogramme

D´efinition 3.2.14 (Histogramme). On appelle histogramme un diagramme du type pr´ec´edent.

Remarque 3.2.15. (i) Lorsque nous ´etudions une variable continue nous avons dans la pratique un grand nombre de mesures, certaines ´etant tr`es proches les unes des autres, d’autres ´etant plus ´eloign´ees. Si nous repr´esentions ces donn´ees sous la forme d’un diagramme en bˆatons nous aurions un graphique du type suivant :

0 1 2 3 4 5 6 7 8

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

Valeurs de la variable

Fréquences absolues

Fig.2.3 – ”Densit´e”

La densit´e d’une zone indiquerait alors que beaucoup de donn´ees seraient dans cette zone. Mais un tel gra-phique n’est pas tr`es lisible et une id´ee est donc de repr´esenter cette densit´e en ordonn´ees. Celle-ci est obtenue en divisant le nombre de mesures obtenues dans une classe (i.e. la fr´equence absolue) par la longueur d’in-tervalle de classe. C’est bien ceci que nous repr´esentons dans un histogramme.

(ii) Les fr´equences relatives sont en fait dans la pratique des estimations de probabilit´es. On verra que dans le cas continu la probabilit´e qu’une variable al´eatoire X appartienne `a un intervalle]xi, xi+1[ est donn´ee par l’aire A d´elimit´ee par cet intervalle et la fonction de densit´e :

−1 0 1 2 3 4 5

Fig.2.4 – Fonction de densit´e

L’histogramme des fr´equences relatives n’est alors qu’une approximation empirique de cette fonction de densit´e (si le facteur de proportionnalit´e est 1).

(iii) Si l’on veut mettre sur un mˆeme graphique une loi th´eorique de distribution de probabilit´es, il faut imp´erativement travailler avec les fr´equences relatives, et un facteur de proportionnalit´e de 1 pour l’histogramme.

Remarque 3.2.16. Attention, dans un logiciel comme Excel , le terme histogramme n’a pas le sens ci-dessus.

Remarque 3.2.17. La d´etermination du nombre de classes d’un histogramme ainsi que de leurs amplitudes est difficile. De plus, repr´esenter une distribution d’une variable continue par une fonction en escalier n’est pas tr`es logique. La th´eorie de l’estimation de densit´e permet de r´esoudre ces difficult´es. Nous allons ici donner quelques

´

el´ements de la m´ethode du noyau.

Consid´erons tout d’abord le cas d’histogrammes `a classes d’´egales amplitudesh. Dans l’histogramme on estime la densit´e en x par nhni si x appartient `a la classe i. La densit´e est donc constante sur chaque classe. On peut am´eliorer ceci en utilisant la m´ethode de la ”fenˆetre mobile”. On suppose ici que la s´erie statistique esty1, . . . , yn. On construit autour dexune classe de longueurh:Ix= [x−h/2;x+h/2[et on compte le nombre d’observations nx qui appartiennent `a cette classe. On estime alors la densit´e en x par nnhx. On peut ainsi construire point par point cette fonction de densit´e estim´eefˆ(x). On peut en fait ´ecrire cette derni`ere de la fa¸con suivante :

fˆ(x) = 1

o`uK est la fonction indicatrice de l’intervalle[−1/2; 1/2[, c’est-`a-dire la fonction deR dans{0,1} d´efinie par : K(u) = 0 si u6∈[−1/2; 1/2[

Cette m´ethode donne encore des r´esultats trop peu r´egulier. Pour obtenir une fonction suffisamment ”lisse”, il faut prendre des fonction noyau K plus r´eguli`ere. En pratique on prend souvent un noyau gaussien :

K(u) = 1

L’exemple (3.2.18) donne une comparaison entre l’histogramme et l’estimation de densit´e.

Exemple 3.2.18. 1Le tableau (2.1) donne les hauteurs de 50 pi`eces usin´ees. On a sur la figure (2.5) l’histogramme de ces donn´ees pour un intervalle de classe de 0.03 et l’estimation de densit´e par la m´ethode du noyau avec le noyau de Lejeune :

K(u) =105

64(1−u2)2(1−3u2) pour |u| ≤1

avec une constante h ´egale `a 30% de l’´etendue de l’´echantillon. L’estimation de densit´e montre clairement une distribution bimodale que nous ne voyons pas avec l’histogramme.

1exemple provenant du livre de G. Saporta page 121

21.86 21.90 21.98 21.84 21.89 21.96 21.88 21.92 21.98 21.90 21.91 21.95 21.92 21.91 21.97 21.87 21.92 21.94 21.90 21.91 22.01 21.87 21.93 21.96 21.90 21.96 21.95 21.93 21.91 21.95 21.92 21.97 21.97 21.90 21.97 21.96 21.91 21.97 21.95 21.89 21.97 21.94 21.91 21.98 21.97 21.87 21.95 21.95 21.89 21.89

Tab.2.1 – hauteurs de 50 pi`eces usin´ees

21.8 21.85 21.9 21.95 22 22.05 22.1 22.15

−2 0 2 4 6 8 10 12

Fig.2.5 – Histogramme et densit´e estim´ee

Il nous reste maintenant `a ´etudier le cas des fr´equences cumul´ees. Celles-ci sont repr´esent´es par des polygˆones de fr´equences cumul´es, mais nous avons encore ici une distinction suivant que les donn´ees soient group´ees ou non.

Lorsque les donn´ees sont non group´ees nous obtenons un polygˆone en escalier : la valeur de la fonction en un pointxest le nombre d’observations (absolues ou relatives) qui sont inf´erieures ou ´egales `ax.

Exemple 3.2.19. Reprenons encore l’exemple (3.1.2)

Quant aux donn´ees group´ees, on joint par une ligne bris´ee les points obtenus en portant, pour les limites de classes sup´erieures des ordonn´ees ´egales aux fr´equences cumul´ees.

Exemple 3.2.20. Fr´equences cumul´ees relatives des ´etendues des exploitations agricoles belges (exemple (3.2.9)).

Remarque 3.2.21. Les polygˆones de fr´equences relatives sont une repr´esentation empirique des fonctions de r´epartitions comme les histogrammes sont une repr´esentation empirique des fonctions de densit´e.