• Aucun résultat trouvé

L’estimation de la densit´ e

Dans le document Statistique La théorie et ses applications (Page 197-200)

8.5 Estimation fonctionnelle

8.5.2 L’estimation de la densit´ e

L’histogramme comme estimation de densit´e

L’histogramme dont l’origine est attribu´ee `a John Graunt au XVIIe si`ecle r´epondait `a l’objectif d’une repr´esentation de la distribution de valeurs et, `a ce titre, peut ˆetre consid´er´e comme une estimation de densit´e avant l’heure. C’est sous cet angle que nous allons l’´etudier mˆeme si son int´erˆet r´eside souvent plutˆot dans l’estimation de pourcentages dans des intervalles (ou «classes») bien d´etermin´es (par exemple les classes d’ˆage des statistiques officielles).

Dans sa plus grande g´en´eralit´e un histogramme se d´efinit `a partir d’une suite double de valeurs croissantes{. . . , a−i, . . . , a−1, a0, a1, . . . , ai, . . .} consti-tuant un d´ecoupage en intervalles de la droite r´eelle. Soitnk la fr´equence des observations situ´ees dans l’intervalle ]ak, ak+1] pour un ´echantillon de taillen, alors l’histogramme est la fonction constante par morceaux fn telle que, pour tout k∈Z :

fn(x) = nk

n

(ak+1−ak) pourx∈]ak, ak+1],

conduisant `a la repr´esentation graphique classique en rectangles (obtenue en d´elimitant verticalement les intervalles). La fr´equence relative nk/n estimant la probabilit´e (ou la proportion, dans une population)pk associ´ee `a l’intervalle ]ak, ak+1] y est divis´ee par la largeurak+1−ak de cet intervalle ce qui a bien valeur de densit´e de probabilit´e au sens explicit´e en section 1.4.

Sauf exception on choisit une«grille» de d´ecoupage {ak} r´eguli`ere et soit, alors,hla largeur de chaque intervalle. On a :

fn(x) = nk

nh pourx∈]ak, ak+1].

Pla¸cons-nous maintenant dans le cadre d’unn−´echantillon al´eatoire de loi m`ere de densit´ef continue sur toutRet ´etudions les propri´et´es d’´ echantillon-nage de la v.a. (not´ee simplement comme pr´ec´edemment) fn(x) =Nk/nh o`u Nk est le nombre al´eatoire de valeurs tombant dans ]ak, ak+1], x´etant fix´e dans cet intervalle. On aNk;B(n, pk),d’o`u :

E(fn(x)) = npk nh = pk

h V(fn(x)) = npk(1−pk)

n2h2 =pk(1−pk) nh2 .

Commepk =ak+1

ak f(x)dx,phkest la valeur moyenne def sur [ak, ak+1] etfn(x) n’est donc sans biais que pour la ou les valeurs dexdans ]ak, ak+1] o`uf prend cette valeur moyenne. Nous d´esignons parxk l’une de ces valeurs, i.e. telle que f(xk) = h1ak+1

ak f(x)dx = phk. Pour toute valeur x o`u f(x) diff`ere de f(xk), fn(x) est un estimateur biais´e def(x) dont le biais est ´egal `af(xk)−f(x).

Consid´erons le comportement asymptotique de fn(x). Quand n → ∞ le biais qui ne d´epend pas denne peut tendre vers z´ero. Sauf `a faire tendre simul-tan´ement la largeur d’intervallehvers z´ero, auquel casxtend n´ecessairement versxk et, par continuit´e de f, f(xk)−f(x) tend donc vers z´ero. Quant `a la variance, du fait quepk(1−pk)/h = (1−pk)f(xk), elle ne peut tendre vers z´ero que si, simultan´ement, nh → ∞. En d’autres termes la largeur d’inter-valle doit tendre vers 0 mais de fa¸con infiniment moins«rapide»que 1/n, par exemple en choisissant h=c/√

n.Puisque E(Nk) =npk =nhf(xk) la condi-tion nh → ∞assure que le nombre attendu de valeurs dans ]ak, ak+1] tende vers l’infini. Concr`etement cela se traduit de la fa¸con suivante : plusnest grand plus il y a avantage `a resserrer les intervalles mais pas trop, afin de garder de grandes valeurs de nk.

Ces conditions qui assurent la convergence en moyenne quadratique - soit n → ∞, h → 0, nh → ∞ - restent n´ecessaires pour assurer d’autres modes de convergence, notamment en probabilit´e ou presque sˆurement. De plus elles se retrouvent pour tous les types d’estimateurs fonctionnels comme nous en verrons des exemples plus loin. La proposition suivante, que nous admettrons, vient pr´eciser la forme asymptotique de l’erreur quadratique moyenne defn(x) pourxfix´e.

Proposition 8.4 (Friedman et Diaconis, 1981) En tout xo`uf est deux fois d´erivable on a :

eqm(fn(x)) = h2

12[f(x)]2 +f(x)

nh +o(h2) +o( 1 nh).

Ainsi avec les conditionsn → ∞, h →0, nh → ∞, l’e.q.m. est asymptoti-quement ´equivalente `a h122[f(x)]2 +f(x)nh , le premier terme ´etant dˆu au biais (au carr´e) et le deuxi`eme `a la variance. L’int´erˆet de ce r´esultat est d’´etablir la vitesse de convergence de l’e.q.m. vers z´ero, dans le cas o`u hest choisi de fa¸con optimale, pour la comparer plus loin avec un estimateur plus ´elabor´e. En annulant sa d´eriv´ee par rapport `ahon trouve que cette derni`ere expression est minimale pour :

h={ 6f(x)

[f(x)]2}1/3n−1/3

et l’e.q.m. est asymptotiquement ´equivalente, avec cethoptimal, `ak(x)n−2/3 o`u k(x) d´epend def(x) et def(x). On dira que la vitesse de convergence de l’e.q.m. est enn−2/3.

Remarques

1. La construction de l’histogramme d´epend de deux param`etres : h, la largeur des intervalles, et a0, la position de l’origine de la grille. En fait le choix de a0 n’est pas crucial (et ne subsiste pas dans l’approche plus ´elabor´ee qui va suivre) alors que celui deh est d´eterminant et in-contournable. Notons que le r´esultat pr´ec´edent concernant le hoptimal n’est d’aucun secours en pratique car cette valeur d´epend de f(x) et def(x) qui sont inconnus. Diff´erentes r`egles empiriques, ´etrang`eres aux consid´erations asymptotiques ci-dessus, ont ´et´e propos´ees en statistique descriptive, par exemple : choisir un nombre d’intervalles sur l’´etendue des observations ´egal `a√

n.

2. Sif est discontinue aux bornes de son support (voir la loi uniforme, la loi exponentielle ou la loi de Pareto) les r´esultats d´evelopp´es ne sont pas valables en ces bornes. De plus si celles-ci sont inconnues l’histogramme pose probl`eme.

3. L’histogramme, c’est-`a-dire la fonction fn, est discontinu alors mˆeme quef est continue. On peut donc songer `a le rendre continu pour, sans doute, am´eliorer son efficacit´e. C’est l’id´ee qui pr´evaut pour lepolygone des fr´equences(ligne bris´ee reliant les milieux des«plateaux» de l’histo-gramme) qui reste cependant peu usit´e. La m´ethode de la section suivante va proposer une solution plus performante.

Les estimateurs `a noyaux

D´efinition L’origine de la m´ethode des noyaux est due `a Rosenblatt (1956).

Celui-ci a propos´e une sorte d’histogramme mobile o`u lafenˆetre de comptage des observations se d´eplace avec la valeur de x. La densit´e en x est estim´ee par la fr´equence relative des observations dans l’intervalle [x−h, x+h],donc centr´e surx,divis´ee naturellement par la largeur de l’intervalle 2h.On appelle hlalargeur de fenˆetre(bien que cette largeur soit en fait ´egale `a 2h).Pour des raisons qui apparaˆıtront plus loin nous ´ecrivons l’estimation ainsi obtenue `a partir des observationsx1, x2,· · ·, xnsous la forme suivante (conservant encore la mˆeme notationfn) :

fn(x) = 1 nh

n i=1

K

x−xi h

o`u K(u) =1

2 siu∈[−1,+1] et 0 sinon.

En effet xi ∈ [x−h, x+h] si et seulement si x−xh i ∈[−1,+1] etxi est alors comptabilis´e 1/2. Ainsin

i=1Kx−x

i

h

est ´egal au nombre d’observations tom-bant dans [x−h, x+h] divis´e par 2 pour obtenir la division de la fr´equence relative par 2h. Comme K est discontinue en ±1, fn(x) pr´esente des petits sauts de discontinuit´e aux pointsx1±h, x2±h, . . . , xn±h.Parzen (1962) a

propos´e une g´en´eralisation de l’id´ee de Rosenblatt permettant, entre autres, de lisser davantage l’estimation. A la fonction K ci-dessus on substitue une fonction que l’on pourra choisir continue ou d´erivable partout, propri´et´e qui se transf`ere `a la fonction fn. En d’autres termes on fera entrer ou sortir les points xi «en douceur» quand on d´eplace la fenˆetre. Toutefois la fonction K est soumise aux conditions suivantes :

– K est positive (ou nulle) – K est paire

RK(u)du= 1.

Une telle fonction est alors appel´ee noyau. La premi`ere condition garantit que le poids Kx−x

i

h

de chaque observation xi reste positif ou nul, la deuxi`eme que ce poids soit identique de part et d’autre dex. La troisi`eme condition est une normalisation des poids de fa¸con que fn soit bien une densit´e. En effet, avec le changement de variableu= x−xhi on obtient :

Notons qu’une fonction noyau est, en fait, une fonction de densit´e sym´etrique autour de z´ero, donc de moyenne nulle (si elle existe).

Comme :

on peut donner une interpr´etation concr`ete de fn. Supposons, pour fixer les id´ees, que K ait pour support [−1,+1]. Alors fn est obtenue en rempla¸cant chaque observationxipar une mˆeme petite«densit´e»(son aire ´etant r´eduite `a

1

n) de support [xi−h, xi+h] , puis en sommant ces petites densit´es. Cette vision correspond `a un principe g´en´eral de lissage de donn´ees discr`etes qui consiste `a faire«bouger»chaque donn´ee pour lui substituer un ´el´ement continu.

En pratique on impose comme condition suppl´ementaire que K d´ecroisse de part et d’autre de z´ero, dans l’id´ee naturelle de donner un poids plus faible aux observations au fur et `a mesure qu’elles s’´eloignent du centre de la fenˆetre x.Ainsi les noyaux les plus usuels sont :

K(u) = 1

Dans le document Statistique La théorie et ses applications (Page 197-200)