• Aucun résultat trouvé

4.2 Estimations tenant compte des erreurs

4.2.4 Simulations

Dans plusieurs cas, notamment pour tester diff´erents estimateurs, nous avons eu `a effectuer des simulations sur des ´echantillons ((tir´es au hasard)), cens´es repr´esenter une distribution connue. Il existe plusieurs mani`eres de g´en´erer des variables ((al´eatoires)) sui- vant une distribution donn´ee :

– La premi`ere est `a utiliser lorsque l’on connaˆıt analytiquement la densit´e de pro- babilit´e f (t) de la distribution que l’on veut simuler, et que l’on peut calculer z = F (t) = Rt

−∞f (u)du puis sa r´eciproque F

−1(z). On sait [A¨ıvazian et al., 1986]

que F (t) prise comme variable al´eatoire a une distribution uniforme sur [0, 1]. On va donc g´en´erer une variable al´eatoire z = F (t) suivant une loi uniforme, et la va- riable F−1(z) sera donc distribu´ee comme t (on note de fa¸con identique les variables al´eatoires et leurs valeurs th´eoriques).

– Si l’on a une distribution observ´ee que l’on veut simuler, et s’il ne s’agit pas d’une distribution ((connue)) (pour laquelle on a analytiquement la densit´e), on peut se servir de la Distribution Lambda g´en´eralis´ee [Ramberg et al., 1979], qui utilise les 4 premiers moments empiriques de la distribution : elle est d´efinie par

F−1(z) = λ1+

zλ3 − (1 − z)λ4

λ2

o`u z ∈ [0, 1]. Les 4 premiers moments peuvent s’exprimer en fonction des param`etres λ1, ... λ4. Il suffit donc d’ajuster ces param`etres en fonction des moments empiriques,

puis de ((tirer)) une variable uniforme z.

– Une autre consiste `a utiliser les propri´et´es de la loi `a simuler, quand on les connaˆıt. `

A titre d’exemple : – la variable al´eatoire

q 12 n n P i=1

(zi− 0.5) suit approximativement une loi normale

r´eduite N (0, 12), si z

– la loi de Cauchy a pour densit´e f (x) = 1 π

c

c2+(x−a)2 ; le rapport de deux variables

al´eatoires suivant N (0, 12) suit une loi de Cauchy de param`etres a = 0 et c = 1 ;

– la somme des carr´es de n variables al´eatoires suivant N (0, 12) suit une loi du

χ2 `a n degr´es de libert´e ;

Comme application de la derni`ere m´ethode, on peut citer le cas o`u l’on a besoin de simuler des erreurs standards de mesure sxi. Si l’on suppose que xi a ´et´e obtenue `a l’aide

de p mesures et que l’erreur de mesure sur xi est gaussienne d’´ecart-type σxi, on utilise

le fait que (p − 1)sxi2

σxi2 suit une loi du χ

2 `a (p − 1) degr´es de libert´e. Pour simuler l’erreur

standard de mesure sxi, on calcule donc

sxi = σxi v u u t 1 p − 1 p−1 X j=1

Ni2 o`u Ni est une v.a. tir´ee suivant ; N (0, 12)

Pour toutes ces m´ethodes, il est clair qu’il suffit seulement de disposer de variables z ((al´eatoires)) suivant une loi uniforme, pour g´en´erer une variable suivant la distribution que l’on veut simuler.

Des g´en´erateurs de nombres quasi-al´eatoires suivant une loi uniforme sont disponibles, voir par exemple dans Press (1990), et qui ont l’avantage d’ˆetre portables sur diff´erentes machines, mais c’est la fonction random(), pr´esente sur les syst`emes Unix, qui a ´et´e choisie, apr`es des tests, pour sa longue p´eriode (' 3.4 1010) et son absence de corr´elation entre

des tirages successifs. Pour g´en´erer des nombres suivant une loi gaussienne, la fonction gasdev() extraite de Press (1990), p. 216, a ´et´e utilis´ee.

Comparaison entre estimateurs

Nous avons d´evelopp´e des estimateurs dans le cadre du mod`ele gaussien du §4.2.1, ainsi que des estimateurs analogues mais plus robustes, au §4.2.3. On peut naturellement se demander s’ils ont un int´erˆet sup´erieur `a des estimateurs existants, et si oui, dans quelle proportion.

Pour cela, on va introduire une mesure de cette qualit´e, l’efficacit´e relative asympto- tique, qui va nous permettre de comparer deux estimateurs t1,n et t2,n:

R(t1,n/t2,n) = lim n→∞

V (t2,n)

V (t1,n)

o`u V (.) d´esigne la variance, si les deux estimateurs sont non biais´es. Sinon, on remplace la variance par V (tn)

(∂E[tn]∂θ )2. Donc R(t1,n/t2,n) sera plus grand que 1 si t1,n est plus efficace que

t2,n.

Nous allons prendre comme variance de r´ef´erence celle de l’estimateur empirique de la moyenne (respectivement de l’´ecart-type), et mesurer l’efficacit´e de plusieurs estimateurs du centre (resp. de l’´etendue) de la distribution relativement `a l’estimation empirique, `a l’aide de simulations. Pour ces simulations, on calculera les estimateurs sur 400 ´echantil-

2. la moyenne pond´er´ee (eq. 4.1) ; 3. la m´ediane ;

4. la moyenne de la distribution tronqu´ee `a 38% ; 5. la moyenne pond´er´ee robuste (§4.2.3) ;

Quant aux estimateurs de l’´etendue, il s’agit de :

1. l’´ecart-type de la distribution tronqu´ee `a [−3σ, +3σ] ; 2. l’´ecart-type pond´er´e (eq. 4.2) ;

3. l’´etendue `a base de quantiles (cf p. 64) ; 4. l’´ecart absolu moyen ;

5. l’´ecart-type pond´er´e robuste (§4.2.3) ;

La distribution qui est simul´ee est une gaussienne N (µ, σ2) avec une erreur de mesure sur chaque variable, la moyenne des erreurs quadratiques de mesure ´etant not´ee kσ. Si l’on fait varier k, c’est-`a-dire que l’on fait augmenter la taille moyenne des erreurs de mesures, on peut observer sur une simulation l’efficacit´e relative des estimateurs du centre (fig. 4.1) et de l’´etendue (fig. 4.2).

Clairement, les estimateurs pond´er´es apparaissent plus efficaces que les autres, et tou- jours strictement sup´erieurs `a 1. Sur la premi`ere figure, on voit que l’efficacit´e des es- timateurs robustes rejoint celle de la moyenne au fur et `a mesure que les erreurs de mesure deviennent pr´epond´erantes. Sur la seconde, quand ces erreurs augmentent, il ne faut pas s’´etonner que les estimateurs robustes, valables sous l’hypoth`ese gaussienne, sont extrˆemement peu efficaces quand on s’´eloigne de cette hypoth`ese.

Maintenant, si l’on fixe la moyenne des erreurs quadratiques de mesure `a une valeur peu ´elev´ee (on a pris ici 0.5σ), que se passe-t-il si l’on a des points aberrants, ou une distribution `a ((queue lourde)) ? Pour simuler cela, on va ajouter `a la gaussienne initiale N (µ, σ2) une certaine proportion d’une gaussienne N (µ, (4σ)2), puis les erreurs de mesure.

L’efficacit´e relative des estimateurs du centre (fig. 4.3) et de l’´etendue (fig. 4.4), sont repr´esent´es quand on fait varier cette proportion de 0 `a 1.

La situation est ici plus contrast´ee. La moyenne pond´er´ee reste plus efficace, avec une efficacit´e relative toujours sup´erieure `a 1, mˆeme quand la pollution devient importante, et la moyenne pond´er´ee robuste (ici superpos´e `a la m´ediane) a une efficacit´e relative `a la moyenne empirique souvent inf´erieure `a 1. Il apparaˆıt clair que les estimateurs connus comme robustes (m´ediane, moyenne sym´etriquement tronqu´ee) perdent rapidement leur efficacit´e quand il y a des erreurs de mesure, mˆeme peu ´elev´ees.

Quant aux estimateurs de l’´etendue, on voit que si l’estimateur pond´er´e robuste n’est pas le plus efficace partout, son efficacit´e poss`ede l’avantage de ne varier que peu avec le taux de points aberrants, d`es que l’on a 4 points sur mille qui sont aberrants. On peut noter que la situation serait tr`es diff´erente si la pollution choisie ´etait dissym´etrique ou si l’on travaillait sur des petits ´echantillons.

On voit donc grˆace `a ces simulations tout l’int´erˆet qu’apportent les estimateurs trouv´es dans le cadre du mod`ele gaussien avec erreurs, et comment ils remplacent avantageusement

Fig. 4.1: Efficacit´e relative asymptotique d’estimateurs de la moyenne dans le cadre du mod`ele gaussien avec erreurs, en fonction des erreurs de mesure.

Fig. 4.3: Efficacit´e relative asymptotique d’estimateurs de la moyenne dans le cadre du mod`ele gaussien avec erreurs en fonction du taux de pollution par N (µ, (4σ)2).

Fig. 4.4: Efficacit´e relative asymptotique d’estimateurs de l’´ecart-type dans le cadre du mod`ele gaussien avec erreurs en fonction du taux de pollution par N (µ, (4σ)2).

ceux que l’on aurait pu avoir tendance `a utiliser si l’on n´eglige les erreurs de mesure. Ceci est principalement dˆu au fait que si la distribution des variables sans erreurs peut ˆetre suppos´ee normale, la distribution observ´ee avec des erreurs de mesure s’´eloigne rapidement de l’hypoth`ese gaussienne.