• Aucun résultat trouvé

Estimateurs des quantiles par anamorphose

Estimation du quantile

5.3 Tests de la méthode pour des variables aléatoires indépendantes

5.3.5 Estimateurs des quantiles par anamorphose

Nous examinons maintenant l’utilisation d’une fonction d’anamorphose en la comparant aux estimateurs précédemment présentés. Le choix d’une simple interpolation linéaire résulte de cette étude.

Les biais et écarts types d’estimation de ces méthodes ont été estimés sur des simulations d’échantillons indépendants et de lois connues.

P as s ag e p a r u n e f o n ct i on d ’ an am o r p h os e

Estimer un quantile, c’est de façon équivalente estimer la fonction de répartition, autrement dit la loi de probabilité. Dans la plupart des cas, l’histogramme des données ne rappelle aucune loi connue.

Tests de la méthode pour des variables aléatoires indépendantes - 70 -

Utiliser une anamorphose, c’est écrire la variable aléatoire comme la transformée par une fonction (ou anamorphose) d’une variable aléatoire fixée, de loi gaussienne par exemple (Rivoirard, 1994 ; Lajaunie, 1993 ; Maréchal, 1978). Connaissant le quantile d’une gaussienne, on en déduira par anamorphose le quantile recherché.

Soit donc à chercher ) strictement croissante (donc bijective) telle que Z =G( )Y avec Ygaussienne.

Le quantile d’ordre p de Z et celui de Y vérifient respectivement F z( )=p et G y( )=pavec G fonction de répartition d’une loi gaussienne centrée réduite.

Le quantile d’ordre p de Z s’obtient donc par le calcul suivant :

( ) ( 1( ))

q p =G G p

En réalité, on a seulement accès à des réalisations de Z. On peut estimer ) par l’estimateur suivant, appelé anamorphose empirique :

( ) ( )

ˆ

i y Di

i

y Z I

G =

œ

‰ avec Di = ¡¢G1

( ) ( )

in1 ,G1 ni  ¡¢

Le lissage de l’anamorphose empirique par une fonction continue permet alors d’estimer les quantiles.

On propose deux types d’interpolation :

- Une interpolation linéaire de l’anamorphose par une fonction affine par morceaux passant par les points(G1( )pi ,(Z( )i +Z(i1))/ 2) où G est la fonction de répartition d’une loi gaussienne centrée réduite et pi i 1

n

= (voir FIG. 5-9 à gauche).

- Une interpolation à partir du développement hermitien de la fonction d’anamorphose. (voir FIG.

5-9 à droite).

-4 -2 0 2 4

Z( 1 ) Z( 2 ) Z( 3 ) Z( 4 ) Z( 5 ) Z( 6 )

Interpolation linéaire par morceau de l'anamorphose empirique

anamorphose empirique anamorphose linéarisée

Y -4 -2 0 2 4

Y Z( 1 )

Z( 2 ) Z( 3 ) Z( 4 ) Z( 5 ) Z( 6 )

Anamorphose interpolée par polynomes d'hermite degré 14

anamorphose empirique anamorphose (Hermite)

FIG. 5-9 : Exemple d’interpolation de l’anamorphose empirique. A gauche : par interpolation linéaire. A droite : par développement hermitien.

C o m p a r ai s o n d e s e st i m at e u r s p o u r d e s v ar i ab l e s i n d é p e n d a n t es Les critères de comparaison retenus pour les estimateurs de quantile sont les suivants : - comparaison du quantile théorique au quantile calculé sur échantillon ;

- évolution de l’erreur quadratique moyenne ;

- évolution de l’intervalle contenant 95% des estimations du quantile ;

- histogramme des estimations du quantile, pour des échantillons de 12 mesures.

Les courbes sont tracées pour différentes lois de probabilité en fonction de la taille de l’échantillon.

Les lois de probabilité considérées sont les suivantes:

- loi normale réduite ;

- loi lognormale, construite comme l’exponentielle de la précédente ; - loi exponentielle de paramètre 1 (espérance et variance égales à 1);

- loi uniforme entre 0 et 1 ;

- loi gamma de moyenne 1/3 et variance 1/9.

Aucune des méthodes étudiées n’est sans biais. La règle des 90%, comme on l’a vu précédemment, actuellement utilisée par les agences de l’eau montre dans tous les cas un biais important. Pour le quantile 90, cette règle introduit de fortes discontinuités de la valeur estimée, à chaque changement de dizaine de la taille de l’échantillon, rendant discutable une comparaison inter stations ou interannuelle à partir de deux échantillons comportant par exemple 9 et 11 mesures respectivement. De plus cette méthode présente des écarts types d’estimation légèrement supérieurs à ceux des trois autres méthodes. Ces trois nouvelles méthodes sont à peu près équivalentes et, bien que biaisées, permettent une meilleure comparaison des stations entre elles, au moins lorsque le nombre de mesures reste voisin et supérieur à une dizaine. Les méthodes faisant appel à une anamorphose, sont plus compliquées à implémenter : elles nécessitent le calcul de l’anamorphose empirique et sa modélisation, avec par exemple le choix du degré du polynôme.

Lorsque les données sont peu nombreuses, 5 ou 6 mesures par an par exemple, la règle des 90 donne en moyenne une meilleure estimation que les autres méthodes.

L’interpolation linéaire de la fonction de quantile empirique apparaît finalement comme un bon compromis entre l’amélioration de l’estimation et sa faisabilité pratique dans le contexte du SEQ-Eau.

Lorsque les histogrammes en deux stations sont très différents, ou pour vérifier le caractère

« significatif » d’un écart entre deux stations, il faudrait tenir compte de la précision de l’estimation du quantile. Ce calcul, beaucoup plus complexe que pour la moyenne, nécessite d’introduire des hypothèses sans doute peu réalistes. Cette difficulté pourrait être levée par une méthode de rééchantillonnage, (voir par exemple (Saporta, 1990)) validée en présence de corrélation temporelle.

- 72 -

a)

5 10 15 20 25 30 35

taille de l'échantillon

0.81.01.21.41.6quantile moyen sur 1000 simulations

règle 90 quantile linéarisé

quantile par anamorphose linéarisée quantile par anamorphose interpolée (Hermite) quantile 90 réel

LOI NORMALE N(0,1) : évolution de l'esperance du quantile

b)

5 10 15 20 25 30 35

taille de l'échantillon

0.30.40.50.60.7racine de la somme des erreurs au carré

LOI NORMALE N(0,1) : évolution de la racine de la moyenne des erreurs au carré

c)

5 10 15 20 25 30 35

taille de l'échantillon

-10123intervalle contenant 95% des simulations

LOI NORMALE N(0,1) : évolution de l'intervalle contenant 95 % des simulations

d)

0 1 2 3

0.00.20.40.60.8

densité

Densités des estimations du quantile 90, loi normale, 12 mesures

Densités des estimations du quantile 90, loi normale, 12 mesures

Densités des estimations du quantile 90, loi normale, 12 mesures

Densités des estimations du quantile 90, loi normale, 12 mesures

Densités des estimations du quantile 90, loi normale, 12 mesures

Densités des estimations du quantile 90, loi normale, 12 mesures

longueur de l'intervalle contanant 95% des simulations

1.52.02.54*ecart type d'estimation exrimental

FIG. 5-10 : Evaluation du quantile 90 pour une loi normale ; calcul sur 1000 simulations. a) quatre estimateurs du quantile 90, en fonction du nombre de mesures. b) écart-type d’estimation. c) intervalle de confiance à 95%. d) histogramme des estimations pour un échantillon de 12 mesures. e) nuage de corrélation entre la longueur de l’intervalle de confiance à 95 % et 4 fois l’écart-type d’estimation.