• Aucun résultat trouvé

Les indicateurs

3.2 Quels indicateurs estimer ?

Supposons la concentration parfaitement connue, car mesurée exhaustivement durant une année (une mesure chaque minute, par exemple). Pour l’année j considérée, la concentration peut être décrite par une fonctionz t( ), avectj b bt tj +T. La moyenne de la concentration durant l’année j est définie

=

¨

+ . Son estimation à partir des n mesures effectuées durant l’année revient à approcher cette intégrale par une somme discrète. Si les mesures sont

régulièrement réparties durant l’année, l’intégrale 1 j ( )

j

t T t

I z t dt

T

=

¨

+ est approchée par la moyenne

( )

1

1 n

i i

n

œ

= z t , ce qui revient à attribuer la même pondération 1

n (la même « largeur ») à toutes les mesures. Lorsque les mesures sont irrégulièrement espacées, l’intégrale I peut être approchée par une somme de rectangles de largeur variable : c’est la méthode des segments d’influence. Le krigeage fournit alors une pondération « optimale », dépendant de la régularité de la courbe z t( ).

La notion de moyenne annuelle durant l’année j reste parfaitement définie en dehors de toute hypothèse d’homogénéité de la concentration durant l’année. Cette moyenne annuelle de la concentration est compatible avec une périodicité annuelle comme avec une « tendance » pluriannuelle marquée.

L’hypothèse d’homogénéité de la moyenne apparaît alors imposée par la méthode de calcul

« statistique », plutôt que par la physique du phénomène. En effet, le calcul statistique usuel consiste à estimer la moyenne au sens de l’espérance mathématique de la loi de probabilité. Pour pouvoir inférer ce paramètre statistique, on pose naturellement l’hypothèse que les différents tirages disponibles sont tous issus de la même loi, et donc que les concentrations par station admettent la même espérance au cours du temps.

Par la suite nous noterons ZT la moyenne temporelle et ml’espérance de la loi.

Deux définitions de la « moyenne »

Quelle est la relation entre ces deux « moyennes », le paramètre espérance mathématique d’une loi de probabilité, objet du calcul statistique usuel, et la moyenne temporelle ? Pour les lois de probabilité usuelles, le paramètre espérance mathématique est la limite de la moyenne temporelle calculée sur un très grand nombre d’années, en l’absence de périodicité ou de « dérive » pluriannuelle.

Supposons durant une année les 365 concentrations journalières parfaitement connues. Alors, la moyenne annuelle sur l’année, égale à la moyenne arithmétique des 365 valeurs journalières, est parfaitement connue. Sa variance d’estimation devrait donc être nulle. Or le calcul statistique indique que cette variance d’estimation est égale à 2

1 S

n , S2 désignant la variance expérimentale des 365 valeurs, évidemment non nulle. En effet, si l’estimation de l’espérance mathématique s’améliore quand le nombre de données augmente, elle reste toujours inconnue, même à partir de 365 valeurs journalières, 730 (durant 2 ans), ou 1095 (durant 3ans).

En l’absence de « dérive » à moyen ou long terme, supposer par exemple l’espérance mathématique constante durant un siècle signifie que les concentrations oscillent autour de cette « moyenne ». Mais durant le siècle, les 100 moyennes annuelles seront (généralement) toutes différentes. Elles oscilleront autour de l’espérance, l’amplitude de ces oscillations étant très atténuée par rapport à celle des valeurs journalières.

La transcription des calculs statistiques classiques conduit ainsi à « se tromper » sur la variable à estimer, et par suite sur la méthode d’estimation appropriée.

Quels indicateurs estimer ? - 46 -

Quelques notions de modélisation

Si la moyenne (l’espérance de la loi) est variable durant l’année, alors il en est de même de l’histogramme expérimental. Comme l’espérance, la variance n’est pas nécessairement homogène durant l’année.

Finalement, quelle est la loi de probabilité dont on cherche à connaître certaines caractéristiques : espérance (qui serait alors égale à la moyenne annuelle de la concentration), variance, quantile ? Un point de vue peut être le suivant : considérons l’ensemble des concentrations au cours de l’année.

Si l’on prend au hasard une mesure durant l’année, à un instant aléatoire R uniforme sur [t t0, 0+T]

on obtient une variable aléatoire z( )R . La loi de probabilité dont on cherche à connaître la moyenne, la variance et le quantile est celle de cette variable aléatoire z( )R . Les paramètres de la loi de cette variable aléatoire se calculent en remarquant que R admet la densité dt

T sur l’intervalle [t t0, 0+T] :

- quantile 90 : c’est la valeur dépassée durant l’année pendant 10% du temps.

Ce quantile q90est défini par 0 ( ) 90 corrélées, le niveau de corrélation dépendant de l’intervalle de temps U

Ce point de vue est celui de la géostatistique transitive (Matheron, 1970). La concentration est décrite comme une variable régionalisée, c’est-à-dire une variable présentant une certaine structure temporelle. Cette variable est échantillonnée à des dates supposées aléatoires, par exemple tous les 30 jours à partir d’une origine aléatoire (entre le 1er et le 30 janvier de chaque année).

En pratique, pour mener les calculs, certaines hypothèses de stationnarité restent nécessaires, mais elles sont beaucoup moins strictes que dans la statistique classique.

Le point de vue utilisé en pratique est encore un peu différent (Matheron, 1970). La concentrationz t( ), décrite comme une variable régionalisée (une fonction numérique définie sur[t t0, 0+T]) est considérée comme le résultat d’un tirage possible parmi beaucoup d’autres.

L’ensemble des tirages possibles, c’est-à-dire l’ensemble des variables régionalisées admettant la même structure spatiale, constitue une Fonction Aléatoire, notéeZ t( ). On se proposera par exemple d’estimer la moyenne annuelle 0

0 deux variables aléatoires corréléesZ t( ),Z t( +U). Là encore, certaines hypothèses de stationnarité, moins strictes que pour la modélisation statistique, restent nécessaires. Par exemple, les hypothèses de stationnarité temporelle portent sur les écarts Z t( +U)Z t( ) et non plus sur les concentrations

( )

Z t ; on montre (Matheron, 1970) que la méthode d’estimation proposée reste valide même en supposant la variance de Z t( ) lentement variable dans le temps.

En résumé, l’apport essentiel de la géostatistique est le suivant :

- les concentrations sont désormais considérées comme (des tirages de variables) corrélées temporellement ;

- les hypothèses de stationnarité sont allégées par rapport au modèle statistique ; - la moyenne annuelle à estimer est l’intégrale temporelle 0

0

1 t T ( )

an

z t z t dt T

=

¨

+ , et non plus le paramètre « espérance mathématique » d’une loi de probabilité (pour marquer la différence, on utilisera aussi l’expression de valeur annuelle de la concentration).

- Le quantile 90 annuel à estimer est le quantile 90 d’une variable aléatoire tirée uniformément dans

[t t0, 0+T]. Il est défini par q90 tel que ( ) 0

90 0

1 t T1z t q 0.10

t dt

T

+

> =

¨

,1z t( )>q90 désignant l’indicatrice de la concentration z à la coupureq90.

Dans la suite T est discrétisé en 365 jours.

Chapitre 4