Les Intervalles de Crédibilité

−0.5 0.0 0.5 1.0 0.2 0.4 0.6 0.8 1.2

5

θ

π

(

θ

|

x

)

Cα(x)

γ

α

Fig. 4.1: Définition d’un intervalle de crédibilitéC

(x)connaissant la loia posterioriπ(θ|x).

Remarque. Les fonctions pertes énoncées plus haut correspondent à des estimateurs que nous

connaissons bien en statistique classique puisque :

– la fonction perte quadratique est minimisée par l’espérance de la loia posteriori;

– la fonction perte absolue est minimisée par la médiane de la loi a posteriori;

– la fonction perte 0–1 est minimisée par le mode de la loi a posteriori dès lors que ε est

suffisamment petit.

En pratique, le jeu optimal de paramètres sera donc estimé à partir de la moyenne, la médiane

ou encore le mode de la loi a posteriori. Notons que la loi a posteriori peut ne pas être connue

analytiquement. De sorte que la loi a posteriori ne sera connu qu’à partir d’un échantillon étendu

distribué selon cette dernière - à l’aide des algorithmes de type MCMC ou Gibbs. Pour ces cas

spécifiques, le jeu optimal de paramètres sera donc estimé en prenant la moyenne, médiane ou mode

empiriques obtenu à partir de cet échantillon étendu.

4.4 Les Intervalles de Crédibilité

L’idée desintervalles de crédibilitéest de proposer un équivalent aux intervalles de confiance

des statistiques classiques. Puisque dans l’approche Bayésienne, les paramètres à estimer sont

consi-dérés comme des variables aléatoires, cette notion d’intervalle de crédibilité est toute naturelle.

Définition 4.2. Intervalle de Crédibilité

Un intervalle de crédibilité Cα(x) associé à la probabilitéα, et sachant les observationsx est de la

forme :

Cα(x) ={θ:π(θ|x)≥γ} (4.7)

où γ est défini tel que

Z

C

(x)π(θ|x)dθ =α (4.8)

La Figure 4.1 illustre la construction d’un tel intervalle de crédibilité. D’une manière un peu

moins formelle, un intervalle de crédibilité Cα(x) pour un niveau de confiance α est défini tel que

la densité a posteriori π(θ|x) est maximale tout en imposant Pr[θ∈Cα(x)] =α.

4. Éléments de Théorie Bayésienne

Il est important de souligner les points communs et les différences entre les intervalles de

confiance et de crédibilité. Ces deux approches vérifient, sous l’hypothèse que le modèle est le

bon, Pr[θ ∈ I] = α, où I est soit un intervalle de confiance, soit de crédibilité associé au même

niveau de confiance α. Ces deux intervalles renseignent donc sur la précision de notre estimation.

En revanche, l’intervalle de crédibilité est dépendant de la loi a priori π(θ) ; de sorte que deux

lois a priori différentes conduiront à deux intervalles de crédibilité différents. C’est l’une des plus

fortes controverses des statistiques Bayésiennes : l’analyse est dépendante de la loi a priori. La

définition de la loi a priori doit donc être établie avec attention et honnêteté lors de l’exploitation

de l’information dont nous disposonsa priori.

En effet, si nous intégrons plus d’information a priori qu’il n’est raisonnable, les intervalles de

crédibilité seront bien plus resserrés. De plus, les estimations elles-mêmes pourraient être

complè-tement fausses si jamais l’informationa priori n’était pas pertinente avec les données disponibles.

Au contraire, avec une loia priorinon informative, et d’après le Théorème 4.1, la loia posteriori

sera (approximativement) identique à la vraisemblance et nous nous ramenons aux statistiques

classiques.

5

Un Modèle Bayésien pour l’Estimation

Régionale des Débits

Dans ce chapitre, nous introduisons les idées qui nous ont encouragés à développer un

nouveau modèle régional pour l’estimation des quantiles de crue. Comme énoncé au sein

du Chapitre 3, le concept de l’indice de crue sera notre de point de départ et méthode de

référence pour l’estimation régionale des débits caractéristiques de crue. Toutefois, nous

devrons relâcher les hypothèses trop contraignantes d’invariance sur les fonctions de répartition. De

même, nous porterons attention à faire la distinction entre l’information au site cible et celle des

autres sites de la région. Enfin, le tout sera intégré au sein d’un modèle statistique bien fondé.

5.1 L’Importance du Site Cible et de la Région

Partant du constat que l’information disponible au sein de toute la région homogène est mal

exploitée par le concept de l’indice de crue (cf.Section 3.2), nous proposons une nouvelle approche.

En effet, l’information la plus précieuse, aussi réduite soit elle, est celle dont l’hydrologue dispose

au site d’intérêt. L’information en provenance des autres sites réputés similaires sera alors

considé-rée comme une pseudo information sur le site cible. En particulier, afin d’accorder un poids plus

important aux données du site cible, cette pseudo information sera perçue comme une intuition sur

le comportement du site d’intérêt.

Pour faire le distinguo entre ces deux types d’information, la théorie Bayésienne nous est utile.

Pour cela, rappelons le Théorème de Bayes [Bayes,1763] :

π(θ|x) = R π(θ)π(x;θ)

Θπ(θ)π(x;θ)dθ (5.1)

oùx est le vecteur des données disponibles, Θ l’espace de définition des paramètres de la loi,π(θ|x)

la loi a posteriori,π(θ) la loi a priori etπ(x;θ) la vraisemblance.

C_α(x) ={θ:π(θ|x)≥γ} (4.7)

moins formelle, un intervalle de crédibilité C_α(x) pour un niveau de confiance α est défini tel que

la densité a posteriori π(θ|x) est maximale tout en imposant Pr[θ∈C_α(x)] =α.

π(θ|x) = R ^π^(θ)^π^(x;^θ)

Θπ(θ)π(x;θ)dθ ^(5.1)