R EVUE DE STATISTIQUE APPLIQUÉE
A LBERTO P ASANISI E RIC P ARENT
Modélisation bayésienne du vieillissement des
compteurs d’eau par mélange de classes d’appareils de différents états de dégradation
Revue de statistique appliquée, tome 52, n
o1 (2004), p. 39-65
<http://www.numdam.org/item?id=RSA_2004__52_1_39_0>
© Société française de statistique, 2004, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
MODÉLISATION BAYÉSIENNE DU VIEILLISSEMENT
DES COMPTEURS D’EAU PAR MÉLANGE DE CLASSES
D’APPAREILS DE DIFFÉRENTS ÉTATS DE DÉGRADATION
Alberto
PASANISI*,**,
Eric PARENT**
École
Nationale du Génie Rural, des Eaux et des Forêts, Laboratoire GRESE, 19, av. du Maine 75732 Paris Cedex 15**
Compagnie
Générale des Eaux, DirectionTechnique,
18, Bd. Malesherbes 75008 ParisRÉSUMÉ
Les compteurs d’eau, en vieillissant, fournissent une mesure de
plus
enplus imprécise
de la consommation d’eau. Cette
dégradation
se traduitgénéralement
par un sous-comptage.Ce
phénomène
est source deproblèmes
pour les distributeurs d’eauqui
ont mis enplace
des
stratégies
degestion
des parcs compteurs ayant commeobjectif
la réduction des perteséconomiques (représentées
par les volumes d’eau nonfacturés)
et le respect d’unepolitique
de comptage
équitable
entre les différents usagers. Toutestratégie
nécessitepréalablement
lacompréhension
du mécanisme dedégradation
et laquantification
du sous-comptage. Dans cet article le vieillissement des compteurs est décrit à travers un modèledynamique
à états discrets,représentant
chacun une certainequalité métrologique.
Ce modèle,couplé
avec l’observation des erreurs de mesure à l’intérieur dechaque
état, permet l’estimation notamment du taux de compteurs défaillants et de l’évolution de laprécision
de la mesure en fonction de la durée de service dudispositif.
L’estimation desparamètres
du modèle et laprédiction
des valeurs desgrandeurs
d’intérêtpratique,
ont été réalisées dans un cadrebayésien,
avec l’utilisation detechniques
de simulation MCMC. Les résultats montrent un bon comportementgénéral
des compteurs examinés dansl’exemple proposé
mais aussi une incertitude sensible sur l’estimation de certainesgrandeurs.
Mots-clés :
Compteurs
d’eau,Dégradation,
Modèlesdynamiques, Inférence bayésienne,
Modèles
graphiques,
Simulation MCMC.ABSTRACT
Water meters
give
a more and more inaccurate measure of waterconsumption,
when get-ting
older. Such adegradation generally gives
rise to an underestimation ofconsumption.
Thatoriginates
severalproblems
to water distributioncompanies
who havedeveloped
managementstrategies
in order to attempt two differentgoals :
the reduction of financial losses(caused by
unaccounted-for water) and
equity
between customers.Every
strategy needs, aspre-requisite,
the
understanding
of thedegradation
process and the evaluation of the loss of accuracy. In this article theageing
of meters is describedby
adynamic
discrete state model, every state of which characterises agiven
measurementquality.
This model,together
with the observation of measurement errors within each state, allows to evaluate the ill-behaved meters rate and theaccuracy, as a function of the
operating
age of the device. Model parameters estimation and pre- dictionof practically interesting quantities
have been madeby
MCMC simulationtechniques.
Results show that meters examined
hereby
haveglobally
agood
behaviour, but a noticeableuncertainty
still remains on estimates andpredictions
of several parameters.Keywords :
Water meters,Degradation, Dynamic
models, Bayesianinference, Graphical
models, MCMC simulation.1. Introduction
La
dégradation métrologique
descompteurs
est source deproblèmes
pour lesdistributeurs d’eau. Les
stratégies
degestion
duparc-compteurs,
mises enplace
dansles dernières
années, poursuivent
deuxobjectifs majeurs :
améliorer le rendementglobal
afin de réduire les perteséconomiques
du distributeur d’eaureprésentées
par les volumes non facturés et, en mêmetemps,
assurer uncomptage (et
donc unefacturation) équitable
entre les consommateurs.Pour avoir une idée des
enjeux économiques
onpeut chiffrer,
parexemple,
le manque à gagner de la Générale des Eaux
(environ
2.1 milliards dem3
d’eaudistribués par an et 6 millions de
compteurs) :
parrapport
à une situation idéale decomptage parfait,
il s’établit autour de 45 millions d’Euros par an.Le cadre de la
gestion
d’un parc de compteurs d’eau estlargement
décrit dans la litteraturetechnique,
p. ex.(Newman
etNoss, 1982), (Grau, 1985),
mais raressont les
exemples
où les critères degestion
sont formulésexplicitement
en termesmathématiques.
Desprocédures d’optimisation
ont étédéveloppées
d’abord dans uncadre déterministe
(Noss
etal., 1987), puis
dans un cadrestochastique (Lund, 1988).
Toute
procédure
degestion
nécessitepréalablement
lacompréhension
dumécanisme de
dégradation
de laqualité métrologique
des compteurs en fonction deplusieurs
facteursexplicatifs,
et notamment de leur durée deservice,
afin depouvoir
estimer les volumes d’eau non facturés. Ces estimations
représentent
lepoint
dedépart
pour l’évaluation desopportunités technico-économiques
deremplacement.
En
général,
les conditionsd’exploitation
sont variables et lestypes
decompteurs
installés sontmultiples.
Pour les très gros consommateurs,compte
tenu de leur faible nombre et desenjeux économiques,
onpeut imaginer
un suivi au cas par cas(Van
derLinden, 1998),
alors que pour lagrande majorité
des usagers on a recours àl’approche statistique.
Cet article
présente
un modèlestatistique
de vieillissementqui
s’inscrit dans lecadre de la
gestion optimale
du parccompteurs
de la Générale des Eaux.Le
papier
s’articule enquatre parties.
La
première partie
donne des définitions de base sur lescompteurs d’eau,
nécessaires pourcomprendre
laproblématique
del’étude,
et unedescription
desdonnées à
disposition.
La deuxième
partie
dupapier représente
ladégradation
descompteurs
à traversun modèle markovien à états discrets. Ce
modèle,
associé avec l’observation desdéposes
descompteurs
défaillants et des distributions des rendements à l’intérieurd’un même
état, permet
de donner des indications directementexploitables
pour lagestion
des parcs.Le modèle se met naturellement sous forme de DAG
(Directed Acyclic Graph)
et cette
représentation
facilite l’estimationbayésienne
desparamètres
notammentgrâce
àl’algorithme
de Gibbs(Spiegelhalter
etal., 1996).
Dans la troisièmepartie
on
présente
les résultats d’inférence et de calculprédictif
obtenus à l’aide dulogiciel
WinBUGS
(Spiegelhalter
etal., 1999).
Ces résultats montrent une incertitude sensiblesur les estimations de certaines
grandeurs
et notamment sur le taux decompteurs
àmétrologie
insatisfaisante. On note aussi le boncomportement général
desappareils examinés, puisque, après
20 ans deservice,
de l’ordre de 85%
des compteursprésentent
encore unemétrologie
correcte.La dernière
partie
est consacrée auxperspectives
dutravail,
notamment lapossibilité
d’introduire des covariablesexplicatives
et la validation du modèle.Dans la suite on utilisera la notation entre crochets pour les lois de
probabilité (Gelfand et Smith, 1990) :
[A] :
Probabilité de l’événement aléatoire ASi X est une variable aléatoire à valeurs x E Ç2
C R2d,
alors on utilisera la notationsimplifiée [x]
pourreprésenter
laprobabilité [X
=x].
2. Comment se
dégrade
uncompteur
etquelles
sont lesconséquences
2.1.
Définitions
de baseComme tous les instruments de mesure, les
compteurs
d’eau sontsusceptibles
d’erreur : sur un
branchement,
le volumeenregistré (venr),
et doncfacturé,
estgénéralement
différent du volume effectivement consommé(vréel).
Une
description
détaillée desprincipes
de fonctionnement des différentstypes
decompteurs
est donnée dans(Troskolanski, 1963)
et(Carlier, 1968).
L’étude
statistique
de cepapier,
se limitera exclusivement aux données descompteurs
ditsvolumétriques (largement majoritaires
enFrance)
caractérisés par laprésence
d’un organe de mesurequi
sedéplace
sous l’effet de lapoussée hydrodynamique,
refoulant un volume déterminé d’eau àchaque
tour.L’erreur de mesure d’un
compteur (e)
est obtenue en divisant la différence entre le volumeenregistré (venr)
et le volume réellement écoulé(Vréel)
par ce dernier.La courbe
métrologique (dite
aussi« signature » métrologique)
est lareprésen-
tation
graphique (figure 1)
de la relation entre l’erreur relative de mesure(e)
et ledébit circulant
(q) .
FIGURE 1
Courbes
métrologiques
d’un compteurneuf et
en serviceQuand
le débit estfaible,
le transfertd’énergie mécanique
entre le courant etles organes de mesure est
plus
difficile et donc les erreurs de mesure sontnégatives
ettrès
importantes
en valeurabsolue, pouvant
atteindre la totalité(-100 %). À
mesureque le débit
augmente,
l’erreur diminue en valeurabsolue jusqu’à
atteindre la « zonehaute» de la courbe avec des valeurs très faibles et
parfois positives.
Cetteplage
defonctionnement
apparait
nettement sur lafigure
1.Le vieillissement d’un
compteur
entraîne unedégradation
de laqualité
de lamesure. Dans la
quasi-totalité
des cas, lalargeur
de laplage
de fonctionnement diminue et donc unsous-comptage
se manifeste(figure 1).
Les courbes
métrologiques
sont obtenuesexpérimentalement
dans des labora- toiresspécialisés,
en faisant circuler dans lecompteur
un volume connu d’eau à débitconstant. La courbe est alors construite
point
parpoint
avec les résultats des essaisaux différents débits
d’étalonnage.
Le rendement d’un
compteur (r)
est lerapport
entre le volumeenregistré
et levolume consommé :
où ei et xi sont les erreurs de mesure et les
proportions
de la consommationayant
lieu au débit qi. Pour lecalculer,
il faut superposer, lelong
de l’axe horizontal desdébits,
la courbemétrologique
ducompteur
avec larépartition
de la consommationsur les différents débits
(histogramme
deconsommation) qui dépend
des modalités d’utilisation de l’eau. Parexemple,
dans lafigure 2,
lepremier histogramme
deconsommation a été
enregistré
dans une maison individuelle tandis que le second caractérise un immeuble de 50appartements.
Les calculs
développés
dans la suite sont relatifs à deshistogrammes « types »
de consommationqu’on
supposecomplètement
connus et invariants dans letemps.
FIGURE 2
Histogrammes
de consommationLe rendement est le
paramètre
leplus important
pour lesgestionnaires
parcequ’il
permet le calcul direct de laperte économique
par eau non facturée. Dans les rares étudesdisponibles,
l’évolution du rendement en fonction del’âge
est soitreportée
sous forme de tableau(AWWA, 1966), (Grau, 1985),
soit estempiriquement
considérée comme une fonction
linéaire, (Newman
etNoss, 1982).
2.2.
Classification
descompteurs
selon leurqualité
de mesureL’approche
suivie dans cette études’appuie
sur un modèle de vieillissementqui prévoit
le passage par 4 étatsmétrologiques,
dequalité
décroissante03B51, 03B52, 03B53, 03B54.
La définition des
quatre
états estinspirée
par laréglementation
actuelle et sesdéveloppements (Costes
et Pia,2000).
Le décret n. 76-130 du 29/01/1976
(qui reprend
la directive CEE n.75/33)
fixeles erreurs maximales tolérées
(EMT)
en fonction du débit pour lescompteurs
neufs :±5%
entre un débit minimal qmin et un débit dit de transition qt±2%
entre le débit de transition et le débit maximal de fonctionnement qmax.Ces valeurs sont doublées pour les
compteurs
en service. Les débits qmin et qtsont définis en fonction du débit nominal
(qn), caractéristique
ducompteur,
et de sa classemétrologique (A, B
ou C en ordre croissant deprécision).
Lafigure
3 montreles « canaux de tolérance » pour des
compteurs
de débit nominal qn = 1.5m3/h
declasse C
(les compteurs domestiques
lesplus
utilisés enFrance).
La définition des états
métrologiques part
de la constatation que lescompteurs
dont les erreurs de mesure à tous les débitsd’étalonnage
sont inférieures aux EMTont aussi des rendements très
proches
de 1. On réserve l’état03B51
auxcompteurs qui respectent
la conformité aux EMT sur toute la gamme de débits. L’état03B52
est
caractéristique
descompteurs ayant
unemétrologie imparfaite
mais encoreacceptable.
On a décidé del’assigner
auxcompteurs
dont la courbemétrologique
sort en
quelques points
des canaux de tolérance maisqui respectent
les EMT dans lagamme des débits entre
0.2qn
et0.9qn’
La raison de ce choix est que leprojet
d’arrêtéconcernant la vérification
périodique
descompteurs
en service(Costes
etPia, 2000) prévoit
deux essais d’exactitude : lepremier
à un débitcompris
entre0.8qn
et qn et ledeuxième à un débit
compris entre 0.1qn et 0.3qn (pour qn
10m3 /h).
Les compteursqui
se trouvent dans l’état03B53 présentent
donc des rendements très mauvais et sont aussipotentiellement
non-conformes. Enfin dans l’état03B54
on a mis les compteursbloqués
à tout débitqui n’enregistrent
pas.La
figure
3 montre les courbesmétrologiques
de troiscompteurs domestiques (qn
= 1.5m3/h) respectivement
dans les états03B51, 03B52, 03B53.
FIGURE 3
« États métrologiques
»2.3. Les données
Deux sources différentes de données sont
disponibles
pour l’étude.D’une
part
on utilise les résultatsd’étalonnage
decompteurs
enservice,
réalisés dans les laboratoires d’essai duGroupe
Veolia Water(base métrologique)
et d’autrepart
on se sert des informations issues d’un outil interne degestion
des parcs decompteurs (ICBC)
pouranalyser
lesphénomènes
deblocages.
Le recours aux deux bases de données est nécessairepuisque
l’état absorbant03B54
estpratiquement
inobservédans la base
métrologique.
L’exemple
détaillé dans la suite de cet article concerne 682 essais decompteurs volumétriques
de classeC, type Volumag,
qn = 1.5m3/h, d’âges compris
entre 6 et20 ans.
À partir
de la courbemétrologique
dechaque compteur,
onpeut
déterminerson état et son rendement. Les individus sont en suite
regroupés
et dénombrés par état et parâge
pour obtenir les ni(t),
soit le nombre decompteurs qui
se trouvent dansl’état
Si
àl’âge
t. Leur rendements sont utilisés pour estimer lesparamètres
des loisde
probabilités
des rendements à l’intérieur dechaque
état.La
figure
4 décrit les données dont on s’est servi pour les calculs d’inférence.FIGURE 4
Données utilisées pour
l’exemple
3. Le modèle de
dégradation
Un mécanisme markovien
homogène
dedégradation
a étéimaginé
sur la basede considérations
techniques (figure 5).
En effet des tests d’endurance réalisés par des fabricants sur banc d’essai montrent que le « vieillissement naturel » descompteurs
est très lent et ne provoque de
changement d’état,
àpartir
de03B51, qu’après
despériodes
extrêmement
longues.
Leschangements
d’état sont donc essentiellement liés à des accidents de parcours.En outre, il est réaliste de faire
l’hypothèse
que ladégradation
est irréversible et donc la chaîne a pour état absorbant03B54.
Le modèle est àtemps discret,
et l’unitétemporelle
est une année. Les éléments de la matrice de transitionOij
sont lesprobabilités
de passage de l’étatSi (âge t-1)
à l’étatEj (âge t).
Le vecteur
ligne
P(t) = {P1 (t), P2 (t), P3 (t), P4 (t) 1
desprobabilités
desquatre états,
àl’âge t,
estexprimé
en fonction deP (t - 1)
parl’équation :
P(t) = P(t - 1)·0398 (3)
où 8 est la matrice de transition.
À
l’intérieur dechaque état,
le rendement suit une loi deprobabilité
caractéris-tique
del’état,
dont lesparamètres
sont éventuellement fonction del’âge.
Lecouplage
entre le modèle de
dégradation
et les lois deprobabilité
des rendementspermet
de modéliser l’évolution de lamétrologie
d’un ensemble decompteurs
parmélange (en proportions
variables avecl’âge)
d’individusappartenant
aux différents états.FIGURE 5
Mécanisme markovien de
dégradation
3.1. Observation des
rapports
entre lesdifférents
étatsdans la base
métrologique
Dans la base
métrologique,
on trouve dans un état donné descompteurs d’âge
divers. L’essai d’un
compteur
est une mesuredestructive,
parce quel’appareil
testén’est pas remis en service. Il faut donc utiliser la
composition
des échantillons d’individus du mêmeâge,
pour estimer indirectement lesparamètres
du modèle.Le
problème majeur
est que dans les donnéesmétrologiques
on ne rencontre que très peu decompteurs
dans l’état03B54.
Cela est dû au fait que lescompteurs bloqués
sontrepérés
facilement sur le terrain par les releveurs etremplacés
aussitôt. Il y a donc uneabsence de
représentativité
de l’échantillon pour l’état03B54.
Parconséquent,
le nombred’individus dans la base
métrologique
nepermet
aucune estimation sérieuse deP4 (t).
Pour ce
qui
concerne les états03B51, 03B52, 03B53,
si on note ni(t),
le nombre decompteurs qui
se trouvent dans l’étatSi
àl’âge t,
etN(t) - n1(t)
+n2 (t)
+n3 (t)
la taille de l’échantillon descompteurs
nonbloqués d’âge t,
le vecteurn(t)= {n1(t), n2(t), n3(t)}
suit une loi multinomiale deparamètres W(t)
etN(t) :
où la
probabilité
conditionnelle d’être dans l’étatSi (sachant
que lecompteur
n’estpas
bloqué)
s’écrit :Concernant l’état initial des
compteurs,
onimagine
quepour t
== 0 tous lesappareils
se trouvent dans l’étatEl ,
c’est-à-dire :P(0) = {1,0,0,0}.
En effet à lasortie d’usine les
compteurs
doivent nécessairementrespecter
les EMT descompteurs
neufs encorrespondance
des débits qmin, qt et qmax et lerespect
de ces conditionsimplique
aussi lerespect
des critèresd’appartenance
à l’état03B51.
3.2. Observation des
déposes
decompteurs bloqués
Pour estimer l’occurrence de l’état
03B54
on utilise les informations contenues dans la base ICBC. En fait onpeut imaginer,
enpremière approche qu’un compteur qui
sebloque
dans lapériode (t-1, t)
est détecté dans l’année t etremplacé
avecprobabilité
Pr dans l’année t même.La
probabilité
deblocage Pb(t)
dans lapériode (t-l, t)
se calcule en fonction desprobabilités
d’état et desprobabilités
de transitions :Dans l’état actuel de la base
ICBC,
on n’est pascapable
d’observer toutes lesdéposes,
et en outre leur causes ne sont pastoujours
correctementrenseignées.
Unepartie
desremplacements
a lieu à titre« préventif » :
lecompteur
fonctionne mais legestionnaire
pensequ’il
existe un intérêttechnico-économique
à leremplacer.
D’au-tres
compteurs,
par contre, sontremplacés
parce que détectés défaillants(bloqués, fuyards, illisibles, gelés)
ou pour des raisons administratives(résiliation
ducontrat).
Dans notre
étude,
seuls lescompteurs déposés
pour cause deblocage
nousintéressent,
les autres causes n’étant aucunement liées à ladégradation métrologique.
On note pob la
probabilité qu’une dépose
decompteur
soit observée et correctementrenseignée
dans la base ICBC.Le nombre
Nb(t)
decompteurs d’âge
t,déposés
pourblocage
etrenseignés
dans la base ICBC suit alors une loi binomiale de
paramètres b(t) Pb (t) -
Pob ’ Pret
NC (t),
ce dernier étant le nombre decompteurs
installésd’âge
t :La valeur de pr utilisée dans les calculs
ci-après
estégale
à 1. On suppose donc que laprobabilité qu’un compteur bloqué
ne soit pasremplacé
aussitôt estnégligeable.
Concernant pob. on a choisi une valeur de
0.58,
sur la base de lacomparaison
entre le nombre d’observations recensées correctement dans la base
ICBC,
relativesà l’année 2001 et le nombre de
compteurs
neufsposés
par lesexploitants
la mêmeannée. On pourra, par la
suite,
étudier la robustesse des résultats vis à vis de la valeur choisie pour pob et p,.Le
modèle, paramétré
par les coefficients de la matrice 0 est relié auxgrandeurs
observables par les
équations
d’observation(4)
et(7)
et parl’équation dynamique (3).
3.3. Observation des rendements des
compteurs en fonction
del’âge
et de l’étatPour décrire la variabilité du rendement r on a
supposé
que, pourchaque classe,
ce dernier suit une loi detype
Bêta. Ces lois sontadaptées
au cas où lavariable aléatoire est bornée et unimodale. En
effet,
pour lescompteurs volumétriques,
la
dégradation
esttoujours
synonyme desous-comptage
etdonc,
il estimpossible
d’avoir des
compteurs qui,
aulong
de leurvie,
ont un rendementqui
augmente avecl’âge.
Grâce auxhistogrammes
de consommations et auxEMT,
on sait que la valeurthéorique
maximalequ’un compteur
de cetype peut
atteindre est 1.04.La variable aléatoire z =
r/1.04
est donccomprise
entre 0 et 1. On faitl’hypothèse qu’elle
est distribuée selon une loi Bêta standard deparamètres
a et0.
Les
paramètres
de cette loi sont fonction del’âge
pour les étatsSI
et03B52,
alorsque pour l’état
03B53
ils sont constants. Cette dernièrehypothèse
traduit lecomportement erratique
descompteurs
défaillants dont le rendement ne semble pasdépendre
del’âge (un jeune
défaillantpeut
être bienpire qu’un vieux).
Evidemment leproblème
ne sepose pas pour les
compteurs
del’état 03B54 qui
ont tous un rendementégal
à 0.La
dégradation
du rendement pour les états03B51
et03B52
est décrite par leséquations :
où
03B10i, 03B11i, 03B20i, 03B21i
> 0. Dans notre casparticulier (voir annexe),
leséquations (9)
et(10)
donnent lieu à des distribution deprobabilité
unimodales àespérance
décroissante et à variance croissante en fonction dutemps t (figure 5).
3.4.
Assemblage
desdifférents
modèles dans un cadreprédictif
Les résultats de l’inférence sont utilisés dans un cadre
prédictif
pour obtenir la distributionprédictive
des rendements descompteurs
« survivants »(non déposés)
d’âge
donné t. C’est unmélange,
deproportions
variables avecl’âge,
des rendements des 3 classes :Les ri sont évalués à
partir
deséquations (8),
et-y(t)
est la réalisation d’untirage
multinomial deparamètres (W(t), 1) :
Une autre
grandeur
d’intérêt pour le distributeur est le « rendement moyen » ducompteur, qui exprime
ladégradation
moyenne d’un ensemble decompteur,
défini par la relation :L’évolution de cette variable en fonction de
l’âge
est aussi dite «loi de vieillissement » d’un parc decompteurs exempt d’appareils bloqués.
4. Inférence
4.1.
Représentation
du modèlestatistique
sousforme
de DAGLe modèle
statistique,
décrit dans leparagraphe précédent peut
êtrereprésenté
sous forme de
graphe.
Dans cetteschématisation,
deplus
enplus répandue
dans lacommunauté
bayésienne,
les variables sontreprésentées
avec des noeuds éventuelle- ment liés entre eux par des connexionsexprimant
des relations de nature déterministeou
probabiliste.
L’absence de liens entre deux variablesreprésente
leurindépendance
conditionnelle.
Les liens
peuvent
être de deuxtypes :
directs et indirects(figure 6).
FIGURE 6
Types
de liens entre 2 variablesUn lien direct entre deux variables A et
B, représenté
par une flèche directe de A àB, exprime
le fait que Bdépend
de A(on
dit aussi que A est unparent
deB),
alors
qu’un
lien indirectreprésente plutôt
une corrélation entre les deux variables. Parexemple (Cowell et al., 1999)
si A est la variable binaire « Fumeur ? »(Oui
ouNon)
etB est la variable « Stress ? »
(p.ex.
mesuré par la tensionartérielle),
un lien direct entre A et B traduit l’assertion que fumer a un effet sur la tension artérielle. Vice versa, un lien indirectexprime
une association entre les deuxvariables,
nonexplicitée
dans lemodèle : par
exemple
ungène
inconnuqui prédispose,
en mêmetemps,
à l’habitude de fumer et au stress.Un DAG
(Directed Acyclic Graph)
est ungraphe
d’influence où tous les liens sont directs etqui
ne contient pas de boucles. De cettemanière,
la hiérarchie desparents
et des descendants est définie sansambiguïté.
Les relationsd’indépendance
conditionnelle
représentées
avec les DAG sontexprimées
par la «Local Directed MarkovProperty » :
toute variable03BEj
est conditionnellementindépendante
de ses nondescendants,
étant donné sesparents :
On montre
(Cowell
etal., 1999)
quel’équation (14)
est valide si et seulementsi la loi de
probabilité conjointe
de toutes les variables se factorise de la manière suivante :L’équation (15) simplifie
énormement les calculs d’inférence dans un cadrebayésien.
Lafigure
7 montre lareprésentation
du modèlestatistique
de vieillissement descompteurs
sous forme de DAG.Cette schématisation montre que le modèle
statistique proposé
estl’assemblage
de deux blocs différents :
1. Un modèle
dynamique
depopulation
deparamètre
G danslequel
lesprobabilités
d’occurrence des 4 états
métrologiques jouent
un rôle de variables latentes. Lesrejetons
de ce modèle sont lesgrandeurs
observables(de
deux naturesdifférentes) :
la
répartition
des troispremiers
états dans la basemétrologique
et lesblocages
observés sur le terrain.
2. Trois modèles d’observation des
rendements,
à l’intérieur de chacun des 3 étatsmétrologiques
de fonctionnement. Laprésence
d’un niveausupplémentaire
dansle modèle d’observation concernant les états
El et E2,
par rapport à celui relatif à l’état03B53,
montre bien la différence de comportement des 3 groupes decompteurs :
dans le dernier groupe iln’y
a pas dedépendance
du rendement del’âge.
L’analyse
du DAG met en évidence que l’inférence de chacun de ces 4 modèlesest menée
séparément
et que lecouplage
a lieuuniquement
enphase prédictive
pour reconstruire le rendement d’un parc decompteurs
en fonction de laproportion
dechaque
groupe à l’intérieur du parc et ducomportement métrologique
des différents groupes.FIGURE 7
Modèle
statistique
de vieillissementsous forme
de DAG4.2.
Inférence bayésienne
par les méthodes MCMCL’objectif
de l’inférencebayésienne
est l’obtention de la loi aposteriori [03BE|y]
desparamètres 03BE
dumodèle,
que le statisticienbayésien interprète
comme la « miseà jour »
d’une loi
a priori [03BE] (exprimant
la connaissancepréliminaire
sur cesgrandeurs)
suiteà l’observation des données
disponibles
y.La relation entre ces deux lois de
probabilité
estexprimée
par la formule deBayes qui,
dans le cas de variables continues s’écrit :Le passage
exprimé
par la formule deBayes, simple
sur leplan
formel etconceptuel,
est très difficile sur leplan opérationnel
dans laplupart
des cas, du fait de la difficulté de calcul del’intégrale
au dénominateur. D’autrepart,
dans lesapplications,
on est
plus
intéressé à obtenir des estimateurs et des intervalles de crédibilité aposteriori
pourchaque paramètre (03BE1,03BE2,...)
quel’expression mathématique
de leurloi
jointe
deprobabilité.
Lesalgorithmes
de simulation MCMC(Monte
Carlo MarkovChains)
sontaujourd’hui
des méthodes efficaces d’inférencebayésienne.
D’abord utilisées dans le domaine
physique (Metropolis
etal., 1953),
cesméthodes ont été
adaptées
à la simulationstatistique (Hastings, 1970)
pour l’obtention detirages
aléatoires dans une loi deprobabilité [03BE] (avec 03BE
G E CRd)
connue à uneconstante
près.
L’algorithme
deMetropolis-Hastings
construit une chaîne de Markovapériodi-
que et irréductible dans
l’espace E, ayant
comme distribution stationnaire[03BE]. Alors,
si l’on
produit
de nombreuses simulations de lachaîne,
àpartir
d’uneconfiguration
initiale
03BE0,
les « dernières valeurs obtenues » sont distribuées selon la loi stationnaire[03BE] (indépendante
de03BE0)
etpeuvent
être utilisées pour en évaluer lesprincipales
ca-ractéristiques statistiques (moyenne, médiane, percentiles).
Ces méthodes ont connudans les dernières années un tel succès dans la communauté
bayésienne,
que leur ap-plication
estproposée
et décrite dans tous les textes récents destatistique bayésienne : (Robert, 1992), (Bernardo
etSmith, 1994), (Gelman
etal., 1995), (Lee, 1997).
Pour résoudre le
problème
traité dans cet article on a utilisé unalgorithme
de
Metropolis-Hastings
avec une chaîneapériodique
et irréductibleparticulière :
l’échantillonneur de
Gibbs,
décrit pour lapremière
fois par Geman et Geman(1984).
Pour
appliquer
cetteméthode,
il est nécessaire de connaître les lois de chacune descomposantes
duvecteur F, - {03BE1, 03BE2,
...,03BEd}
conditionnellement à toutes les autres,appelées
conditionnellescomplètes.
Pour démarrer la simulation on donne des valeurs initiales aux variables03BE(0)
={03BE(0)1, 03BE(0)2,
...,03BE(0)d}
et ensuite onprocède
itérativement de la manière suivante pourgénérer 03BE(i), composante
parcomposante :
La chaîne de Markov ainsi construite a une distribution stationnaire et cette distribution est la loi visée
[03BE].
La démonstration de la validité del’algorithme
deGibbs et les méthodes
pratiques d’implémentation
se trouvent dansbeaucoup
detextes et
monographies
entièrement consacrés aux méthodes MCMCparmi lesquels (Neal, 1993), (Gilks
etal., 1996), (Robert, 1996), (Brooks, 1998).
Dans la
pratique
courante on itèreplusieurs
foisl’algorithme
de Gibbs et, on considère que, si on exclut lespremiers
vecteursobtenus,
lesréplications
restantessont issues de la distribution de
probabilité
visée et sont alors utilisées pour déduire defaçon empirique
la moyenne et lespercentiles
des lois aposteriori.
4.3. Modélisation
graphique
etinférence bayésienne
L’avantage
d’unereprésentation graphique
du modèle pour l’inférence est que les relationsd’indépendance statistique
entre les variables sontexplicites
etla
propriété (14)
faitapparaître
trèssimplement
l’écriture desexpressions
desprobabilités
conditionnelles quel’algorithme
de Gibbs utilise successivement àchaque
itération. Enfait,
selonl’équation (14) chaque variable (y compris
lesvariables
latentes)
est conditionnellementdépendante uniquement
de sa couverturemarkovienne
(Markov blanket) bl(03BEj),
ensemble formé de sesparents pa(03BEj),
de sesdescendants immédiats
ch(03BEj)
et desco-parents
de ses descendants. Formellement :où :
Dans la
pratique
desDAG,
les conditionnellescomplètes apparaissant
dans lesformules
(17)
sesimplifient
considérablementpuisque
seule la couverture marko- vienne est utilisée dans le conditionnement.La couverture markovienne de
03BEj, peut
être déterminée àpartir
d’unesimple
transformation du
graphe (moralisation), qui prévoit
lerajout
de liens fictifs entre les variablesqui
ont les mêmes descendants directs et effectue la transformation des liens directs en liens indirects. Onpeut
facilement voir quebl (çj)
est l’ensemble des voisinsde çj
dans ce nouveaugraphe.
FIGURE 8 Moralisation d’un DAG
La
figure
8 montre unexemple
de moralisation d’ungraphe.
Le noeud D estséparé
des noeuds A et F par sa couverture markovienne(B, C, E).
Parconséquent,
sachant
(B, C, E),
D et(A, F)
sont conditionnellementindépendants
et la loiconditionnelle
complète
de D(sachant
tous les autresnoeuds)
n’est fonction que deB,
C et E.5. Estimation du modèle de vieillissement des
compteurs
avec
l’ algorithme
de GibbsLes résultats de la dernière
partie
de cetarticle,
ont été obtenus à l’aide dulogiciel
WinBUGS(Spiegelhalter
etal., 1996, 1999).
Commel’indique
son nom(BUGS
=Bayesian Inference Using
GibbsSampler),
ce programme, né d’unprojet
de l’Unité de
Bio-Statistique
du MRC(Medical
ResearchCoucil)
deCambridge (Royaume Uni), permet
de mener les calculs d’inférencebayésienne
sur des modèlescomplexes,
à traversl’algorithme
de Gibbs. Un desavantages majeurs
est lapossibilité
de définir le modèle
statistique
directement sous forme de DAG : la conversion dugraphe
en code de calcul est faiteautomatiquement
par lelogiciel.
Sa relative facilité
d’utilisation,
sasouplesse,
et le fait quejusqu’à présent
sa li-cence d’utilisation est
gratuite (téléchargeable
du sitehttp ://www.mrc-bsu.cam.ac.uk/bugs/)
ont contribué à son succès dans la communauté
bayésienne.
Des nombreuxexemples d’application
de WinBUGS ont étépubliés (une
liste d’articles estdisponible
sur lesite web du
projet). Congdon (2001)
fournitplus
de 200exemples d’implémentation pratique
sous WinBUGS desprincipaux
modèles utilisés enstatistique appliquée.
Les distributions a
priori [03B8ij]
desprobabilités
de transition utilisées pour cetexemple
sont noninformatives.
Enparticulier
la loi apriori jointe
est leproduit
de troisdistributions de Dirichlet
indépendantes,
définies dans les espaces desprobabilités
de transition à
partir
des états03B51, 03B52, 03B53 respectivement :
Les distributions de
Dirichlet,
couramment utilisées enstatistique bayésienne
comme lois a
priori conjuguées
des distributions multinomiales(Good, 1965), (Gelman
et al.1995),
sont desgénéralisations
des lois Bêta dans le cas de variables multidimensionnelles. Une loi apriori
non informative(uniforme)
est obtenue enaffectant la valeur 1 à tous les
paramètres
aij. Un autrechoix, plus classique,
est laloi non informative de
Jeffreys
danslaquelle
ceij =1/2.
Le tableau 1 montre les résultats de l’inférence
bayésienne
concernant lesprobabilités
de transitions et notamment les moyennes et lespercentiles
des loisa
posteriori.
Ces valeurs sont obtenuesgrâce
àl’analyse
des derniers 5000 résultats de la simulation MCMC(sur
un total de 6000 itérations del’algorithme
deGibbs).
Lareprésentation
des mêmes résultats sous forme dediagrammes
en bâtons est fournieen
figure
9 pour les transitions03B8ij
lesplus
intéressantes.L’intervalle
compris
entre lepercentile
0.025 et lepercentile
0.975 constitue l’intervalle de crédibilité aposteriori
à 95% :
autrementdit,
sous forme dejugement
TAB LEAU 1
FIGURE 9
Estimation par méthode MCMC des distributions a
posteriori
des03B8ij
probabiliste
direct quepermet l’approche bayésienne,
« il y a 95%
de chance que lesparamètres
soientcompris
entre les bornes de ces intervalles ».L’interprétation
différente de l’intervalle de crédibilité
(bayésien)
et de l’intervalle deconfiance (fréquentiste)
constitue une des différencesmajeures
entre ces deuxapproches (Lecoutre
et Poitevineau,1996), (Bernier
etal., 2000).
La
figure
10 trace les intervalles de crédibilitéprédictifs
desprobabilités
d’occurrence des 4 états en fonction de
l’âge
del’appareil.
Lagrandeur P3(t)
estparticulièrement
intéressante parcequ’elle
constitue une estimation de laproportion
de
compteurs potentiellement
non conformes au sein d’une certainepopulation.
L’ horizon
temporel
choisi est de 20 ans de service.FIGURE 10
Intervalles de crédibilité des
probabilités d’appartenance
aux 4 étatsLa
figure
11 donne l’évolution du rendement moyen pour ce type decompteur,
alors que lafigure
12 montre la distributionprédictive
des rendements pour descompteurs
survivantsd’âge 1,5, 10, 20
ans, obtenue par simulation de Monte Carlo à l’aide del’équation (11).
FIGURE 11
Intervalles de crédibilité à 95
%
du rendement moyen d’un parc de compteursSur la