R EVUE DE STATISTIQUE APPLIQUÉE
J EAN -B APTISTE D URAND L AURENT B OZZI
G ILLES C ELEUX
C HRISTIAN D ERQUENNE
Analyse de courbes de consommation électrique par chaînes de Markov cachées
Revue de statistique appliquée, tome 52, n
o4 (2004), p. 71-91
<http://www.numdam.org/item?id=RSA_2004__52_4_71_0>
© Société française de statistique, 2004, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE DE COURBES
DE CONSOMMATION ÉLECTRIQUE
PAR CHAÎNES DE MARKOV CACHÉES
Jean-Baptiste DURAND*,
LaurentBOZZI**,
GillesCELEUX***,
ChristianDERQUENNE**
* INRIA
Rhône-Alpes,
Montbonnot, France** EDF-R&D, Clamart, France
*** INRIA Futurs, Orsay, France
RÉSUMÉ
Nous
présentons
uneméthodologie
basée sur les chaînes de Markov cachées pour la modélisation etl’analyse statistique
de courbes de consommationélectrique.
Suite à uneanalyse
de variance
qui
permet d’estimer l’effet sur lalog-consommation
de facteurs contrôlés (mois,jour,
heure, type de contrat etpuissance
maximale souscrite), nous modélisons les résidus parune chaîne de Markov cachée. Ensuite, les états cachés sont restaurés
puis interprétés grâce
à un tableau d’intensité les mettant en relation avec la consommation de différents
appareils électriques
(ou usages)lorsque
celle-ci estdisponible.
Nous montrons comment cetteapproche,
par
l’usage conjoint
du tableau d’intensité et des états cachés restaurés, permet une estimation de la consommation dechaque
usage dans le cas où elle est inconnue. Laprise
en compte d’informations a priori sur la consommation rend cette estimationplus
réaliste. Enfin, nousabordons le
problème
de la sélection de modèles. Les critèresclassiques
conduisent à des modèlescomplexes qui
rendent très difficilel’interprétation
des états cachés par leur mise encorrespondance
avec les usages. Nousprésentons
et commentons des méthodes de sélection alternativesqui
tiennent compte del’objectif
de mise en relation des états cachés et des classes de consommation.Mots-clés : Chaînes de Markov cachées, Consommation
électrique,
Déconvolution, Sélection de modèles.ABSTRACT
We
develop
anapproach
based on hidden Markov chains for themodelling
and statisticalanalysis
of electricconsumption
curves. Apreliminary analysis
of variance leads to the estimation of effects of fixed factors (month,day,
hour, type of contract and maximalpower)
onthe
log-consumption.
Then the residuals are modelled with a hidden Markov chain. The hidden states are restored andinterpreted using
anintensity
tablerelating
the restored hidden states tothe
consumption
of various electrical devices when available. We show how theconsumption
induced
by
each device can be estimated, from the restored states and theintensity
table. Theestimates are made more realistic
by taking advantage
ofprior
information on theconsumption.
Finally,
we deal with model selection issues. The usual criteria select toocomplex
models, andthus do not
help relating
hidden state to the deviceconsumption
in a clear way. We presentalternative selection methods
taking
into account the purpose oflinking
hidden states andconsumption
groups.Keywords :
Hidden Markov Chains, Electric Consumption, Deconvolution, Model Selection.1. Introduction
Cette
étude,
réalisée dans le cadre d’une collaboration entre ledépartement
« clientèle » de EDF-R&D Clamart et l’INRIA
Rhône-Alpes,
a pourobjet l’analyse statistique
de courbes de consommationélectrique journalières.
Ils’agit
de déterminer les facteursexpliquant
les variations de laconsommation,
d’estimer lapart
de la consommation due aux différentsappareils électriques (ou usages)
et de comparer les usages entre eux. Le but estégalement
dedisposer
de modèlesstochastiques adaptés
à la consommation à des fins
d’analyse,
de simulation et deprévision.
L’approche
retenue pour la modélisation repose surl’hypothèse
que la consom-mation
électrique
d’unfoyer s’explique
essentiellement par l’existence depériodes homogènes
dupoint
de vue de la consommationélectrique
etqu’à
l’intérieur de cha-cune de ces
périodes,
les fluctuations de la consommation sont dues au hasard. Ceprincipe
conduit à considérer un modèle basé sur les chaînes de Markov cachées.Au
préalable,
les variations de la consommationélectrique s’expliquent
enpartie grâce
à uneanalyse
devariance, qui permet
de mettre en évidence l’effet de facteurs contrôlés :mois, heure, type
de contrat etpuissance
maximale souscrite. Cesont alors les résidus de cette
analyse
devariance, interprétés
comme l’informationnon
prise
encompte
par cemodèle, qui
sont modélisés par une chaîne de Markov cachée.Les états
cachés,
dont la succession entraîne l’existence depériodes homogènes
de
consommation,
sont restauréspuis interprétés grâce
à un tableau d’intensité les mettant en relation avec la consommation de différentsappareils électriques (ou usages) lorsque
celle-ci estdisponible.
Unobjectif
de cette étude est de permettre l’estimation de la consommation dechaque
usage dans le cas où elle est inconnue.Nous donnons une méthode pour estimer ces consommations
qui
utilise le tableau d’intensité croisant les états cachés restaurés et les usages. Mais les courbes de consommation estiméesmanquent
deréalisme,
enparticulier
à cause del’absence,
pour certainsfoyers, d’appareils électriques
connus, et de la nonprise
en compte de l’ordre degrandeur
des usages. Nous montrons comment laprise
en compte d’informations apriori
sur la consommationpermet
de rendre cette estimationplus
réaliste.
Enfin,
nous abordons leproblème
de la sélection de modèles. Les critères clas-siques
conduisent à des modèlescomplexes qui
rendent très difficilel’interprétation
des états cachés par leur mise en
correspondance
avec les usages. C’estpourquoi
nous
présentons
une méthode de sélectionprivilégiant
la facilitéd’interprétation
dumodèle
(i. e.
des étatscachés), quantifiée
par la mesure de l’écart àl’indépendance
entre usages et états cachés.
La
problématique
de l’étude et la nature des données sontprécisées
dans lapartie
2.L’analyse
de variancepréalable
à la mise en oeuvre de ces modèles estprésentée
enpartie
3. Lapartie
4 est dédiée à la modélisation par chaînes de Markovcachées. Les états cachés du modèle sont
interprétés
par uneanalyse
factorielle descorrespondances
décrite enpartie
5. La mise encorrespondance
des usages et des étatscachés,
à la base de la méthode d’estimation des usages, estprésentée
enpartie
6.La sélection de modèles est traitée en
partie 7;
elle est suivie d’une discussion et de remarques de conclusion enpartie
8.2. Données et
problématique
Il
s’agit d’exploiter
les résultats d’une campagne de mesure desprincipaux
usages
domestiques
de la clientèle résidentielle d’EDF : lechauffage électrique (désigné
par l’abréviationCHA),
l’eau chaude sanitaire(ECS), l’éclairage halogène (H), l’éclairage
nonhalogène (NH),
les autrestypes d’éclairage (ECL),
le lave-vaisselle
(LV),
lelave-linge (LL),
lesèche-linge (SL),
la cuissonclassique (CUI),
les
équipements
de télévision et chaîne hi-fi(TVH),
lesappareils
deréfrigération (FRD),
les autresappareils électriques (AUT).
La consommation totale dulogement,
tous usages et
appareils confondus,
estégalement
mesurée. Cette campagne concerne 100 clients dont les usages sont mesurés sur une annéeentière,
toutes les dix minutes.Pour des raisons de confidentialité des données et pour tester la robustesse de notre
méthode,
les courbes decharge
fournies par EDF ne sont pas des mesuresde la consommation réelle. Au
logarithme
des valeurs mesurées estajouté
un bruitgaussien centré,
de varianceégale
à 10%
de celle estimée àpartir
des donnéesayant
mêmes mois et heure. Deplus,
seules 856courbes,
choisies pour leurreprésentativité
sur la base d’une classification des clients
puis
d’une stratification par la classe et lemois,
sont sélectionnéesparmi
les 18 250 initialementdisponibles.
Nousdisposons
ainsi d’autant de courbes de
charge,
donnant la consommation totalejournalière
dulogement (une
mesure toutes les dixminutes).
Ces courbes sont utilisées pour estimer lesparamètres
des modèlesd’analyse
de variance et de chaîne de Markov cachée(parties
3 et4).
D’autre part, nousdisposons également
de 444courbes,
de même pasde temps que ci-dessus et bruitées suivant un
procédé similaire,
où ladécomposition
par usage est
disponible.
Ces courbes sont dédiées à l’estimation de lapart
de la consommation due àchaque
usage(partie 6).
De nombreux relevés de consommation sontmanquants,
aussi bien dans les courbes de consommation totale que dans cellescorrespondant
aux usages.Les
apports
attendus d’un modèlestatistique
pourl’analyse
de ces courbesde consommation sont l’étude des variations de la consommation en fonction de différents facteurs
contrôlés, parmi
lemois,
lejour
de la semaine ou dumois, l’heure,
letype
de tarif(normal,
nuit ouEJP)
et lapuissance
souscrite. Pour le tarif EJP(Effacement
Jour dePointe),
l’année estpartagée
en 22jours
où leprix
du kWh estélevé,
et 343jours
normaux - où ceprix
est moins cherqu’en
tarif de base. Nous désirons aussi réaliser l’estimation des usagesquand
seule la consommation totale est connue, de même que laprévision
de la consommation future delogements,
etla simulation de scénarii de consommation
électrique,
d’où l’intérêt d’un modèlestochastique.
Dans ce
qui suit,
nous nous intéressonsprincipalement
à l’étude de facteurs contrôlésayant
un effet sur la consommationélectrique,
à la modélisation de cette consommation par chaînes de Markov cachées et à ladécomposition
de laconsommation totale suivant les usages. L’utilisation des chaînes de Markov cachées
présente,
entre autresavantages,
l’intérêt de rendresimple
la simulation et laprévision
de la consommation
électrique
une fois lesparamètres
du modèle estimés.3. Prétraitement des données
Préalablement,
nous effectuons uneanalyse
de variance en fonction de différents facteurs contrôlés.Effectivement,
un modèle à structure cachée vise à mettre enévidence des effets non mesurables directement à
partir
des covariablesdisponibles.
Il est donc
important
de travaillerorthogonalement
aux effets contrôlés.Ainsi,
la modélisation par chaînes de Markov cachées doit se faire sur les résidus d’un modèle validéd’analyse
de variance. Notons que de la sorte, on consolidel’hypothèse
destationnarité du processus observé
(sa
non stationnaritéimplique
celle du processuscaché).
Dans
l’analyse
devariance,
les variables aléatoires sontsupposées gaussiennes.
L’histogramme
degauche
sur lafigure
1représente
larépartition
de tous les relevés de consommationélectrique globale (Gt ) t,
tandis que celui de droitereprésente
celle deleur
logarithme.
Nous constatons visuellement quel’hypothèse
d’une loigaussienne
ou de
mélange gaussien
est nettementplus plausible
pour les(log(Gt))t
que pour les(Gt)t. Cependant,
l’assimilation de la courbe deslog-consommations
à une loigaussienne
estimparfaite.
Onpeut
donc s’attendre à ce que les résidus del’analyse
de variance ne soient pas réductibles à du bruit et contiennent en fait de l’information que nous allons modéliser par une chaîne de Markov cachée.
Consommations
électriques Logarithme
des consommationsélectriques
FIGURE 1
Histogramme
des consommationsélectriques
et leurlogarithme
Les facteurs contrôlés
disponibles
sont les suivants : type de contrat(ou tarif) (c), puissance
souscrite(p),
mois(m),
heure dujour (h), jour
du mois etjour
de lasemaine. La
partie
concernant la sélection des facteurs et de leurs interactions dansl’analyse
de variance estreportée
dans lapartie 7,
dédiée à la sélection de modèles.Nos conclusions sont que la
prise
encompte
des effetsjour
du mois etjour
de lasemaine contribue peu à réduire la déviance par
rapport
aux autres facteurscontrôlés;
ces effets sont donc
ignorés.
En outre, laprise
encompte
d’interactions entre facteurs autres que le mois et le tarif n’est paspertinente
nonplus.
Deplus,
les tarifs « nuit » et « EJP » sontregroupés
dans une même modalité de l’effet c - l’autre modalité étant le tarif « normal ».En
définitive,
nous considérons le modèle suivantd’analyse
de variance pour lelogarithme
de la consommationélectrique globale Gm,h,p,c,t :
le terme
Cc, m représentant
une interaction entre letarif
et le mois. Les estimateurs des coefficients associés aux facteurs mois et heure sontreprésentés figure
2. Parconvention,
pourchaque
effetcontrôlé,
la valeur duparamètre
pour lapremière
modalité est nulle.
Effet
du moisEffet de l’heure
FIGURE 2
Estimateurs de
paramètres
del’analyse
de variancepour les
effets
dus au mois et à l’heureNous proposons ensuite de modéliser le processus des
(Et)t
par une chaînede Markov
cachée,
de sorte que par cohérence avec les notations usuelles utilisées dans lapartie 4,
lerésidu 03B5t
est notéYt.
Dans le modèled’analyse
devariance,
lesrésidus
(03B5t)t
sontsupposés indépendants
et de loi normale de moyenne nulle et de variancea2.
L’idéeprésidant
à notre tentative de modélisation estprécisément
queces
hypothèses d’indépendance
et de normalité ne sont pas vérifiées dans le contexte de courbes de consommationélectrique.
4. Modélisation
Nous
précisons
leshypothèses
conduisant à considérer des modèles de Markov cachéspuis rappelons
les méthodes d’inférencespécifiques
à ces modèles.4.1.
Définition
des chaînes de Markov cachées etapplication
à la modélisation de la consommationL’idée à
l’origine
de la modélisation de la consommationélectrique
par deschaînes de Markov cachées est que la consommation
électrique
d’unlogement s’explique
essentiellement par l’existence depériodes homogènes
etqu’à
l’intérieur de chacune de cespériodes,
les fluctuations de la consommation sont dues au hasard.Par
exemple,
pour unménage,
lespériodes
decomportement homogènes
peuvent êtreinterprétées
en termes d’activitédomestique
induisant différents niveaux de consommationélectrique :
repos,lessive, préparation
de repas, veillée avec utilisation de la télévision ou de la chaînehi-fi,
etc. Les transitions entre ces activités sontmodélisées par une chaîne de Markov. Or nous ne
disposons
pas d’informationsur l’activité des
ménages,
c’estpourquoi
les valeurs de la chaîne de Markov sontcachées. Du fait que, dans une
période homogène donnée,
les fluctuations de la consommation sont dues au hasarduniquement,
les consommations instantanées sontconditionnellement
indépendantes
sachant l’état caché et suivent une loi detype
connu(par exemple
une loigaussienne).
Pour tout processus
(zt)t1
et toutcouple
d’entiers(t1, t2)
avec t1 t2, nousdésignons
laséquence (2t1,..., Zt2 )
parZtt12. Formellement,
le modèle est le suivant.La consommation
électrique
est décrite par deux processus : le processus observé(Yi,..., Yn )
de la consommationélectrique proprement dite,
à valeurs dansR+
et notéYn1,
et un processus caché(SI,
... ,Sn),
à nombre finid’états,
à valeurs dansf 1, K}
et notéSr, qui
sont tels que :-
Sr
est une chaîne de Markovhomogène,
irréductible et stationnaire de matrice de transition P et de distribution stationnaire 7r =(7r,,
... ,7rK)
avec 03C0j 0et 03A3Kj=1 03C0j = 1;
- les
Yt
sontindépendants
conditionnellementaux St ;
- sachant
St
=j, Yt
suit une loi de densitéf03B8j appartenant
à une familleparamétrée (f03B8)03B8~0398.
Il s’ensuit que la loi de
Yin
estgouvernée
par une chaîne de Markov cachée.Les
paramètres
de ce modèle sont notés 03BB =(7r, P, 03B81,..., 03B8K).
Notons que le choix de la famille
(f03B8)03B8~0398
des loisd’émission, qui
modélise lanature du
bruit,
estimportant.
Nous choisirons une famillegaussienne,
de sorte que 03B8 =(/1, a2)
où /1représente
la moyenne etu 2 la
variance. Ce choix estjustifié
dans lapartie
3 par le fait que les résidusYt
semblent suivre une loi demélange gaussien plutôt qu’une
loigaussienne (voir figure 1), puis
il est validé dans lasous-partie
5.2. Sousles
hypothèses ci-dessus,
pourchaque t compris
entre 1 et n, lemélange
définissant la loimarginale de Yt
a pour densité :4.2. Estimation des
paramètres
Nous
considérons,
dans unpremier temps,
les 856 courbes decharge journalière
de la consommation
électrique totale,
les usages n’étant pasdisponibles.
Nousdisposons
deplusieurs séquences
de n relevés de consommationélectrique
pour l’estimation desparamètres.
Ceux-ci sont estimés par maximum devraisemblance,
en utilisant
l’algorithme
EM pour les chaînes de Markov cachées dû à Baum et al.(1970).
Cetalgorithme
itératifpart
d’une valeur initiale03BB(0)
desparamètres
etcrée une suite
(03BB(m))m0 qui
converge vers la solution consistante deséquations
devraisemblance,
si03BB(0)
estproche
de la solutionoptimale.
Chaque
itération del’algorithme
EM consiste à :- calculer la loi conditionnelle de
chaque paire
d’états cachésconsécutifs,
sachant les observations(étape E) ;
- réestimer les
paramètres
en utilisant cesprobabilités
de sorte à maximiserl’espérance
conditionnelle des donnéescomplètes,
constituées du processus observéYln
et du processus cachéSn1,
sachantYn1
et la valeur courante desparamètres
du modèle(étape M).
L’estimateur obtenu peut
dépendre
fortement de la valeurinitiale 03BB(0),
c’estpourquoi
nous considérons trois valeurs initiales tirées au hasard et effectuons 20 itérations del’algorithme
pour chacune d’entre elles. La valeur ayant la vraisemblance maximale est utilisée comme valeur initiale d’une exécutionsupplémentaire
del’algorithme EM, stoppée lorsque
10 000 itérations sont effectuées oulorsque
lacroissance relative de la
log-vraisemblance
passe en dessous du seuil10-6.
Les lois conditionnelles intervenant dans
l’étape
E sont calculées par une récursion avant-arrièreinspirée
de celle deDevijver (1985)
maisprenant
encompte
l’existence d’observationsYt manquantes.
Cette récursion a étédéveloppée
dansCeleux et Durand
(2002)
et est détaillée dans Durand(2003)
dans le contexte de lasélection de modèles de Markov cachés par
demi-échantillonnage.
Dans le cas de mesures réelles de la consommation dans des
logements,
onpeut
fairel’hypothèse
que les consommationsjournalières
de différentslogements
sont des réalisations de
plusieurs
modèles distincts.Cependant,
nousdisposons
enl’occurrence de courbes bruitées obtenues à
partir
d’un sous-ensemble des courbesréelles,
que nous supposons être des réalisations mutuellementindépendantes
d’unmême modèle. Nous
disposons ainsi,
pour l’estimation desparamètres,
de 856 courbes delongueur
144(courbes journalières
où les mesures sont effectuées avec un pas detemps
de dixminutes) supposées indépendantes.
5.
Interprétation
des états cachésUne
compréhension
fine du modèle passe parl’interprétation
des états cachés.D’une part, celle-ci
permet
d’associer un niveau de consommation moyen àchaque
état. En outre, la restauration des états cachés
permet
d’obtenir deshistogrammes
reflétant la distribution
empirique
conditionnelle de la consommation dans un étatdonné.
Enfin,
la mise encorrespondance
des usages et des états cachéspermet
leurinterprétation
en termes d’activité.Dans ce
qui suit,
nous considérons un modèle de chaîne de Markov cachée à K == 7 états cachés. Ce choix estexpliqué
dans lapartie 7,
dédiée à la sélection de modèles.5.1. Restauration des états cachés
Les états cachés
(t)t
lesplus probables
sont calculés pourchaque
courbeséparément
parl’algorithme
du Maximum APosteriori,
ou MAP(dit également algorithme
deViterbi,
pour les chaînes de Markovcachées,
voirForney, 1973).
Cetalgorithme
détermine les états cachés maximisant laprobabilité
conditionnelle de la chaîne cachéeentière,
sachant les observations. Lafigure
3permet
lacomparaison,
pour une courbe donnée
(courbe
numéro1),
de la consommationélectrique globale (ct)1t144 (cadre supérieur),
sonlogarithme (log(ct))1t144 (cadre
dumilieu)
et lesrésidus
(yt)1t144, superposés
aux états cachés restaurés parl’algorithme
de Viterbi(cadre inférieur).
Les
sept
états cachés sedistinguent
par la valeur de la moyenne et de la variance des lois conditionnellesgaussiennes.
Les moyennes estimées(j)1j7
sont donnéespar
l’équation (3).
On peut renommer(C1,
...,C7)
les indices des états cachés en ordonnant ces derniers par valeur décroissante deft,
La variance estimée est du même ordre de
grandeur
pour les différents étatscachés,
à savoir d’environ0,065
sauf pour l’état 3(aussi appelé
C7 etcorrespondant
auxconsommations les
plus faibles),
où elle est trois foisplus
élevée.Ainsi,
les états cachéssont essentiellement liés aux différents niveaux de la
log-consommation, corrigée
desvariations saisonnières et de celles dues au type de contrat.
5.2. Estimation de la densité
marginale
et des densités conditionnelles Le nombre d’états cachés peut être vu comme le nombre decomposants
dela loi
marginale
deYt, puisqu’il s’agit
d’une loi demélange (voir équation (2)).
Pour
apprécier
visuellement laqualité
de l’estimation de cette densitémarginale,
nous superposons dans la
figure
4l’histogramme
des valeurs observées(Yt)t
avec ladensité
théorique
en utilisant lesparamètres
estimés.De
plus,
la restauration des états cachéspermet
de tracerl’histogramme
desrésidus yt
dont l’état leplus probable
estSt
= k(au
sens duMAP).
Nous superposons ensuite cethistogramme
à la densité conditionnelle estimée deYt
sachantSt
=k,
en l’occurrence la loiN(k, 2k) -
voirfigure
5. Nous constatons une bonne coïncidenceFIGURE 3
Consommation,
log consommation,
résidus et états cachés pour la courbe numéro 1.En
haut,
la consommationélectrique globale;
aumilieu,
lalog-consommation;
en
bas,
les résidus del’analyse
de variance et les états cachés restaurésentre les deux courbes pour chacun des états cachés. Ceci tend
à justifier l’hypothèse
que les lois d’émission sont en effet
log-normales,
si l’on considère la consommationélectrique (nous
étudions en réalité sonlogarithme).
D’autrepart, l’interprétation
des états cachés en est facilitée. En
revanche,
une non coïncidencen’apporte
pas d’information sur laqualité
dumodèle,
carl’algorithme
de Viterbi utilise uneprocédure
d’affectation par leprincipe
du MAPqui
nerespecte
pas nécessairement larépartition
des composants, notammentlorsqu’ils
sont peuséparés.
5.3. Mise en
correspondance
des usages et des états cachésNous exposons maintenant comment tirer
parti
des états cachés restaurés(St) t
et de la connaissance des usages pour certaines courbes
(en
nombre R =444),
pourFIGURE 4
Densité
marginale théorique
etempirique
des résidusFIGURE 5
Histogrammes
des résidus conditionnellement à l’état caché leplus probable interpréter
les états cachés en termesd’usages privilégiés.
Eneffet,
àchaque
instantt, la mesure de la consommation
électrique
est affectée à l’un dessept
états cachés st. Dans unpremier temps,
nous utilisons les données concernant les usages pour calculer laquantité suivante,
pourchaque
usage u etchaque
valeur de l’étatcaché j :
où
consoru (t) représente
la consommation à l’instant t due àl’usage
u, pour la courbe de numéro r. La consommationglobale
pourl’usage u,
toutes courbesconfondues,
s’exprime
donc parOn obtient un tableau d’intensité
(nju)j,u (représenté
tableau1)
dont leslignes j correspondent
aux états et les colonnes u aux usages, et dont les valeursdépendent
de l’unité de
puissance adoptée.
Pour cetableau,
onpeut
calculer lastatistique
du03A62,
définie par
Cette
statistique
du03A62
mesure l’écart àl’indépendance
des douze usages et des Kétats; multipliée
parN,
elle serait lastatistique
duX2
si N était un effectif. Nousnormalisons cet indice
descriptif
par11(K - 1)
afin de rendre les indicesdescriptifs comparables
entre eux pour différentes valeurs de K.L’interprétation
des états cachés parrapport
aux usages passe par uneanalyse
factorielle descorrespondances.
TABLEAU 1
Tableau d’intensité pour K = 7
L’inertie du nuage des
(n j u) j, u
a un pourcentage dereprésentation
de 99%
dansle
premier plan principal
del’analyse
descorrespondances (figure 6).
Tous les états ettous les usages sauf
l’éclairage
nonhalogène
NH sont bienreprésentés
dans ceplan.
Les états sont situés sur une
parabole
surlaquelle
ils sontordonnés,
suivant la valeur de la moyenne de leur loi d’émission. Ils’agit
d’une manifestation del’effet Guttman,
dû au fait que les états ont unesignification quantitative
etqu’il
existe une relation nonlinéaire entre les deux axes
principaux (au sujet
de l’effetGuttman,
voir parexemple
Lebart et
al., 1995).
Les usages sontpratiquement
situés sur cetteparabole. Ainsi,
lepremier
axeprincipal
est très fortement lié à l’intensité de la consommationélectrique
et oppose les valeurs maximales
(état C1) -
associéesprincipalement
à l’eau chaude mais aussi aulave-vaisselle, lave-linge
etsèche-linge -
aux valeurs minimales(états C7,
C6 etC5) -
associées à laréfrigération.
Le deuxième axeprincipal
oppose les consommations intermédiaires - liées àl’halogène, qui
a unprofil atypique,
et auchauffage -
aux consommations extrémales. Lequadrant
« sud-ouest »correspond
essentiellement aux consommations nocturnes où la
réfrigération représente l’usage dominant,
ainsi que la télévisionquand
elle est en veille.FIGURE 6
Représentation
des états et des usages dans lepremier plan principal
de l’AFC(modèle
à 7 étatscachés)
6. Estimation de la consommation due aux usages
Nous
présentons,
dans cettepartie,
une méthodepermettant
d’estimer lapart
de la consommationglobale
due àchaque
usage, en utilisant la restauration des états cachés et le tableau d’intensité mettant encorrespondance
les usages et les états cachésrestaurés.
Étant
donné une courbe de la consommationélectrique journalière
totale(gt)
1t144 d’unménage,
éventuellement avec des relevésmanquants,
on souhaiteestimer la consommation
(gut)1t144
due àchaque
usage u. Pour cefaire,
nouscalculons les résidus
(yt) t des (log(gt))t
parl’analyse
de variance(1).
Nous utilisons ensuite le modèle de chaîne de Markov cachée estimé pour restaurer les états cachéssi 44
parl’algorithme
de Viterbi. Le tableau d’intensité croisant usages et états cachés restauréspermet
ensuite le calcul de la loi conditionnelle des usages sachant l’état caché leplus probable.
Cetteprobabilité
conditionnelle constitue une estimation de lapart
de la consommationglobale
due àl’usage
u. On pose pour toutétat j
et toutusage u
La
quantité fi.
est un estimateur de laprobabilité jointe
d’être dansl’état j
pourl’usage
u. Laprobabilité
conditionnelle del’ usage u
sachantl’état j
est estimée parEnfin,
si à l’instant t ona st
=j,
alors l’estimateur de la consommation due àl’usage u
estgt
=f u IJ gt.
Lafigure
7 contient la courbe de consommation totaleréelle, puis
celles des résidus et des étatscachés,
tandis que lafigure
8présente
lescourbes restaurées par cette méthode avec, pour
comparaison,
la consommation réelle pourquatre
des usages(AUT, LV,
ECS etECL), qui
est connue pour chacune des 444 courbes considérées pour la construction du tableau d’intensité.Rappelons cependant qu’il s’agit
de consommations bruitées. Les différencesimportantes
entre ces deuxdernières courbes mettent en évidence l’intérêt de
prendre
encompte
des informations extérieures sur les habitudes de consommation desfoyers.
L’information extérieure la
plus
facile àprendre
en compte est l’absence d’unappareil électrique
dans unlogement.
Parexemple,
dans le cas de lafigure 8,
lelogement
necomporte
pas delave-linge,
desèche-linge,
dechauffage
de l’eau et dechauffage électrique,
nid’éclairage
nonhalogène.
Ceci estpris
encompte
enimposant
que les nju soient
égaux
à 0 pour toutes les valeursde j
et pour les valeurs de ucorrespondant
aux usages absents. Les estimateurs desprobabilités
conditionnelles sont alors réactualisés enconséquence,
en utilisant la même formule que dans lapartie précédente.
Les trois courbes de lafigure
8 illustrent l’effet de lasuppression
descinq
usages cités ci-dessus. Il est
également possible
desupprimer
certains usages à des heuresprécises
de lajournée
et nonplus
forcément pour lajournée
entière. Ceci nechange
pas le raisonnementprécédent,
valable pour des instants tquelconques.
Sur la
figure 8,
lapart
de la consommation due aux usages, enparticulier l’éclairage,
est mieux estiméequand
onprend
encompte
les usages absents.Cependant,
cette méthode d’estimationpossède
encore les inconvénients suivants : lesgrandeurs
du tableau d’intensitécorrespondent
à desgrandeurs
detype
consommation instantanée xtemps, qui s’expriment
en watt heure. Ces watt heures sontrépartis
globalement
suivant les différents usages, mais c’est la consommation instantanée que nous cherchons à reconstituer. Parconséquent,
l’estimation des usages seConsommation totale réelle
Résidus de l’ANOVA et états cachés restaurés
FIGURE 7
Consommation totale réelle et résidus de l’ANOVA
fait sur la base de la consommation moyenne et de manière
proportionnelle
à laconsommation totale. Ceci ne
prend
pas encompte
le fait que laplupart
desappareils qui
consommentbeaucoup
fonctionnent brièvement(sèche-linge
etlave-linge
parexemple).
L’estimation par notre modèle de la consommation de cesappareils conduit,
au
contraire,
à des valeursplus
faibles(due
à larépartition proportionnelle
de laconsommation entre les
usages)
maispendant
une duréeplus longue
que la durée réelle. D’autrepart, l’usage
autresappareils (AUT)
est leplus représenté.
Deplus,
ilConsommation réelle par usage.
Consommation des usages estimée.
Estimation
prenant
encompte
l’absence de certainsappareils électriques.
FIGURE 8
Estimation de la consommation due aux usages
sèche-linge,
eau
chaude, éclairage
et autres, sur des données réelles bruitéesn’est associé à aucun état
spécifique.
Lapart
de la consommation affectée à cet usage est donctoujours
élevée(voir
parexemple
lepic
de la consommation estimée pour cet usage, vers 22heures, figure 8).
Nous avons donc tenté de tenir
compte
des heures depointe,
de l’ordre degrandeur
relatif de la consommation dechaque appareil
et de la saisonnalité des usages, à l’aide d’une courbetype ([ii)i de
la consommation pourchaque
usage. Le choix d’unpoids
pu E[0, 1]
déterminel’importance
donnée à la courbetype
parrapport
à la courbe estimée. La consommation à l’instant t due àl’usage u
est estiméedans un
premier temps
parsi
t = j.
Comme on souhaite que la contrainte03A3ut
= gt soitvérifiée,
on normaliseainsi l’estimation
En
réalité, l’application
de ceprincipe
ne nous a paspermis
d’améliorer l’estimation.D’une
part,
ceci est dû à la difficulté d’établir des courbes typespertinentes.
D’autrepart,
il reste leproblème, évoqué plus haut,
lié à l’affectation des watt heuresaux différents usages alors
qu’on
veut estimer une consommation instantanée. Leproblème
de l’estimation depics
de consommation et de leur affectation à unappareil unique, plutôt qu’à
un grouped’appareils,
demeure et ne peut être résolu par la modélisationproposée.
Ilparaît
doncplus
réaliste de tenter d’estimer la consommation due à un grouped’usages
similaires.7. Sélection de modèles
7.1. Sélection du modèle
d’analyse
de varianceLe
premier problème
de sélection de modèles rencontré dans cette étudeconcerne la détermination du modèle
d’analyse
devariance,
pour déterminer les effets contrôlésqui
ont une influence sur la valeur moyenne de lalog-consommation.
Les modèles considérés a
priori
sont ceux faisant intervenir tout oupartie
desfacteurs suivants :
tarif, puissance souscrite,
mois,jour
etheure,
ainsi que toutes les interactions d’ordre un entre ces facteurs. Dans unpremier
temps, nous avonsessayé
de baser la sélection sur des tests. Cette méthode conduit à
rejeter systématiquement
le modèle le moins
complexe.
Cela est sans doute dû au nombre élevé de données(une
centaine demilliers) qui
rend le test trèspuissant,
et au fait quel’hypothèse Ho
est peu réaliste vu les données(voir partie 3).
Nous avons considéréégalement
lecritère
BIC,
dontl’application
aux modèles linéaires est discutée dans Kass etRaftery (1995).
Le critère BIC conduit au mêmerésultat,
cequi
est lié au fait que lapénalité
reste minime par
rapport
à lalog-vraisemblance
et parrapport
à sa croissance suivant lacomplexité
du modèle.En
réalité,
il estsuffisant,
dans le cadre de cetteétude,
dedisposer
d’un modèlesimple
mettant en évidence les effets lesplus flagrants,
vuqu’il s’agit uniquement
decalculer les résidus de
l’analyse
de variance. Or ceux-ci sont apparus peu sensibles à lacomplexification
dumodèle,
àpartir
d’un certain seuil. C’estpourquoi
nous noussommes contentés de sélectionner le modèle offrant un bon
rapport
entre la dévianceexpliquée
et le nombre dedegrés
de liberté. Pour cefaire,
nous avons considéré des modèles deplus
enplus complexes jusqu’à
ce que l’accroissement de ce rapport devienne inférieur à0,1
%. Le modèle finalement retenu meten jeu
les facteurs type de contrat(ou tarif)
c, mois m, heureh, puissance
p et l’interaction entretarif
etmois. De
plus,
cette méthode nous apermis
de regrouper lestypes
de tarif « nuit » et« EJP », qui
ont des effets similaires sur la moyenne de lalog-consommation.
7.2. Sélection du nombre d’états cachés
Dans cette
étude,
leprincipal paramètre
à déterminer pour la sélection d’un modèle de chaîne de Markov cachée est son nombre d’états K. L’ensemble des valeurspossibles pour K
est choisi comme suit : la valeur maximale est fixée àdouze,
cequi correspond
au nombred’usages disponibles.
Onespère pouvoir
mettreen
correspondance,
de cettemanière,
les usages et les étatscachés,
par la méthodeindiquée
enpartie
5.3. La valeur minimale est fixée àsept
par lesexperts d’EDF,
auvu de
l’histogramme
des résidus(Yt)t (voir figure 4).
Nous
envisageons
tout d’abord un choixparmi
les différentsmodèles,
caracté- risés par une valeur de K entresept
etdouze,
basé sur des critères de sélectionBIC,
ICL(proposé
par Biernacki etal.,
2001 dans le cadre desmélanges indépendants)
et le
demi-échantillonnage.
Comme les différentes courbes sontsupposées
mutuelle-ment
indépendantes,
cette dernièretechnique
utilise la moitié desséquences
pourl’estimation du
paramètre À,
l’autre moitié servant à évaluer la vraisemblance duparamètre,
utilisée comme critère associé audemi-échantillonnage.
FIGURE 9
Critères de choix d’un modèle pour la consommation
électrique : BIC,
ICL et demiéchantillonnage.
La vraisemblance est tracée pour permettre la