Cliquez pour modifier le style du titre
Estimation de la consommation d’eau d’une population à partir d’un échantillon
d’usagers télérelevés
du titre
Cliquez pour modifier le style des sous-titres du masque
Karim CLAUDIO
Thèse CIFRE co-encadrée par Vincent Couallier (IMB), Yves Le Gat (IRSTEA) et Jérôme Saracco (INRIA)
Mise en place du problème Mise en place du problème
Objectifs :
Estimation des fuites sur le réseau d’eau potable Evaluation du rendement de réseau
Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Rendement de réseau (t) = Volume total consommé par les usages du réseau (t)
Volume total délivré au réseau (t)
Mise en place du problème Mise en place du problème
Objectifs :
Evaluation des fuites sur le réseau d’eau potable Estimation du rendement de réseau
Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Rendement de réseau (t) = Volume total consommé par les usages du réseau (t)
Volume total délivré au réseau (t) Données de volume entrant :
Débit instantané (sur un pas de temps de 6 min)
Débit réel (depuis mai 2011 – nombre d’impulsions (100L) sur 5 min)
Mise en place du problème Mise en place du problème
Objectifs :
Evaluation des fuites sur le réseau d’eau potable Estimation du rendement de réseau
Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Rendement de réseau (t) = Volume total consommé par les usages du réseau (t)
Volume total délivré au réseau (t) Données de volume sortant :
Consommation annuelle facturée (base clientèle)
Consommation horaire ou toutes les 6h (télérelève des compteurs)
Télérelevé des compteurs d’eau Télérelevé des compteurs d’eau
Fonctionnement :
Récolte automatique des index de consommation individuelle consommation cumulée
Sur un pas de temps horaire ou toutes les 6 heures
Télérelevé inexistant, partiel ou généralisé en fonction des
Télérelevé inexistant, partiel ou généralisé en fonction des
communes
Consommation de la population Consommation de la population
Télérelevé des compteurs d’eau généralisé Télérelevé des compteurs d’eau généralisé
Consommation totale de la population (Δt ≥ 1 heure ou 6 heures)
Télérelevé des compteurs d’eau inexistant ou partiel Télérelevé des compteurs d’eau inexistant ou partiel
Estimation de la consommation totale (coût et temps de déploiement Estimation de la consommation totale (coût et temps de déploiement importants)
importants) importants) importants)
Télérelevé inexistant : constitution d’un échantillon
- Définir un plan d’échantillonnage optimal
Télérelevé partiel : échantillon déjà constitué
- Redressement des estimateurs
Cas d’application Cas d’application
Commune entièrement télérelevée : commune de Canéjan Commune entièrement télérelevée : commune de Canéjan
1822 usagers (1822 compteurs)
Télérelevé généralisé des compteurs d’eau
Télérelevé des index toutes les 6 heures (4 index/jour) Historique de données complet sur 2 ans (2010/2011)
2 parties distinctes : 2 parties distinctes :
1. Constituer un échantillon « optimal » pour estimer la consommation de la population 2. Redresser un estimateur issu d’un échantillon « non optimal »
1
1 -- Constituer un échantillon Constituer un échantillon 1
1 -- Constituer un échantillon Constituer un échantillon
Constitution d’un échantillon Constitution d’un échantillon
Sondage
Définir la grandeur d’intérêt
Définir le pas de temps d’analyse (Δt)
Sondage stratifié : découpage de la population Choix de la variable de stratification
Choix du nombre L de strates et des bornes des strates Taille n de l’échantillon et allocation dans chaque strate
Variable de stratification Variable de stratification
Variable d’intérêt : Consommation (journalière/hebdomadaire) individuelle en 2011 estimation du total
Variable de stratification : - connue sur toute la population - corrélée à la variable d’intérêt
0.80.8
Consommation annuelle individuelle
Consommation individuelle annuelle année A-1 (2010)
0.2 0.4 0.6 0.8
0.2 0.4 0.6
0.8 Boite à moustaches des 365/53 coefficients de corrélation linéaire
entre la variable d’intérêt et la consommation annuelle individuelle de l’année X(CX)
Variable de stratification Variable de stratification
Fonction de répartition :
1822 individus
Min : 0 m3 (-160 m3) Moy : 117 m3
Max : 4543 m3
Variable de stratification Variable de stratification
Fonction de répartition :
Zoom (vol ≤ 200 m3)
93 % de la population
20 % des individus ont eu une consommation annuelle en
2010 ≤ 50 m3
Nombre
Nombre L L de strates de strates
Gros consommateurs :
*Conso ≥ 1000 m3
Bornes des strates Bornes des strates
Différentes approches
1. Basée sur une approche métier
(volume d’eau consommé par un ménage d’1 personne, de 2 personnes, etc.) 2. Basée sur la répartition de la variable de stratification 2. Basée sur la répartition de la variable de stratification
(Dalenius & Hodges, Serfling)
3. Algorithme de sélection de L-1 strates sondées partiellement et la Lième enquêtée
exhaustivement (Lavallée &
Hiridoglou )
Nombre
Nombre L L de strates de strates
Nombre de strates restantes : L* = L -1 Strates : réduction de la dispersion
Somme des variances intra-strates Réduction ≤ 1%
Nombre de strate L*
Somme des variances intra
Nombre
Nombre L L de strates de strates
Découpage en strates :
Str.11
Fonction de répartition
Bornes
Bornes NNhh Strate 1 [ 0 ; 30 [ 180 Strate 2 [ 30; 50 [ 173 Strate 3 [ 50 ; 65 [ 205 Strate 4 [ 65 ; 80 [ 200 Strate 5 [ 80 ; 95 [ 198 Strate 6 [ 95 ; 110 [ 191
Fonction de répartition
Strate 6 [ 95 ; 110 [ 191 Strate 7 [ 110 ; 130 [ 180 Strate 8 [ 130 ; 150 [ 174 Strate 9 [ 150 ; 185 [ 159 Strate 10 [ 185 ; 1000 [ 149 Strate 11 [ 1000 ; + ∞ [ 13
Nombre
Nombre LL de strates de strates
Découpage en strates :
Str.1
Str.8 Str.10
Str.2 Str.4 Str.6
Str.9 Str.7
Str.5 Str.3
Fonction de répartition
Bornes
Bornes NNhh Strate 1 [ 0 ; 30 [ 180 Strate 2 [ 30; 50 [ 173 Strate 3 [ 50 ; 65 [ 205 Strate 4 [ 65 ; 80 [ 200 Strate 5 [ 80 ; 95 [ 198 Strate 6 [ 95 ; 110 [ 191
Str.8 Str.10
Str.2 Str.4 Str.6
Fonction de répartition
Strate 6 [ 95 ; 110 [ 191 Strate 7 [ 110 ; 130 [ 180 Strate 8 [ 130 ; 150 [ 174 Strate 9 [ 150 ; 185 [ 159 Strate 10 [ 185 ; 1000 [ 149 Strate 11 [ 1000 ; + ∞ [ 13
n en fonction d’une précision σ :
Taille de l’échantillon Taille de l’échantillon n n
Objectif = détection de fuite σ cible = 13 m3 / jour (estimation du débit de fuite sur branchement)
Sstr-h est la racine carrée de la dispersion de la variable de stratification au sein de la strate h, S²yh(t) est la dispersion de la variable d’intérêt à la date t (jour ou semaine) dans la strate h.
valeur inconnue (à estimer à partir d’une population semblable)
Taille de l’échantillon Taille de l’échantillon n n
n = f(σ ):
n
n ff
Basée sur les données journalières
Basée sur les données journalières 959
(min = 337 / max = 1815) 0.52 638
Taux de sondage sélectionné : f = 35%
Basée sur les données Basée sur les données hebdomadaires
hebdomadaires
638 0.35
(min = 145 / max = 1802)
Répartition de l’échantillon Répartition de l’échantillon
au sein des strates au sein des strates
Allocation de l’échantillon Allocation de l’échantillon
Allocation proportionnelle
Taille des sous-échantillons (nh) proportionnelle :
À la taille de la strate h (Nh) Au taux de sondage (f=n/N)
90 120 150
Effectif de la strate (Nh)
60%
80%
100%
Taux de sondage dans la strate (fh)
Au taux de sondage (f=n/N)
Allocation de Neyman
Taille des sous-échantillons (nh) proportionnelle :
À la taille de la strate h (Nh) et à son poids (Wh = Nh / N) À la dispersion au sein de la strate h (σh)
0 30 60
s tr.1 s tr.2 s tr.3 s tr.4 s tr.5 s tr.6 s tr.7 s tr.8 s tr.9 s tr.10 s tr.11
Effectif de la strate (N
0%
20%
40%
Taux de sondage dans la strate (f
nh_Neym an nh_Proportionnel
Validation de la qualité de la méthode par Validation de la qualité de la méthode par
simulation (Monte Carlo) simulation (Monte Carlo)
Résultats de 10 000 simulations d’échantillon :
N = 1822 individus
11 strates de consommation (dont une strate « gros consommateurs ») n = f x N = 0.35 x 1822 ≈ 638 individus
strate Nh Sh2 Wh nh fh
1 180 100.3 9.9% 53 29.4%
2 173 30.2 9.5% 28 16.2%
3 205 20.2 11.3% 27 13.2%
4 200 18.0 11.0% 25 12.5%
5 198 19.5 10.9% 26 13.1%
6 191 17.7 10.5% 24 12.6%
7 180 33.4 9.9% 31 17.2%
8 174 35.8 9.5% 31 17.8%
9 159 113.5 8.7% 50 31.4%
10 149 22 206.2 8.2% 149 100%
11 13 1 277 965.0 0.7% 13 100%
Résultats Résultats
Δt = 1 jour
700 750 800 850 900
Consommation totale (m3 )
400 450 500 550 600 650
01/01/2011 01/02/2011 01/03/2011 01/04/2011 01/05/2011 01/06/2011 01/07/2011 01/08/2011 01/09/2011 01/10/2011 01/11/2011 01/12/2011 Volum e mesuré Volume estim é (strat jour - m oyenne sur 10 000 simulations)
Consommation totale (m
Résultats Résultats
Δt = 1 semaine
Consommation totale (m3 )
4 000 5 000 6 000
Consommation totale (m
0 1 000 2 000 3 000
sem.0 sem.4 sem.8 sem.12 sem.16 sem.20 sem.24 sem.28 sem.32 sem.36 sem.40 sem.44 sem.48 sem.52 Volume mesuré Volume hebdo estimé (strat - moyenne sur 10 000 simulations)
Résultats Résultats
Jour Semaine
Volume total mesuré (sur 1 an) 214 396.4
Volume total estimé (sur 1 an) 214 380.1 214 434.6
Ecart moyen (valeur absolue) 0.14 0.78
Ecart
Performance des estimateurs en fonction du pas de temps :
Ecart moyen (valeur absolue) 0.14 0.78
Ecart maximal (valeur absolue) 1.23 4.27
σ moyen 18.2 84.7
σ médian 14.1 72.3
σ minimal 7.3 19.9
σ maximal 90.8 304.6
% σ ≤ 13 m3 (jour) / 91 m3 (semaine) 42% 67%
Précision
Résumé du sondage stratifié Résumé du sondage stratifié
Grandeur d’intérêt : consommation hebdomadaire en 2011 (A) de la population Variable de stratification : consommation annuelle individuelle en 2010 (A-1)
Nombre L de strates : 11 strates
L défini en fonction de la variance intra strate de la variable de stratification Bornes définies grâce à la méthode de Dalenius & Hodge (1953)
Bornes définies grâce à la méthode de Dalenius & Hodge (1953)
Taux de sondage f : 35%
Répartition au sein des strates : allocation optimale de Neyman (1977)
Ces paramètres permettraient d’atteindre une précision ≤ 91m
32
2 -- Améliorer un estimateur Améliorer un estimateur 2
2 -- Améliorer un estimateur Améliorer un estimateur
Post
Post--stratification stratification
Stratification selon une variable X Post-stratification selon une variable Z
Population P (#P = N)
H strates Gh (h = 1, …, H - #Gh= Nh) K post - strates Dk (k = 1, …, K - #Dk= Mk) Echantillon S (#S = n)
H échantillons gh (h = 1, …, H - #gh= nh) K échantillons dk (k = 1, …, K - #dk= mk) H échantillons gh (h = 1, …, H - #gh= nh) K échantillons dk (k = 1, …, K - #dk= mk)
Akh = DK ⋂ Gh (# Akh = Θkh) αkh = dK ⋂ gh (# αkh = θkh)
Yi (t) consommation de l’individu i au moment t
Post
Post--stratification stratification
1 . Stratification selon une variable « obsolète »
Variable de stratification : consommation annuelle individuelle en 2007
8 strates de consommation : 0, 50, 100, 150, 200, 300, 500, 1000 m3 (bornes métier)
f = 10% str07 1 2 3 4 5 6 7 8
Nh 483 520 466 209 95 20 14 15
2 . Post-stratification selon la consommation annuelle individuelle 2010
Nh/N 27% 29% 26% 12% 5% 1% 1% 1%
nh 47 40 35 16 13 5 11 15
Pstr10 1 2 3 4 5 6 7 8 9 10 11
Mk 180 180 198 212 194 193 182 161 158 151 13
Comparaison :Stratification VS Post Comparaison :Stratification VS Post--
stratification par simulation (Monte Carlo) stratification par simulation (Monte Carlo)
Volume réel (m3) 214 396.4
Ecart
Volume estimé strat. (m3) 214 387.4
(écart en %) (0.01%)
Ecart
Volume estimé post-strat. (m3) 212 924.1
(écart en %) (0.7%)
Précision
σ moyen (strat.) 263.9
σ moyen (post-strat.) 289.3
Post
Post--stratification stratification Mauvaise Performance Mauvaise Performance
Taille d’échantillon vide ( Taille d’échantillon vide ( θ θ
kh
kh
= 0 = 0))
Si Θ
kh= 0 aucun problème d’estimation (pas de population)
Si Θ
kh≠ 0 individus (A
kh) non représentés Si Θ
kh≠ 0 individus (A
kh) non représentés
Θkh / θkh
≈ 0
Akh non représentés (introduction d’un biais) Akh’ = Akh Ak(h+i) (i = 1-h, 2-h, … , H-h)ou
Ak’h = Akh A(k+j)h (j = 1-k, 2-k, … , K-k)
le regroupement est aléatoire (non contrôlé par le sondeur)
Post
Post--stratification stratification -- strates vides strates vides
Effectif des A
Effectif des A
khkh((Θ Θ
khkh))
Plus le nombre de Akh augmente plus le risque d’obtenir des Θkhfaibles voire nuls augmente.
Post
Post--stratification stratification -- échantillons vides échantillons vides
Taille d’échantillon vide ( Taille d’échantillon vide ( θ θ
kh
kh
= 0) = 0)
Pourcentage de simulations où les θ
kh sont nuls (NA signifie que les Θ sont nuls)
Nb de αkh vides* % de αkh vides *
Minimum 6 10%
Médiane 14 23%
Maximum 23 38%
Statistiques sur les 10 000 simulations par
Monte Carlo
* hors Akh vides
les Θkh sont nuls)
Post
Post--stratification stratification
Post
Post--stratification consécutive à une stratification : stratification consécutive à une stratification :
estimation sans biais du total de la consommation individuelle risque de « strates » non représentées :
risque de « strates » non représentées :
pas de gain notable en termes de précision sur l’application concernée
Perspectives :
diminuer le nombre de strates et/ou post-strates augmenter le taux de sondage
Redressement par régression, calage, etc.