• Aucun résultat trouvé

Somme des variances intra-stratesSomme des variances intra

N/A
N/A
Protected

Academic year: 2022

Partager "Somme des variances intra-stratesSomme des variances intra"

Copied!
34
0
0

Texte intégral

(1)

Cliquez pour modifier le style du titre

Estimation de la consommation d’eau d’une population à partir d’un échantillon

d’usagers télérelevés

du titre

Cliquez pour modifier le style des sous-titres du masque

Karim CLAUDIO

Thèse CIFRE co-encadrée par Vincent Couallier (IMB), Yves Le Gat (IRSTEA) et Jérôme Saracco (INRIA)

(2)

Mise en place du problème Mise en place du problème

Objectifs :

Estimation des fuites sur le réseau d’eau potable Evaluation du rendement de réseau

Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Rendement de réseau (t) = Volume total consommé par les usages du réseau (t)

Volume total délivré au réseau (t)

(3)

Mise en place du problème Mise en place du problème

Objectifs :

Evaluation des fuites sur le réseau d’eau potable Estimation du rendement de réseau

Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Rendement de réseau (t) = Volume total consommé par les usages du réseau (t)

Volume total délivré au réseau (t) Données de volume entrant :

Débit instantané (sur un pas de temps de 6 min)

Débit réel (depuis mai 2011 – nombre d’impulsions (100L) sur 5 min)

(4)

Mise en place du problème Mise en place du problème

Objectifs :

Evaluation des fuites sur le réseau d’eau potable Estimation du rendement de réseau

Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Rendement de réseau (t) = Volume total consommé par les usages du réseau (t)

Volume total délivré au réseau (t) Données de volume sortant :

Consommation annuelle facturée (base clientèle)

Consommation horaire ou toutes les 6h (télérelève des compteurs)

(5)

Télérelevé des compteurs d’eau Télérelevé des compteurs d’eau

Fonctionnement :

Récolte automatique des index de consommation individuelle consommation cumulée

Sur un pas de temps horaire ou toutes les 6 heures

Télérelevé inexistant, partiel ou généralisé en fonction des

Télérelevé inexistant, partiel ou généralisé en fonction des

communes

(6)

Consommation de la population Consommation de la population

Télérelevé des compteurs d’eau généralisé Télérelevé des compteurs d’eau généralisé

Consommation totale de la population (Δt ≥ 1 heure ou 6 heures)

Télérelevé des compteurs d’eau inexistant ou partiel Télérelevé des compteurs d’eau inexistant ou partiel

Estimation de la consommation totale (coût et temps de déploiement Estimation de la consommation totale (coût et temps de déploiement importants)

importants) importants) importants)

Télérelevé inexistant : constitution d’un échantillon

- Définir un plan d’échantillonnage optimal

Télérelevé partiel : échantillon déjà constitué

- Redressement des estimateurs

(7)

Cas d’application Cas d’application

Commune entièrement télérelevée : commune de Canéjan Commune entièrement télérelevée : commune de Canéjan

1822 usagers (1822 compteurs)

Télérelevé généralisé des compteurs d’eau

Télérelevé des index toutes les 6 heures (4 index/jour) Historique de données complet sur 2 ans (2010/2011)

2 parties distinctes : 2 parties distinctes :

1. Constituer un échantillon « optimal » pour estimer la consommation de la population 2. Redresser un estimateur issu d’un échantillon « non optimal »

(8)

1

1 -- Constituer un échantillon Constituer un échantillon 1

1 -- Constituer un échantillon Constituer un échantillon

(9)

Constitution d’un échantillon Constitution d’un échantillon

Sondage

Définir la grandeur d’intérêt

Définir le pas de temps d’analyse (Δt)

Sondage stratifié : découpage de la population Choix de la variable de stratification

Choix du nombre L de strates et des bornes des strates Taille n de l’échantillon et allocation dans chaque strate

(10)

Variable de stratification Variable de stratification

Variable d’intérêt : Consommation (journalière/hebdomadaire) individuelle en 2011 estimation du total

Variable de stratification : - connue sur toute la population - corrélée à la variable d’intérêt

0.80.8

Consommation annuelle individuelle

Consommation individuelle annuelle année A-1 (2010)

0.2 0.4 0.6 0.8

0.2 0.4 0.6

0.8 Boite à moustaches des 365/53 coefficients de corrélation linéaire

entre la variable d’intérêt et la consommation annuelle individuelle de l’année X(CX)

(11)

Variable de stratification Variable de stratification

Fonction de répartition :

1822 individus

Min : 0 m3 (-160 m3) Moy : 117 m3

Max : 4543 m3

(12)

Variable de stratification Variable de stratification

Fonction de répartition :

Zoom (vol ≤ 200 m3)

93 % de la population

20 % des individus ont eu une consommation annuelle en

2010 ≤ 50 m3

(13)

Nombre

Nombre L L de strates de strates

Gros consommateurs :

*Conso ≥ 1000 m3

(14)

Bornes des strates Bornes des strates

Différentes approches

1. Basée sur une approche métier

(volume d’eau consommé par un ménage d’1 personne, de 2 personnes, etc.) 2. Basée sur la répartition de la variable de stratification 2. Basée sur la répartition de la variable de stratification

(Dalenius & Hodges, Serfling)

3. Algorithme de sélection de L-1 strates sondées partiellement et la Lième enquêtée

exhaustivement (Lavallée &

Hiridoglou )

(15)

Nombre

Nombre L L de strates de strates

Nombre de strates restantes : L* = L -1 Strates : réduction de la dispersion

Somme des variances intra-strates Réduction ≤ 1%

Nombre de strate L*

Somme des variances intra

(16)

Nombre

Nombre L L de strates de strates

Découpage en strates :

Str.11

Fonction de répartition

Bornes

Bornes NNhh Strate 1 [ 0 ; 30 [ 180 Strate 2 [ 30; 50 [ 173 Strate 3 [ 50 ; 65 [ 205 Strate 4 [ 65 ; 80 [ 200 Strate 5 [ 80 ; 95 [ 198 Strate 6 [ 95 ; 110 [ 191

Fonction de répartition

Strate 6 [ 95 ; 110 [ 191 Strate 7 [ 110 ; 130 [ 180 Strate 8 [ 130 ; 150 [ 174 Strate 9 [ 150 ; 185 [ 159 Strate 10 [ 185 ; 1000 [ 149 Strate 11 [ 1000 ; + ∞ [ 13

(17)

Nombre

Nombre LL de strates de strates

Découpage en strates :

Str.1

Str.8 Str.10

Str.2 Str.4 Str.6

Str.9 Str.7

Str.5 Str.3

Fonction de répartition

Bornes

Bornes NNhh Strate 1 [ 0 ; 30 [ 180 Strate 2 [ 30; 50 [ 173 Strate 3 [ 50 ; 65 [ 205 Strate 4 [ 65 ; 80 [ 200 Strate 5 [ 80 ; 95 [ 198 Strate 6 [ 95 ; 110 [ 191

Str.8 Str.10

Str.2 Str.4 Str.6

Fonction de répartition

Strate 6 [ 95 ; 110 [ 191 Strate 7 [ 110 ; 130 [ 180 Strate 8 [ 130 ; 150 [ 174 Strate 9 [ 150 ; 185 [ 159 Strate 10 [ 185 ; 1000 [ 149 Strate 11 [ 1000 ; + ∞ [ 13

(18)

n en fonction d’une précision σ :

Taille de l’échantillon Taille de l’échantillon n n

Objectif = détection de fuite σ cible = 13 m3 / jour (estimation du débit de fuite sur branchement)

Sstr-h est la racine carrée de la dispersion de la variable de stratification au sein de la strate h, yh(t) est la dispersion de la variable d’intérêt à la date t (jour ou semaine) dans la strate h.

valeur inconnue (à estimer à partir d’une population semblable)

(19)

Taille de l’échantillon Taille de l’échantillon n n

n = f(σ ):

n

n ff

Basée sur les données journalières

Basée sur les données journalières 959

(min = 337 / max = 1815) 0.52 638

Taux de sondage sélectionné : f = 35%

Basée sur les données Basée sur les données hebdomadaires

hebdomadaires

638 0.35

(min = 145 / max = 1802)

(20)

Répartition de l’échantillon Répartition de l’échantillon

au sein des strates au sein des strates

Allocation de l’échantillon Allocation de l’échantillon

Allocation proportionnelle

Taille des sous-échantillons (nh) proportionnelle :

À la taille de la strate h (Nh) Au taux de sondage (f=n/N)

90 120 150

Effectif de la strate (Nh)

60%

80%

100%

Taux de sondage dans la strate (fh)

Au taux de sondage (f=n/N)

Allocation de Neyman

Taille des sous-échantillons (nh) proportionnelle :

À la taille de la strate h (Nh) et à son poids (Wh = Nh / N) À la dispersion au sein de la strate h h)

0 30 60

s tr.1 s tr.2 s tr.3 s tr.4 s tr.5 s tr.6 s tr.7 s tr.8 s tr.9 s tr.10 s tr.11

Effectif de la strate (N

0%

20%

40%

Taux de sondage dans la strate (f

nh_Neym an nh_Proportionnel

(21)

Validation de la qualité de la méthode par Validation de la qualité de la méthode par

simulation (Monte Carlo) simulation (Monte Carlo)

Résultats de 10 000 simulations d’échantillon :

N = 1822 individus

11 strates de consommation (dont une strate « gros consommateurs ») n = f x N = 0.35 x 1822 ≈ 638 individus

strate Nh Sh2 Wh nh fh

1 180 100.3 9.9% 53 29.4%

2 173 30.2 9.5% 28 16.2%

3 205 20.2 11.3% 27 13.2%

4 200 18.0 11.0% 25 12.5%

5 198 19.5 10.9% 26 13.1%

6 191 17.7 10.5% 24 12.6%

7 180 33.4 9.9% 31 17.2%

8 174 35.8 9.5% 31 17.8%

9 159 113.5 8.7% 50 31.4%

10 149 22 206.2 8.2% 149 100%

11 13 1 277 965.0 0.7% 13 100%

(22)

Résultats Résultats

Δt = 1 jour

700 750 800 850 900

Consommation totale (m3 )

400 450 500 550 600 650

01/01/2011 01/02/2011 01/03/2011 01/04/2011 01/05/2011 01/06/2011 01/07/2011 01/08/2011 01/09/2011 01/10/2011 01/11/2011 01/12/2011 Volum e mesuré Volume estim é (strat jour - m oyenne sur 10 000 simulations)

Consommation totale (m

(23)

Résultats Résultats

Δt = 1 semaine

Consommation totale (m3 )

4 000 5 000 6 000

Consommation totale (m

0 1 000 2 000 3 000

sem.0 sem.4 sem.8 sem.12 sem.16 sem.20 sem.24 sem.28 sem.32 sem.36 sem.40 sem.44 sem.48 sem.52 Volume mesuré Volume hebdo estimé (strat - moyenne sur 10 000 simulations)

(24)

Résultats Résultats

Jour Semaine

Volume total mesuré (sur 1 an) 214 396.4

Volume total estimé (sur 1 an) 214 380.1 214 434.6

Ecart moyen (valeur absolue) 0.14 0.78

Ecart

Performance des estimateurs en fonction du pas de temps :

Ecart moyen (valeur absolue) 0.14 0.78

Ecart maximal (valeur absolue) 1.23 4.27

σ moyen 18.2 84.7

σ médian 14.1 72.3

σ minimal 7.3 19.9

σ maximal 90.8 304.6

% σ ≤ 13 m3 (jour) / 91 m3 (semaine) 42% 67%

Précision

(25)

Résumé du sondage stratifié Résumé du sondage stratifié

Grandeur d’intérêt : consommation hebdomadaire en 2011 (A) de la population Variable de stratification : consommation annuelle individuelle en 2010 (A-1)

Nombre L de strates : 11 strates

L défini en fonction de la variance intra strate de la variable de stratification Bornes définies grâce à la méthode de Dalenius & Hodge (1953)

Bornes définies grâce à la méthode de Dalenius & Hodge (1953)

Taux de sondage f : 35%

Répartition au sein des strates : allocation optimale de Neyman (1977)

Ces paramètres permettraient d’atteindre une précision ≤ 91m

3

(26)

2

2 -- Améliorer un estimateur Améliorer un estimateur 2

2 -- Améliorer un estimateur Améliorer un estimateur

(27)

Post

Post--stratification stratification

Stratification selon une variable X Post-stratification selon une variable Z

Population P (#P = N)

H strates Gh (h = 1, …, H - #Gh= Nh) K post - strates Dk (k = 1, …, K - #Dk= Mk) Echantillon S (#S = n)

H échantillons gh (h = 1, …, H - #gh= nh) K échantillons dk (k = 1, …, K - #dk= mk) H échantillons gh (h = 1, …, H - #gh= nh) K échantillons dk (k = 1, …, K - #dk= mk)

Akh = DKGh (# Akh = Θkh) αkh = dKgh (# αkh = θkh)

Yi (t) consommation de l’individu i au moment t

(28)

Post

Post--stratification stratification

1 . Stratification selon une variable « obsolète »

Variable de stratification : consommation annuelle individuelle en 2007

8 strates de consommation : 0, 50, 100, 150, 200, 300, 500, 1000 m3 (bornes métier)

f = 10% str07 1 2 3 4 5 6 7 8

Nh 483 520 466 209 95 20 14 15

2 . Post-stratification selon la consommation annuelle individuelle 2010

Nh/N 27% 29% 26% 12% 5% 1% 1% 1%

nh 47 40 35 16 13 5 11 15

Pstr10 1 2 3 4 5 6 7 8 9 10 11

Mk 180 180 198 212 194 193 182 161 158 151 13

(29)

Comparaison :Stratification VS Post Comparaison :Stratification VS Post--

stratification par simulation (Monte Carlo) stratification par simulation (Monte Carlo)

Volume réel (m3) 214 396.4

Ecart

Volume estimé strat. (m3) 214 387.4

(écart en %) (0.01%)

Ecart

Volume estimé post-strat. (m3) 212 924.1

(écart en %) (0.7%)

Précision

σ moyen (strat.) 263.9

σ moyen (post-strat.) 289.3

(30)

Post

Post--stratification stratification Mauvaise Performance Mauvaise Performance

Taille d’échantillon vide ( Taille d’échantillon vide ( θ θ

kh

kh

= 0 = 0))

Si Θ

kh

= 0 aucun problème d’estimation (pas de population)

Si Θ

kh

≠ 0 individus (A

kh

) non représentés Si Θ

kh

≠ 0 individus (A

kh

) non représentés

Θkh / θkh

≈ 0

Akh non représentés (introduction d’un biais) Akh’ = Akh Ak(h+i) (i = 1-h, 2-h, … , H-h)

ou

Ak’h = Akh A(k+j)h (j = 1-k, 2-k, … , K-k)

le regroupement est aléatoire (non contrôlé par le sondeur)

(31)

Post

Post--stratification stratification -- strates vides strates vides

Effectif des A

Effectif des A

khkh

((Θ Θ

khkh

))

Plus le nombre de Akh augmente plus le risque d’obtenir des Θkhfaibles voire nuls augmente.

(32)

Post

Post--stratification stratification -- échantillons vides échantillons vides

Taille d’échantillon vide ( Taille d’échantillon vide ( θ θ

kh

kh

= 0) = 0)

Pourcentage de simulations où les θ

kh sont nuls (NA signifie que les Θ sont nuls)

Nb de αkh vides* % de αkh vides *

Minimum 6 10%

Médiane 14 23%

Maximum 23 38%

Statistiques sur les 10 000 simulations par

Monte Carlo

* hors Akh vides

les Θkh sont nuls)

(33)

Post

Post--stratification stratification

Post

Post--stratification consécutive à une stratification : stratification consécutive à une stratification :

estimation sans biais du total de la consommation individuelle risque de « strates » non représentées :

risque de « strates » non représentées :

pas de gain notable en termes de précision sur l’application concernée

Perspectives :

diminuer le nombre de strates et/ou post-strates augmenter le taux de sondage

Redressement par régression, calage, etc.

(34)

Merci de votre attention

Merci de votre attention

Merci de votre attention

Merci de votre attention

Références

Documents relatifs

Today, communities and community based organizations are not yet well equipped to demand accountability of the State, monitor implementation of policies and legislations

This has been shown to hold f o r soils of widely different charac- teristics in laboratory experiments (4); when heat removal beconles ex- cessive, hon~ever,

La principale contribution de cette article est l’utilisation de la SCV dans le cadre d’un suivi visuel multiplans optimisant des para- mètres de pose 3D contrairement à [2] où

Au cours de cet exposé, nous avons établi sous certaines hypothèses-de stationnarité, acceptables dans de nombreuses applications pratiques, les re- lations formelles

existed for all variables analyzed but with constant genetic correlation between levels of factor of variation for rear udder height (model b), with genetic

solved using results obtained in the section for unknown fixed effects and known variance components, taking a at the modal values of the posterior density of

TEST.F : Sous l’hypothèse d’égalité des variances de deux populations, cette fonction renvoie la probabilité d’obtenir une telle différence entre les variances des

We present a lemma stipulating that when the variance of each element in a collection of random variables is maximal with respect to some larger class of random variables, then