• Aucun résultat trouvé

4.5 Application à des courbes de consommation électrique

4.5.2 Protocole de test

Nous comparons différents estimateurs obtenus en suivant les méthodes exposées dans ce chapitre, pour différentes modélisations (estimateur de Horvitz-Thompson, estimateur par calage, modèles linéaires mixtes au niveau unité, régressions linéaires fonctionnelles, arbres de régression, forêts aléatoires). Nous testons plusieurs versions du modèle linéaire mixte au niveau unité, en posant les modèles linéaires mixtes sur les scores de l’ACP comme suggéré dans le paragraphe 4.3.1, ou sur les coefficients d’une base d’ondelettes, ou encore en les appliquant directement sur les valeurs de la courbe aux instants de discrétisation. On teste les versions robustes et non robustes de chacun de ces modèles. On teste également l’application des estimateurs de Sinha Rao sur les instants de discrétisation ou sur les composantes principales de l’ACP.

Pour les méthodes non paramétriques, les forêts et les arbres ont une profondeur de 5 et une taille minimale de feuille de 5. Le nombre d’arbres des forêts est de 40. Les algorithmes peuvent être appliqués en séparant l’estimation du niveau de la courbe et de sa forme comme préconisé dans l’Annexe B (normalisation = "oui") ou pas (norma- lisation = "non").

Le calage est réalisé selon la méthode du raking ratio et, lorsque celui-ci ne

3. dans l’option Base, le prix du kWh reste constant, tandis que dans le tarif Heures Creuses, il est réduit pendant huit heures (dites creuses). Ce dernier tarif a tendance a être privilégié par les plus gros consommateurs. Les horaires d’heures creuses peuvent varier d’un client à l’autre, mais ce facteur n’a pas d’impact ici puisque nous travaillons au pas journalier.

converge pas, par la méthode linéaire. En outre, le nombre d’unités appartenant au plus petit des domaines pouvant être très faible pour certaines simulations, on ne réa- lisera le calage que pour les domaines d’au moins 10 unités et on utilisera un estima- teur de Horvitz-Thompson sinon.

Afin de ne pas multiplier les combinaisons possibles, nous nous sommes finale- ment concentrés sur les estimateurs énumérés dans la Table4.1. Le paramétrage des méthodes par arbres de régression ou forêts aléatoires est détaillé dans la Table4.2.

titre référence robuste projection

Horvitz-Thompson (naïf ) eq. (4.2) non aucune

calage eq. (4.3) non aucune

modèle linéaire mixte section (4.3.1) non aucune modèle linéaire mixte sur acp section (4.3.1) non ACP modèle linéaire mixte sur ondelettes section (4.3.1) non ondelettes

régression linéaire section (4.3.2) non aucune

courbotree section (4.3.3) non aucune

courbotree normalise section (4.3.3) non aucune

courboforest section (4.3.3) non aucune

Horvitz-Thompson robuste par. (4.4.1) oui aucune

calage robuste eq. (4.3) non aucune

modèle linéaire mixte robuste par. (4.4.1) oui aucune modèle linéaire mixte robuste sur acp par. (4.4.1) oui ACP modèle linéaire mixte robuste sur ondelettes par. (4.4.1) oui ondelettes régression linéaire robuste par. (4.4.1) oui aucune régression linéaire robuste sur ACP par. (4.4.1) oui aucune

courbotree robuste par. (4.4.1) oui aucune

courboforest robuste par. (4.4.1) oui aucune

sinha rao section (4.4.2) oui aucune

sinha rao sur ACP section (4.4.2) oui ACP

TABLEAU4.1 – Différentes méthodes d’estimation testées.

titre profondeur nombre d’arbres normalisation

courbotree 5 1 non

courbotree normalise 5 1 oui

courboforest 5 40 non

courbotree robuste 5 1 non

courboforest robuste 5 40 non

TABLEAU4.2 – Paramétrage des arbres et forêts aléatoires.

Afin d’évaluer la qualité de nos méthodes d’estimation, notre protocole de test consiste à réaliser un grand nombre E de simulations de tirage d’échantillons parmi notre population de départ et ensuite à estimer la courbe moyenne de chacun des D = 8 domaines par les différentes méthodes proposées à partir de chaque échantillon tiré. Nous réalisons E = 1000 simulations. Dans nos simulations, le huitième domaine

sera toujours non échantillonné, afin de mesurer la performance de nos différents es- timateurs dans ce cas de figure. Pour chaque simulation, on sélectionne par sondage aléatoire simple n = 200 individus parmi ceux appartenant aux D − 1 = 7 domaines échantillonnés.

Des indicateurs de qualité sont ensuite calculés pour chaque domaine en compa- rant les courbes estimées aux courbes réelles. Nous synthétisons finalement ces résul- tats en séparant d’une part les performances des méthodes sur les domaines échan- tillonnés (mesurées par les moyennes des indicateurs sur les sept domaines échan- tillonnés) et d’autre part leurs performances sur le domaine non échantillonné.

Des indicateurs de qualité sont ensuite calculés pour chaque domaine en compa- rant les courbes estimées aux courbes réelles. Ces indicateurs sont les mêmes qu’au Chapitre précédent (voir3.6.2). Nous synthétisons ensuite ces résultats en séparant d’une part les performances des méthodes sur les domaines échantillonnés (mesurées par les moyennes des indicateurs sur les sept domaines échantillonnés) et d’autre part leurs performances sur le domaine vide.

Plus précisément, considérons que le domaine non échantillonné est le domaine

d = D = 8 et que les autres sont échantillonnés. Soit µd(tl) la courbe moyenne du

domaine d à l’instant tl et ˆµd(tl) son estimateur par une méthode donnée. On note

EMC[ ˆµd(tl)] = E1PEe=1µˆed(tl) l’espérance Monte-Carlo de l’estimateur ˆµd(tl) où ˆµed(tl)

est l’estimateur de la courbe moyenne obtenu pour la simulation e = 1,...,E.

Pour un instant tl, l = 1,...,L donné, on construit d’abord un indicateur de biais,

RB( ˆµd)(tl) = 100|EMC

[ ˆµd(tl)] − µd(tl)|

µd(tl)

. (4.57)

On définit ensuite l’indicateur d’erreur globale (erreur quadratique moyenne ou MSE), MSEMC( ˆµd)(tl) = 1 E E X e=1 ¡ ˆµe d(tl) − µd(tl) ¢2 . (4.58)

Plus cet indicateur global sera faible, plus la qualité de l’estimateur sera considérée comme bonne. L’erreur quadratique moyenne peut être difficile à appréhender, on va donc utiliser un troisième indicateur plus facile à lire appelé Efficacité Relative (RE), qui compare l’erreur quadratique moyenne Monte-Carlo MSEMCde chaque méthode

avec celle d’un estimateur de référence,

RE( ˆµd)(tl) = 100

MSEMC( ˆµd)(tl)

MSEMC( ˆµHTd )(tl)

, d ∈ 1,...,D − 1. (4.59)

Plus l’indicateur RE sera faible, plus l’estimateur sera considéré comme performant. Un RE de 100 correspond à un indicateur aussi performant que l’estimateur de réfé- rence.

Ici l’estimateur de référence ˆµ0Yd = ˆµHTd est l’estimateur de Horvitz-Thompson (qui pour notre plan de sondage aléatoire simple est la moyenne simple des courbes du do- maine considéré), il correspond au modèle décrit par l’équation (4.2) et sera aussi dési- gné par le terme "naïf". Pour le domaine non échantillonné, cet estimateur ne peut pas

être calculé. L’estimateur RE est alors obtenu en divisant les MSE des différents estima- teurs par le MSE moyen de l’estimateur de Horvitz-Thompson sur les sept domaines échantillonnés, i.e., RE( ˆµD)(tl) = 100 MSEMC( ˆµD)(tl) MSEHTMC(tl) , l = 1,...,L, (4.60) avec MSEHTMC(tl) = D−1 X d =1 MSEMC( ˆµHTd )(tl).

Pour chaque indicateur et chaque instant tl, l = 1,...,L, les résultats obtenus sur les

différents domaines échantillonnés sont ensuite agrégés :

RBech( ˆµ)(tl) = 1 D − 1 D−1 X d =1 RB( ˆµd)(tl). (4.61) MSEech( ˆµ)(tl) = 1 D − 1 D−1 X d =1 MSE( ˆµd)(tl). (4.62) REech( ˆµ)(tl) = 1 D − 1 D−1 X d =1 RE( ˆµd)(tl). (4.63)

Par contre, les indicateurs obtenus sur le domaine non échantillonné sont utilisés tels quels.

Afin d’évaluer la performance globale, on considère finalement la moyenne de ces indicateurs sur l’ensemble des instants de la période de test, en séparant toujours les domaines échantillonnés du domaine non échantillonné. On s’intéresse également au temps de calcul des différents estimateurs.