Distance caractéristique et optimisation de la procédure

Chapitre 4 : Prise en compte du relief dans l’estimation de la ressource solaire 101

4.2 Modélisation de l’influence du relief

4.2.3 Modélisation de l’horizon

4.2.3.3 Distance caractéristique et optimisation de la procédure

La plupart des outils numériques permettant le calcul de l’horizon, qu’ils soient spécialisés comme le logiciel français Carnaval, ou qu’ils soient intégrés à un logiciel SIG, comme le modèle r.horizon (Hofierkaet al., 2007) inclus dans le module r.sun (Šúri et Hofierka, 2004) du logiciel GRASS GIS, laisse le choix de la distance maximale de recherche autour du point d’observation à l’utilisateur.

Cependant, il apparaît de prime abord que la rotondité de la Terre délimite intrinsèquement l’altitude minimale d’un point du relief, de sorte qu’au-delà d’une distance donnée entre celui-ci et le point d’observation, celui-ci soit nécessairementau dessousdu plan horizontalP. Ce phénomène est parti-culièrement visible sur la FIGURE4.5, où l’on constate qu’au-delà d’un certain angle entre la normale

−

→n_A et la normale−→n_B, l’élévation angulaireα_AB devient négative et n’appartient donc plus à l’horizon observé depuisA.

Distance caractéristique

On peut donc, pour faire suite à cette constatation, introduire la notion dedistance caractéristique, ou autrement dit la distance maximale utile de recherche de points du MNT, appartenant potentiel-lement à la ligne d’horizon maximale. Dans notre modèle, la zone de recherche de l’horizon est une matrice MNT rectangulaire de largeur∆λ et de hauteur∆ϕ, centrée sur le point d’observation défini

Chapitre 4 :Prise en compte du relief dans l’estimation de la ressource solaire

dans le système(λ,ϕ). L’objectif est donc ici de retrouver lazone caractéristiquede calcul d’un ho-rizon, c.-à-d. la zone maximale utile de recherche de largeur∆λmax et de hauteur ∆ϕmax, au-delà de laquelle l’élévation angulaire d’un point du MNT est nécessairement négative ou nulle.

Pour ce faire, on peut, dans un premier temps, exprimer les relations qui permettent de retrouver l’angle ϕ−ϕ_A sur un méridien (longitude constante), et l’angle λ−λ_A sur un parallèle (latitude constante), entre un point M quelconque, de coordonnées (λ,ϕ,h) et de grande normale N, et le point d’observationA, tels queαAM =0. L’élévation angulaire devenant nulle lorsque l’angle entre la normale−→n_A et le vecteur−→

AMest égal à ^π₂, cela revient à résoudre les deux équations suivantes : −→n_A·−→

De la symétrie de révolution de l’ellipsoïde découle une solution explicite à l’équation selon le parallèle : En revanche, l’asymétrie de l’ellipse méridienne ne permet pas de retrouver une équation explicite de l’arcϕ−ϕA; on trouve une relation implicite reliant les latitudesϕetϕA:

(N+h)cos(ϕ−ϕA) + (N_AsinϕA−Nsinϕ)e²sinϕA−(N_A+h_A) =0 (4.20) Si cette équation peut être résolue numériquement (processus itératif, dichotomie), il est toutefois plus intéressant d’utiliser une approximation locale pour obtenir une solution explicite ; celle-ci est réalisée en assimilant l’ellipse méridienne à un cercle, dont le rayon est le rayon de courbure principale de l’ellipsoïde dans la direction du méridien (Bosser, 2012). Le terme central de l’équation précédente disparait alors (excentricité nulle) et les grandes normales enAet enM sont remplacées par le rayon ρ de l’approximation sphérique locale calculé enA:

|ϕ−ϕ_A|_λ_=λ Où le rayon de courbure principale ρ, dans la direction du méridien, est donné par la relation suivante :

ρ = a 1−e² 1−e²sin²(ϕ_A)³₂

(4.22) Dans ce cas particulier, Mest un point quelconque situé soit sur le méridien, soit sur le parallèle passant parA; mais on peut aisément généraliser ces deux relations à n’importe quel point de coor-données(λ+δ λ(h)|_ϕ,ϕ+δ ϕ(h)|_λ,h), sachant que l’on aura donc toujoursα_AM 60. On peut alors utiliser cette méthodologie pour retrouver la largeur∆λ_max et la hauteur∆ϕ_max de la zone maximale utile de recherche. Pour ce faire, on retrouve les points matérialisant les frontières dans les quatre directions cardinales,M_N(λ_M_N,ϕ_M_N,h_M_N)au nord, M_E(λ_M_E,ϕ_M_E,h_M_E)à l’est,M_S(λ_M_S,ϕ_M_S,h_M_S)au sud etM_O(λ_M_O,ϕ_M_O,h_M_O)à l’ouest, visibles sur la FIGURE4.7, pour lesquels les conditions suivantes sont encore respectées :

116

4.2Modélisation de l’influence du relief











06ϕ_M_N−ϕ_A6δ ϕ(h_M_N)|_λ & λ_M_O6λ_M_N 6λ_M_E 06ϕ_A−ϕ_M_S 6δ ϕ(h_M_S)|_λ & λ_M_O6λ_M_S6λ_M_E 06λ_A−λ_M_O6δ λ(h_M_O)|_ϕ & ϕ_M_S 6ϕ_M_O6ϕ_M_N 06λ_M_E−λ_A6δ λ(h_M_E)|_ϕ & ϕ_M_S 6ϕ_M_E 6ϕ_M_N

(4.23)

Ces conditions étant couplées entre elles, on détermine les coordonnées des points de chaque frontière par itération. Finalement, on en déduit les dimensions de la zone :

∆ϕ_max =ϕ_M_N−ϕ_M_S et ∆λ_max=λ_M_E−λ_M_O (4.24) Quel que soit l’horizon recherché, il sera alors parfaitement défini par cette zone rectangulaire, de hauteur∆ϕ_max et de largeur∆λ_max, centrée sur le point d’observation considéré. Subséquemment, on peut alors, de la même façon, déterminer le MNTutilede la République de Djibouti, présenté dans la FIGURE 4.2, c.-à-d. le relief au-delà duquel il n’est plus nécessaire de regarder pour obtenir tous les horizons du pays avec une précision maximale.

Réduction du temps de calcul

Si l’on connait désormais, pour chaque point du MNT considéré, la taille maximale de la zone de recherche associée au calcul de l’horizon, une autre problématique apparait cependantde facto: plus cette zone est grande et plus le temps de calcul d’un horizon est élevé. Dès lors, si l’on veut que le processus total de désagrégation reste efficient, il est essentiel de réduire le temps de compilation des horizons de l’entièreté du MNT, tout en gardant une précision acceptable. Cette optimisation requiert donc de réduire la surface des zones de recherche utilisées dans le calcul des horizons, puis d’évaluer, d’une part, le temps d’exécution correspondant et, d’autre part, l’erreur engendrée par rapport au modèle idéal, sachant que l’on cherche à minimiser les deux.

Pour ce faire, il nous faudrait compiler les horizons du pays pour une zone de taille(∆ϕ_max,∆λ_max) et n zones de différentes tailles (∆ϕ_i,∆λi)i=1,2,...,n plus faibles, puis déterminer l’erreur spécifique correspondante (RMSE). Évidemment, dans l’optique de minimiser le temps de calcul du processus complet, il serait particulièrement peu pertinent que la méthode destinée à retrouver un paramètre du modèle soit plus coûteuse que l’exécution du modèle lui-même. Aussi, afin d’éluder cet écueil, on peut faire appel aux inférences statistiques, ou autrement dit retrouver les caractéristiques les plus significatives de la distribution totale de cette erreur à travers le territoire, telles que la moyenne ou l’écart-type, en nous basant sur un ou des échantillons plus restreints tirés de celle-ci.

En matière d’inférence statistique, estimer le paramètreθ d’unepopulation F, constituant un en-semble d’observations, revient à déterminer la statistique ˆΘ, ou estimateur, variable aléatoire prenant la valeur ˆθ pour chaque échantillon construit aléatoirement à partir deF (Walpoleet al., 2011). Dans le cas de la moyenne µ d’une populationF de distribution inconnue, il résulte du théorème central limite (TCL) que la distribution des valeurs ¯xde la statistique ¯X, moyenne d’un échantillon aléatoire x={x₁,x₂, . . . ,x_n}de taillenissu de F, suit une loi approximativement normale centrée surµ. Ce-pendant, la précision de l’erreur standard et des intervalles de confiance d’une estimation ¯x deµ est fortement dépendante de la forme de la distribution de la population originelle ; de même pour l’es-timateur S² de la variance σ², qui suit une loi du χ² si et seulement si l’échantillon est issu d’une population suivant une loi approximativement normale (Walpoleet al., 2011).

L’exigence paramétrique de ces méthodes classiques incite alors à la recherche d’une solution

Chapitre 4 :Prise en compte du relief dans l’estimation de la ressource solaire

indépendante de la forme de la distribution, ou non paramétrique, et conservant une précision im-portante malgré des échantillons de taille réduite. Une démarche bien adaptée aux caractéristiques de notre problème est celle dubootstrap (Efron et Tibshirani, 1993), qui repose sur le principe sta-tistique du plug-in: approcher le paramètreθ d’une distribution quelconqueF, tel queθ =t(F), à partir de l’estimation ˆθ d’unedistribution empiriqueFˆ, échantillon den observations choisies aléa-toirement parmiF, telle que ˆθ =t(Fˆ). Néanmoins, si l’on peut apprécier θ à partir d’un échantillon de la population, il nous faut également connaitre l’erreur commise sur cette estimation : c’est là l’idée centrale du concept dubootstrap. Ce dernier consiste dans le ré-échantillonnage de ˆF, c.-à-d.

le tirage avec remise, au sein de la population empirique, deBéchantillons aléatoires ˆF^∗(b) de taille n, avec b=1,2, . . . ,B, appeléséchantillons bootstrap. On utilise alors la distribution des B valeurs θˆ^∗(1),θˆ^∗(2), . . . ,θˆ^∗(B), estimations de chaqueéchantillon bootstraptelles que ˆθ^∗(b)=t(Fˆ^∗(b)), autour de ˆθ, pour estimer l’erreur standard ou l’intervalle de confiance de l’estimation ˆθ (Efron et Tibshirani, 1993 ; Singh et Xie, 2010).

Afin d’évaluer, en première instance, la diminution de l’erreur avec le temps de calcul de l’hori-zon, nous avons d’abord considéré des zones de recherche carrées pour 10 largeurs différentes, de 10 à 100 km par pas de 10 km. Le choix arbitraire d’une zone carrée traduit la volonté d’éluder au maxi-mum les écueils d’un paramétrage trop excessif, qui pèserait sur le temps de compilation ; par ailleurs, les distances sont données en kilomètres pour faciliter la compréhension, et le pas de 10 km évite le traitement d’un trop grand nombre d’horizons. Par la suite, la première étape de la procédure consiste dans la sélection d’un échantillon aléatoire den=50 points au sein du pays, sur lesquels chaque hori-zon est déterminé pour les différentes tailles de hori-zone précitées ainsi que pour la hori-zone caractéristique.

En évaluant la RMSE de chacun de ces horizons vis-à-vis de l’optimum, on obtient un échantillon de 50 erreurs indépendantes ˆE ={e₁,e₂, . . . ,e₅₀}pour chaque distanced=10·koùk=1,2, . . . ,10, qui représente une estimationplug-inde la distribution totaleE des erreurs. Lediagramme en boîte de la FIGURE 4.8 nous donne alors une indication sur la distribution de l’erreur commise, fortement asymétrique, ainsi que sur son évolution en fonction de la taille de zone considérée et donc du temps consommé.

On peut ainsi utiliser ce diagramme afin d’évaluer la distance de recherche d’un horizon corres-pondant au meilleur compromis entre précision et temps de calcul. Bien évidemment, selon le degré de fidélité désiré et les moyens informatiques à disposition, ce compromis ne sera pas nécessairement le même d’une étude à l’autre. Dans notre cas, le temps de calcul est exprimé pour un seul processeur et peut être approximativement divisé par le nombre de cœurs disponibles sur la machine considé-rée en utilisant un processus parallélisé. Si les valeurs limites peuvent être de fait exclues (erreur ou temps trop élevés), on constate graphiquement qu’unsautexiste dans l’étalement de l’erreur entre 60 et 70 km, et c’est donc cette dernière qui a été employée dans cette thèse.

Une fois la zone définie, on recherche alors l’erreur probablement commise sur le calcul d’un horizon quelconque du pays, ce qui revient à estimer la moyenneµE et l’écart-typeσE de la distribu-tion associéeE. Pour cela, on construit un nouvel échantillon aléatoire empirique den=200 erreurs Eˆ ={e₁,e₂, . . . ,e₂₀₀}, correspondant àd=70 km, à partir duquel on tire aléatoirement avec remise, et comme préconisé par Singh et Xie (2010),B=n²échantillons bootstrapEˆ^∗(b)={e^∗₁,e^∗₂, . . . ,e^∗₂₀₀} oùb=1,2, . . . ,B. On détermine ensuite la moyenne ¯e^∗(b)et l’écart-types^∗(b)_e de chacun de ces échan-tillons, leur distribution permettant de retrouver la précision de ¯e et s_e, statistiques construites sur la population empirique et qui infèrent les paramètres µE et σE de la population globale. Une mé-thode simple pour appréhender les intervalles de confiance est celle despercentiles, mais l’asymétrie et le biais qui existent au sein de la distribution d’un écart-type (Walpole et al., 2011) désignent la procédure BCa (bias-corrected and accelerated) développée par Efron (1987) comme la meilleure 118

4.2Modélisation de l’influence du relief

0 0.5 1 1.5

0.013 0.028 0.052 0.094 0.14 0.19 0.26 0.33 0.4 0.5

Temps de calcul moyen (s)

Erreur (°) 10 20 30 40 50 60 70 80 90 100

Largeur de la zone de recherche (km)

Médiane

Écart interquartile Valeurs adjacentes Valeurs extrêmes

FIGURE 4.8 – Diagramme en boîte de l’erreur commise vis-à-vis de l’horizon idéal, en fonction de l’étendue de la zone de recherche utilisée et du temps de calcul moyen associé.

alternative. L’utilisation classique despercentilesapproche, pour un niveau de significationα, l’inter-valle de confiance de l’estimation ˆθ considérée à(1−2α)%, sous la forme[θˆ^∗(α),θˆ^∗(1−α)], où ˆθ^∗(α⁾ indique le 100α^ième percentile desB estimations bootstrap θˆ^∗(1),θˆ^∗(2), . . . ,θˆ^∗(B). La méthode BC_a est une amélioration de cette première approximation, où les bornes de l’intervalle sont cette fois de la forme[θˆ^∗(α¹⁾,θˆ^∗(α²⁾], oùα1etα2 sont ajustées par rapport àα et 1−α à l’aide de la fonction de répartition de la loi normale, afin de corriger le biais et l’asymétrie de l’estimateur considéré (pour le calcul deα₁etα₂, voir Efron et Tibshirani (1993) et Efron (1987)).

On peut donc finalement estimer que la distributionE de l’erreur de modélisationecommise sur un horizon quelconque calculé au sein de Djibouti, pour une zone de recherche de côté d=70 km, suit une loie∼ µ_E,σ_E²

avec :

µ_E ∈[0,024°, 0,039°]

σE ∈[0,043°, 0,067°] (4.25)

Où l’intervalle de confiance deµE et deσE correspond à un niveau de significationα =5 %.

4.2.3.4 Comparaison et validation

Dans le document The DART-Europe E-theses Portal (Page 132-136)