• Aucun résultat trouvé

2.3 Évaluation des simulations

2.3.2 Dénition des scores

L'évaluation du modèle est faite en comparant sorties de modèle et observations sa- tellites et en quantiant cette comparaison grâce à des scores. Déterminer la performance d'une prévision équivaut à calculer diérentes caractéristiques comme sa précision, son biais, sa abilité, sa résolution, sa capacité de discrimination et sa nesse. Ces scores sont calculés en confrontant les champs simulés et les champs observés. La correspondance entre TB simulées et observées étant susamment réaliste, une évaluation objective des simula- tions est envisageable. Trois types de calculs statistiques, les scores généraux, catégoriels et géométriques ont été utilisés.

Scores généraux

Les scores généraux s'appliquent sur des champs continus avec une distribution gaus- sienne comme la température ou l'altitude du géopotentiel à 500 hPa. Parmi ces scores, tous utilisés de façon opérationnelle, la corrélation, le biais, les écarts-types ont été utilisés.

2.3 Évaluation des simulations

La corrélation quantie la correspondance spatiale des variations du champ simulé et du champ observé. Plus la corrélation est élevée, plus les variations du champ sont bien placées. Le biais est la diérence moyenne entre simulation et observation. Il permet de montrer une diérence systématique entre simulation et observation. L'écart-type est l'écart moyen à la moyenne, il donne une indication de la variabilité du champ autour de sa moyenne. En faisant le rapport des écarts-types simulés sur observés la variabilité de la simulation est comparée à celle de l'observation.

L'utilisation des statistiques générales permet de comparer la valeur des TB observées et simulées à chaque point de grille. Cependant, ces calculs sont adaptés à des champs gaussiens pour des valeurs autour de la moyenne. Pour des champs discrets ou pour étudier les phénomènes situés sur les bords de la gaussienne, comme les précipitations et les nuages, ces scores ne sont pas adaptés car leur signature est masquée par l'information moyenne.

Scores catégoriels

Ces scores catégoriels ont été créés pour pouvoir évaluer des champs discrets [Wilks, 1995]. Historiquement prévus pour évaluer les prévisions de tornades, ils sont actuellement utilisés de façon opérationnelle sur les champs de précipitations. Pour cette thèse, ils ont été adaptés pour permettre l'évaluation des nuages par observations satellite.

Scores point-à-point

Tous les scores catégoriels sont calculés à partir d'une table de contingence à double entrée : simulation et observation, pour laquelle est déterminé un seuil séparant les événe- ments des non événements (Tableau 2.2). On aboutit à une table de contingence simpliée, composée de quatre cases dénissant alors le nombre de succès (les cas pour lesquels la simulation reproduit correctement l'évènement), celui de fausses alertes (la simulation pro- duit un évènement qui n'a pas eu lieu), d'échecs (la simulation manque un évènement) et de prévision correcte de non évènement. Chaque point de grille de la simulation est avec celui équivalent de l'observation (Figure 2.21). Ainsi, pour évaluer les tornades le critère

Fig. 2.21  Comparaison point-à-point, le carré noir est la zone de comparaison était  tornade  ou  pas tornade  [Heidke, 1926], et pour l'évaluation des précipita- tions accumulées les critères étaient un, ou plutôt, plusieurs seuils : 0.1 mm, 1 mm, 10 mm, complexiant ainsi la table de contingence initialement présentée. Pour chaque fréquence, le seuil de TB, dénissant les nuages ou les hydrométéores, déni précédement, est utilisé.

Simulation Simulation

Oui Non

Observation Succès (a) Échec (c) a + c = m

1

Oui

Observation Fausse alerte (b) Non événement (d) b + d = mNon 2

a + b = n1 c + d = n2 a+b+c+d=N

Tab. 2.2  Tableau de contingence à double entrée

Il existe une multitude de scores catégoriels calculables à partir de ce tableau, plus ou moins sensibles au nombre d'événements et tenant compte, ou non, d'événements dus au hasard. Les scores utilisés lors de cette thèse sont maintenant décrits :

 le biais fréquentiel (B) est la fréquence des cas positifs simulés sur les cas positifs observés, Eq. (2.9). S'il est inférieur à 1, la fréquence des événements est sous estimée.

2.3 Évaluation des simulations

S'il est supérieur à 1, elle est surestimée ;

B = a + ba + c (2.9)

 la probabilité de détection (Probability Of Detection : POD) est la fraction des cas correctement simulés sur ceux observés, Eq. (2.10). Compris entre 0 et 1, la simulation est parfaite si le score est égal à 1.

P OD = a

a + c (2.10)

 la probabilité de détection de fausses alertes (Probability Of False alarm Detection : PODF) est la fraction des fausses alertes sur les événements non ob- servés, Eq. (2.11). Compris entre 1 et 0, il doit tendre vers 0 pour une simulation parfaite. Combiné au POD, il permet de tracer le diagramme de ROC dont l'aire doit alors être maximale.

P ODF = b + db (2.11)

 la fraction de fausses alertes (False Alarm Rate : FAR) représente la fraction de cas simulés mais non observés, sur le nombre total de cas simulés, Eq. (2.12). Compris entre 0 et 1, ce score doit tendre vers 0 pour une simulation parfaite.

F AR = a + bb (2.12)

 le discriminant de Hanssen et Kuipers (HK) est une mesure de la capacité de séparation de la simulation des cas vrais des cas faux, Eq. (2.13). Compris entre -1 et 1, ce score doit tendre vers 1 et n'a pas de signication lorsqu'il est égal à 0.

L'intervalle de conance (IC) est calculé selon Stephenson [2000] par l'équation (2.14). HK = a + ca − b + db = P OD − P ODF (2.13) IC = s P OD(1 − P OD) m1 + P ODF (1 − P ODF ) m2 (2.14)

 le score de compétence de Heidke (Heidke Skill Score : HSS) mesure la précision de la prévision en ne tenant pas compte des cas dus au hasard dans son uti- lisation opérationnelle ou à la climatologie si l'on tient compte des recommandations de Heidke, Eq. (2.15). Compris entre −∞ et 1, ce score doit tendre vers 1 ; s'il est po- sitif, la simulation apporte de l'information par rapport à la référence choisie (hasard ou climatologie). S'il est négatif, la simulation est plus mauvaise que la référence.

HSS = a + b + c + d − a(a + d) − ar

r avec ar =

(a + c)(a + b) + (d + c)(d + b)

a + b + c + d (2.15)  le score de succès critique (Critical Succes Index : CSI) mesure la capacité du modèle à reproduire correctement un événement en enlevant les  non événements , Eq. (2.16). Compris entre 0 et 1, ce score doit tendre vers 1. Il dépend fortement de la climatologie ; il est sensible au nombre d'événements observés et tient compte des événements simulés correctement par hasard.

CSI = a

a + b + c (2.16)

 le score de menace équitable (Equitable Threat Score : ETS). Dérivé du CSI, ce score est dit équitable, car il ôte les cas de succès dus au hasard (ar), Eq. (2.17).

2.3 Évaluation des simulations

succès sont dus au hasard.

ET S = a + b + c − aa − ar

r avec ar =

(a + b)(a + c)

a + b + c + d (2.17)

 le score de compétence de rapport de chance normalisé (Odds Ratio Skill Score : ORSS) est un score normalisé produit à partir du rapport de chance (Odss Ratio, Eq. (2.18)) qui évalue la fraction du nombre de points correctements simulés par rapport à ceux qui ne le sont pas.

OR = (ad)

(bc) (2.18)

Le OR doit tendre vers +∞. Le ORSS mesure donc la correspondance entre si- mulation et observation, Eq. (2.19). Compris entre −1 et 1, il doit tendre vers 1 [Stephenson, 2000; Thornes, 2001].

ORSS = (ad − bc)(ad + bc) (2.19)

Tous ces scores comparent les valeurs observées et simulées point-à-point. Or, si dans une comparaison point-à-point, un événement est simulé au point de grille voisin, il est comptabilisé comme un échec au point où il est observé, et comme une fausse alerte au point où il est simulé. Les scores sont très bas et défavorisent les simulations produisant un événement mal localisé par rapport à celles en fait moins réalistes qui ne le simulent pas du tout. C'est l'eet de double peine.

Scores zone-à-zone

Les comparaisons ont d'abord été faites point-à-point, mais avec l'augmentation de la résolution des modèles il se fait plutôt zone-à-zone maintenant, an de favoriser les simu- lations prédisant un événement devant celles de le prédisant pas, réduisant ainsi l'eet de double peine. Cela permet une certaine latitude dans la position du phénomène à condition de bien vouloir accorder une certaine tolérance au modèle (Figure 2.22).

Fig. 2.22  Comparaison zone-à-zone, le carré noir est la zone de comparaison Par exemple, si la zone de comparaison est considérée nuageuse lorsqu'elle est couverte à plus 50 % par des nuages, sur la gure 2.21 l'observation n'est pas nuageuse alors que la simulation l'est, alors que sur la gure 2.22, ni l'une ni l'autre ne le sont.

Dénition de la comparaison zone-à-zone

Il faut dénir une taille de zone de comparaison de préférence identique dans la simu- lation et l'observation. Dans cette zone on calcule la fraction de points nuageux simulés et observés, et on reproduit l'opération sur tout le domaine. On dénit un seuil au-delà duquel on considére la zone comme nuageuse (50% ici). On compare les valeurs recalculées pour les simulations et observations en appliquant les scores catégoriels dénis précédements.

Tous les scores point-à-point ont été adaptés au calcul zone-à-zone, et certains ont été directement dénis pour être calculés zone-à-zone comme le FSS déni par Roberts [2005]. Le score de compétence fractionnaire (Fraction Skill Score : FSS) est un score catégoriel zone-à-zone. C'est une variation du Brier Skill Score (BSS), qui est une sorte d'écart-type normalisé appliqué aux statistiques catégorielles, Eq. (2.21). Compris entre 0

2.3 Évaluation des simulations

et 1, il doit tendre vers 1 à l'inverse du BSS.

F SS = 1 − F BS 1 N hPN j=1(pj)2+PNj=1(oj)2 i (2.20) avec F BS = N1 N X j=1 (pj− oj)2

FBS est le Score Fractionnaire de Brier. Il dérive donc du Brier Score qui mesure l'écart-type entre simulation et observation pour les statistiques catégorielles. Il doit tendre vers zéro pour une simulation parfaite. Le dénominateur du FSS est le pire FBS possible puisqu'il est tel qu'il n'y a aucun événement simulé colocalisé avec un événement observé. C'est un score plus sensible aux événements rares.

Limites à l'interprétation des scores catégoriels

L'évaluation par les scores catégoriels n'est pas sans limites. D'abord, les scores sont sensibles au seuil, il faut donc le choisir avec soin pour qu'il ait une signication physique, une réalité météorologique. Il faut, de plus, garder la même valeur de seuil lorsque l'on compare un ensemble de simulations [Barnston, 1992]. Ensuite, il est nécessaire d'utiliser plusieurs scores pour pouvoir d'une part, avoir accès à toutes les informations données visuellement et intuitivement par la table de contingence. D'autre part, c'est l'unique ma- nière de les interpréter correctement [Wilks, 1995; Doswell III et al., 1990; Nurmi, 2003]. Par exemple, on ne peut pas envisager de commenter le POD sans le FAR. En eet, le POD peut être augmenté articiellement en augmentant le nombre d'événements simulés, ce qui a pour conséquence un FAR élevé. Ils sont représentés indépendament, ou sous forme de diagramme combinant plusieurs scores comme le ROC (Relative Operating Characteristic). Ce diagramme est établi en fonction du POD (ordonnée) et du PODF (abscisse) calculés pour diérentes valeurs de seuil.

Ainsi, ces scores quantient la ressemblance entre simulation et observation, mais contrairement aux comparaisons visuelles, ils ne permettent pas de situer les zones où

la simulation est mauvaise. Et, s'ils sont souvent sensibles à la fréquence d'occurrence du phénomène, ils nous donnent quand même une idée de la qualité de la simulation.

Scores géométriques

Les scores géométriques s'appliquent sur des champs discrets, ici les nuages ou systèmes nuageux que l'on cherche à caractériser, soit par rapport à l'observation, soit de façon absolue (intrinsèque). Ils sont basés sur un seuil dénissant les objets à prendre en compte (i.e. les nuages). Deux scores sont utilisés par la suite, la distance de Hausdor et le morcellement.

La distance de Hausdor [Venugopal et al., 2005] est un score issu d'une méthode de reconnaissance automatique de formes. C'est la distance minimale mesurée entre chaque point-objet de la simulation et de l'observation au 75epercentile, Eq. (2.22) ; 75 % des

distances entre le point observé et le point simulé sont plus grandes. La limite de la distance de Hausdor utilisée ici vient du fait que des positions de points (plutôt que d'objets) sont comparées.

h(R1, R2) = kth min kR1(i, j), R2(l, m)k (2.21)

avec kth = 75epercentile

R1 = distance minimale événement simulé-observé

R1 = distance minimale événement observé-simulé

Le morcellement,  patchiness  en anglais, [Schröder et al., 2006] caractérise l'orga- nisation des systèmes nuageux et des zones de ciel clair. Un système nuageux est déni ici comme l'ensemble des points nuageux adjacents dans toutes les directions. Une zone de ciel clair est dénie comme une zone de points adjacents de ciel clair selon les axes horizontaux uniquement. Le morcellement se calcule en ajoutant le nombre de systèmes nuageux au nombre de parcelles de ciel clair et en divisant par le nombre de mailles du

2.3 Évaluation des simulations

domaine, Eq. (2.24).

P1 = NNuagen+ NClair (2.22)

P2 = NNuagen− NClair (2.23)

avec n = nombre de points de grille

P1 quantie le morcellement et P2 dénit si celui-ci est dominé par le morcellement du

ciel clair (P2 < 0) ou celui des nuages (P2 > 0). Le score de morcellement dépend du seuil

de TB pour lequel sont dénis les nuages. Son interprétation dépend de la valeur de P2,

puisqu'il caractérisera le morcellement du ciel clair ou des nuages. Enn, selon Schröder et al. [2006], une variation de morcellement inférieure ou égale à 0,001 n'est pas signicative.

Chapitre 3

Évaluation de situations contrastées de

précipitations

Ce chapitre présente une première application de l'approche modèle-vers-satellite com- binée aux calculs de scores continus et catégoriels. L'approche est utilisée ici pour évaluer un ensemble de plusieurs situations contrastées de précipitations de moyennes latitudes. Cet ensemble a été construit pour bâtir une base de données en vue de développer des algorithmes de restitution de pluie à partir de l'observation satellite, ce que décrit l'article Chaboureau et al. [2007] reproduit en n de chapitre. Les situations contrastées choisies orent un éventail des phénomènes possibles aux moyennes latitudes. Ces cas ont été simulés avec une conguration semblable, ce qui donne un ensemble de prols d'hydro- météores et de TB, homogènes dans leur réalisation (section 3.1). La comparaison entre histogrammes des TB observées et simulées dans l'infra-rouge et les micro-ondes montre le caractère réaliste des simulations (section 3.2). Cette évaluation s'est poursuivie pour les quatre situations nuageuses de 24 heures an de caractériser la prévisibilité de ces cas en fonction de la situation météorologique. Elle a conduit à caractériser la structure nuageuse (section 3.3), puis à quantier la qualité de la prévision de la couverture nuageuse de ces quatre situations (section 3.4).

3.1 Un ensemble de situations de précipitations de moyen-

nes latitudes