• Aucun résultat trouvé

2.4 Évaluation des prévisions

2.4.1 Données de référence

2.4.1.1 Observations directes in situ et satellitaires

Les services météorologiques ont besoin d’observations du système climatique à fréquence régulière pour caractériser un événement en cours, effectuer des études climatologiques ou initialiser leurs modèles de prévision numérique du temps. Des jeux de données homogènes sont donc disponibles sur des périodes historiques pouvant couvrir jusqu’à plusieurs décennies. Pour l’atmosphère, de telles observations sont obtenues in situ à partir d’instruments de mesure au sol (thermomètres, pluviomètres, anémomètres, lidar) mais aussi à partir de radiosondages (mesures effectuées par des appareils transportés par ballon-sonde). Des mesures équivalentes sont disponibles dans l’océan grâce à des bouées instrumentées ou des navires équipés.

Cependant, c’est l’avènement des mesures satellitaires à partir de la fin des années 1970 qui a permis d’augmenter considérablement le volume d’observations disponibles et d’homogé- néiser leur couverture à la surface du globe. Pour des études de grande échelle spatiale, comme dans cette thèse, une telle couverture est indispensable et ne peut être obtenue à partir de mesures éparses. Ceci est particulièrement vrai au niveau des océans car les observations de surface y sont plus rares que sur les continents. Toutefois, observations de surface et observa- tions satellitaires ne s’opposent pas mais se complètent, car des mesures au sol sont nécessaires pour calibrer et corriger celles des satellites. Dans tous les cas, l’utilisation de données obser- vées en un point précis pour initialiser ou évaluer un modèle numérique — dont la maille fait plusieurs dizaines de kilomètres de côté — nécessite de spatialiser les observations sur une grille régulière grâce à des méthodes d’extrapolation comme le krigeage.

2.4.1.2 Les données de réanalyses

Les réanalyses servent à initialiser les re-prévisions S2S (Section 2.2.2.1) mais elles sont aussi de précieuses données de référence sur l’état du système climatique tout au long d’une période passée. La réanalyse étant produite à partir d’un modèle global, elle présente deux avantages importants. Premièrement, les données qu’elle fournit sont cohérentes avec celle du modèle du point de vue de la distribution des variables. Deuxièmement, ces données sont

Outils et modèles

directement produites selon la discrétisation spatio-temporelle du modèle sans nécessiter de transformation ultérieure, alors qu’il serait illusoire de disposer d’observations à chaque instant et en chaque maille du modèle. Bien qu’il ne s’agisse pas de données observées, les réanalyses peuvent être considérées comme des états pseudo-observés réalistes, dans la mesure où des données in situ et satellitaire sont assimilées en continu lors de l’intégration du modèle. La réanalyse fait passer les observations dans le « monde » du modèle, leur donne une cohérence spatio-temporelle et les complète là où elles ne sont pas disponibles.

Plusieurs instituts développent leur propre modèle d’atmosphère et fournissent des données de réanalyse atmosphérique, comme la NASA avec MERRA-2 (Gelaro et al., 2017) et la Japan Meteorological Agency avec JRA-55 (Kobayashi et al., 2015). L’ECMWF en propose toute une gamme dont ERA-Interim (Dee et al., 2011) qui est utilisée dans cette thèse et couvre la période 1979-2019. Notons qu’ERA-Interim a été remplacée récemment par ERA5 qui couvrira à terme de 1950 jusqu’au présent.

La réanalyse ERA-Interim repose sur le schéma d’assimilation de données 4DVar, qui incor- pore entre 106et 107 observations par jour et donne de nouvelles conditions initiales au modèle

toutes les 12 heures. Entre deux initialisations, les variables atmosphériques sont enregistrées par pas de trois heures. Ces sorties intermédiaires correspondent donc à des prévisions à très court terme très réalistes. Le modèle d’atmosphère d’ERA-Interim est IFS (CY31R2) avec une troncature linéaire TL255, 60 niveaux verticaux et un pas de temps de 30 minutes. Les conditions aux limites de l’océan proviennent d’observations fournies par le NCEP (National Centers for Environmental Prediction).

2.4.1.3 Les références de précipitations

Même en assimilant régulièrement un nombre important d’observations, les données de réanalyse proviennent in fine d’un modèle numérique et ne sont pas exemptes des déficiences de celui-ci. En particulier, nous avons vu que les paramétrisations des modèles numériques peuvent être sources d’erreurs dans l’estimation des précipitations (Section 1.4.1). Ainsi, les données de précipitations issues de réanalyses ne sont pas jugées très fiables. En dressant un panorama des jeux de données de précipitations disponibles à l’échelle globale, Sun et al. (2018) montrent qu’il y a beaucoup de variabilité et d’incohérences entre les précipitations issues de deux réanalyses différentes. C’est pourquoi les précipitations issues des réanalyses sont rarement utilisées telles quelles comme données de référence dans l’évaluation de prévi- sions infra-saisonnières et saisonnières. On leur préférera des produits spécifiques qui reposent toujours sur des observations spatialisées, même si des données de réanalyse y sont parfois incluses en complément.

Les critères de choix pour les précipitations de référence utilisées dans cette thèse sont les suivants :

1. Les valeurs doivent être disponibles à un pas de temps quotidien, pour être moyennées sur des fenêtres infra-saisonnières selon nos besoins.

2. La période couverte par les données doit être suffisamment longue et inclure la majeure partie des périodes de re-prévisions S2S (en particulier celle du système de Météo-France, 1993-2014), afin de disposer d’un échantillon de vérification et d’apprentissage statistique suffisamment grand.

2.4 Évaluation des prévisions 4. La résolution doit être plus fine ou équivalente à la résolution d’archivage des prévisions

S2S (1.5°).

Sun et al. (2018) dénombrent une trentaine de produits de précipitations couvrant le globe, regroupés en trois catégories : les réanalyses, les produits issus de mesures par des pluviomètres et les produits incluant des observations satellitaires de précipitations (grâce aux capteurs micro-ondes et infrarouges). La grande proportion de points de grille océaniques dans la région Pacifique Sud-Ouest tropical nous conduit à exclure l’utilisation de données issues de pluviomètres pour les évaluations sur le domaine entier. Ces jeux de données, à l’instar de GPCC-daily (Schamm et al., 2014), présentent pourtant un certain nombre de qualités souhaitables, à commencer par une faible incertitude et une profondeur de données suffisante, mais ils ne fournissent des données que sur les points de grille terrestres.

Les jeux de données produits à partir d’observations satellites pallient ce manque, mais pèchent souvent sur deux points. D’une part, les cumuls de précipitations y présentent une plus forte incertitude, car ils sont évalués indirectement, à partir de l’écho des signaux envoyés par les satellites, au moyen d’algorithmes de calibration et de spatialisation qui varient d’un jeu de données à l’autre. D’autre part, la profondeur temporelle des observations satellitaires est plus faible que celle des observations en stations si l’on souhaite disposer de valeurs quotidiennes.

Les jeux de données identifiés par Sun et al. (2018) susceptibles de correspondre à nos critères sont GPCP-1dd (Huffman et al., 2001), TRMM-3B42 (Tropical Rainfall Measurement Mission Huffman et al., 2007), PERSIANN-CDR (Ashouri et al., 2015) et MSWEP (Beck et al., 2017). Nous excluons en particulier CMORPH (Joyce et al., 2004) qui ne débute qu’en 2002. Notre choix s’est finalement porté sur MSWEP (Multi-Source Weighted-Ensemble Pre- cipitation), dans sa version 1.2, qui est disponible sur une grille globale à 0.25° de résolution sur toute la période 1979-2015. En effet, ce jeu est le seul à fusionner à la fois des données issues de stations (GPCC), de satellites (en particulier TRMM et CMORPH), et aussi de réanalyses (ERA-Interim et JRA-55) qui permettent, malgré leur moindre qualité, de compléter lorsque peu d’autres données sont disponibles. Dans MSWEP, les données incluses sont pondérées différemment selon la localisation et la période temporelle.