• Aucun résultat trouvé

Déformation des cycles saisonniers de variables climatiques

N/A
N/A
Protected

Academic year: 2021

Partager "Déformation des cycles saisonniers de variables climatiques"

Copied!
212
0
0

Texte intégral

(1)

THÈSE

THÈSE

En vue de l’obtention du

DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE

Délivré par : l’Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier)

Présentée et soutenue le23 juin 2020 par :

Alix Rigal

Déformation des cycles saisonniers de variables climatiques

JURY

Marc Lavielle Dir. de Rech., CNRS CMAP Rapporteur

David B. Stephenson Professeur, Univ. of Exeter Rapporteur

Valérie Monbet Professeur, Univ. de Rennes Examinatrice

Sylvie Parey Chercheur senior, EDF R&D Examinatrice

Pascal Yiou Chercheur seniorLSCE/IPSL Examinateur

Jean-Marc Azaïs Professeur, Univ. P. Sabatier Directeur de Thèse

Aurélien Ribes Chercheur,CNRM-GAME Directeur de Thèse

Thierry Klein Professeur, ENAC Président du Jury

École doctorale et spécialité :

MITT : Domaine STIC : Réseaux, Télécoms, Systèmes et Architecture Unité de Recherche :

Centre National de Recherches Météorologiques (UMR 3589) Institut de Mathématiques de Toulouse (UMR 5219)

Directeur(s) de Thèse :

Jean-Marc Azaïs et Aurélien Ribes Rapporteurs :

(2)

Remerciements

Je ne serai pas arrivé au bout de ce travail de recherche sans la collaboration de plusieurs personnes. Je tiens à vous remercier à travers ces quelques lignes, pour m’avoir accompagné dans ce long voyage qu’est la thèse. D’avance, je souhaite présenter mes excuses à ceux que j’aurais malencontreusement oubliés.

Tout d’abord je tiens à exprimer ma gratitude envers mes rapporteurs Marc Lavielle et David Stephenson pour leur relecture en profondeur de mon manuscrit ainsi que leurs commentaires constructifs. Plus largement, je suis redevable à mon jury de thèse qui a su être disponible, patient et compréhensif dans cette période sanitaire inédite. En particulier Thierry Klein, qui a bien voulu se prêter au jeu difficile de président de jury pour une soutenance dans des conditions extraordinaires, ainsi que pour sa lecture attentive de ce document. Je remercie également Sylvie Parey pour ses corrections détaillée et ses contributions à mon manuscrit.

Un aspect important de cette expérience est qu’elle m’a permis d’apprendre et découvrir des domaines qui, pour moi, étaient nouveaux. J’ai notamment apprécié le groupe de travail ’biblioStat’ qui a eu pour moi une impacte très positif. Je remercie à cet égard l’ensemble des participants réguliers (ils se reconnaîtrons) et occasionnels pour leurs retours et exposés. Plus particulièrement, je remercie Thomas Rieutord sans qui il aurait été impossible de maintenir un rythme hebdomadaire. Dans ce même domaine de recherche, les séminaires de l’IMT m’ont aussi été d’une grande aide. Je remercie également Julien Cattiaux pour m’avoir fait découvrir le système climatique ainsi que l’équipe AMACS pour m’avoir accueilli et fait approfondir ces notions au travers des fameux ’jeudi du climat’.

J’ai eu la chance durant mon doctorat de pouvoir m’investir dans les enseignements de l’ENM sous la direction de William Ohayon. Ce fut un plaisir de faire mes premier pas avec toi et j’ai toujours apprécié nos échanges. Je remercie également Pascal Laveau, Marie-Pierre Traullé et David Pollack ainsi que toute l’équipe pédagogique pour m’avoir accueilli aussi chaleureusement.

(3)

Mon travail de recherche sur le terrain a été facilité par les laboratoires m’ayant accueilli durant ces quatres années de thèse. Je tiens donc en premier lieu à remercier tous les membres du CNRM et de l’IMT, qui ont répondu avec calme et patience aux questions quotidiennes dont je les accablais. Je remercie également toute l’équipe DEVI et plus largement le départe-ment SINA pour leurs accueil à l’ENAC durant ces derniers mois d’écriture, de soutenance et de confinement. J’adresse mes plus sincères remerciements aux personnels administratifs de Météo-France et de l’IMT pour les nombreuses fois où j’ai fait appel à eux, tout particulière-ment Agnès Requis.

La thèse est un travail de longue haleine qui aurait pu être plus épuisant qu’enrichissant sans les soutiens dont j’ai pu profité. Je tiens tout d’abord à remercier Jean-Marc Tregan dont l’amitié a su me motiver en me partageant ses problèmes de mathématiques. Je remercie toutes les personnes avec qui j’ai partagé mes études et notamment ces années de thèse. Enfin, toutes ces bonnes choses n’auraient su être magnifiées sans l’appui sans faille de ma compagne Edith et de mes proches.

Bien sûr à cette liste non-exhaustive manque les deux protagonistes principaux : mes directeurs de thèse Jean-Marc Azaïs et Aurélien Ribes. Mes derniers remerciements leurs sont évidement dédiés ; tout d’abord pour la confiance qu’ils m’ont accordée en acceptant d’encadrer ce travail doctoral, pour leurs multiples conseils et les nombreux encouragements qu’ils m’ont prodigués. Je les remercie aussi pour leurs disponibilité ainsi que toutes ces heures consacrées à diriger cette recherche. Enfin, j’ai été extrêmement sensible à leurs qualités humaines respectives d’écoute et de compréhension tout au long de ce travail.

(4)

Table des Matières

Table des sigles et acronymes v

Introduction 1

1.1 Le système climatique . . . 3

1.2 La notion de climat . . . 4

1.3 Changement climatique . . . 6

1.4 Évolution de la compréhension du climat . . . 7

1.5 Modélisation de l’évolution saisonnière du climat . . . 14

1.6 Quelles données pour évaluer le changement climatique ? . . . 16

2 Méthodes statistiques 23 2.1 Espaces de Hilbert à noyaux reproduisant (RKHS) . . . 24

2.2 Régression quantile . . . 40

2.3 Sélection de modèles et erreur de généralisation . . . 58

3 Étude de l’espérance d’une variable climatique au pas de temps journalier (déformation du cycle annuel) 71 3.1 Estimating daily climatological normals in a changing climate . . . 73

3.2 Compléments . . . 107

4 Étude de la déformation de la distribution d’une variable en climat

(5)

4.1 Estimating daily climatological distribution in a changing climate . . . 132 4.2 Complements . . . 161 Conclusion et perspectives 167 4.1 Conclusion . . . 167 4.2 Perspectives . . . 170 A Appendice 179

A.1 Aire et volume de banquise Arctique . . . 179 A.2 Minimales et maximales de températures sur un échantillon divisé par 15

. . . 181 A.3 Évolution des paramètres de la loi de Pareto . . . 181

(6)

Table des notations et acronymes

OMM/WMO Organisation Météorologique Mondiale/World Meteorological Organization NOAA National Oceanic and Atmospheric Administration

IPCC/GIEC Intergovernmental Panel on Climate Change/Groupe d’Experts Intergouvernemental sur l’Évolution du climat

DJU Degré Jour Unifié

DJC Degré Jour de Climatisation

ETP Evapo-Transpiration Potentielle

CCNUCC Convention-Cadre des Nations Unies sur les Changements Climatiques EBMs Energy Balance Models, Modèles de bilan énergétique

EMICs Earth-system Models of Intermediate Complexity, Modèles Terre à Complexité Intermédiaire

GCMs General Circulation Models, Modèles de Circulation Générale

AGCM Atmospheric General Circulation Model, Modèle de Circulation Générale Atmosphérique

OGCM Oceanic General Circulation Model, Modèle de Circulation Générale Océanique

AOGCM Atmosphere-Ocean Coupled General Circulation Models, Modèles de Circulation Générale Océan-Atmosphère (couplés)

ESMs Earth System Models, Modèles du Système Terre

CMIP Coupled Models Intercomparison Project, Projet d’Intercomparaison des Modèles Couplés

(7)

WCRP World Climate Research Program, Programme Mondial de la Recherche sur le Climat

RCP Representative Concentration Pathway

PIOMAS Pan-Arctic Ice Ocean Modeling and Assimilation System SQR Séries Quotidiennes de Référence

RKHS Reproducing Kernel Hilbert Space, Espaces de Hilbert à noyaux reproduisant

FDR/CDF Fonction de répartition/Cumulative Distribution Function IID Indépendant et Identiquement Distribué

INID Indépendant et Non-Identiquement Distribué

(8)

Notation générale

f, g, h Les trois composantes du modèle multiplicatif, respectivement cy-cle annuel de référence, tendance annuelle et delta cycy-cle

d, y Représentent les jours et années

Td,y Température moyenne observée au jour d de l’année y

P rd,y Précipitation observée au jour d de l’année y

In Matrice identité de dimension n

1 Fonction indicatrice

Ja, bK Entiers consécutifs allant de a à b [x] Partie entière de x

λ Paramètre de régularisation pour l’estimation des splines AIC Akaïk Information Criterion, critère d’information d’Akaike BIC/SIC Bayesian Information Criterion, Critère d’Information Bayésien

(Schwarz)

Cp Cp de Mallows

U[0, 1] Loi uniforme sur [0, 1]

N(µ, σ) Loi normale de moyenne µ et écart type σ df Degrés de liberté

k.kp Norme usuelle des espaces Lp

N Ensemble des entiers naturels

S1 Cercle

(9)

Chapitre 2 :

Espaces de Hilbert à noyaux reproduisant

X Un ensemble arbitraire

H Un espace de Hilbert

h, iH Produit scalaire de H

kf kH Norme induite par H

RX Fonctions à valeurs réelles sur X

Lx Fonctionnelle linéaire d’évaluation

K Noyau symétrique positif

L Somme directe de deux sous-espaces vectoriels

Hm Espaces de Sobolev

Pm L’espace des polynômes de degrés au plus m − 1 N Matrice associée à la base spline naturelle ΩN Matrice de Gram associée à la base spline

Vect{gi, i ∈J1, nK} Espace vectoriel engendré par les gi

ESupplémentaire orthogonal de E

(t)+= max(0, t) Partie positive de t

(10)

Régression quantile

Y, X1, . . . , Xk Variables aléatoires

y, x1, . . . , xk Réalisations des variables aléatoires Y, X1, . . . , Xk

X Matrice des régresseurs, design matrix FY Fonction de répartition de Y

QY(τ) Quantile τ de la variable aléatoire Y

ρτ Fonction coût (hinge loss) associée au quantile τ

ˆβτ = ˆβ(τ) Paramètres estimés de la régression quantile pour le quantile τ

1 Fonction indicatrice

ˆqτ Quantile empirique

1 Vecteur dont toutes les coordonnées valent 1 N(µ, σ) Loi normale de moyenne µ et écart type σ

Sélection de modèles et erreur de généralisation

T = (X1, Y1), . . . , (Xn, Yn) Variables aléatoires représentant l’échantillon

(x1, y1), . . . , (xn, yn) Réalisation de T

ˆ

f Estimateur entraîné sur T

L Fonction coût

ErrT Erreur de généralisation

Err Erreur de test

¯

err Erreur d’entraînement

EY [.] Espérance calculée uniquement sur la variable Y

(11)

Chapitre 3 :

Étude de l’espérance d’une variable climatique

WMO Moyenne sur les 30 années passées remise à jour toutes les décen-nies

WMO reset Moyenne sur les 30 années passées remise à jour tous les ans OCN Moyenne sur les 15 années passées remise à jour toutes les

décen-nies

Hinge Modèle linéaire produisant une ligne brisé réajustée toutes les dé-cennies

Hinge reset Modèle linéaire produisant une ligne brisée réajustée tous les ans ˆ

f ,ˆg, ˆh Estimateur des composantes du modèle multiplicatif dff, dfg, dfh Degrés de liberté de ˆf ,ˆg, ˆh

M SE Erreur quadratique moyenne

R2 Coefficient de détermination P RESS Validation croisée 10-fold

Chapitre 4 :

Étude de la déformation de la distribution d’une variable

ˆTd,y,τ Estimation du quantile τ de température du jour d de l’année y

ˆ

P rd,y,τ Estimation du quantile τ des précipitations du jour d de l’année y

g(.) Spline sur les températures moyennes annuelles g(., τ) Tendance annuelle pour chaque quantile τ

f(d, τ), h(d, τ) Cycle de référence et delta cycle utilisés pour décrire le quantile τ 10-fold Validation croisée K-fold avec K = 10

(12)

Introduction

Les normales climatiques sont habituellement calculées comme des moyennes sur une pé-riode observée de 30 ans et remises à jour tous les dix ans. Durant ces dernières années, les différents organismes de suivi climatique ont eu l’occasion de présenter de nombreuses valeurs de température au-dessus des normales de saison.

C’est le cas, par exemple, pour les moyennes mensuelles de Toulouse (figure 1.1) de ces dix dernières années. La normale y est calculée à l’échelle mensuelle comme une moyenne évaluée pour chaque mois sur la période climatologique de référence, 1981-2010, comme préconisée par l’Organisation Météorologique Mondiale (OMM). On peut y voir, en plus du biais, un nombre d’anomalies chaudes (en rouge) déraisonnablement élevées (environ 3 fois plus) par rapport à la normale. Un constat similaire mais plus erratique peut être fait concernant les variables de

Figure 1.1 – Écart des températures moyennes mensuelles observées par rapport à la moyenne mensuelle de référence 1981-2010 de novembre 2010 à novembre 2019 sur la station de Toulouse-Blagnac.

(13)

températures moyennes journalière. La figure 1.2 montre une normale climatique décrite, pour le climat Toulousain de août 2016 à août 2019. En rouge, sont représentées les observations de températures moyennes se situant au-dessus de la normale (anomalies positives) et, en bleu, celles se situant en dessous (anomalies négatives). On constate que la proportion d’anomalies positives est en moyenne bien supérieure à celle d’anomalies négatives. Ce biais est également observable sur les séries d’anomalies de la précédente décennie, et semble montrer un retard de la normale sur l’état moyen du climat présent. Cela pose la question suivante : quelle

Figure 1.2 – Température moyenne journalière - 1er août 2016 au 1eraoût 2019 à Toulouse-Blagnac. La normale quotidienne y est représentée par la courbe noire, les anomalies positives (par rapport à cette normale) y sont représentées en rouge et les négatives en bleu.

Source : climascope.

référence représente une normale ? Cela a-t-il même un sens de la considérer dans un climat non-stationnaire ? Pour répondre à ces questions, il est nécessaire, dans un premier temps, de préciser les contours du système étudié ainsi que le sens donné au terme "climat".

(14)

1.1

Le système climatique

Avant d’introduire la notion de climat, il est nécessaire de définir proprement les contours du système étudié. Nous reproduisons ici la description fournie dans le dernier rapport du GIEC (Groupe d’Experts Intergouvernemental sur l’Évolution du Climat).

’The climate system is the highly complex system consisting of five major components : the atmosphere, the hydrosphere, the cryosphere, the lithosphere and the biosphere and the interactions between them. The climate system evolves in time under the influence of its own internal dynamics and because of external forcings such as volcanic eruptions, solar variations and anthropogenic forcings such as the changing composition of the atmosphere and land-use change.’

IPCC Special Report on Global Warming of 1.5 ºC, 2018, Glossary, p.545-546.

Figure 1.3 – Représentation schématique de chacune des composantes climatiques et de ses principales interactions.

(15)

Il est intéressant de remarquer que cette définition donne, dans un premier temps, les objets constitutifs du système étudié, soit l’atmosphère, l’hydrosphère, la cryosphère, la litho-sphère et la biolitho-sphère et, dans un deuxième temps, les interactions de ce système entre ses éléments constitutifs ou avec des éléments extérieurs (tels que le soleil et les volcans). Troi-sièmement, le système climatique est muni d’une chronologie, en effet, il évolue en fonction du temps sous l’influence de ses interactions (Figure 1.3). Dans la pratique, l’état du système désignera l’ensemble des variables climatiques pouvant permettre de le décrire (e.g. tempéra-ture, pression, albédo, etc.). Les interactions sont alors les dépendances entre une variable et toutes les autres, par exemple, par le biais d’équations différentielles.

1.2

La notion de climat

La notion de climat peut être précisée par comparaison à la météo à travers la célèbre formule "Climate is what you expect, weather is what you get.". Cette formule, popularisée en partie par Robert Heinlein, a le défaut d’être ambiguë. En effet, nous pourrions croire, à tort, que seule la valeur moyenne est d’intérêt en climat et qu’elle exclut de facto l’étude des valeurs extrêmes ou toutes autres parties de la distribution.

En réalité, cette version simplifiée trouve son origine dans un ouvrage de 1908 du géographe Andrew John Herbertson [58]. Celui-ci permet de préciser son sens premier : ’By climate we mean the average weather as ascertained by many years’ observations. Climate also takes into account the extreme weather experienced during that period. Climate is what on an average we may expect, weather is what we actually get.’

Autrement dit, pour Herbertson le climat est l’étude de la distribution des valeurs possibles d’une variable climatique sur une période temporelle donnée. Son étude nécessite l’intégration de plusieurs années d’observations. La météo, quant à elle, est une réalisation du climat, un tirage dans cette distribution de valeurs possibles. Par analogie avec un jeu de dés, l’objectif du climat serait de nous donner la probabilité de chaque face ainsi que la dépendance entre chaque lancé, celui de la météo serait de prévoir les lancés suivants. La définition donnée par le GIEC va dans ce sens et permet d’élargir encore un peu plus cette dernière définition.

(16)

"Climate in a narrow sense is usually defined as the average weather, or more rigorously, as the statistical description in terms of the mean and variability of relevant quantities over a period of time ranging from months to thousands or millions of years. The classical period for averaging these variables is 30 years, as defined by the World Meteorological Organization. The relevant quantities are most often surface variables such as temperature, precipitation and wind. Climate in a wider sense is the state, including a statistical description, of the climate system."

IPCC Special Report on Global Warming of 1.5 ºC, 2018, Glossary, p.544.

Autrement dit, le climat est l’analyse de l’état du système climatique et, plus particuliè-rement, à l’aide de statistiques permettant de décrire, tout ou partie, de la distribution de probabilité de la quantité étudiée. Plus simplement, le climat est la distribution probabiliste des évènements météorologiques possibles. Par exemple, dans cette thèse nous nous intéres-serons à l’évolution de la distribution des variables climatiques univariées, journalières à une localisation donnée, au cours du 20ème et du 21ème siècles.

(17)

1.3

Changement climatique

L’étude du climat est, en soit, une science extrêmement intéressante et complexe de par son interaction avec plusieurs disciplines - mathématiques, physique, mécanique, chimie et biologie entre autres. Néanmoins, elle n’aurait pas l’importance que l’on lui octroie aujourd’hui s’il n’était pas question des contraintes qu’un changement climatique aurait sur nos sociétés. Comme le montre la figure 1.4 issue du rapport du deuxième groupe de travail du GIEC, des tendances sur les dernières décennies de l’impact attribuable au changement climatique ont déjà pu être observées à travers le globe.

ARCTIQUE EUROPE moyen faible très élevé très faible élevé

Glaciers, neige, glace et/ou pergélisol

intervalle de conf ance

Cours d'eau, lacs, crues et/ou sécheresses

Écosystèmes terrestres

Incidences à l'échelle régionale

Écosystèmes marins Érosion des côtes et/ou

incidences sur le niveau de la mer

Feux incontrôlés Moyens de subsistance,santé et/ou économie Production alimentaire

Systèmes physiques Systèmes biologiques Systèmes humains et aménagés

Symboles remplis = contribution majeure du changement climatique Symboles vides = contribution mineure du changement climatique

Degré de conf ance associé à l'attribution au changement

climatique

Incidences observées attribuées au changement climatique

PETITES ÎLES AUSTRALASIE AFRIQUE AMÉRIQUE CENTRALE ET AMÉRIQUE DU SUD AMÉRIQUE DU NORD ASIE ANTARCTIQUE

Figure 1.4 – Tendances mondiales des incidences attribuées au changement climatique ob-servées au cours des dernières décennies, fondées sur les résultats des études réalisées depuis la publication du quatrième rapport d’évaluation du GIEC. Les symboles indiquent le type d’incidence, la contribution relative du changement climatique (majeure : symbole rempli ou mineure : symbole vide) aux incidences observées, et le degré de confiance correspondant in-diqué par des barres horizontales. Source : Contribution du groupe de travail II (Incidences, adaptation et vulnérabilité) au 5ème rapport d’évaluation du GIEC.

(18)

Les implications socio-économiques sont difficiles à prévoir avec précision à l’horizon 2100. Une majeure partie de ces incertitudes est liée à l’évolution des activités humaines, soit prin-cipalement aux scénarios d’émission de gaz à effet de serre, ainsi qu’à la vulnérabilité et la capacité d’adaptation des populations. Au cours de l’histoire de l’humanité, les peuples et les sociétés ont réussi, avec plus ou moins de succès, à s’adapter au climat. L’acquisition de cette forme de résilience à été possible par des variations lentes du climat, ce qui n’est pas le cas du changement en cours. Comme l’ensemble des variables climatiques peuvent avoir une incidence, cela motive le GIEC à avoir une définition précise du changement climatique.

Climate change refers to a change in the state of the climate that can be identified (e.g., by using statistical tests) by changes in the mean and/or the variability of its properties and that persists for an extended period, typically decades or longer. Climate change may be due to natural internal processes or external forcings such as modulations of the solar cycles, vol-canic eruptions and persistent anthropogenic changes in the composition of the atmosphere or in land use.

IPCC Special Report on Global Warming of 1.5 ºC, 2018, Glossary, p.545-546.

D’après la définition du GIEC (reportée ci-dessus), le changement climatique est un chan-gement d’état du système. N’ayant, en général, pas directement accès aux états, il est identifié par ses effets persistants au vu de l’échelle temporelle de la variable étudiée (température, pré-cipitations, etc.). Il est à noter que cette définition diffère selon les organismes. Par exemple, celle de la Convention-Cadre des Nations Unies sur les Changements Climatiques (CCNUCC) demande, de plus, que le changement identifié soit attribué aux forçages anthropiques. Nous ne ferons pas, dans ce manuscrit, cette distinction car notre but premier est de décrire l’évolution chronologique d’une série d’observations.

1.4

Évolution de la compréhension du climat

Plusieurs éclairages sont ou ont été utilisés pour mieux appréhender les propriétés du climat. Il sont généralement très inter-dépendants et ne représentent pas un changement de paradigme en soi. Nous présenterons ici quelques axes qui ne constituent pas une classification exhaustive

(19)

des sciences climatiques, mais plutôt des façons d’aborder la science présentant des liens étroits avec les sujets étudiés durant cette thèse.

1.4.1 Classification climatique

Le point de vue, peut être le plus ancien, est d’associer à différentes zones géographiques du globe, un climat. Cette approche a connu un âge d’or avec les travaux de Köppen [83]. Le but de cette perspective étant d’étudier et, dans le cas de Köppen, de classifier les climats en fonction des régions géographiques comme le montrent les figures 1.5 et 1.6. Cette vision des choses est cependant autrement plus compliquée à mettre en place dans un climat non-stationnaire. En effet, les régions représentatives de certains climats changent. Cet axe reste néanmoins un moyen d’analyse intéressant du climat. Köppen fournit une classification basée sur des indices de températures moyennes à proximité du sol, au pas de temps journalier, dans le but d’expliquer la distribution de la faune et de la flore à la surface du globe [83]. Les indices sont basés sur des périodes caractéristiques/prédéfinies durant lesquelles les températures restent dans un intervalle donné (durant une année). Pour la figure 1.5, les seuils sont 10 ℃ et 20 ℃ et les périodes caractéristiques sont 1 et 4 mois.

Figure 1.5 – Classification due à Köppen 1884.

Ce premier graphique décrit le climat en fonction d’une seule variable, ceci est insuffisant pour caractériser les climats. En effet, les différentes régions sont très peu dépendantes de

(20)

leurs longitudes, ce qui semble irréaliste. Geiger [45] propose alors de pousser l’idée un peu plus loin en rajoutant une variable du cycle hydrologique : la précipitation. Le résultat de cette classification est montré dans la figure 1.6.

Figure 1.6 – Cette carte est une reproduction d’une classification due à Geiger et Köppen datant de 1954. La classification discrimine entre les différents climats à l’aide des cycles annuels de précipitations et de température.

1.4.2 Analogues climatiques

Très proche de ces notions, et toujours dans un thème géographique, viennent les analogues climatiques. Il s’agit de rechercher pour un lieu x0 au temps t0 des lieux x1 présentant un

climat similaire au temps t1. La question est donc de replacer sur le globe le climat (futur

ou passé) d’une localisation donnée par le(s) lieu(x) ayant les caractéristiques climatiques les plus proches, et ce pour une période donnée. Par exemple, quelle(s) localisation(s) aurait le cycle saisonnier de températures (en climat actuel) le plus similaire à celui de Toulouse en 2100 ? Cette notion, déjà présente dans la littérature (e.g Kopf et al., 2008), est essentiellement

(21)

utilisée pour représenter le changement climatique. En effet, dans leur article de 2008, Kopf et al.[82] proposent de replacer à l’aide de ce concept, les climats futurs de villes européennes dans le climat actuel. La figure 1.7 ci-dessous montre les analogues du climat futur de Paris en 2100 calculés à l’aide d’une distance définie sur les distributions de trois variables climatiques : Degré Jour Unifié (DJU), Degrés Jours de Climatisation (DJC) et un indice d’aridité due à Thornthwaite [82]). Ces variables mesurent les contraintes climatiques des villes tant en terme énergétique (chauffage et climatisation) qu’en terme de déficit en eau durant les mois arides. En effet, DJU (resp. DJC) est une mesure de l’écart moyen, sur l’année, des températures en-dessous (resp. au-dessus) d’une température de référence fixée à 18 ℃. L’indice d’aridité se définit comme la somme sur les mois arides des déficits d’eau relatifs à l’Evapo-Transpiration Potentielle (ETP) i.e (ETP-précipitations)/ETP. Les climats proches de celui de Paris en 2100 sont indiqués par des couleurs chaudes. Le meilleur analogue est atteint en Espagne près de la frontière portugaise dans la ville de Badajoz.

Figure 1.7 – Analogues actuelles du climat futur de Paris en 2100 (source Kopf et al., 2012[82]). Plus les couleurs sont chaudes plus les climats sont proches du climat estimé.

1.4.3 Modélisation physique du système climatique

L’approche apportée par la modélisation physique du système climatique est sûrement celle qui a connu le plus de développements, notamment avec l’avènement des modèles de climat. Les modèles de climat sont une version "simplifiée" du système climatique dans le sens où l’on choisit de modéliser les principaux phénomènes du système à l’aide d’équations physiques qui

(22)

sont, pour la plupart, discrétisées (figure 1.8). Les objectifs d’une telle démarche sont mul-tiples. Ils permettent aux chercheurs de faire plusieurs expériences in silico, généralement sur de grandes échelles de temps et d’espace, permettant d’accroître la compréhension des méca-nismes climatiques. Cette méthodologie permet, en outre, de faire des expériences idéalisées, par exemple, en imposant une évolution de variables influant sur le système climatique telle que la concentration de gaz à effet de serre dans l’atmosphère. Le degré de simplification de tels modèles peut être hiérarchisé en fonction de la question posée :

• Energy Balance Models (EBMs) introduit par Budyko (1969) et Sellers (1969). Ces modèles ont été construits pour reproduire le bilan énergétique (radiatif) de la terre. Ils n’ont, en général, pas de description spatiale mais permettent, par exemple, de quantifier la réponse de la température moyenne globale pour un scénario d’accroissement de CO2.

• Earth-system Models of Intermediate Complexity (EMICs) ou Modèle Terre à Com-plexité Intermédiaire. À la (grande) différence des EBMs, ces derniers incluent une représentation spatiale (simplifiée) du système "Terre", donc de ses composantes atmo-sphériques et océaniques au minimum. Leur atout principal est de permettre d’étudier le climat sur des échelles de temps longues, on peut ainsi étudier l’impact de la répartition des continents sur le climat.

• General Circulation Models, Modèles de Circulation Générale (GCMs) ou encore leur évolution : Earth System Models (ESMs). Ils constituent, aujourd’hui, les outils les plus complets pour la réalisation des projections climatiques du 21ème siècle à l’échelle

globale. Ceci, tant en terme de précision spatiale, que de représentation de processus dynamiques, physiques et, dans le cas des ESMs, bio-géo-chimiques.

Initialement, les GCM désignent des modèles ayant trois dimensions spatiales résolvant la dynamique et la physique d’une seule composante du système climatique, par exemple, l’atmosphère (AGCM) ou l’océan (OGCM). Pour résoudre numériquement les équations décrivant l’état de l’atmosphère (ou de l’océan) celui-ci est divisé en un grand nombre de petits volumes dans lesquels les variables sont supposées constantes (ou, en tout cas, admettent une représentation simplifiée). Les phénomènes dynamiques et physiques, principalement issus de la thermodynamique et de la mécanique des fluides, sont alors

(23)

Figure 1.8 – Représentation d’un modèle de climat : la figure de gauche montre la discré-tisation tridimensionelle (latitude, longitude et composante verticale) faite par un modèle atmosphérique. Cet éclaté représente l’état de l’atmosphère à un instant donné. Le vent est représenté par les flèches noires et la température décroissant du rouge au bleu.

Source : Laboratoire de Météorologie Dynamique (LMD) http://www.lmd.jussieu.fr/ ~jldufres/Exposes/IM12-images_v0.pdf. La figure de droite montre les différentes com-posantes et interactions représentées par le modèle couplé CNRM-CM6 [126].

approchés par des méthodes de type volumes finis. Cela permet d’obtenir l’évolution des variables sur chacun des volumes de la maille (cf figure 1.8).

Ensuite, les connaissances des flux et interactions entre océan et atmosphère ont per-mis de mettre en place des modèles résolvant ’simultanément’ les deux composantes et leurs principaux échanges. On obtient alors un modèle de circulation générale océan-atmosphère (AOGCM)[59]. Nous appellerons, par abus de langage, modèle couplé, tout modèle résolvant simultanément deux composantes. Avec le temps, les modèles couplés ont pris en compte plus de composantes importantes du système (sol, cryosphère ...) représenté dans la figure 1.9, jusqu’à arriver aux "Modèles du Système Terre" (ESM) résolvant de plus, les processus bio-géo-chimiques [14]. Ces derniers permettent de dé-crire la biosphère ainsi que la chemosphère et donc d’obtenir la répartition d’espèces chimiques dans le système. Ils offrent, en général, une représentation du cycle du car-bone.

(24)

Figure 1.9 – Évolution de la complexité des modèles de climat (figure basée sur les travaux du Dr Gavin Schmidt). Cette frise chronologique montre l’évolution des modèles de climat. Ils commencent avec une description de l’atmosphère AGCM puis océan-atmosphère AOGCM pour finalement se coupler progressivement avec plusieurs modélisations d’autres composantes du système climatique.

1.4.4 L’importance des statistiques dans l’étude du climat

Le système climatique est un système dynamique chaotique. L’étude de tels systèmes, qu’ils soient considérés comme déterministes ou purement aléatoires, se fait en général au travers de leurs statistiques [64]. C’est une des raisons pour lesquelles les statistiques du système climatique y jouent un rôle central, le climat pouvant être vu comme l’analyse statistique de ses variables. En effet, on cherche à obtenir différentes informations sur le système climatique ainsi qu’à quantifier leurs incertitudes. Par exemple : y a-t-il un changement dans l’état du système climatique ? (Détection). Est-ce imputable à l’activité humaine ? (Attribution). Avec quelle précision peut-on quantifier l’évolution d’une variable ? C’est dans ce dernier point de vue que nous nous placerons pour étudier des séries chronologiques durant la majorité de ce manuscrit.

Les précédents points développés au cours des sections 1.4.1, 1.4.2, 1.4.3 peuvent être appréhendés dans le cadre des statistiques. En effet, la classification climatique (section 1.4.1)

(25)

cherche à répondre à la question : quels sont les grands types de climat ? Ce qui revient à partitionner à l’aide de méthodes d’apprentissage non-supervisé. Le raisonnement avec les analogues de la section 1.4.2 est, quant à lui, à rapprocher d’une estimation par plus proches voisins. Enfin, les relations entre la modélisation physique et les statistiques sont nombreuses et apparaissent à plusieurs niveaux. Une première remarque est que les sorties des ESM visent à reproduire une réalisation du climat. Une des grandes forces des modèles réside dans la possibilité de rejouer plusieurs fois une situation climatique et d’obtenir alors, à l’aide de méthodes statistiques, une meilleure compréhension de la distribution des variables étudiées. En outre, la bonne utilisation des modèles pour analyser le climat est soumise à une évaluation de ces derniers. La validation, la calibration et parfois l’initialisation des modèles couplés donnent lieu à des problèmes d’apprentissage (au sens statistique). Cela revient à dire en termes probabilistes : peut-on reproduire les propriétés statistiques des observations, et comment inférer les paramètres du modèle au travers de l’assimilation de données [106, 19].

1.5

Modélisation de l’évolution saisonnière du climat

Le but premier de ce travail de thèse est d’étudier la déformation des cycles saisonniers de variables climatiques, considérées au pas de temps quotidien, sous l’influence du changement climatique. Nous effectuerons cette analyse sur deux caractéristiques des variables étudiées : l’espérance et les quantiles.

Nous serons donc amenés à estimer, qu’il s’agisse de l’espérance ou des quantiles de la variable, pour une localisation donnée, des fonctions prenant leurs valeurs sur le cylindre. Les cercles représentant l’aspect périodique, portant donc les jours de l’année d, et l’axe principal portant la variable annuelle y. Dans la suite de cette section, nous noterons la fonction d’intérêt Ψ: S1×[1, N] →

R (d, y) 7→Ψ(d, y)

.

Nous supposerons de plus que Ψ satisfait des conditions de régularité qui seront détaillées dans les chapitres 3 et 4.

Un élément intéressant et primordial afin d’étudier le changement climatique saisonnier est de connaître la différence moyenne entre les cycles annuels de deux périodes. Prenons, par

(26)

exemple deux périodes de 30 années, débutant aux années y1 et y2; les périodes s’écrivent

alors P1 = {y1, . . . , y1+ 29} et P2 = {y2, . . . , y2+ 29}. Autrement dit, si la variable d’intérêt

est la moyenne de température Td,y nous modélisons le changement saisonnier comme suit :

Td,y1+t − Td,y2+t = hP1,P2(d) + , t ∈ J0, 29K. L’élément hP1,P2 représente alors un cycle annuel donnant le réchauffement expérimenté pour chaque jour de l’année, en moyenne entre les deux périodes, et ε est un bruit centré. Dans la suite, nous utiliserons le terme "delta cycle" pour désigner les cycles portant une information du même type que celle donnée par h. Cette première modélisation ne nous informe cependant pas de l’évolution chronologique annuelle de la déformation du cycle saisonnier. Elle nous montre seulement la différence du comportement moyen entre deux périodes. Ce modèle suppose, de plus, que l’évolution annuelle moyenne à l’intérieur de chaque période est comparable ; une hypothèse qui n’est presque jamais vérifiée pour des périodes opposant un climat stationnaire (e.g. 30 années en climat pré-industriel) à une période subissant un réchauffement (e.g. période actuelle). C’est pour toutes ces raisons qu’il est naturel, lorsque nous nous intéressons à l’intégralité d’une série d’observations sur de longues périodes (60 ans ou plus), de contrôler la magnitude du changement saisonnier par une fonction g dépendant de l’année considérée g(y). Notre modélisation devient alors : Td,y2 − Td,y1 = (g(y2) − g(y1))h(d) + .

L’hypothèse principale faite par ce modèle est que la modulation du changement saisonnier est portée par le cycle h sur l’intégralité de la période. La magnitude du changement est alors gouvernée par la fonction g. Au cours de cette thèse, nous nous référerons à ce modèle comme un modèle multiplicatif ou bilinéaire. Cette approche a déjà porté ses fruits pour la modélisation de signaux temps-espace, il est alors mieux connu sous le nom de "pattern scaling"[96, 121].

Cette hypothèse constitue une étape importante du travail de modélisation présenté dans ce manuscrit. Elle mérite donc de s’attarder d’avantage sur ses motivations d’un point de vue plus théorique.

D’une part, cette hypothèse peut être vue comme une approximation de type dévelop-pement limité, si la déformation des cycles est contrôlée par une fonction régulière C des années représentant, par exemple, les émissions anthropiques. Il existe alors une fonction Φ telle que la fonction d’intérêt Ψ(d, y) = Φ(d, C(y)) pour tout d ∈J1, 365K, y ∈ J1, N K. Il vient :

(27)

Φ(d, C(y1)) − Φ(d, C(y0)) ' (C(y1) − C(y0))∂y∂Φ(d, C(y0)).

Bien sûr, si les variations de C sont trop grandes ou encore que Φ est trop non-linéaire en sa deuxième variable, l’approximation ne tient plus. Cependant, si l’intérêt est d’obtenir le delta cycle moyen, l’emploi de ce modèle reste justifié.

D’autre part, nous pouvons en réalité décrire l’intégralité d’un signal 2D quelconque en généralisant cette approche. En effet, rien ne nous empêche de décomposer le signal de la fonction mesurée en augmentant le nombre de termes multiplicatifs :

d ∈J1, 365K, y, p ∈ J1, N K, N ∈ N

Td,y = f(d)+g1(y)h1(d)+· · ·+gp(y)hp(d). Lorsque p = min(N, 365)−1, cette décomposition

permet d’interpoler l’ensemble des points. Dans cette thèse, nous serons généralement dans le cas N ≤ 365. Pour le constater, il suffit de localiser les fonctions g, par exemple, gy = 1y=y0

ou tout autre base de l’espace discret (splines, Fourier, etc.). Comme nous l’avons précisé, nous n’utiliserons cette décomposition qu’au premier ordre. Pour en retenir une information intéressante, nous supposerons, en général, que la fonction f représente un cycle annuel moyen sur la période considérée, g la tendance moyenne annuelle et, pour des raisons d’identifiabilité du modèle, h sera de moyenne 1. Ceci de sorte à ce que le signal restant g2(y)h2(d) + · · · +

gp(y)hp(d) soit composé de fonctions dont la moyenne, à un jour fixé d ou à une année y

fixée, est nulle sur la période. Les fonctions gi et hi, par définition non-corrélées aux termes

précédents, peuvent alors être incluses dans le modèle selon leur importance, notamment grâce à une mesure des variations de gi.

1.6

Quelles données pour évaluer le changement climatique ?

Pour inférer les évolutions du climat, plusieurs types de données sont utilisés par la com-munauté climatique. Les deux grandes classes sont les observations (in situ, radar, satellite, ...) et les modèles se basant sur une modélisation physique de l’évolution du système. Ces derniers sont évalués au vu des performances à reproduire le climat passé. Il existe divers produits combinant les deux points de vue notamment à l’aide d’un modèle contraint par les observations disponibles. C’est, par exemple, le cas des données PIOMAS [143] qui sont une ré-analyse d’aires et de volumes de banquise arctique.

(28)

1.6.1 Modèles couplés

Au cours de cette thèse, nous utiliserons des simulations provenant de modèles couplés, plus précisément les bases de données issues du Projet d’Intercomparaison des Modèles Cou-plés/Coupled Model Intercomparison Project CMIP 5. Ces données contiennent notamment des simulations du climat passé ainsi que du climat futur en fonction de divers scénarios d’émission RCP (Representative Concentration Pathway) et cela pour plusieurs modèles climatiques. Le CMIP est un projet du programme mondial de la recherche sur le climat (WCRP). Ce projet vise à réaliser des simulations climatiques de façon coordonnée entre les différents laboratoires de recherche en climat, permettant ainsi une meilleure estimation et compréhension des différences entre les modèles climatiques [118]. L’exercice permet d’évaluer le degré de réalisme des modèles sur le passé récent, de produire des projections sur le futur proche (2035) et plus lointain (fin du 21ème siècle et au delà). En outre, il a pour but de

quantifier l’effet des rétroactions les plus importantes telles que celles impliquées dans le cycle du carbone. Les résultats basés sur ces simulations jouent un rôle majeur dans l’évaluation de l’état des connaissances sur le climat par le GIEC. Nous utiliserons, au cours de cette thèse, la cinquième phase de ce projet. Il implique 20 groupes de climat à travers le monde et comprend plusieurs types de simulations longue échéance, ces dernières sont consignées dans la figure 1.10.

Nous utiliserons principalement les simulations historiques et celles issues des scénarios RCP. Ces scénarios sont souvent décrits en terme d’évolution du forçage radiatif. Ce dernier décrit l’impact d’une perturbation du système sur le bilan radiatif terrestre par rapport à un état de référence (dans notre cas 1750 c.f chapitre 8 [117]). Le bilan radiatif est défini comme la différence entre l’énergie radiative reçue (dont le plus grand contributeur est le soleil) et l’énergie radiative émise par le système climatique. Autrement dit, le forçage radiatif positif représente le différentiel d’énergie du système climatique. Lorsque le forçage radiatif est positif le climat tend à se réchauffer et inversement. Les scénarios RCP, au nombre de 4, sont des trajectoires d’évolution du forçage radiatif jusqu’à l’horizon 2300. Ils sont représentatifs de scénarios de concentration de gaz à effet de serre dans l’atmosphère. La figure 1.11 montre les scénarios RCP, le scénario le plus optimiste suppose une augmentation de la concentration de gaz à effet de serre jusqu’en 2010-2020, date après laquelle les émissions diminuent

(29)

substan-Mo

del evaluation

Climate p

rojections

Understand

ing

Figure 1.10 – Figure adaptée de [119] montrant les différents types d’expériences à long terme du projet CMIP5. Ces expériences peuvent être classifiées en fonction de leurs degrés d’importance au vue du projet : les expériences au coeur du projet (contenue dans le disque rose) et celles du premier et deuxième tiers consignées dans les couronnes jaunes et vertes. Chacune des expériences permet de remplir les objectifs du projet CMIP5. En bas, sont consignées des expériences idéalisées faites pour une meilleure compréhension du climat. Par exemple, l’effet d’une augmentation annuelle de 1% du CO2 dans l’atmosphère ou encore d’un

quadruplement du CO2. En haut à droite, les simulations basées sur des scénarios d’émission

RCP. En haut à gauche, les expériences permettant d’évaluer la qualité des modèles. En vert sont celles effectuées avec des modèles possédant un couplage avec leurs cycles du carbone.

tiellement [122]. De même, pour les scénarios RCP 4.5 et 6 ils atteignent un pic d’émission en 2040 et 2080 puis les émissions déclinent. Le scénario le plus pessimiste RCP 8.5 suppose une augmentation des émissions sur l’intégralité du 21ème.

(30)

Figure 1.11 – Forçages radiatifs imposés par les scénarios d’émission RCP 2.6, 4.5, 6, 8.5 et leurs extensions. Les variations décennales sont principalement dues aux forçages volcaniques et à la prise en compte des cycles solaires. Source : 5ème rapport du GIEC [117].

1.6.2 Les données d’observation

Nous pouvons aussi étudier le changement climatique directement à l’aide d’observations. Il existe un grand nombre de méthodes d’observation du climat à l’aide de différents instruments (cf figure 1.12) : satellites, ballon sonde, balise argo, lidar, avions. Les données in situ ayant en général la plus grande profondeur temporelle, nous nous baserons particulièrement sur celles issues de stations météorologiques au sol. Ces dernières ne peuvent, hélas, être utilisées à l’état brut sans avoir subi une analyse de leur qualité et éventuellement des corrections. En effet, les conditions d’observation peuvent changer au cours du temps et causer des ruptures ou autres types de biais dans les séries temporelles observées. En d’autres termes, nous n’avons pas une mesure homogène d’une variable dans le temps à une localisation donnée. Les raisons de ces in-homogénéités peuvent provenir de plusieurs sources non-directement liées au changement climatique, notamment un changement d’instrumentation de mesure ou encore une modifi-cation de l’environnement du site de mesure. La figure 1.13 montre l’effet d’un changement d’abri sur des mesures de température journalière. Pour pallier à ce type de désagrément, les

(31)

Figure 1.12 – Représentation simplifiée de différentes composantes du système mon-dial intégré de surveillance (WIGOS) de l’OMM [figure extraite du site de Organisation Météorologique Mondial https://public.wmo.int/en/about-us/vision-and-mission/ wmo-integrated-global-observing-system]

services climatiques utilisent des méthodes de correction des séries (homogénéisation) ou de sélection de stations ne présentant pas ce type de biais.

Nous utiliserons au cours de cette thèse les Séries Quotidiennes de Référence (SQR) qui sont spécifiques à la France. Il s’agit d’une sélection de données climatologiques quotidiennes d’une station météorologique, pour une période donnée. Cette sélection est basée sur diverses informations telle l’amplitude des ruptures mentionnées plus tôt, mais aussi le taux de données manquantes et le nombre de déplacements du poste de mesure.

Il existe un monde reliant ces deux points de vue (modèles et observations) tels que les ré-analyses qui permettent de simuler - avec un modèle physique - le climat d’une période, en contraignant la simulation par les observations disponibles (en général d’un champ assez régu-lier spatialement : pression, température). Notre objectif étant tout d’abord méthodologique,

(32)

Cimel " CIM" en référence à "GM2" 0 10 20 30 40 50 60 70 80 90 100 -1 ,3 -1 ,1 -0 ,9 -0 ,7 -0 ,5 -0 ,3 -0 ,1 0,1 0,3 0,5 0,7 ,90 1,1 1,3 1,5 1,7 1,9 écart à la référence en °C P ou rc en ta ge s cu m ul é s Tmin_cim Tmax_cim Tmoy_cim CIM GM2

Abri "GRAND MODELE"

(référence) Abri "CIMEL"

Figure 1.13 – Influence de l’abri sur la mesure des températures moyennes minimales et maximales journalières :

Les deux figures de gauche présentent deux types d’abris équipés du même modèle de capteur de température (100 ohms, platine, de classe A). Tous deux positionnés sur le site de Trappes à 11 mètres de distance l’un de l’autre [90]. Il est ici pris comme référence les mesures réalisées en utilisant l’abri « grand modèle ». La figure de droite montre les courbes des fréquences cumulées (exprimées en pourcentage) des écarts à la référence. L’abri « CIMEL », trop petit, a tendance à s’échauffer, ce qui se traduit par un biais d’environ +0.5°C par rapport à l’abri « grand modèle » (médiane des écarts de TX de 0.45°C). En revanche, les températures minimales sont généralement sous-estimées. La température moyenne n’est que peu affectée. Lefèvre (1998) montre l’influence du rayonnement et des classes de vent sur les écarts observés. theSource : thèse d’Olivier Mestre, 2000.

nous ne pousserons pas plus avant le bestiaire des données climatiques.

Ce manuscrit est structuré comme suit. Dans le Chapitre 1, nous proposons une description des théories et outils statistiques utilisées, soit principalement les splines de lissage (au travers de la théorie des RKHS), la régression quantile et quelques aspects de la sélection de modèle. Le Chapitre 2 contient un article publié sur les normales climatiques non-stationnaires ainsi que quelques compléments. Le Chapitre 3 est un article en préparation qui applique, entre autre, des méthodes de régression quantiles permettant de voir l’évolution, sous l’effet du changement climatique, des distributions de la température moyenne et des précipitations sur des observations. Le Chapitre 4 conclut ce travail et présente des perspectives, notamment aux chapitres 2 et 3.

(33)
(34)

Chapitre 2

Méthodes statistiques

Sommaire

2.1 Espaces de Hilbert à noyaux reproduisant (RKHS) . . . . 24

2.1.1 Introduction . . . 24 2.1.2 Un coup d’œil sur la théorie générale . . . 25 2.1.3 Le cas des splines (1D) sur l’intervalle [0,1] . . . 29 2.1.4 RKHS et base hilbertienne . . . 35 2.1.5 Le cas des splines périodiques (1D) sur l’intervalle [0,1] . . . 37

2.2 Régression quantile . . . . 40

2.2.1 Définition et premières propriétés . . . 41 2.2.2 Premières propriétés . . . 43 2.2.3 Estimation : écriture sous la forme d’un problème linéaire . . . 45 2.2.4 Théorie asymptotique . . . 47 2.2.5 Estimation de la loi de ˆβτ . . . 51

2.2.6 Suppléments méthodologiques . . . 55

2.3 Sélection de modèles et erreur de généralisation . . . . 58

2.3.1 Cadre et premières définitions . . . 58 2.3.2 Décomposition biais-variance pour un coût quadratique . . . 59 2.3.3 Degrés de liberté . . . 62 2.3.4 De l’optimisme à la véritable erreur . . . 63 2.3.5 Critères Cp AIC BIC . . . 64

(35)

Ce chapitre a pour vocation de présenter, dans un premier temps, un panel choisi de méthodes classiques d’approximations fonctionnelles, permettant ainsi d’introduire les splines de lissage dans un cadre un peu plus large. Ces techniques peuvent s’appliquer à l’estimation de nombreuses caractéristiques d’une variable telles que les quantiles, mais il en sera surtout tiré partie pour estimer l’espérance d’une variable. Dans la deuxième section, sera présentée une introduction à la régression quantile, puis, dans la dernière section, quelques éléments de sélection de modèles pouvant servir à la fois à la bonne estimation du paramètre de lissage (e.g. pour les splines), qu’à la sélection de variables utilisées en régression quantile. Chacune de ces composantes va interagir au cours de ce travail de thèse. Il serait erroné, en revanche, de les penser comme des résumés exhaustifs de ces axes de recherches ; mais plutôt comme un ensemble de résultats à disposition pour mener à bien cette thèse. Pour résumer, nous utiliserons la première et la troisième partie pour obtenir de nouvelles normales offrant plus de flexibilité, et principalement les deux dernières parties pour dériver des distributions en climat changeant. Le peu de théorie des RKHS utilisée dans le chapitre 4 concerne les modèles paramétriques utilisés comme référence. La sélection de la bonne complexité des modèles est au coeur de la plupart des résultats de cette thèse. En effet, elle nous permettra d’obtenir des signaux significatifs, ce qui n’est pas le cas en imposant la complexité du modèle à priori.

2.1

Espaces de Hilbert à noyaux reproduisant (RKHS)

2.1.1 Introduction

Les espaces de Hilbert à noyaux reproduisant (RKHS) prennent une place particulièrement importante en statistique car ils fournissent un cadre général dans lequel on peut offrir la meilleure approximation fonctionnelle (au vu de la norme et des points d’observations). Les RKHS permettent, en outre, de faire des ponts entre différents estimateurs tels que les splines, le krigeage ou encore les séparateurs à vaste marge [42]. Cette théorie a été développée si-multanément par Nachman Aronszajn et Stefan Bergman, en 1950 [112], pour estimer la meilleure approximation fonctionnelle de la fonction de régression. Dans cette théorie, on se place dans un espace de Hilbert fonctionnel, généralement de dimension infinie, tel que les fonctionnelles linéaires d’évaluation (f 7→ f(x)) soient continues. Initialement, et, dans le

(36)

cadre de cette thèse, cette théorie est motivée par des problèmes de régression pénalisée. La théorie suivante se généralise aisément au cas complexe (noyaux de Bergman). Cependant, par soucis de concision et de clarté, nous ne développerons pas cette partie de la théorie.

2.1.2 Un coup d’œil sur la théorie générale

Définition 2.1 (RKHS)

Soit X un ensemble arbitraire et H ⊂ RX un espace de Hilbert de fonctions à valeurs réelles

sur X. On dit que H est un espace de Hilbert à noyau reproduisant si pour tout x dans X, les formes linéaires Lx: H → R

f 7→ f(x)

sont continues i.e. ∀x ∈ X, ∃Mx tel que ∀f ∈ H, kf(x)k ≤ Mxkf kH

Exemple 2.1

Un espace de Hilbert muni de la norme L2([0, 1]) contenant les indicatricesn1

[0,1

n] ou encore q(n −n2

2 x)1[0,n2] (pour une version continue) n’est pas un RKHS. En effet, la norme

L2 de ces deux suites de fonctions est constante, et pourtant leurs évaluations en zéro tendent

vers l’infini. Remarque 2.1

Dans un RKHS, la convergence en norme implique la convergence simple (ou ponctuelle). Définition 2.2 (Noyau)

Soit X un ensemble arbitraire et H ⊂ RX un espace de Hilbert (de fonctions à valeurs réelles

sur X). On dit que K: X × X → R est un noyau symétrique positif si 1. ∀{x, y} ⊂ X, K(x, y) = K(y, x)(symétrie).

2. ∀n ∈ N, ∀x1, . . . , xn∈ X, ∀t1, . . . , tn∈ R :Pi,j∈J1,nKtitjK(xi, xj) ≥ 0 (On dit qu’il est

défini lorsque cette dernière inégalité est stricte). Remarque 2.2

Hormis la bi-linéarité, il s’agit presque d’un produit scalaire. Théorème 2.1(Théorème de Moore-Aronszajn)

(37)

La donnée d’un noyau symétrique positif K est équivalente à celle d’un RKHS sur H. Preuve:

Une preuve détaillée peut être trouvée dans [48]. Nous nous contenterons, dans ce travail, de donner les idées principales.

⇐ Soit H muni de son produit scalaire h.,.iH. Les formes linéaires Lx étant continues pour

tout x ∈ X, il vient, d’après le théorème de représentation de Riesz : ∃Kx ∈ H,tel que Lx(.) = hKx, .iH . On définit alors :

K: X × X → R

(x, y) 7→ hKx, KyiH.

On vérifie sans peine que K est un noyau symétrique positif. Notons qu’il n’est pas bilinéaire.

⇒ Réciproquement, étant donné un noyau positif K construisons le RKHS associé : (a) Ébauche du RKHS

Posons H0 def

= {Pn

i=1aiK(xi, .) | n ∈ N, x1, . . . , xn ∈ X, a1, . . . , an ∈ R} (i.e. les

combinaisons linéaires des représentants d’évaluation).

H0 peut alors être muni d’un produit scalaire en étendant, par bi-linéarité, les relations

hKx, KyiH0

def

= K(x, y). En effet :

• h., .iH0 est bien défini :

hf, giH0 ne dépend pas de la représentation de f et g. Si g =

Pn

i=1aiK(xi, .)

alors hf, giH0 =

Pn

i=1aif(xi).

• h., .iH0 est bi-linéaire, symétrique et défini positif :

soit f =Pn

i=1aiK(xi, .), n ∈ N.

(38)

• K(xi, .) est un représentant de l’évaluation.

(b) Complétion de H0

La complétion de H0est standard, et les représentants de l’évaluation sont toujours

donnés par K.

Propriété 2.1 (Projection sur un RKHS)

Soient (H0, h., .iH0) un espace de Hilbert de fonctions définies sur X, et (H, h., .iH0) un

sous-espace fermé. Alors, si H est un RKHS de noyau K la projection de g ∈ H0 sur H est donnée

par l’application :

gK: X → R

x 7→ hg, K(x, .)iH0.

Preuve:

Notons gH le projeté de g sur H.

∀x ∈ X,

hg − gH, K(x, .)iH0 = hg, K(x, .)iH0− hgH, K(x, .)iH0 = gK(x) − gH(x).

Or, les K(x,.) sont des éléments de H et, par définition de la projection orthogonale, il vient : ∀x ∈ X, gK(x) − gH(x) = 0

Propriété 2.2 (Décompositions en somme de RKHS [110])

Soit H un espace auto-reproduisant sur X dont le noyau K peut se décomposer en la somme de deux noyaux K = K0+ K1, tel que : K0(x, .) ∈ H et K1(x, .) ∈ H pour tout x ∈ X et

hK0(x, .), K1(y, .)i = 0, pour tout x, y ∈ X. Alors H est la somme orthogonale H = H0LH1

(où H0 et H1 sont les RKHS associés aux noyaux K0 et K1).

(39)

Preuve:

Par définition de H et par orthogonalité de K0 et K1, il vient :

pour tout x, y ∈ X, K0(x, y) = hK0(x, .), K(y, .)i = hK0(x, .), K0(y, .)i.

Par suite, H0 admet un supplémentaire orthogonal H⊥0.

Soit f ∈ H, alors il existe f0∈ H0 et f0⊥∈ H0⊥.

Il vient f(x) = hK(x, .), fi = hK0(x, .), f0i+ hK1(x, .), f0⊥i = f0(x) + hK1(x, .), f0⊥i ce qui

montre que K1 est le noyau reproduisant de H⊥0.

La réciproque est triviale.

Théorème 2.2(Le théorème du représentant)

Soient H un RKHS de noyau défini positif K, et {x1, . . . , xn} ⊂ X un sous-ensemble de

cardinal fini n. Soit Ψ: Rn+1→ R croissante par rapport à son dernier argument.

Alors, toute solution f au problème (si elle existe) : min

f ∈HΨ(f(x1), . . . , f(xn), kfkH)

s’écrit comme combinaison linéaire des représentants de l’évaluation : f =Pn

i=1αi.K(xi, .) où ∀i ∈J1, nK, αi ∈ R.

Preuve:

Supposons qu’il existe un minimiseur f de Ψ.

Considérons E = Vect{K(xi, .), i ∈J1, nK} qui est un sous-espace vectoriel de dimension finie, donc fermé de H. D’après le théorème du supplémentaire orthogonal [111], H se décompose comme une somme directe de deux espaces vectoriels orthogonaux H = EL⊥

E⊥. Nous noterons fE ∈ E la projection orthogonale de f sur E et f∈ E⊥ son supplémentaire

orthogonal.

Il vient d’une part :

∀i ∈J1, nK, f(xi) = hf, K(xi, .)iH

= hfE, K(xi, .)iH+ hf, K(xi, .)iH

(40)

D’autre part, kfk = kfEk+ kfk ≥ kfEk.

Par suite, Ψ étant croissante par rapport à son dernier argument (contenant la norme de la fonction), Ψ(f(x1), . . . , f(xn), kfkH) ≥ Ψ(fE(x1), . . . , fE(xn), kfEkH).

Par conséquent, f⊥= 0H et f ∈ E.

Remarque 2.3

Habituellement le critère à minimiser est de la forme : Ψ(f(x1), . . . , f(xn), kfkH) =

Pn

i=1L(yi, f(xi))+λJ(kfkH) où L est la fonction coût considérée

J: R+→ R+ est une fonction croissante. Le premier terme décrit l’ajustement aux données,

le second contraint la "régularité" de f, le contrôle du compromis est fait à l’aide du paramètre λ ∈ R+.

2.1.3 Le cas des splines (1D) sur l’intervalle [0,1]

Les splines de lissage cherchent à décrire la fonction de régression dans l’espace de Sobolev Hm = {f : [0, 1] : → R : f(m−1) absolument continue, f(m) ∈ L2([0, 1])} en pénalisant la

fonctionnelle par la norme de sa dérivée d’ordre m ∈ N. Étant donné des observations {(yi, xi)i∈J1,nK} ⊂ R

2, λ ∈ R, elles sont solution du problème

de minimisation suivant : ˆg = argmin s∈Hm " n X i=1 yi− s(xi)2 | {z }

terme d’ajustement aux données

Z 1 0 s(m)(x)2 dx | {z } régularité de f # = argmin s∈Hm " kY − s(X)k22 | {z }

terme d’ajustement aux données

s (m) 2 L2 | {z } régularité de f # (2.1)

, où Y = (yi)i∈J1,nK, X = (xi)i∈J1,nK et s(X) = (s(xi))i∈J1,nK.

Le terme λ contrôle le compromis entre l’ajustement aux données et la complexité de la fonction s. En effet, si λ = 0, tout interpolateur des données (yi, xi)i∈J1,nK, par exemple

(41)

un polynôme d’interpolation, est un minimiseur. À l’inverse, lorsque λ → ∞, ˆg tend vers l’estimateur de la régression linéaire simple sur une base de polynômes de degrés au plus m −1. L’estimation de λ est en général difficile. Elle est effectuée en minimisant certains critères (e.g. BIC,GCV...), ou encore à l’aide de techniques de validation croisée. Ce problème sera l’objet de la section 2.3.

La stratégie, à partir d’ici, consistera à déterminer la structure de RKHS sur Hm associé

au problème (2.1), de sorte à pouvoir exprimer le terme de régularisation comme une fonction croissante d’une norme et ainsi appliquer un raisonnement analogue au théorème du repré-sentant. Pour ce faire, il est habituel [127, 67] de décomposer Hm en la somme directe de

deux espaces plus simples. Ces derniers sont basés sur la formule de Taylor-Laplace avec reste intégral. ∀x ∈[0, 1], f(x) = m−1 X k=0 fk(0).x k k! + 1 Z 0 (x − u)m−1 + m −1! f (m)(u)du (2.2) où (t)+= max(0, t).

L’équation (2.2) nous pousse à étudier deux facettes du problème. Dans un premier temps : l’espace des fonctions dont l’évaluation est nulle en 0 et dont toutes les dérivées d’ordre inférieur à m − 1 sont, elles aussi, nulles en 0. Soit

Hm0 = {f ∈ L2([0, 1])| ∀k ∈J0, m − 1K,

f(k)absolument continue et f(k)(0) = 0, f(m)∈ L2([0, 1])}

muni du produit scalaire hf, giHm

0 def = R1 0 f(m)(x).g(m)(x)dx = hf(m), g(m)i L2.

Dans un second temps : l’espace des fonctions dont la dérivée d’ordre m est nulle ou, de façon équivalente, des polynômes de degrés au plus m − 1, que nous noterons :

Pm def= {f ∈ L2([0, 1])| ∀k ∈J0, m − 1K, f(k) absolument continue, f(m)= 0Hm} = Vect{xk, k ∈

(42)

muni du produit scalaire hf, giPm def= Pm−1

k=0 f(m)(0).g(m)(0).

Ceci définit un espace euclidien qui a toutes les propriétés voulues. Étude de Hm0

• (Hm

0 , h, iHm

0 ) est un espace de Hilbert.

• Hm

0 est un RKHS de noyau reproduisant : K0(x, y) = 1 R 0 (x − u)m−1 + m −1! . (y − u)m−1 + m −1! du. En effet, posons : Gm: [0, 1]2→ R (x, y) 7→ (x − y)m−1+ m −1! . D’après la formule de Taylor (2.2) :

∀f ∈ Hm 0 , ∀x ∈[0, 1], f(x) = 1 R 0 (x − u)m−1 + m −1! f (m)(u)du =R1 0 Gm(x, u).f(m)(u)du. Par suite : ∀f ∈ Hm 0 , ∀x ∈[0, 1], Lx(f) = f(x) = 1 R 0 Gm(x, u).f(m)(u)du ≤ kfkHm 0 kGm(x, .)kL2.

Les fonctionnelles d’évaluation étant continues, Hm

0 est un RKHS. De plus, on trouve

par identification le représentant de l’évaluation : f(x) = hK0(x, .), fiHm 0 = 1 R 0 dmK0(x,u) dum .f(m)(u)du = 1 R 0 Gm(x, u).f(m)(u)du.

Par identification dmK0(x,u)

dum = Gm(x, u). Or, la propriété de reproduction implique :

K0(x, y) = hK0(x, .), K0(y, .)i Hm 0 = 1 R 0

Gm(x, u).Gm(y, u)du

qui est un élément de Hm

0 .

Étude de Pm

Pm est clairement un espace euclidien ayant toutes les propriétés voulues. Reste à déterminer le noyau associé à Pm.

Pour ce faire, munissons Pm d’une base orthonormale {φ

k: x → x k k!, k ∈J0, m − 1K}, alors : ∀f ∈ Pm, ∀x ∈[0, 1], f(x) =Pm−1 k=0 hf, φkiPm.φk(x) = hf, Pm−1 k=0 φk.φk(x)iPm donc Lx(.) = KP(x, .) =Pm−1k=0 φk(.)φk(x).

Figure

Figure 1.1 – Écart des températures moyennes mensuelles observées par rapport à la moyenne mensuelle de référence 1981-2010 de novembre 2010 à novembre 2019 sur la station de Toulouse-Blagnac.
Figure 1.3 – Représentation schématique de chacune des composantes climatiques et de ses principales interactions.
Figure 1.5 – Classification due à Köppen 1884.
Figure 1.7 – Analogues actuelles du climat futur de Paris en 2100 (source Kopf et al., 2012[82])
+7

Références

Documents relatifs

Les transmetteurs d’efforts utilisés au sein des assemblages goujons collés sont le plus souvent des éléments en acier pour leur résistance et leur comportement ductile.. La

La variabilité spatiale et temporelle et l’influence du climat sur les cycles phénologiques (débourrement, jaunissement automnal et durée de la saison de végétation) de

Nous allons examiner ici ces grands systèmes naturels de recyclage, en prenant comme toile de fond, les quatre grandes composantes du système Terre: atmosphère,

On trace au jugé une droite D (on peut s’aider du point moyen) en s’efforcant d’équilibrer le nombre de points situés de part et d’autre. Ensuite on détermine par

The researchers searched the literature for reports of RCTs on the effects of antiepileptic drugs in the add-on treatment of drug-resistant partial epilepsy in children and

4 En fait, les mesures de précipitation n’ont été effectuées de façon régulière à la Martinique que depuis la première moitié du XIX e siècle ;

Pour obtenir le gradient de couleur puis les lignes de niveau uniquement dans le plan du bas (comme une vue du dessus) :.. unset surface (supprime

Quelles quantités de microprocesseurs et de cartes mères, l’entreprise doit-elle produire chaque mois pour min- imiser le coût mensuel de production.. Quel est