Mémoire d'actuariat

(1)

(2)

(3)

Remerciements

Je tiens tout d’abord à remercier Christophe Eberlé, président fondateur d’Optimind, pour m’avoir permis de réaliser mon alternance au sein de son entreprise, ainsi que les partners, Marie-Catherine Sarraudy, Gildas Robert, Valérie Deppe et Julien Char- tier, pour m’avoir accueilli au sein de lapractice Actuarial & Financial Services.

Je souhaite également remercier chaleureusement mon tuteur, AurélienLe Chaixpour son encadrement, son soutien sans failles, et sa disponibilité tout au long de la réalisation de ce mémoire. J’adresse également mes remerciements à EmmanuelBerthelé et Matthieu Lagadec, pour leur encadrement efficace et leurs conseils avisés.

De plus, je tiens à remercier l’ensemble des collaborateurs d’Optimind avec qui j’ai eu l’occasion d’évoluer, pour leur accueil, leur bonne humeur quotidienne et leurs conseils.

J’adresse des remerciements particuliers à mes collègues alternants, Arthur Corda, Ma- rine Durand, Hugo Tambrun et Guillaume Gillot, avec qui j’ai partagé cette année, ainsi qu’à ElisabethDe Vandière, pour ses relectures précieuses.

J’aimerai ensuite remercier l’ensemble du corps professoral du DUAS, et notamment le directeur, Jean Berard, pour la qualité de l’enseignement dispensé au cours de ces trois années. J’adresse également tous mes remerciements à Myriam Maumy-Bertrand, ma tutrice académique, et à VincentVigon, pour leur expertise et leur disponibilité.

Enfin, j’ai une pensée particulière pour ma famille et leur soutien constant, à qui la réussite de ce mémoire appartient. J’aimerai également, pour finir, remercier Maryam Hariki et MarionVelut, pour leur bonne humeur et leurs encouragements quotidiens.

(4)

Résumé

Les produits d’assurance indicielle présentent de nombreux avantages. Le sinistre étant acté dès lors qu’un indice indépendant vient franchir un seuil contractuel, ils permettent des délais d’indemnisation très courts, de l’ordre d’une semaine. Ce type de produit d’assurance n’étant pas sujet à l’aléa moral ou au risque d’anti-sélection, il tend à se développer dans de nombreux secteurs de l’assurance IARD, notamment concernant la couverture des risques météo-sensibles. Toutefois, un des défauts majeurs de l’assurance indicielle reste la difficulté de la mise en place d’un nouveau produit.

Dans le cadre de ce mémoire, plusieurs procédés permettant l’accélération d’une telle pro- cédure seront proposés et intégrés au sein d’un package Python. Ces ainsi nommés « ac- célérateurs » porteront sur différents points essentiels à la mise en place d’une couverture indicielle. L’extraction automatisée de données météorologiques massives issues de la NASA ainsi que l’implémentation d’une méthode permettant d’augmenter la résolution spatiale d’une variable réponse appelée « support du risque » permet de grandement simplifier l’extraction ainsi que le retraitement des données nécessaires à la construction d’un indice.

Afin de rendre plus accessible la création de ce dernier, la mise en place de réseaux de neurones de type perceptron multi-couches a été automatiséevia plusieurs procédures parmi lesquelles se trouve l’algorithmeAdaNet, publié parGoogle Research à l’occasion de l’ICLM 2017.

Les procédés étudiés dans le cadre de ce mémoire sont vulgarisés et accompagnés d’outils adaptés aux problèmes soulevés par la mise en place d’une couverture indicielle. En guise d’illustration, les accélérateurs proposés seront appliqués à la couverture contre les aléas météorologiques des pertes d’exploitation des centrales solaires.

Mots clefs : Assurance indicielle. Assurance paramétrique. Données satellites massives.

Désagrégation spatiale. Régression. Réseaux de neurones artificiels. Perceptrons multi- couches. ADAM. AdaNet.

(5)

Abstract

Index-based insurance products have many advantages. As the claim is recorded as soon as an independent index crosses a contractual threshold, they allow for very short compensation delays, in the order of one week. Since this type of insurance product is not subject to moral hazard or anti-selection risk, it is expanding in many sectors of property and casualty insurance, particularly with regard to the coverage of weather-sensitive risks. However, one of the major shortcomings of index-based insurance is the difficulty of developing a new product.

Within the framework of this thesis, several processes allowing the acceleration of such a procedure will be proposed and integrated within a Python package. These so-called « accelerators » will focus on various points essential to the implementation of an index-based insurance cover. The automated extraction of massive meteorological data from NASA and the implementation of a method to increase the spatial resolution of a response variable called « risk carrier » greatly simplifies the extraction and reprocessing of the data required to construct an index. In order to make the creation of the latter more accessible, the implementation of multi-layer perceptron neural networks has been automated through several procedures including the algorithm « AdaNet », published by Google Research on the occasion of the ICLM 2017.

The processes studied in this thesis are presented in a simplified form and are accompanied by tools adapted to the problems raised by the implementation of an index-based insurance solution. As an example, all the proposed accelerators will be applied to cover the operating losses of solar power plants against meteorological hazards.

Keywords :Index-based insurance. Parametric insurance. Massive Satellite data. Spatial disaggregation. Regression. Artificial neural networks. Multi-layer perceptrons. ADAM.

AdaNet

(6)

Glossaire

ADAM Adaptive Moment Estimation

AdaNet Adaptive Structural Learning of Artificial Neural Networks DARTS Differentiable Architecture Search

ENAS Efficient Neural Architecture Search via ParameterSharing ESA European Space Agency

IARD Incendies, Accidents, Risques Divers IBNER Incurred But Not Enough Reserved IBNYR Incurred But Not Yet Reported MAE Mean Absolute Error

MLP Multi-Layer Perceptron MSE Mean Squared Error MW/h Méga Watt /heure

NAS Neural Architecture Search

NASA National Aeronautics and Space Administration NUTS Nomenclature des unités territoriales statistiques PBT Population Based Training of Neural Networks POWER Prediction Of Worldwide Energy Ressources PPNA Provision pour Primes Non Acquises PREC Provision Pour Risques en Cours ReLu Rectified Linear Unit

TPE Tree-structured Parzen Estimator Approach

(7)

Table des matières

Remerciements i

Résumé ii

Abstract iii

Glossaire iv

Introduction viii

Synthèse x

Summary xvii

I Contexte des travaux et données utilisées xxiv

1 Mise en contexte des travaux 1

1.1 Présentation générale de l’assurance indicielle . . . 1

1.1.1 Principes généraux de couverture . . . 1

1.1.2 Particularités de la couverture indicielle . . . 2

1.1.3 Le risque de base . . . 4

1.2 État du marché . . . 5

1.3 Objectif des travaux . . . 6

2 Cadre de l’étude et données utilisées 8 2.1 Les variables explicatives . . . 9

2.1.1 Sources de données . . . 9

2.1.2 Source de données sélectionnée . . . 10

2.1.3 Un premier accélérateur : une extraction automatisée des variables du programme POWER . . . 11

2.2 Variable réponse et support du risque . . . 12

2.2.1 Lissage par convolutions gaussiennes . . . 13

(8)

2.2.2 Une deuxième proposition d’accélérateur : une méthode d’augmen-

tation de la résolution du support du risque . . . 17

II Méthodes pour la création d’un indice 28 3 Introduction 29 3.1 Insuffisance de l’approche statistique de la régression . . . 30

4 Introduction aux réseaux de neurones artificiels 32 4.1 Définition et fonctionnement du neurone artificiel . . . 33

4.2 Couche de neurones : combinaison verticale de neurones artificiels . . . 34

4.3 Réseau de type perceptron multi-couches : combinaison horizontale de couches de neurones . . . 35

5 Ajustement de réseaux de neurones via ADAM 37 5.1 Rétropropagation du gradient . . . 38

5.2 Descente de gradient avec ADAM . . . 41

6 Hyperparamétrage d’ADAM 45 6.1 Validation croisée . . . 45

6.2 Détermination des hyperparamètres liés à ADAM . . . 49

6.2.1 Détermination des β₁ etβ₂ optimaux . . . 50

6.2.2 Détermination de la taille de batch optimale . . . 50

6.2.3 Détermination du nombre d’époques optimal . . . 50

6.2.4 Détermination du learning rate initial optimal . . . 51

7 AdaNet : une détermination automatisée de l’architecture optimale d’un réseau 55 7.1 Fonctionnement d’AdaNet . . . 56

7.2 Une troisième proposition d’accélérateur : l’implémentation d’AdaNet . . . . 61

7.2.1 Valeur ajoutée d’AdaNet . . . 61

7.2.2 Hyperparamétrage d’AdaNet . . . 62

III Mise en place de la couverture 63 8 Création d’un indice 64 9 Détermination des seuils de déclenchement et tarification 68 9.1 Seuils de déclenchement . . . 68

9.2 Indemnisation forfaitaire et chiffrage des pertes . . . 71

9.3 Tarification . . . 72

(9)

Conclusion 74

Annexes 82

A Dictionnaire des variables explicatives 83

B Démonstration 85

C La fonction ReLu 86

(10)

Introduction

Dans un contexte où, sous l’influence du changement climatique, l’exposition aux aléas météorologiques est de plus en plus problématique, la demande en une couverture efficace de ces derniers n’a jamais été aussi importante. D’après l’Organisation des Nations Unies, s’il y a 20 ans 35% des catastrophes naturelles étaient dues au climat, ce chiffre se porte aujourd’hui à 70%, laissant présager d’une croissance soutenue du besoin de couverture.

Bien que l’assurance indicielle (ou paramétrique) soit très utilisée comme outil d’aide au développement au sein de divers pays émergeants, elle est généralement considérée dans les pays développés comme une technique d’assurance alternative. Elle présente pourtant de nombreux avantages relativement à un produit plus classique : déclenchement automatique de la prestation et faibles frais de gestion, délais d’indemnisation de l’ordre de quelques jours, absence d’aléa moral ou gestion très simple et peu coûteuse de ce dernier, etc. Ces derniers points poussent aujourd’hui certains assureurs européens à lancer leurs propres couvertures indicielles, malgré la difficulté de cette démarche.

En effet, le principal défaut d’une telle couverture repose sur la difficulté de sa mise en place. La conception d’un produit de qualité requiert à ce jour une main d’œuvre importante, dotée d’une expertise poussée dans le domaine de la science des données : exploration de sources de données publiques massives (open data & big data), extraction automatisée (data mining), retraitements pertinents à la modélisation envisagée (data engineering), et modélisation par des techniques d’apprentissage automatique avancées (deep learning).

Une problématique se dégage ainsi : quelles solutions sont envisageables afin de rendre plus accessible la mise en place d’une couverture indicielle de tout risque météo-sensible ? Afin d’y répondre, l’étude sera divisée en trois parties, au cours desquelles plusieurs « ac- célérateurs » seront proposés. La première partie de ce mémoire vise à mettre en contexte les travaux effectués, et propose plusieurs solutions quant au cadrage de l’étude, à l’extraction de variables météorologiques satellites nécessaires à la mise en place d’un indice, et au retraitement des observations d’une variable réponse, appelée « support du risque ».

La deuxième partie de ce mémoire sera consacrée à l’automatisation de la création d’un indice,viadivers procédés permettant la mise en place automatique de réseaux de neurones

(11)

performants. Enfin, la troisième partie de ce mémoire sera consacrée à la création d’une couverture indicielle, et constituera une application concrète des méthodologies mises en place.

Ces méthodes, nommées « accélérateurs » et documentées par la suite, seront implémentées au sein d’un package publié sous le langage Python, nommé indexmethods. L’utilisation de cepackage pour la mise en place d’une couverture indicielle des risques météo-sensibles constitue, dans ce cadre, une réponse directe à la problématique énoncée plus haut.

(12)

Synthèse

Fonctionnement et composantes d’une couverture indicielle

Les produits d’assurance indicielle sont caractérisés par une définition alternative du sinistre. En effet, l’indemnisation est déclenchée dès lors qu’un indice indépendant vient franchir un seuil contractuel, le franchissement du seuil par l’indice correspondant à la réalisation du ou des risques couverts au titre du contrat d’assurance.

Cette définition du sinistre implique que l’assureur est immédiatement informé de la survenance d’un sinistre, et du montant d’indemnisation associé, ce dernier étant soit forfaitaire, soit calculé à partir du niveau de l’indice en cas de dépassement du seuil. En conséquence, le déclenchement de l’indemnisation ne demande pas de déclaration de la part de l’assuré, et est très rapide comparativement à une couverture indemnitaire IARD plus classique (généralement de l’ordre d’une semaine). L’assuré ne pouvant influencer sur le niveau de l’indice, et ainsi sur le déclenchement de l’indemnisation ou son montant, l’aléa moral est absent pour ce type de couverture. De plus, le profil de risque de l’assuré étant connu à la souscription grâce à la connaissance de l’indice historique, le risque d’anti-sélection est fortement limité. Enfin, les provisions techniques associées à une couverture indicielles se voient réduites des provisions pour sinistres à payer, qui n’ont plus lieu d’être en consé- quence des délais d’indemnisation rapides et de la connaissance par l’assureur de tous les sinistres survenus à date.

Problématiques actuarielles associées

Cependant, le principal inconvénient d’une couverture indicielle correspond à la difficulté de sa mise en place. Un tel procédé nécessite en effet la création d’un indice cohérent avec le risque couvert, et la détermination de seuils de déclenchement appropriés au niveau de couverture souhaité par l’assuré. Dans le cadre de ce mémoire, l’indice a été défini comme la prédiction faite par un modèle de régression à partir de variables météorologiques d’une quantité numérique dépendante du temps appelée support du risque. Ce dernier peut prendre plusieurs formes, mais doit satisfaire la condition suivante : certaines variations du support du risque doivent correspondre à la réalisation du risque couvert. Ainsi, dans le cadre de la couverture des pertes d’exploitation d’une entreprise par exemple, il est possible

(13)

de choisir comme support du risque le chiffre d’affaire, ou encore le résultat de cette même entreprise.

Ainsi, l’indice correspond à la régression faite par un modèle de machine learning du support du risque, ce dernier variant avec l’objet de couverture. Le modèle de régression intervient dans ce cadre pour créer un lien entre les variables explicatives et le support du risque, permettant par la suite d’effectuer une prédiction (au sens d’une estimation par un modèle demachine learning) du support du risque à partir des variables météorologiques.

La définition de l’indice comme prédiction du support du risque plutôt que l’utilisation directe du support du risque pour le déclenchement de l’indemnisation présente plusieurs intérêts.

Tout d’abord, le niveau de l’indice ne dépend que des variables météorologiques explicatives et du lien établi entre ces dernières et le support du risque. Ainsi, le niveau de l’indice ne peut être influencé par le comportement de l’assuré ou de l’assureur, la définition et le calcul de l’indice étant effectués par un prestataire externe. Cette définition de l’indice permet également à l’assureur d’avoir quotidiennement connaissance de son niveau, car les variables météorologiques sont publiées avec un délai beaucoup plus faible que le support du risque. Enfin, cette méthode permet de sélectionner les risques couverts au titre du contrat : si une variable météorologique n’est pas utilisée dans le cadre de la régression, elle ne peut influencer le niveau de l’indice. Ainsi, si la couverture doit exclure le risque de gel, il suffit de supprimer les variables liées à la température avant de mettre en place le modèle de régression permettant de définir l’indice.

La définition de l’indice comme prédiction du support du risque induit cependant que le modèle de régression mis en place doit être de très bonne qualité, sans quoi la définition du sinistre donnée précédemment perd sens. L’objectif de ce mémoire est de fournir des outils méthodologiques et opérationnels, permettant la mise en place d’un indice pour la couverture de tout risque météo-sensible sous les contraintes techniques exposées précédemment.

Afin de satisfaire à ces conditions, plusieurs procédés, nommés par la suite « accélérateurs » seront implémentés.

Un premier accélérateur

La mise en place d’une couverture indicielle des risques météo-sensibles nécessite l’obtention préalable de variables météorologiques. L’exhaustivité des variables météorologiques retenues est importante vis-à-vis du caractère général des méthodes de construction d’un indice mises en place dans le cadre de ce mémoire. En effet, les variations de tout support d’un risque météo-sensible doivent pouvoir être expliquées par des variations au sein des variables météorologiques retenues, sans quoi la régression mise en place sera de mauvaise

(14)

qualité. De plus, il est important que les variables explicatives soient disponibles pour toute zone géographique, sans quoi les méthodes présentées dans le cadre de ce mémoire ne se- raient valables pas applicables dans certains pays. L’utilisation d’une source de données météorologiques satellites exhaustive est donc indispensable, et limite de manière importante la marge de manoeuvre de ce mémoire quant au choix de la source de donnée à utiliser.

Le choix du programme POWER de la NASA comme source de données pérenne et exhaustive a été justifié. Ces dernières sont disponibles à une résolution spatiale de 0,5 degré de latitude par 0,5 degré de longitude, ce qui correspond au niveau de l’Europe, par exemple, à une maille d’approximativement 70 kilomètres par 70 kilomètres. Afin de simplifier l’utilisation de ces 42 variables, leur extraction ainsi que leur mise en forme ont été entièrement automatisées au sein du module extraction du package Python indexmethods, au sein duquel l’intégralité des accélérateurs implémentés dans le cadre de ce mémoire ont été intégrés.

Un deuxième accélérateur

Comme décrit précédemment, la variable réponse correspond au support du risque ; c’est ainsi en faisant varier ce support que l’objet de la couverture indicielle est déterminé. Afin que les méthodes mises en place dans le cadre de ce mémoire pour la construction de couvertures indicielles des risques météo-sensibles gardent un caractère systématique, et que l’application reste identique dans de nombreux cas, il est nécessaire que seul le support du risque soit variable selon l’objet de la couverture indicielle. Pour ce faire, les variables explicatives seront fixées comme étant celles du programme POWER, et la résolution spatiale (0,5 degrés de longitude par 0,5 degrés de latitude) de ces dernières sera la référence à laquelle toute variable réponse devra être ajustée. En effet, le support du risque provenant d’une source de données différente de celle des variables explicatives, il est peu probable que leur résolution s’accorde, cette condition étant pourtant indispensable à la mise en place d’un indice de qualité.

Afin d’accorder la résolution spatiale du support du risque à celle des variables explicatives, une méthode a été proposée pour augmenter artificiellement la résolution de la variable réponse. La méthode présentée, basée sur l’utilisation de convolutions bi-dimensionnelles gaussiennes constitue le deuxième accélérateur proposé dans le cadre de ce mémoire. Le support du risque est généralement disponible à une résolution spatiale correspondant à un découpage administratif quelconque (régions, départements, etc.). La figure 1, disponible par la suite, synthétise la méthode mise en place pour passer de la résolution du découpage administratif NUTS 2 (correspondant à la résolution spatiale du support du risque dans le cadre du cas pratique de la couverture des pertes d’exploitation des centrales solaires), à la résolution spatiale des variables explicatives (de 0,5 degrés de latitude par 0,5 degrés

(15)

de longitude).

Figure 1: Méthode d’augmentation artificielle de la résolution du support du risque

La qualité de cette désagrégation a été évaluée, et l’erreur commise quantifiée. Ce procédé permet de simplifier considérablement le retraitement du support du risque sous le format nécessaire à la mise en place d’une couverture indicielle.

Un troisième accélérateur

Une fois les variables explicatives et la variable réponse obtenues au bon format, la mise en place d’une régression via des réseaux de neurones de type MLP a été introduite. Les réseaux de neurones de ce type présentent en effet une garantie intéressante : ils sont ca- pables d’approcher toute fonction Borel-mesurable. Ce point, couplé au caractère exhaustif des variables météorologiques sélectionnées, garantie qu’une régression de qualité pourra être mise en place entre ces dernières et le support de tout risque météo-sensible à l’aide de réseaux de neurones, moyennant l’obtention des paramètres ainsi que des hyperparamètres optimaux. L’automatisation de la détermination de ces derniers a constitué un des points les plus techniques de ce mémoire. Si ADAM, un algorithme de descente de gradient po- pulaire permet de déterminer de manière simple les paramètres optimaux d’un réseau de neurones artificiel, la détermination des hyperparamètres optimaux soulève des problèmes plus complexes.

En machine learning, le terme hyperparamètre fait référence à toute quantité numérique influençant les performances d’un modèle, et devant être fixéa priori de la procédure d’ap-

(16)

prentissage. Dans le cadre de ce mémoire, il existe deux types d’hyperparamètres : ceux liés à la descente de gradient avec ADAM, et ceux lié à l’architecture, c’est à dire à l’agen- cemment des neurones au sein d’un réseau MLP. Afin de déterminer la valeur optimale des hyperparamètres liés à la descente de gradient avec ADAM, la technique de l’early stopping a été utilisée, cette dernière étant basée sur l’allure théorique de l’erreur de généralisation.

Une méthode itérative a été mise en place pour déterminer lelearning rate optimal, tandis que les valeurs optimales des autres hyperparamètres liés à ADAM ont été fixées telle que recommandées par des publications diverses. La détermination des hyperparamètres optimaux liés à l’architecture du réseau a été effectuée en utilisant AdaNet, une méthode de Neural Architecture Search publiée par Google Research à l’occasion de l’ICML 2017, point tournant de la recherche enmachine learning.

L’implémentation d’AdaNet effectuée dans le cadre de ce mémoire a été améliorée pour intégrer ADAM ainsi que son hyperparamétrage. La mise en place d’une méthode d’op- timisation bayesienne de type TPE, utilisée comme wrapper d’AdaNet, a alors permis d’automatiser de manière totale le fonctionnement de ce dernier. Cette implémentation d’AdaNet, disponible au sein dupackage indexmethod, constitue une réponse directe à la problématique formulée dans le cadre de ce mémoire, car elle met à disposition de l’utilisateur un outil puissant permettant la création d’un indice de qualité en toute simplicité.

Figure 2: Schéma récapitulatif des accélérateurs proposés

Application au cas pratique

Afin d’évaluer les performances des accélérateurs implémentés au sein duindexmethods, ce dernier a été utilisé dans le cadre du cas pratique de la couverture des pertes d’exploitation des centrales solaires.

(17)

Tout d’abord, les 42 variables météorologiques du programme POWER de la NASA ont été extraites pour toute l’Europe, et pour un historique de 11 ans allant du 01/01/2005 au 31/12/2015 à l’aide du moduleindexmethods.meteo_data_extract. De manière similaire, le support du risque a été extrait à partir du portail d’accès de la Commission Européenne sur la même plage temporelle et pour le découpage européen NUTS 2. Le support du risque a ensuite été apposé à la maille des variables explicatives et désagrégé afin d’en augmenter artificiellement la résolution à l’aide du moduleindexmethods.disaggregation. Une fois les données retraitées, un modèle de régressionvia réseaux de neurones artificiels a été mis en place de manière automatique, en utilisant l’implémentation d’AdaNet disponible au sein du moduleindexmethods.adanet. Le lien ainsi créé entre les variables explicatives et le support du risque est utilisé pour définir l’indice.

Une fois l’indice créé, et pour une zone géographique donnée, ses niveaux historiques sont calculés à partir de l’historique des variables explicatives. Un historique de 11 ans est ainsi disponible pour la détermination des seuils de déclenchement de l’indemnisation et pour la tarification. Un seuil de déclenchement est déterminé pour chaque jour de l’année, le support du risque étant sujet à des fortes variations saisonnières. Il a été choisi de déter- miner le seuil de déclenchement de chaque jour comme un quantile de niveauα des valeurs de l’indice historique correspondant à chacun de ces jours. Il est cependant observé que ces quantiles sont instables, en raison du faible nombre d’observations disponible pour leur calcul (11 observations par jour). Un lissage par moyennes mobiles symétriques uniformes a été effectué, tel que visualisable par la suite au sein de la figure 3.

Figure 3: bleu : quantiles de niveau α = 5% calculés à partir de l’indice historique à Paris -rouge : seuils de déclenchement obtenus par moyenne mobile symétrique uniforme

(18)

Pour une zone géographique donnée, il est ainsi aisé d’obtenir un historique de sinistres complet à partir des niveaux historiques de l’indice et des seuils de déclenchement déter- minés. La prime ne dépend alors que de la zone géographique choisie, du niveau α des quantiles utilisés pour la définition des seuils de déclenchement, et des paramètres permettant d’estimer les montants d’indemnisation à partir du niveau de l’indice lorsque ce dernier dépasse le seuil de déclenchement. La prime pure est alors établie comme le produit entre le coût moyen d’un sinistre et le nombre moyen de sinistres annuel observé à partir de l’indice historique défini.

Figure 4: rouge : niveaux historiques de l’indice créé, à Paris, du 01/01/2005 au 12/04/2005 -bleu : seuils de déclenchement calculés

(19)

Summary

Functioning and components of an index-based cover

Index insurance products are characterized by an alternative definition of an event. In- deed, the compensation is triggered as soon as an independent index crosses a contractual threshold, the crossing of the threshold by the index corresponding to the occurrence of the risk or risks covered under the insurance contract.

This definition of an event implies that the insurer is immediately informed of its occurrence and of the associated amount of compensation, the latter being either a lump sum or calculated from the level of the index in the event that the threshold is exceeded. As a result, the triggering of the compensation does not require a claim from the insured party, and is very fast compared to a more traditional PC coverage (usually in the order of one week). Since the insured cannot influence the level of the index, and thus the triggering of the compensation or its amount, moral hazard is absent from this type of coverage. In addition, since the risk profile of the insured is known at the time of underwriting thanks to knowledge of the historical index, the anti-selection risk is highly limited. Finally, the technical reserves associated with an index-based cover are reduced by the reserves for claims payable, which are no longer justified as a result of the prompt compensation periods and the insurer’s knowledge of all claims that have occurred to date.

Related actuarial issues

The main disadvantage of an index-based cover, however, is the difficulty of its creation.

Such a process requires the establishment of an index consistent with the risk covered, and the determination of appropriate trigger thresholds that are consistent with the level of coverage desired by the policyholder. For the purposes of this paper, the index has been defined as the prediction made by a regression model based on meteorological variables of a time-dependent numerical quantity called the risk carrier. The latter can take several forms, but must satisfy the following condition : certain variations in the risk carrier must correspond to the realization of the covered risk. Thus, in the context of the coverage of a company’s operating losses, for example, it is possible to choose as risk carrier the turnover, or the earnings of the said company.

(20)

Thus, the index corresponds to the regression made by a machine learning model of the risk carrier, the latter varying with the covered object. The regression model is used in this context to create a link between the explanatory variables and the risk carrier, which then allows a prediction (in the sense of an estimation by amachine learning model) of the risk carrier from the meteorological variables. The definition of the index as a prediction of the risk carrier rather than the direct use of the latter for triggering compensation has several advantages.

First of all, the level of the index only depends on the explanatory meteorological variables and the link established between them and the risk carrier. Thus, the level of the index cannot be influenced by the behaviour of the policyholder or the insurer, as the definition and calculation of the index is carried out by an external service provider. This definition of the index also allows the insurer to be aware of its level on a daily basis, because the meteorological variables are published with a much shorter time lag than the risk carrier.

Finally, this method makes it possible to select the risks covered as part of the insurance contract : if a weather variable is not used as part of the regression, it cannot influence the level of the index. Thus, if the coverage must exclude the risk of freezing, it is sufficient to remove the temperature-related variables before setting up the regression model to define the index.

The definition of the index as a prediction of the risk carrier implies, however, that the regression model used must be of very high quality, otherwise the definition of the event given above loses all meaning. The objective of this thesis is to provide methodological and operational tools, allowing the implementation of an index to cover any weather-sensitive risk under the technical constraints described above. In order to satisfy these conditions, several processes, hereinafter referred to as « accelerators », will be implemented.

A first accelerator

The implementation of an index-based coverage of weather-sensitive risks requires the prior obtaining of meteorological variables. The exhaustivity of the meteorological variables used is important in regards to the general aspect of the methods for constructing an index set up within the scope of this thesis. Indeed, any variations in the carrier of a weather-sensitive risk must be able to be explained by variations within the selected meteorological variables, as otherwise the established regression will be of poor quality. Furthermore, it is important that the explanatory variables are available in a globalised manner, otherwise the methods presented in this paper would only be valid in certain geographical areas. The use of a comprehensive satellite meteorological data source is therefore essential, and significantly limits the flexibility of this thesis in terms of selecting a data source.

(21)

The choice of NASA’s POWER program as a sustainable and comprehensive data source was justified. The latter is available at a spatial resolution of 0.5 degrees latitude by 0.5 degrees longitude, which corresponds at the European level, for example, to a mesh size of approximately 70 kilometres by 70 kilometres. In order to facilitate the use of these 42 variables, their extraction and formatting have been fully automated within the module extractionof thepackage Pythonindexmethods, within which all the accelerators set up in this thesis have been integrated.

A second accelerator

As described above, the response variable corresponds to the risk carrier ; it is thus by changing this carrier that the underlying purpose of the index-based cover is determined.

In order to ensure that the methods used in this thesis to construct index-based covers of weather-sensitive risks remain standardised and that the application remains identical in many cases, it is necessary that only the risk carrier be variable according to the object of the index-based cover. To do this, the explanatory variables will be set as those of the POWER program, and the spatial resolution (0.5 degrees of longitude by 0.5 degrees of latitude) of the latter will be the reference to which any response variable will have to be adjusted. Indeed, since the risk carrier comes from a different data source than the explanatory variables, it is unlikely that their resolution will agree, even though this condition is essential for the implementation of a high quality index.

In order to match the spatial resolution of the risk support to that of the explanatory variables, a method has been developed to artificially increase the resolution of the response variable. The presented method, based on the use of two-dimensional Gaussian convolutions, is the second accelerator proposed in the framework of this thesis. The risk carrier is generally available at a spatial resolution corresponding to an administrative partition of some sort (regions, departments, etc.). Figure 1, which can be found below, summarises the method used to shift from the resolution of the NUTS 2 administrative partitioning (corresponding to the spatial resolution of the risk carrier in the practical case of the coverage of the operating losses of solar power plants) to the spatial resolution of the explanatory variables (of 0.5 degrees latitude by 0.5 degrees longitude).

The quality of this disaggregation was assessed and the error quantified. This process considerably simplifies the reprocessing of the risk carrier in the format required to set up an index-based cover.

(22)

Figure 5: Method for artificially increasing the resolution of the risk carrier

A third accelerator

Once the explanatory variables and the response variable were obtained in the correct format, the implementation of a regression by means of MLP-type neural networks was introduced. Neural networks of this kind offer an appealing guarantee : they are able to approach any Borel-measurable function. This point, coupled with the exhaustive nature of the selected meteorological variables, guarantees that a quality regression can be established between these and the carrier of any weather-sensitive risk through the use of neural networks, provided that the optimal parameters and hyperparameters are obtained.

The automation of the determination of the latter was one of the most technical points of this thesis. While ADAM, a popular gradient descent algorithm, provides a simple way to determine the optimal parameters of an artificial neural network, determining the optimal hyperparameters raises more complex challenges.

In machine learning, the term hyperparameter refers to any numerical quantity influen- cing the performance of a model, and that must be set before the start of the learning procedure. For the purposes of this thesis, there are two types of hyperparameters : those related to gradient descent with ADAM, and those related to the architecture, emphie : to the arrangement of the neurons within an MLP network. In order to determine the optimal values of the hyperparameters related to gradient descent with ADAM, the early stopping technique was used, the last-named being based on the theoretical aspect of the generali- zation error. An iterative method has been implemented to determine the optimal learning

(23)

rate, while the optimal values of the other ADAM-related hyperparameters have been set as recommended by various publications. The determination of optimal hyperparameters related to the network architecture was performed using AdaNet, a method of « Neural Architecture Search » published byGoogle Research on the occasion of the ICML 2017, a key event in machine learning research.

The implementation of AdaNet carried out as part of this thesis has been improved to integrate ADAM and its hyper-parameterization. The implementation of a Bayesian opti- mization method of theTPE type, used as AdaNet’swrapper, then made it possible to fully automate the operation of the latter. This implementation of AdaNet, available within the package indexmethod, is a direct answer to the problem formulated in this thesis, because it provides the user with a powerful tool to create a high quality index in a user-friendly manner.

Figure 6: Summary diagram of proposed accelerators

Application to the use-case

In order to assess the performance of the accelerators implemented within theindexmethods package, the latter was used in the operational scenario of covering the operating losses of solar power plants.

First, the 42 meteorological variables of NASA’s POWER program were extracted for all of Europe, and for an 11-year history from 01/01/2005 to 31/12/2015 using the

indexmethods.meteo_data_extractmodule. Likewise, the risk carrier was extracted from the European Commission’s access portal over the same time range and for the European NUTS 2 partition. The risk carrier was then placed at the mesh of the explanatory variables and disaggregated in order to artificially increase its resolution using the module indexmethods.disaggregation. Once the data was processed, a regression model using

(24)

artificial neural networks was automatically deployed, using the AdaNet implementation available within the moduleindexmethods.adanet. The link thus created between the explanatory variables and the risk support is then used to define the index.

Once the index is created, for a given geographical area, its historical levels are calculated from the history of the explanatory variables. An 11-year history is thus available for determining the thresholds at which compensation is triggered as well as for pricing. A trigger threshold is determined for each day of the year, the risk carrier being subject to strong seasonal variations. It was chosen to determine the trigger threshold for each day as a α level quantile of the of the historical index values corresponding to each of these days. However, it is observed that these quantiles are unstable, due to the small number of observations available for their calculation (11 observations per day). A smoothing by means of uniform symmetrical moving averages was performed, as shown later in Figure 3.

Figure 7: blue : level quantiles α = 5% calculated from the historical index in Paris - red : trigger thresholds obtained by uniform symmetric moving average

For a given geographical area, it is thus easy to obtain a complete claims history based on the historical levels of the index and the trigger levels determined. The premium then depends only on the geographical area chosen, the α level of the quantiles used to define the trigger levels, and the parameters for estimating compensation amounts from the index level when the latter exceeds the trigger level. The pure premium is then determined as the product between the average cost of a claim and the average annual number of claims observed using the defined historical index.

(25)

Figure 8: red : historical levels of the index created, in Paris, from 01/01/2005 to 12/04/2005 -blue : calculated trigger thresholds

(26)

Première partie

Contexte des travaux et données

utilisées

(27)

Chapitre 1

Mise en contexte des travaux

1.1 Présentation générale de l’assurance indicielle

1.1.1 Principes généraux de couverture

Un contrat d’assurance peut être défini comme une convention liant quatre parties : assureur, souscripteur, assuré et bénéficiaire. Dans le cadre d’un tel contrat, l’assureur s’engage à couvrir un risque porté par l’assuré en contrepartie d’une cotisation versée par le souscripteur. La couverture mise en place entraîne dans le cadre de la réalisation d’un risque encadré contractuellement le déclenchement d’une prestation perçue par le bénéficiaire.

Cette dernière prend de manière usuelle la forme d’une compensation financière liée au préjudice associé à la réalisation du risque suscité.

Par nature, le coût associé à la prestation définie par un contrat d’assurance est soumis à l’aléa, et ne peut être déterminé de manière certaine à la mise en place du contrat. De manière générale, la date de déclenchement de la prestation ainsi que son montant ne sont pas connus : on parle alors d’inversion du cycle de production. En conséquence, la prime d’un contrat d’assurance doit être déterminée à l’aide de techniques prenant en compte la nature aléatoire du risque sous-jacent, et donc la nature aléatoire du coût ainsi que de la fréquence de sinistre.

Le sinistre est défini juridiquement comme toutes circonstances prévues au contrat dont la survenance génère pour l’assureur l’obligation d’exécuter la prestation convenue. La dé- claration de ce dernier correspond dans un contrat d’assurance classique à la clé de voûte du déclenchement de la prestation. Afin de s’assurer de la bonne foi de l’assuré, cette dé- claration peut faire l’objet d’une expertise de la part de l’assureur, notamment lorsque la nature du sinistre implique un montant de prestation important. Il sera toutefois vu par la suite que ce système de déclenchement de la prestation peut être contourné.

(28)

En assurance, l’aléa moral est défini comme la possibilité qu’un assuré augmente sa prise de risque comparativement à une situation où il supporterait entièrement les conséquences négatives d’un sinistre. Il est possible de citer comme exemple de comportements illustrant l’aléa moral :

1. un conducteur ayant souscrit à un contrat d’assurance automobile couvrant le vol pour toute cause ne prenant plus la peine de verrouiller sa voiture ;

2. un exploitant agricole ayant souscrit à un contrat d’assurance agricole couvrant la perte d’exploitation pour toute cause ne prenant plus la peine de désherber ses champs.

La conception d’un produit d’assurance nécessite une attention particulière afin de pallier l’aléa moral. Les exclusions de garanties telles que la négligence de l’assuré permettent aux assureurs de garantir que certaines situations rentrant dans le cadre de l’aléa moral ne soient pas couvertes au titre du contrat d’assurance. L’introduction de franchises permet également de dissuader l’assuré d’augmenter volontairement sa prise de risque, en partageant les conséquences d’un sinistre avec l’assureur.

1.1.2 Particularités de la couverture indicielle

Un contrat d’assurance indicielle repose sur deux éléments contractuels : un indice, et un seuil de déclenchement. La survenance d’un sinistre est alors définie comme le franchissement du seuil par l’indice, la prestation associée correspondant soit à un montant forfaitaire, soit à un montant calculé à partir du niveau de l’indice lors de la survenance du sinistre.

Cette définition est basée sur des mécanismes différents de ceux utilisés classiquement en assurance IARD (Incendies, Accidents, Risques Divers).

Figure 1.1: exemple d’indice et de seuil de déclenchement

(29)

Ce fonctionnement a de nombreuses conséquences en matières de gestion et de provisionnement pour l’assureur. En effet il n’appartient plus à l’assuré de formuler une déclaration lors de la survenance d’un sinistre, éliminant ainsi les préjudices liés au manque de bonne foi de l’assuré. Une expertise coûteuse de la part de l’assureur, un recours ou encore une contre-expertise de la part de l’assuré, ne sont alors plus nécessaires, ce qui permet une réduction importante des frais associés au contrat, ainsi qu’une réduction conséquente des délais d’indemnisation. Dans le cadre de ce mémoire, les produits d’assurance indicielle envisagés sont restreints à une sous-catégorie particulière. L’indice, fortement lié au risque auquel l’assuré est exposé, est construit à partir de données externes correspondant à des variables météorologiques. Les variations de l’indice ne peuvent donc avoir d’autres causes que les phénomènes météorologiques considérés, éliminant ainsi tout aléa moral de la part de l’assuré.

Il est possible de donner pour exemple le cas d’une couverture indicielle des pertes d’exploitation agricoles, garantissant une indemnisation lorsque de résultat de l’exploitant passe sous un certain seuil. Si l’indice n’était constitué que du résultat réel de l’assuré, la couverture souffrirait d’un aléa moral important. Il serait en effet facile pour l’assuré, sans expertise de la part de l’assureur, d’altérer sa production pour toucher la prestation asso- ciée à sa couverture. En revanche, en effectuant une estimation de la production de l’assuré à partir de variables météorologiques pour constituer l’indice, la prestation ne peut être déclenchée que par un phénomène météorologique couvert au titre du contrat.

Figure1.2: schéma présentant les postes du passif du bilan d’un assureur IARD proposant des produits d’assurance non-vie indemnitaires comparativement aux postes du passif du bilan d’un assureur IARD proposant uniquement des produits d’assurance indicielle

(30)

La définition du sinistre associé à une couverture indicielle implique que l’assureur est informé dès sa survenance, le montant de prestation associé étant également connu. Ce fonctionnement a un impact important sur le provisionnement associé à un tel produit, tel qu’illustré au sein de la Figure 1.1. Les provisions IBNYR (Incurred But Not Yet Reported), correspondent aux provisions constituées dans le but de faire face à des sinistres survenus, mais n’ayant pas encore été déclarés. L’assureur étant informé dès la survenance du sinistre dans le cas d’une couverture indicielle, cette provision n’a pas lieu d’être. Les provisions IB- NER (Incurred But Not Enough Reserved) correspondent aux provisions constituées pour faire face à des montants de sinistres constatés plus importants que ceux anticipés par l’assureur, suite à l’obtention de nouvelles informations ou à une aggravation du sinistre. Dans le cadre de l’assurance indicielle, le montant de prestation étant connu dès la survenance du sinistre, cette provision n’est plus justifiée.

Une fois l’indice créé, ce dernier est calculable uniquement à partir des variables météo- rologiques issues de plusieurs sources satellites. Ces dernières étant disponibles sur un historique important (plus de dix ans), et de manière globale, il est possible de bénéficier d’observations historiques de l’indice pour toute zone géographique. Ainsi, en définissant un seuil de déclenchement pour une couverture donnée, l’ensemble des sinistres survenus et leur sévérité sont connus, ce qui permet de quantifier avec précision le profil du risque as- socié à un contrat. Cette quantité importante d’information permet d’éliminer tout risque d’antisélection. Il est toutefois nécessaire de veiller à la bonne diversification géographique du portefeuille avant d’accepter une affaire nouvelle, car les phénomènes météorologiques sont par nature locaux.

Les avantages associés à une couverture indicielle reposent néanmoins sur la pérennité ainsi que sur la qualité de l’indice. En effet, si l’indice ne reflète pas de manière assez forte le risque couvert, le fonctionnement du produit perd tout son sens.

1.1.3 Le risque de base

Par la suite, le terme sous jacent désigne une quantité numérique, support du risque couvert par une solution indicielle donnée. C’est l’estimation du sous-jacent à l’aide des variables météorologique mentionnées précédemment qui constitue l’indice. Dans le cadre de la couverture des pertes d’exploitation d’une entreprise exposée aux aléas météorologiques par exemple, le chiffre d’affaires ou encore le résultat peut constituer le sous-jacent utilisé pour la construction du produit.

Il est primordial pour une couverture paramétrique que l’indice associé à cette dernière possède un lien très fort avec le sous-jacent, sans quoi le risque couvert ne pourra être perçu avec précision, posant les problèmes suivants :

(31)

1. il est possible que l’indemnisation soit déclenchée sans réalisation du risque, ou inversement il est possible que l’indemnisation ne soit pas déclenchée alors qu’elle est nécessaire suite à la réalisation du risque ;

2. si le montant de prestation est défini à partir de la valeur de l’indice, il est possible que ce montant ne corresponde pas aux pertes réelles subies.

Bien qu’il soit impossible de créer une couverture indicielle dont le risque de base est nul, c’est à dire un produit pour lequel les valeurs de l’indice sont identiques à celles du sous-jacent, la construction d’un produit d’assurance indicielle doit porter une attention particulière à la définition de l’indice afin de minimiser le risque de base, autrement dit afin de minimiser la probabilité des évènements (1.) et (2.) cités précédemment.

Afin de maximiser la qualité de l’indice, des méthodes de régression avancées permettant d’établir un lien fort entre les variables météorologique et le sous-jacent doivent être utili- sées. Ces dernières nécessitent néanmoins un temps important et une expertise particulière dans le cadre de leur mise en place. L’automatisation de l’implémentation de réseaux de neurones artificiels performants constitue un des accélérateurs clef de ce mémoire, et sera détaillée au sein de la partie 2.

1.2 État du marché

L’assurance indicielle a fait son apparition dans le courant des années 1990 suite à l’essor de moyens informatiques permettant l’extraction et le retraitement de données massives, indispensables à la mise en place d’un produit d’assurance indicielle. L’ouverture au public, et donc au marché de l’assurance, de données météorologiques fiables ouvre alors le champ des possibles pour les climatologues chargés de modéliser les phénomènes de catastrophes naturelles ainsi que pour les actuaires chargés de quantifier l’impact financier de ces derniers. Naturellement adaptées au secteur de l’assurance agricole, les couvertures indicielles se propagent alors au sein du monde de l’assurance et de la réassurance, la plus part du temps afin de couvrir des risques climatiques et météorologiques difficiles à quantifier.

Ce type d’assurance étant particulièrement adapté à la couverture des risques météorolo- giques, il n’est pas surprenant de constater que la plupart des produits d’assurance indicielle aujourd’hui touchent principalement au secteur de l’agriculture. Parmi eux, les produits assurant le rendement d’un exploitant agricole restent dominants. A titre d’exemple, le produit développé par Blue Marble et Nespresso protège les producteurs de café en Co- lombie depuis 2018 contre les variations à la baisse de leur rendement, à l’aide d’un indice construit à partir de variables météorologiques telles que la hauteur de précipitation ou la température. D’un point de vue géographique, ce type de produits se développe à l’heure

(32)

actuelle principalement dans les pays en voie de développement dont l’économie est basée sur l’agriculture : par exemple en Côte d’Ivoire qui est le 3ème producteur africain de coton avec une couverture indicielle du rendement pour ce type de culture, ou au Bangladesh où l’agriculture représente 60% de l’économie du pays.

Pour autant, le champ d’application de l’indicielle n’est pas limité à l’agriculture. De nombreux secteurs, jugés « météo-sensibles », constituent un champ d’application intéressant : l’énergie, le tourisme, la pêche, la protection des particuliers et des entreprises contre les catastrophes naturelles, etc. Par exemple, le résultat des producteurs d’électricité est fortement sensible à la température : un hiver ou un été trop doux constitue une perte importante, en raison du manque de consommation des ménages. Le secteur des énergies renouvelables tels que l’éolien ou le solaire sont eux directement impactés par les conditions météorologiques, et sont friands de couvertures indicielles afin de lisser leur résultat.

En effet, un parc éolien ou solaire constitue un investissement important à forte volatilité.

L’introduction d’une couverture indicielle, bien qu’elle fasse baisser le résultat moyen de ces parcs, permet aux propriétaires de rassurer les investisseurs et ainsi de faire diminuer le coût du capital ou encore la prime de risque demandée par les instituts de crédits.

Des secteurs autres que les activités météo-sensibles peuvent également être adaptés à une solution indicielle. Par exemple, sur la côte Est des États-Unis, les tremblements de terre sont fréquents et engendrent des pertes de revenus importante, conséquences de l’inter- ruption d’activité leur faisant suite. C’est pourquoi Swiss Re a développé une couverture indicielle se déclenchant dès que la magnitude d’un séisme dépasse 4,0 sur l’échelle de Richter en Californie. Il est également possible de citer Axa, créateur de Fizzy, un produit d’assurance indicielle couvrant le retard à l’atterrissage d’un vol d’avion à partir d’un certain nombre de minutes de retard. Les premiers acteurs du marché de l’assurance indicielle sont des réassureurs tels que Munich Re ou Swiss Re qui sont les premiers à être arrivés sur le marché historiquement. Axa Climate, branche assurance indicielle d’AXA Group, correspond également à un desleader du marché de l’assurance indicielle.

1.3 Objectif des travaux

Comme énoncé précédemment, les couvertures indicielles sont très avantageuses, tant pour l’assuré que pour l’assureur. Elles présentent cependant un défaut majeur : la difficulté de leur mise en place, et la demande importante en main d’œuvre qualifiée nécessaire à la minimisation du risque de base.

Un assureur proposant une couverture indicielle n’est jamais responsable du calcul de l’indice. Ce dernier, pour que le produit reste juste et ne puisse être modifié en faveur de l’assureur ou de l’assuré, doit être créé et calculé par une partie indépendante. Il s’agit gé-

(33)

néralement d’un prestataire externe, tel qu’une société spécialisée ou un cabinet de conseil.

Ce dernier vend ainsi l’indice créé sous licence et se charge de son calcul. Il est évident qu’un indice de qualité couvrant de multiples causes de sinistre et dont le risque de base est faible est plus coûteux à mettre en place et à maintenir, augmentant ainsi les frais associés au produit pour l’assureur.

Dans ce contexte, l’objectif des travaux présentés au sein de ce mémoire est de vulgariser les différents outils issus dumachine learning nécessaires à la mise en place d’un indice de bonne qualité. Plusieurs accélérateurs seront proposés et implémentés au sein d’unpackage écrit sous le langage Python, notamment :

1. l’extraction automatique de 42 variables météorologiques journalières issues du programme POWER de la NASA, pour une zone géographique spécifique et un inter- valle de temps donné ;

2. un outil permettant d’augmenter artificiellement la résolution spatiale d’un jeu de données, dans le but de la faire correspondre à la maille d’un autre jeu issu d’une source différente ;

3. une implémentation efficace de plusieurs papiers récents issus de groupes tels que Google research pour l ’automatisation de la création d’indices via réseaux de neurones, dont la qualité est théoriquement garantie pour la couverture de tout risque météo-sensible ;

4. un outil de tarification permettant d’établir automatiquement un modèle de prime pure à partir de l’indice établi précédemment et d’un seuil de déclenchement correspondant au niveau de couverture souhaité.

(34)

Chapitre 2

Cadre de l’étude et données utilisées

La première étape de la construction d’un produit d’assurance indicielle est la mise en place d’un indice de qualité. Dans le cadre de ce mémoire, ce dernier est créé en établissant un lien entre des variables explicatives météorologiques, notéesX⁽¹⁾, . . . , X^(K)et une variable réponse correspondant au support du risque, nommée « sous-jacent » et notéeY. Le sous- jacent peut être de plusieurs natures : par exemple, si la couverture indicielle porte sur la baisse du résultat d’une entreprise, alors le sous-jacent est naturellement défini comme le résultat de cette dernière. Pour citer un autre exemple, si la couverture porte sur la protection des infrastructures publiques en bord de mer face à un débordement maritime, le sous-jacent peut alors être défini comme le niveau de la mer au sein d’un référentiel donné. De cette manière, un sinistre peut-être défini comme une variation trop importante du sous-jacent.

Cette définition du sinistre est cependant problématique lorsque la donnée correspondant au sous-jacent n’est pas directement disponible. En effet, dans le cadre des exemples donnés précédemment, s’il n’est pas difficile de concevoir que le niveau de la mer est facilement mesurable en temps réel, il est en revanche plus compliqué d’envisager qu’une entreprise soit en mesure de quantifier journalièrement son chiffre d’affaire ou encore son résultat. Afin de ne pas avoir à attendre que l’information soit disponible pour procéder à l’indemnisation, le choix a été fait dans le cadre de ce mémoire d’effectuer une prédiction du sous-jacent.

Une telle prédiction repose, dans le cadre de la couvertures des risques météo-sensibles, sur des variables météorologiques telles que la températures, la hauteur de précipitation, etc.

La mise en place d’un lien entre de nombreuses variables météorologiques et un sous-jacent quelconque sera détaillée au sein de la partie 2 de ce mémoire, consacrée à la mise en place d’un indice. Toutefois, avant de procéder à la création de l’indice, il est nécessaire de se pen- cher sur quelques problèmes relatifs aux variables explicatives ainsi qu’au cadre de l’étude.

Les données utilisées sont en effet organisées selon trois axes : le temps, la latitude, et la longitude. Par la suite, les termes « résolution temporelle » ou encore « résolution spatiale »

(35)

font référence à la maille à laquelle ces données sont disponibles selon les axes déjà évoqués.

2.1 Les variables explicatives

2.1.1 Sources de données

Ce mémoire s’inscrivant dans la couverture indicielle des risques météo-sensibles, les variables explicatives utilisées seront des variables météorologiques. Deux sources de données sont ainsi disponibles : les bases constituées de relevés ponctuels issus de stations météo- rologiques, et les relevés satellites, couvrant une zone plus large.

Bien que des méthodes d’interpolation existent pour construire une cartographie complète à partir de relevés ponctuels issus de stations météorologiques, la qualité de ces méthodes est fortement dépendante de la densité spatiale des relevés : les points de relevés doivent être assez rapprochés pour que l’erreur introduite pendant l’interpolation ne soit pas trop élevée. Il est par exemple incohérent d’estimer que les conditions météorologiques au som- met d’un relief peuvent être interpolées par des stations météorologiques situées aux abords de ce dernier. Il existe de plus un problème de distribution des données : les sources peuvent être issues d’institutions publiques, mais également d’organisations d’intérêts privés, rendant leur libre accès plus difficile.

De même, les relevés disponibles peuvent l’être pour des zones géographiques d’échelles diverses, comme une région, un pays, ou un regroupement de pays, rendant l’automatisation de l’extraction des données fastidieuse, en raison de la disparité des formats. De plus, en multipliant le nombre de sources de données nécessaires à la couverture d’une vaste zone géographique, un assureur devient dépendant de chacune des organisations responsable de la publication des données. Si un acteur vient à faire défaut, rendant ainsi les variables explicatives indisponibles au sein d’une zone géographique donnée, l’indice n’est pas calculable et la couverture fait défaut. L’assureur n’est alors plus en mesure d’honorer ses engagements.

En revanche, les relevés issus de satellites défilants héliosynchrones permettent une résolu- tion spatiale uniforme, ainsi qu’une couverture globale. Les programmes d’observation issus de la National Aeronautics and Space Administration (NASA) ainsi que de la European Space Agency(ESA) possèdent des financements solides (20,7 et 5,72 milliards d’euros res- pectivement), dont la pérennité peut difficilement être remise en cause. Ces agences jouent de plus un rôle clef au sein du monde académique, et parmi de nombreux groupes d’inté- rêts privés manquant des moyens nécessaires à la mise en place de leur propre systèmes satellites. Un assureur est de surcroit en mesure de se protéger face à un défaut éventuel

(36)

de l’une des deux agences, car ces dernières fournissant des services équivalents, leur rôle est interchangeable.

Figure 2.1: exemple d’orbite défilante héliosynchrone

D’après Météo-France, les satellites défilants héliosynchrones mis en orbites par la NASA ainsi que par l’ESA évoluent en orbite basse autour de la Terre (850 kilomètres), fixant la zone couverte par un pixel du capteur embarqué à un carré dont les côté mesurent 1 kilo- mètre. Ce type d’orbite, comme illustré au sein de la Figure 2.1 couvre de plus l’ensemble du globe, y compris les pôles, et permet aux satellites de survoler la même zone deux fois par jour. Les relevés bruts issus des satellites de la NASA et de l’ESA sont ainsi disponibles à une résolution temporelle journalière et à une résolution spatiale de 1km×1km.

Diverses bases de données résultant de retraitements lourds effectuées par la NASA sur les relevés bruts des capteurs embarqués sur leurs satellites sont également disponibles via divers programmes de recherche mis en place par l’agence américaine. Ces retraitements permettent, à partir de modèles dont la qualité est contrôlée par l’agence américaine, la création de nouvelles variables, telles que la hauteur de précipitation, la vitesse du vent, ou la température. La résolution spatiale des variables météorologiques ainsi crées est alors diminuée afin de permettre à la NASA de comparer ces dernières à des points de relevés au sol issus de stations météorologiques telles que celles évoquées précédemment.

2.1.2 Source de données sélectionnée

Les données météorologiques sélectionnées dans le cadre de ce mémoire sont issues du programmePrediction Of Worldwide Energy Ressources (POWER) de la NASA. Ces der- nières sont décrites par l’agence américaines comme «Solar and meteorological data sets from NASA research for support of renewable energy, building energy efficiency and agri- cultural needs». La résolution spatiale de l’ensemble des relevés est de 0,5 degrés de latitude

(37)

par 0,5 degrés de longitude, tandis que la résolution temporelle de ces derniers est de 1 jour, avec un retard de 2 jours sur le présent. 42 variables du programme POWER seront considérées dans le cadre de cette étude, dont un dictionnaire est disponible en annexe A.

On constate que les variables météorologiques mises à disposition par le programme PO- WER de la NASA sont relativement exhaustives pour l’explication des phénomènes météo- sensibles, avec des relevés correspondant à la température, à la quantité de radiation solaire, à la pression atmosphérique, à la hauteur de précipitation, à l’humidité, ainsi qu’au vent.

De ce fait, il sera considéré dans le cadre de ce mémoire que ces variables sont suffisantes à la création d’un lien de bonne qualité avec tout sous-jacent support d’un risque météo- sensible.

2.1.3 Un premier accélérateur : une extraction automatisée des variables du programme POWER

Le premier accélérateur proposé dans le cadre de ce mémoire relativement à la mise en place d’une couverture indicielle des risques météo-sensibles est une procédure d’extraction des 42 variables météorologiques sélectionnées parmi celles proposées par le programme POWER.

Les accélérateurs implémentés dans le cadre de ce mémoire étant implémentés au sein du packageindexmethods, cette procédure d’extraction est nomméemeteo_data_extraction. Cette dernière est basée sur l’interface de programmation applicative, nomméeAPI pour application programming interface, fournie par l’équipe de la NASA en charge du programme POWER. L’application de l’ensemble des accélérateurs proposés dans le cadre de ce mémoire, dont celui précédemment mentionné sera illustrée à travers le cas pratique de la couverture des pertes d’exploitation des centrales solaires.

L’API du programme POWER, qui constitue une interface entre les serveurs de la NASA et l’utilisateur souhaitant extraire des données, permet une extraction relevé par relevé.

La méthode d’extraction implémentée au sein du package Python associé à ce mémoire utilise des processus de téléchargement asynchrones, permettant de lancer en parallèle de nombreuses requêtes. Ce procédé permet d’accélérer significativement la procédure de télé- chargement. Enfin, la sélection des relevés selon leur situation géographique a été largement simplifiée : il suffit à l’utilisateur de préciser en argument demeteo_data_extractionune fenêtre géographique, correspondant à deux couples(latitude_min, latitude_max) et

(longitudemin, longitudemax). Une fenêtre temporelle est également demandée à l’utilisateur, sous la forme(t_min, t_max). Enfin, il suffit à l’utilisateur de préciser land_only=True pour exclure du téléchargement toutes les zones correspondant à des mers ou encore à des océans.

Concernant le cas pratique de la couverture des pertes d’exploitation des centrales solaires,

(38)

l’étude est réalisée à l’échelle Européenne, sur un historique de 10 ans. Les parcs de production solaire n’étant présents que sur la terre ferme, les zones océaniques sont exclues du champ de l’étude. La requête prend alors la forme suivante :

from indexmethods import meteo_data_extraction

m = meteo_data_extraction(long_range=(-11, 35), lat_range=(36, 72), date_range=("01/01/2005", "01/01/2015"), land_only=True)

m.download_data(path="/scratch/atlas_diserbeau/memoire/data")

Les relevés correspondant aux critères saisis par l’utilisateur sont ainsi sélectionnés, et la procédure de téléchargement démarre. Les 42 variables demandées sont alors stockées au niveau du chemin spécifié par l’utilisateur, sous la forme de 42 tableaux en trois dimen- sions : la latitude du relevé, la longitude du relevé, et la date du relevé. Par exemple, pour la variable ALLSKY_SFC_LW_DWN, correspondant à la moyenne journalière de la quantité de radiation solaire issue du spectre infrarouge atteignant le sol,les relevés suivants sont obtenus en date du 01/01/2005 :

Figure 2.2: observation de ALLSKY_SFC_LW_DWN le 01/01/2005 sur la plage géo- graphique sélectionnée

2.2 Variable réponse et support du risque

Comme décrit au sein de l’introduction de ce chapitre, la variable réponse correspond au support du risque ; c’est ainsi en faisant varier ce support que l’objet de la couverture indicielle est déterminé. Afin que les méthodes mises en place dans le cadre de ce mémoire pour