Mémoire d'actuariat

(1)

Mémoire présenté devant l’ENSAE ParisTech pour l’obtention du diplôme de la filière Actuariat

et l’admission à l’Institut des Actuaires le 22/02/2019

Par :

Nicolas Langevin

Titre :

Modélisation de la sinistralité tempête,

apport de l’Open Data et du Machine Learning

Confidentialité : NON OUI (Durée :1 an 2 ans) Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus

Membres présents du jury de la filière Entreprise : Sia Partners Nom : Michaël Donio

Pierre Picard Signature :

Membres présents du jury de l’Institut Directeur du mémoire en entreprise : des Actuaires

Nom : Younes Mouatassim Signature :

Autorisation de publication et de mise en ligne sur un site de diffusion de documents actuariels (après expiration de l’éventuel délai de confidentialité)

Signature du responsable entreprise Secrétariat :

Signature du candidat Bibliothèque :

(2)

(3)

Résumé

L’intensification des évènements climatiques ces dernières années pousse les assureurs à maitriser des risques de plus en plus fréquents. La souscription d’un contrat Multirisque Habitation obligeant l’assureur à couvrir ces risques, la part d’indemnisation des catastrophes naturelles devient importante. Dans un segment de plus en plus compétitif et afin de proposer des tarifs plus adéquats avec le risque couru, les assureurs se doivent de mieux modéliser cette composante.

La modélisation actuelle étant couteuse et souvent non maitrisée par l’assureur une méthode basée sur l’historique de sinistre a été proposée. S’appuyant sur certaines méthodes de modélisation classiques, le caractère particulier du risque oblige néanmoins l’assureur à la complexifier. La modélisation de la fréquence de sinistre des tempêtes en France métropolitaine a donc été explorée dans ce mé- moire. Ces risques souffrant d’une forte composante géographique, l’utilisation de données externes a été nécessaire afin de pallier les données de l’assureur trop limitées.

Dans un premier temps, l’étude se concentrera sur la description de l’assurance Multirisque Habi- tation et de la distinction entre les tempêtes et les autres catastrophes naturelles.

La création de la base de modélisation avec l’apport de données issues de projets Open Data divers sera ensuite abordée afin de permettre une première visualisation du risque couru par l’assureur.

La deuxième partie abordera la théorie des différentes méthodes de modélisation utilisée afin de proposer une estimation de la fréquence de sinistre basée sur des modèles paramétriques tels que les GLM, les régressions pénalisées et les modèles à inflation de zéros qui permettent de mieux prendre en compte l’absence de sinistres. L’apport des méthodes de Machine Learning (Forêts Aléatoires et Gradient Boosting Machine) sera ensuite mesuré et comparé aux méthodes plus classiques.

La dernière partie comparera les résultats des différentes méthodes et l’impact de l’apport des données externes, la modélisation étant considérée dans un premier temps en ne considérant que les données de l’assureur. Afin de vérifier l’impact de ces méthodes sur la composante géographique, une analyse des méthodes à la maille départementale sera explorée.

Mots clés: Multirisque Habitation, Tempêtes, Open Data, Modèles Linéaires Généralisés, Modèles à Inflation de Zéros, Forêts aléatoires, Gradient Boosting

(4)

(5)

Abstract

The intensification of climatic events in recent years has led insurers to control risks that are be- coming more and more frequent. The subscription of a home insurance policy requiring the insurer to cover these risks, the share of compensation for natural disasters becomes significant. In an increasin- gly competitive segment and in order to offer a more appropriate price for the risk involved, insurers must better model this component.

The current modelling is expensive and often obscure for the insurer, a method based on the his- tory of loss has been proposed. Based on some classical modelling methods, the nature of the risk nevertheless requires the insurer to make it more complex. The modelling of the frequency of storms in metropolitan France has been explored in this paper. Since these risks have a strong geographical component, the use of external data was necessary to overcome the data of the insurer which was too limited.

As a first step, the study will focus on the description of comprehensive home insurance and the existing differences between storms and other natural disasters.

The creation of the modelling database with the contribution of data from Open Data projects will be discussed in order to allow a first visualization of the risk run by the insurer.

Secondly, we will discuss the theory of the different modelling methods used to estimate the frequency of claims based on parametric models such as GLM, penalized regressions and zero-inflated models that better take into account the absence of claims. The contribution of Machine Learning methods (Random Forests and Gradient Boosting Machine) will then be measured and compared to more traditional methods.

In the last part, we will compare the results of the different methods and the impact of external data, the modelling being considered initially only with the insurer’s data. In order to measure the impact of these methods on the geographical component, an analysis of these method at the departmental mesh will be explored.

Keywords : Home insurance, Storms, Open Data, Generalized Linear Models, Zero Inflated Mo- dels, Random Forest, Gradient Boosting

(6)

(7)

Note de synthèse

L’émergence des banques-assureurs sur le marché de l’assurance Multirisque Habitation contribue à en faire un marché de plus en plus concurrentiel. Cette nouvelle concurrence couplée à l’augmenta- tion forte des catastrophes naturelles conduit les acteurs du secteur à revoir leur compréhension de certains risques. Depuis une dizaine d’années, la hausse des effets du climat sur les dommages aux biens oblige les assureurs à prendre en compte de manière toujours plus précise son exposition aux sinistres naturels.

La prise en compte de ces sinistres de fréquence très faible mais de forte intensité car rendue obligatoire par la souscription d’un contrat de MRH, le principe de solidarité collective faisant office de référence.

La prise en compte de ces sinistres n’est cependant pas aisée pour l’assureur, les historiques de sinistres étant faibles et la logique de sinistralité peu évidente. Compte tenue de cette difficulté de modélisation des risques, peu d’assureurs ont décidé de modéliser le risque en interne préférant l’utilisation de modèles externes plus complexes. Ces outils procurés par seulement trois acteurs (RMS, Eqecat et AIR) souffrent malheureusement de quelques limites et poussent les assureurs à changer leurs politiques de tarification.

Ce mémoire a pour but de proposer une alternative de modélisation de la fréquence de sinistres du risque tempête.

Le choix du risque tempête a été préféré aux autres catastrophes naturelles en raison de sa gestion différenciée et de sa fréquence de sinistres plus importante. Ce mémoire étudie le risque tempête uniquement en France métropolitaine où les évènements tempétueux n’ont pas la caractéristique de catastrophe naturelle.

La modélisation de la fréquence de sinistres sans utiliser d’outil plus complexe nécessite évidemment un certain nombre de conditions et a été rendu possible grâce au développement de deux points, l’accès aux données externes de plus en plus facilité et le développement d’algorithmes de Machine Learning toujours plus puissants.

Intégration des données externes

La première problématique induite par le risque tempête est la présence d’une forte composante géographique dans la modélisation du risque. L’utilisation des données de l’assureur comme seule source d’informations est impossible. Même si ces données permettent parfaitement de répliquer les caractéristiques de l’assuré et de son bien, ces sinistres sont par essence dépendant de la localisation de l’assuré.

Outre les caractéristiques du bien de l’assuré qui constituent tout de même une part importante du

(8)

risque, la localisation de celui-ci est capitale pour une modélisation efficace de la sinistralité tempête.

La précision de la géolocalisation du bien de l’assuré étant importante, l’obtention des coordonnées GPS constitue donc la première étape de l’intégration de données externes. Ce passage d’une adresse, souvent mal intégrée à la base de données, aux coordonnées GPS et la vérification de la véracité des données obtenues ne sont pas si évidentes et nécessitent l’utilisation d’API efficace.

Une fois les coordonnées du bien obtenues, les données externes peuvent enfin être intégrées à la base de données de modélisation. Afin de modéliser le risque de la manière la plus précise possible plusieurs sources et types de données ont été testées :

— des données caractérisant de façon macro les informations relatives à la commune de l’assuré.

Ces données sont obtenues à la maille INSEE et proviennent des bases de données mises en ligne par le gouvernement. Les variables ainsi obtenues sont très diverses et permettent d’obtenir l’altitude, le salaire moyen, la population ou la part de propriétaires de la commune ;

— des données permettant d’obtenir les caractéristiques de la zone d’habitation de l’assuré. Ces données proviennent alors de deux projets différents. Le premier, Corine est un projet européen et gouvernemental alors que le second OpenStreetData est un projet géré par des amateurs passionnés par les données géographiques. Dans les deux cas, les données sont obtenues a une maille très fine et seront associées à l’assuré suivant la proximité géographique ;

— pour finir, des données climatiques ont été utilisées afin de modéliser au plus près les phé- nomènes tempétueux. Ces données sont issues de la base de données de Météo France et ne sont pas libres d’accès mais payantes à la différence des données précédentes. Ces données permettent d’obtenir des informations sur les vitesses de vent avec un relevé quotidien de nombreuses données importantes telles que la vitesse maximale, la vitesse moyenne, l’écart type sur la journée...

L’apport de ces données sur la qualité de prédiction de la fréquence de sinistres est incontestable quelle que soit la méthode de modélisation testée. Le gain d’informations obtenu à l’aide de ces don- nées amène donc une amélioration de la prise en compte de la fréquence de sinistres. Dans le cas d’une modélisation par méthode paramétrique le modèle se compose généralement de six à sept variables internes pour deux à quatre variables externes.

Parmi les modèles, les variables sélectionnées permettent à minima de prendre en compte la vitesse du vent et l’environnement du bien. Les données géolocalisées à la maille la plus fine semblent avoir une importance supérieure aux données obtenues à une maille plus macro telle que le code INSEE.

Modélisation à l’aide des méthodes paramétriques

Une première modélisation est proposée en ayant recours aux différentes méthodes paramétriques de régression. La modélisation est ainsi effectuée en adaptant les données aux lois de Poisson et Bi- nomiale Négative qui sont les plus cohérentes avec le profil des données utilisées. Bien que dans la théorie, la loi Binomiale Négative soit bien plus adaptée, dans les faits l’utilisation de la loi de Poisson pour la modélisation de la fréquence ne dégrade pas fortement les prévisions.

Afin de prendre en compte de la manière la plus fidèle possible la sinistralité, l’utilisation des modèles à inflations de zéros a été proposée comme alternative aux modèles linéaires généralisés. Dans ces modèles l’utilisation conjointe d’une régression logistique et d’une régression de comptage permet

(9)

de mieux prendre en compte le phénomène de sur-représentation de la non-occurrence de sinistres.

Dans le cadre de cette étude, le modèle de régressionZero Inflated Negative Binomialpermet de mieux prendre en compte la sinistralité.

Modélisation à l’aide des méthodes de Machine Learning

Afin d’affiner la précision des prédictions, des modèles basés sur les méthodes d’arbres ont éga- lement été testées. Les forêts aléatoires et XGBoost permettent ainsi d’obtenir respectivement des résultats bien meilleurs dans le cas d’un modèle n’intégrant que les données internes mais aussi dans le cas où toutes les variables sont prises en compte.

Le gain sur la RMSE est bien plus fort en utilisant ces algorithmes de Machine Learning et permet de réduire fortement l’erreur sur les prédictions.

Dans le cas des forêts aléatoires, les variables utilisées restent sensiblement identiques à celles utilisées dans les modèles paramétriques. Le modèle XGBoost offre une modélisation totalement différente avec de nombreuses variables importantes qui n’étaient pas utilisées dans les modèles précédents. L’apport des données externes dans ce modèle est d’autant plus pertinent que leur importance dans la modéli- sation est considérable.

La gestion de la corrélation entre les variables et la sélection de variables opérée par l’algorithme permet une conservation de l’information. Le gain de temps opéré par cette étape de sélection de variables est en revanche compensé par l’étape d’optimisation des paramètres qui sont bien plus nombreux dans le cas de ces algorithmes par rapport aux modèles paramétriques.

Les temps de simulation de ces algorithmes sont néanmoins bien plus élevés que pour les modèles GLM et rendent, au vu des résultats, les modèles basés sur les forêts aléatoires peu efficients.

Le modèle XGBoost, plus rapide que cette dernière méthode et dont la prédiction est bien meilleure que les autres modèles est cependant conservé comme modèle le plus efficace.

Le tableau suivant compare les performances de deux modèles, un modèle GLM qui incorpore uniquement les données de l’assureur et un second basé sur l’algorithme XGBoost utilisant toutes les variables tarifaires de l’étude. La première colonne correspondant à la RMSE multipliée par 100 et la seconde à la somme de sinistres prédis par les méthodes, la valeur théorique étant de 1760 sinistres.

Figure1 – Comparaison de la performance du modèle GLM et du modèle XGBoost

Le problème de ce modèle demeure cependant sa lisibilité faible par rapport aux modèles GLM facilement interprétables. L’effet boîte noire du modèle constitue ainsi sa plus grande faiblesse.

Une piste d’étude pour la suite de ce mémoire pourrait être la création d’un zonier du risque tempête.

La lisibilité du modèle paramétrique associée au fort pouvoir prédictif sur les données externes du modèle XGBoost permettant d’obtenir un modèle efficient.

Ce choix peut être encouragé par la modélisation de la composante géographique du risque par le modèle XGBoost. En observant les résultats à la maille départementale, la qualité prédictive de ce dernier modèle est un peu plus visible, les départements où les écarts de prévision étaient extrêmes

(10)

Figure 2 – Résultats à la maille départementale des deux modèles

(11)

Executive summary

The emergence of bancassurance on the home insurance market contributes to making it an in- creasingly competitive market. This new competition coupled with the increase of natural disasters is leading insurers to revise their understanding of certain risks. Over the past decade, the increase in the effects of climate on property damage has forced insurers to take into account more accurately their exposure to natural disasters.

Taking into account these low frequency but high intensity claims is made mandatory by the subscription of a home insurance contract, the principle of collective solidarity serving as a reference.

Taking these claims into account is not easy for the insurer, as claims histories are low and the logic of claims is not very clear. Given this difficulty in risk modelling, few insurers have decided to model risk internally, preferring the use of more complex external models. These tools provided by only three actors (RMS, Eqecat and AIR) suffer from some limitations and push insurers into changing their pricing policies.

The purpose of this thesis is to propose an alternative for modelling the frequency of storm risk claims.

The choice of storm risk was preferred to other natural disasters because of its differentiated management and its higher loss frequency. This thesis studies storm risk only in metropolitan France where storm events do not have the status of natural disasters.

The modelling of the loss frequency without using a more complex tool requires a number of conditions and has been made possible thanks to the development of two points, the access to external data easier and easier and the development of Machine Learning algorithms more powerful.

use of external data

The first problem induced by storm risk is the presence of a strong geographical component in risk modelling. The use of the insurer’s data as the only source of information is impossible. Even if these data perfectly replicate the characteristics of the insured and his property, these claims are essentially dependent on the location of the insured.

In addition to the characteristics of the insured’s property, which still constitute an important part of the risk, its location is crucial for an effective modelling of the loss. The accuracy of the geolocation of the insured’s property is important, so obtaining GPS coordinates is the first step in integrating external data. This transition from an address, often poorly integrated into the database, to GPS coordinates and the verification of the veracity of the data obtained are not so obvious and require the use of efficient APIs.

(12)

Once the coordinates of the property have been obtained, the external data can finally be integrated into the modelling database. In order to model the risk as accurately as possible, several sources and types of data have been tested :

— data characterizing in a macro way the information relating to the insured’s municipality. These data are obtained at the INSEE mesh and come from government databases. The variables obtained are very diverse and make it possible to obtain the altitude, the average salary, the population or the share of owners of the city ;

— data to obtain the characteristics of the insured’s residential area. These data come from two different projects. The first, Corine, is a European and governmental project while the second, OpenStreetData, is a project managed by amateurs, passionate about geographical data. In both cases, the data are obtained at a very fine mesh and will be associated to the insured according to geographical proximity ;

— Finally, climatic data were used to model storm phenomena as closely as possible. These data are taken from the Météo France database and are not free but subject to a charge. These data make it possible to obtain information on wind speeds with a daily record of many important data such as maximum speed, average speed, standard deviation over the day...

The contribution of these data on the quality of prediction of the frequency of claims is undeniable regardless of the modelling method tested. The gain of information obtained using these data leads to an improvement on the prediction of claims frequency. In the case of parametric modelling, the model generally consists of six to seven internal variables for two to four external variables.

Among the models, the selected variables allow at least to take into account the wind speed and the environment of the property. Geolocated data at the finest mesh size appear to be more important than data obtained at a more macro mesh such as the INSEE code.

Modeling using parametric methods

A first modelling approach is proposed using different parametric methods of regression. The modelling is thus carried out by adapting the data to the laws of Poisson and Negative Binomial which are the most consistent with the profile of the data used. Although in theory, the Negative Binomial law is much more adapted, in fact the use of Poisson’s law for the modelling of the frequency does not degrade strongly the forecasts.

In order to take the loss frequency into account as accurately as possible, the use of zero-inflated models has been proposed as an alternative to Generalized Linear Models. In these models, the use of logistic regression and counting regression makes it possible to better take into account the phenomenon of over-representation of the non-occurrence of claims.

As part of this study, the textitZero Inflated Negative Binomial regression model is the more efficient model to take into account the loss frequency.

Modeling using Machine Learning methods

In order to refine prediction accuracy, models based on tree methods were also tested. The Ran- dom Forests and XGBoost allow to obtain respectively much better results in the case of a model integrating only the internal data but also regarding all the variables.

(13)

The gain on the RMSE is much stronger using these machine learning algorithms and greatly reduces the error on the predictions.

In the case of Random Forests, the variables used remain substantially identical to those used in the parametric models. The XGBoost model is completely different with many important variables that were not used in previous models. The contribution of external data in this model is more relevant as their importance in modelling is considerable.

The management of the correlation between the variables and the selection of variables operated by the algorithm allows a conservation of the information. The saving time made by this variable selection step is however compensated by the parameter optimization step which is much more numerous in the case of these algorithms compared with the parametric models.

The simulation times of these algorithms are nevertheless much higher than for the GLM models and make, according to the results, the models based on Random Forests not as efficient as they should be.

The XGBoost model, faster than the latter method and whose prediction is much better than the other models, is still preserved as the most efficient model.

The following table compares the performance of two models, a GLM model that only use insurer data, and a second model based on the XGBoost algorithm that uses all pricing variables of the study.

The first column corresponds to the RMSE multiplied by 100 and the second to the sum of claims predicted by the methods, the theoretical value is 1760 claims.

Figure3 – Performance of the GLM model and the XGBoost model

The problem of the XGBoost model, remains its low readability compared to easily interpretable GLM models. The black box effect of the model thus constitutes its greatest weakness. A study track for the thesis could be the creation of a storm risk zone. The readability of the parametric model associated with the strong predictive power on the external data of the XGBoost model should allow to obtain an efficient model.

This choice can be encouraged by modelling the geographic component of risk using the XGBoost model. By observing the results at the departmental mesh, the predictive quality of this model is more visible, the departments where the forecast differences were extreme being completely erased.

(14)

(15)

Remerciements

Ce mémoire est l’aboutissement de nombreuses années d’études et n’aurait pas été possible sans l’aide d’un grand nombre de personnes.

Je tiens très vivement à remercier tous les intervenants qui ont contribué de près ou de loin à ce mémoire. Un grand merci à Clément Billoret, Arnaud Buzzi, Antoine Guillot, Younes Mouatassim et Albin Tranchard pour les conseils et les connaissances qu’ils ont pu m’apporter.

Je remercie les directeurs du service Actuariat, Michaël Donio, Ronan Davit et Benoît Ménoni de m’avoir permis d’intégrer Sia Partners et d’avoir facilité le déroulement de mon mémoire.

Merci également aux consultants de Sia Partners pour leurs conseils mais aussi pour leur bonne humeur et leur soutien très utiles à certains moments du stage.

Je souhaite également remercier les différents intervenants croisés au cours de mes années de for- mation à l’ENSAE et à l’INSA qui m’ont permis d’acquérir les compétences nécessaires à la mise en place d’un mémoire d’actuariat.

Je tiens à remercier plus particulièrement ma famille et mes proches pour leur soutien et leurs encouragements pendant cette période de rédaction.

Enfin, un grand merci à toutes les personnes qui au cours de mes stages passés et de mes différentes missions m’ont motivé et encouragé à passer le titre d’actuaire.

(16)

xiv

(17)

Table des matières

Introduction 1

1 Cadre de l’étude 3

1.1 Contrat d’assurance Multirisque Habitation . . . 3

1.1.1 Définition . . . 3

1.1.2 Garanties . . . 4

1.1.3 Obligation de souscription . . . 5

1.1.4 Déclaration de sinistres . . . 5

1.1.5 Résiliation du contrat . . . 6

1.1.6 Poids de la MRH en France . . . 6

1.2 Cas des évènements naturels . . . 7

1.2.1 Généralités . . . 7

1.2.2 Différences entre les garanties CatNat et TGN . . . 9

1.3 Modélisation des évènements naturels . . . 12

1.3.1 Approche déterministe . . . 13

1.3.2 Approche stochastique . . . 13

1.3.3 Approche mise en place . . . 15

2 Analyse du portefeuille utilisé 17 2.1 Constitution de la base de données . . . 17

2.1.1 Présentation des données assureur . . . 17

2.1.2 Intégration des données Open Data . . . 22

2.1.3 Intégration de données météorologiques . . . 27

2.1.4 Constitution de la base de modélisation . . . 29

2.2 Analyses préliminaires de la base de données . . . 30

2.2.1 Analyses univariées . . . 31

2.2.2 Étude des corrélations entre variables . . . 40

3 Méthodes de tarifications assurance Non-Vie 45 3.1 Généralités sur la tarification non-vie . . . 45

3.2 Les Modèles Linéaires Généralisés . . . 47

3.2.1 La régression linéaire . . . 47

3.2.2 Les Modèles Généralisés Linéaires . . . 48

3.2.3 Modélisation de la fréquence de sinistre . . . 50

3.3 Optimisation des modèles de régression . . . 54

3.3.1 Validation et mesure de performance . . . 54

(18)

TABLE DES MATIÈRES

3.3.2 Méthodes de sélection de variables . . . 58

3.4 Modèles à inflations de zéro . . . 61

3.4.1 Modèle Hurdle . . . 62

3.4.2 Modèles ZI . . . 62

4 Modélisation à l’aide du Machine Learning 65 4.1 Machine Learning, généralités et vocabulaire . . . 65

4.2 Méthodes de Machine Learning utilisées pour la régression . . . 67

4.2.1 Les arbres de décision : cas des CART . . . 67

4.2.2 Les forêts aléatoires . . . 70

4.2.3 Méthodes de Boosting . . . 72

5 Modélisation de la fréquence de sinistre et analyse des résultats 75 5.1 Modèle interne . . . 75

5.1.1 Modèle GLM . . . 75

5.1.2 Modèles à inflation de zéros . . . 83

5.1.3 Random Forest . . . 84

5.1.4 XBGoost . . . 89

5.2 Modélisation en intégrant les données externes . . . 92

5.2.1 Modèle GLM . . . 92

5.2.2 Modèles à inflation de zéros . . . 97

5.2.3 Random Forest . . . 98

5.2.4 XGBoost . . . 100

Conclusion 103

A Compléments sur la base CORINE 109

B Résolution du système d’interpolation bilinéaire 111

C Résultats complémentaires 113

xvi

(19)

Introduction

Les contrats d’assurance Multirisque Habitation permettent de protéger l’assuré contre un grand nombre de risques à travers des garanties nombreuses et diverses. Outre les risques classiques tels que le vol, les incendies ou les dégâts des eaux, certains plus rares et spécifiques comme les catastrophes naturelles et les tempêtes sont plus compliqués à prendre en compte pour l’assureur.

La multiplication des cataclysmes climatiques impacte de plus en plus les assureurs qui ont dû faire face à des indemnisations records ces dernières années. Les évènements tempétueux en France mé- tropolitaine ne font pas exception à la règle comme l’illustre le passage de la tempête Zeus en 2017.

Modéliser le risque pris par l’assureur demeure donc capital. Les méthodes de modélisation offertes à l’assureur demeurent cependant peu nombreuses, coûteuses et souvent complexes.

Pour y faire face, une approche déterministe basée sur le développement des données libres d’accès et des méthodes de Machine Learning a été mise en place afin de modéliser la fréquence de sinistralité dans le cas du risque tempête en France métropolitaine.

Bien que ces risques conditionnés par les caractéristiques de l’assuré et de ses biens, la composante géographique est très importante et ne peut être modélisée à l’aide des seules données de l’assureur.

L’essor des données Open Data (données en libre accès) constitue donc une bonne opportunité pour tenter de modéliser ce manque d’informations.

L’étude menée lors de ce mémoire se décompose en cinq grandes parties.

Une première permet d’introduire le contexte de l’étude en traitant notamment les grandes différences de gestion entre les tempêtes (appartenant à la garantie TGN) et les catastrophes naturelles.

Une deuxième partie illustre le travail effectué pour obtenir une base de modélisation fiable et l’inté- gration de données externes issues soit de l’Open Data soit de sources externes. Une brève analyse du portefeuille sera également effectuée.

Les troisième et quatrième parties serviront à introduire la théorie des méthodes de modélisation utilisées :

— l’une abordera les méthodes de régressions paramétriques plus classiques mais aussi des mé- thodes permettant de pallier les problématiques issues par la faible sinistralité. La sous-représentation des sinistres et la pénalisation des méthodes trop complexes nécessiteront un traitement particulier ;

— l’autre sera également consacrée aux méthodes de Machine Learning dont le développement fort combiné aux bonnes performantes sur de nombreuses problématiques, rend leur utilisation de plus en plus importante pour la tarification. L’accent sera mis sur les deux méthodes utilisées : les forêts aléatoires et le Gradient Boosting.

La dernière partie compare ces méthodes en s’appuyant sur un certain nombre d’indicateurs de performance mais également sur la diminution de la composante géographique du risque.

(20)

(21)

Chapitre 1

Cadre de l’étude

En préambule à la partie technique du mémoire, ce chapitre donnera une rapide vision du cadre de l’étude et présentera les risques liés aux intempéries.

Il sera découpé en trois sections, permettant tout d’abord de définir l’assurance Multirisque Habitation (abrégée MRH dans la suite du mémoire), ses caractéristiques principales et d’illustrer l’importance de ce marché en France.

La suite du chapitre portera sur la définition des risques liés aux évènements naturels de manière générale avant de s’attarder sur les différences de couverture des risques dans le cas d’un évènement naturel classique et d’une tempête.

Enfin, la présentation des techniques de modélisation utilisées usuellement pour les catastrophes naturelles et les tempêtes introduira la problématique du mémoire.

1.1 Contrat d’assurance Multirisque Habitation

1.1.1 Définition

L’assurance se décompose en deux grandes familles, le IARD, pour Incendie, Accidents et Risques Divers qui permet de couvrir les dommages et la protection des biens et la VIE qui couvre les risques liés aux personnes. Seule la première qui correspond au cadre de l’étude, présente un intérêt particulier pour ce mémoire. Les contrats d’assurance Multirisque Habitation représentent près du tiers de l’assurance non-vie, l’assurance automobile étant la seconde composante principale.

Un contrat de MRH permet à l’assuré de couvrir son logement et son mobilier contre un grand nombre de risques et d’assurer l’indemnisation des dommages provoqués à un tiers ou au logement dont l’assuré est propriétaire ou occupant. Ces contrats sont habituellement d’une durée courte (1 an) avec un renouvellement automatique à défaut de résiliation par l’assureur ou l’assuré.

Ce contrat se décompose en deux types de couvertures : les biens assurés et la responsabilité civile de l’assuré.

Dans le premier cas, l’assureur prend en charge les dommages causés à la fois aux biens immobi- liers ou aux biens mobiliers. Les premiers correspondant au logement en lui même et aux biens qui ne peuvent être enlever sans causer une détérioration (immeuble par destination) ainsi qu’aux annexes du logement (cave, garage, hangar, balcon, jardin...).

Les biens mobiliers correspondent aux meubles et objets personnels appartenant à l’assuré.

(22)

CHAPITRE 1. CADRE DE L’ÉTUDE

L’assurance couvre les biens de l’assuré et ceux de toute personne se trouvant dans les lieux (membres de la famille, visiteur, personnel...).

Le second cas correspond à la responsabilité civile qui permet de couvrir les dommages corporels, matériels et immatériels causés par l’assuré ou tout autre personne vivant sous le même toit à autrui.

Cette responsabilité civile est également décomposée en deux parties :

• la responsabilité civile occupant qui varie selon la nature du souscripteur.

Si celui-ci est le propriétaire, il est alors couvert contre les dommages subis par son locataire au titre des vices et défaut de construction.

Dans le cas du locataire, elle permet de protéger le propriétaire contre les risques de dommages causés au logement et la perte de loyers.

Même si le propriétaire n’est pas tenu de s’assurer (hors cas de co-propriété), le locataire possède l’obligation depuis de la loi du 6 juillet 1989 de souscrire à la responsabilité civile ;

• la responsabilité civile vie privée, bien que non obligatoire, permet de couvrir les dommages corporels, matériels et immatériels causés par l’assuré au cours de sa vie privée.

Bien que l’assurance MRH ne soit pas obligatoire pour tous, la valeur d’un bien et de son mobilier, ainsi que les nombreux facteurs de risques encouragent fortement les propriétaires à souscrire de tels contrats. En échange de cet accord, l’assureur exige en revanche un signalement de tout changement relatif à l’habitat afin de disposer d’une description plus juste du bien couvert et ainsi d’une meilleure évaluation de la valeur d’une éventuelle indemnisation.

Le paiement de ces primes d’assurance de manière récurrente permet une gestion par répartition, les primes de l’année en cours couvrant le financement des sinistres immédiats. L’assureur doit ainsi évaluer de la meilleure des manières son exposition aux risques couverts par les différentes garanties des contrats MRH afin de ne pas se mettre en difficulté.

1.1.2 Garanties

Tous les contrats MRH ne sont pas équivalents et bien que certaines garanties soient obligatoires, il convient au bénéficiaire de choisir la formule qu’il considère la plus intéressante pour lui et la plus adaptée.

On peut ainsi énumérer les garanties les plus courantes incluses dans la plupart des contrats de MRH :

• laresponsabilité civile décrite plus haut ;

• la garantie incendie - explosion est une garantie obligatoire qui permet de couvrir tous les dégâts relatifs au feu, à la fumée, à la foudre, aux explosions et à l’intervention des pompiers dans le cas de sinistres accidentels. Une garantie complémentaire mais non obligatoire permet également de couvrir les dommages ménagers ;

• la garantie vol permet de couvrir la disparition d’un bien mobilier ainsi que sa dégradation dans le cas d’un vol, d’une tentative de vol ou d’un acte de vandalisme. Cette garantie répond néanmoins à des règles très strictes pour l’assuré ;

• la garantie dégâts des eaux couvre les dégâts relatifs à une fuite d’eau, une rupture de canalisation, des infiltrations... Cette garantie couvre à la fois les dégâts causés au logement du

4

(23)

1.1. CONTRAT D’ASSURANCE MULTIRISQUE HABITATION

bénéficiaire ainsi que ceux de ses voisins mais ne couvre pas systématiquement les réparations de la source du sinistre (si négligence avérée) ;

• la garantiebris de glace couvre les dommages sur les vitres, fenêtres, glaces de mobilier... ;

• la garantie catastrophe naturellepermet d’assurer tout dégât dans le cas où un évènement naturel est considéré comme catastrophe naturelle par arrêté interministériel. C’est une garantie légale obligatoire.

• la garantietempête, grêle et neigeprend en compte les trois risques précédemment énumérés.

Un détail plus particulier sera apporté aux deux dernières garanties dans la partie suivante ;

• la garantieprotection juridique, une garantie facultative permettant à l’assuré une prise en charge des frais de procédures ou la possibilité d’être représenté et défendu par l’assureur en cas de conflit avec un tiers nécessitant une résolution au tribunal.

• un grand nombre de garanties supplémentaires permettant de couvrir les actes de terrorismes, les émeutes, les catastrophes technologiques, les dommages électriques...

Cette possibilité de personnalisation totale d’assurance contre les risques inhérents aux logements permet à l’assuré de posséder la protection la plus proche de ses besoins mais oblige également à l’assureur à s’exposer à un très large spectre de risques.

1.1.3 Obligation de souscription

L’obligation de souscription à un contrat MRH dépend à la fois du statut de l’assuré mais aussi du type de logement. Bien qu’il existe des règles très strictes, une présentation succincte des règles principales permettra de mieux comprendre l’importance de certaines caractéristiques pour l’évalua- tion des risques.

Les locataires sont tenus depuis 1989 de souscrire une assurance habitation, un certain nombre de garanties étant obligatoires. Afin de pallier les risques locatifs et de protéger le bien immobilier, le locataire est ainsi tenu de prendre une assurance contre les risques locatifs permettant ainsi une indemnisation des dommages qu’il pourrait causer au bâtiment pendant la période de location. Cette garantie permet de couvrir l’assuré en cas d’incendie, d’explosion ou de dégâts des eaux sur le bien et sur les conséquences que pourrait avoir un tel sinistre sur le mobilier du bien et sur tout dégât qui pourrait être causé aux voisins.

En cas de non respect de cette obligation, le propriétaire peut décider de résilier le bail. Cela ne s’applique en revanche pas dans le cas des locations saisonnières, des logements de fonction ou des locations meublées.

Le cas du propriétaire est différent puisqu’il n’est pas tenu de souscrire un contrat MRH. Il prend en revanche le risque de ne recevoir aucune protection si sa responsabilité est mise en cause ni aucune gestion des recours contre le responsable d’un sinistre. Bien qu’elle ne soit pas obligatoire, elle demeure tout de même vivement conseillée. En revanche, un logement en copropriété nécessite a minima la couverture de la responsabilité civile par un assureur.

1.1.4 Déclaration de sinistres

Dans le cas où un sinistre se produit, l’assuré possède un certain nombre d’obligations. Même si celles-ci sont propres à chaque garantie, l’assuré a en général cinq jours pour déclarer un sinistre à

(24)

partir du moment où il en prend connaissance. Dans le cas de la garantie vol, cette durée est réduite à deux jours. Dans le cas très particulier des catastrophes naturelles, cette durée est limitée à dix jours après la parution de l’arrêté décrétant l’évènement comme catastrophe naturelle.

L’assuré doit ensuite remettre un certain nombre de pièces permettant d’évaluer l’étendu des dégâts, le passage d’un expert pouvant être une nécessité afin d’estimer le coût de l’indemnisation. Dans le cas d’urgences, l’assuré doit veiller à limiter les dégâts et à mettre en sécurité ses biens. Il doit bien sûr prouver autant que possible que le sinistre respecte les normes de la garantie, que le bien endommagé est bien existant et de remettre tout document permettant l’estimation du prix du bien.

Dans le cas de la MRH le délai de prescription est de deux ans à compter de la survenance du sinistre, hors citation en justice.

1.1.5 Résiliation du contrat

Depuis janvier 2005 (loi 2005-67), les conditions de résiliation ont été facilitées pour l’assuré.

L’assureur a ainsi le devoir d’indiquer quinze jours avant la date de renouvellement automatique du contrat, la reconduction du contrat. L’assuré ne possède évidemment aucune obligation de procéder au renouvellement.

Dans le cas où cette condition ne serait pas respectée, l’assuré dispose alors de vingt jours pour résilier son contrat qui peut néanmoins être reconduit sans préavis ni pénalité. La prime étant due au prorata, l’assureur dispose alors d’un délai de trente jours pour rembourser l’assuré.

Depuis mars 2014 (loi 2014-344 ou loi Hamon), la résiliation du contrat peut également avoir lieu à tout moment sans justification, tant que le contrat possède une ancienneté supérieure à un an.

La résiliation, qui est assurée par le nouvel assureur, prend alors effet un mois après la réception de la demande de résiliation. L’ancien assureur a de nouveau un mois pour rembourser à l’assuré la cotisation qui lui est due. Dans certains cas, un changement de domicile, de situation matrimoniale ou de statut professionnel, l’assuré a le droit de résilier son contrat avant la date d’échéance et ce même si son contrat date de moins d’un an. Cette résiliation doit intervenir dans les trois mois suivant le changement et le remboursement a lieu suivant les mêmes conditions que citées précédemment.

1.1.6 Poids de la MRH en France

L’assurance aux biens et responsabilités est une composante très importante des assureurs. Elle représente aujourd’hui plus de 25% des cotisations de l’assurance dont plus de 10 milliards d’euros pour la seule MRH. Avec près de 40 millions de contrats, ce marché hautement concurrentiel ne cesse d’évoluer et nécessite de la part des assureurs une connaissance pointue des risques encourus.

Une représentation des 10 plus gros assureurs couvrant le risque habitation permet de se rendre compte de l’importance du marché MRH en France :

6

(25)

1.2. CAS DES ÉVÈNEMENTS NATURELS

Figure1.1 – Chiffre d’affaires des 10 plus grands assureurs sur le segment MRH

A noter, même si cela n’est pas visible sur le graphique, que les quatre plus fortes progression de l’année ont été enregistrées pour des banques-assurances avec des croissances supérieures à 10%.

Preuve de la compétitivité qui règne sur ce segment, de nouveaux acteurs se positionnent de plus en plus sur la MRH.

Enfin en terme de nombre de contrats, Covéa qui enregistre pas loin de la moitié des contrats de la place peut être considéré comme le plus grand acteur de ce marché en France.

Bien que depuis 2010, la fréquence des sinistres soit particulièrement stable pour les cambriolages et les dégâts des eaux voire en baisse pour les incendies, les sinistres climatiques font offices d’exception à la règle et représentent un coût de plus en plus important sur ces dernières années. Les prestations sur les évènements naturels ont une tendance à la hausse et obligent les assureurs à agir en conséquence.

1.2 Cas des évènements naturels

1.2.1 Généralités

Depuis quelques années la fréquence et l’intensité des phénomènes météorologiques sont en forte progression. Impacté ou non par le réchauffement climatique, cette multiplication des sinistres a une forte incidence sur les résultats des assureurs. Alors que ce segment n’était pas particulièrement pro- blématique il y a moins de vingt ans, il devient un véritable sujet pour les assureurs qui commencent à se poser la question de ne plus couvrir certaines zones géographiques.

Sur les dix dernières années les montants de sinistres dus aux évènements climatiques ont augmenté fortement et représentaient en 2017 plus de 7% du montant total des dommages aux biens.

(26)

A la différence de la plupart des sinistres non-vie, les sinistres liés au climat souffrent d’une très forte volatilité. Ces évènements de fréquence très faible ont en revanche tendance à entrainer de très forts coûts de sinistres sur de larges zones géographiques. Un évènement particulièrement violent aura tendance à faire augmenter fortement les indemnisations de l’assureur. Cela se remarque parfaitement sur le graphique ci-dessous où les indemnisations des années 2009 et 2010 sont impactées respectivement par les tempêtes Klaus et Xynthia qui ont entrainé des coûts pour les assureurs supérieurs au milliard d’euros par évènement.

Figure 1.2 – Poids du climat sur les dommages aux biens

Outre ces deux années exceptionnelles, on remarque bien la tendance croissante de ces dernières années qui ne va pas en s’arrangeant au vu des inondations d’octobre dernier ou de la tempête Adrian qui a touché le sud de la France en octobre 2018.

La multiplication de ces évènements nécessite une gestion différenciée en fonction des évènements climatiques. Au préalable, il faut bien comprendre comment sont considérés les sinistres naturels qui sont usuellement repartis en trois catégories :

• les catastrophes naturelles ;

• les tempêtes, ouragans et cyclones ;

• les autres évènements climatiques.

On peut ainsi remarquer que les tempêtes ne sont pas considérées au même titre que les autres évè- nements climatiques. Cela entraîne de grandes différences à la fois dans la mise en place du système d’indemnisation mais également sur le système de réassurance qui toutefois ne sera que survolé.

8

(27)

1.2. CAS DES ÉVÈNEMENTS NATURELS

1.2.2 Différences entre les garanties CatNat et TGN

Prise en compte des évènements naturels

Afin de bien comprendre les différences entre les garanties CatNat et TGN, il convient de revenir à la définition des catastrophes naturelles par la loi de juillet 1982.

Est défini comme dommages induis par une catastrophe naturelle :

« les dommages matériels directs non assurables ayant eu pour cause déterminante l’inten- sité anormale d’un agent naturel lorsque les mesures habituelles à prendre pour prévenir ces dommages n’ont pu empêcher leur survenance ou n’ont pu être prises. »

La suite de l’article de loi indique également qu’un évènement naturel est considéré comme catastrophe naturel uniquement à la suite d’un arrêté interministériel qui déterminera également les zones et périodes du-dit évènement. Les catastrophes naturelles sont donc définies géographiquement et tem- porellement par l’État.

Que ce soit du côté de l’assureur ou de l’assuré, cette garantie repose sur le principe prévu par le lé- gislateur que l’ensemble des assurés doit cotiser. Cette garantie est donc contractuellement obligatoire pour toute signature d’un contrat MRH ou automobile et est couverte par une prime additionnelle.

Cette prime à taux fixe est cependant indépendante de l’exposition de l’assuré et ne dépend que du type de contrat souscrit, permettant ainsi d’illustrer le caractère collectif de cette garantie. Actuel- lement, dans le cas des dommages aux biens, 12% de la prime MRH est allouée aux catastrophes naturelles contre deux fois moins en 1982.

En échange de toutes ces conditions, l’assureur est également fortement protégé. Ne pouvant faire face seul à des sinistres d’une telle ampleur, l’État garantit à l’assureur la réassurance de ce type de sinistres à l’aide de la Caisse Centrale de Réassurance (CCR). Cet organisme détenu à 100% par l’État doit prendre en charge la moitié des montants de sinistres et offrir, si l’assureur le désire, une couverture de réassurance illimitée. Le conseil constitutionnel ayant jugé en 2013, le bénéfice accordé à la CCR parfaitement légal, il n’est pas envisagé de remettre en cause les facilités de réassurance accordées aux assureurs.

Compte tenu de la définition de la garantie, il apparaitrait donc logique de voir les tempêtes soumises à cette même garantie. Il n’en est pourtant rien, les tempêtes faisant figure d’exception au même titre que les dommages causés par la grêle et la neige.

Garantie Tempête, Grêle et Neige

Une tempête est un évènement météorologique naturel caractérisé par la force de ses vents et dont l’effet synoptique la rend particulièrement dangereuse. Outre les fortes vitesses de vents (à partir de 89 km/h), ces évènements s’accompagnent souvent de précipitations, d’orages ou de grêle qui multiplient les dégâts causés aux structures. Les dégâts engendrés par ces événements sont souvent issus du vol de projectiles dans le cas des petites tempêtes mais peuvent devenir majeurs avec le passage de tempêtes remarquables.

Lors de la signature d’un contrat d’assurance garantissant les dommages d’incendies, les dégâts dûs aux vents tempétueux, cycloniques ou aux ouragans, ainsi qu’aux effets de la grêle et au poids

(28)

de la glace sont couverts de manière systématique, sous réserve que le bien soit dans un état suffisant (article L. 122-7 du Code des Assurances).

En s’attardant sur les données de la garantie Tempête, Grêle et Neige (TGN) des années 2012 à 2016, on peut observer que sur ces cinq années, la part des montants de sinistres dûs aux tempêtes est prédominante par rapport aux autres évènements. La faible indemnisation des tempêtes sur l’année 2014 s’explique assez facilement par la non-occurrence de tempêtes d’importance majeure.

Figure1.3 – Répartition des indemnisations sur la garantie TGN

Pour avoir un élément de comparaison avec les autres risques, l’année 2016, année relativement clémente sur la garantie TGN, a tout de même nécessité une indemnisation de plus de 600 millions d’euros de la part des assureurs. On estime que les cotisations relatives à cette garantie est quant à elle plus de deux fois supérieure et est de l’ordre de 1,5 milliard d’euros.

Dès lors, il convient de se poser la question de ce qui différencie une tempête d’une catastrophe naturelle au sens assurantiel.

Un dommage ne sera considéré comme étant couvert par la garantie catastrophe naturelle que si les deux conditions suivantes sont respectées (article L 122-7 du code des assurances) :

• le vent est dû à un évènement cyclonique ;

• la vitesse du vent a soit atteint une moyenne de 145 km/h pendant 10 minutes soit soufflé avec des rafales supérieures à 215 km/h.

Toutes ces conditions ont peu de chances d’arriver en France métropolitaine et concerne surtout les DOM/TOM qui ne sont pas épargnés par ce type d’évènements. Le périmètre d’étude étant la France métropolitaine, le portefeuille est principalement touché par les tempêtes dites hivernales issues de la rencontre des vents chauds venant des tropiques et des vent froids venant du cercle polaire.

Bien qu’il n’y ait pas de règle générale pour tous les organismes d’assurance, il est usuel de condi- tionner l’occurrence d’un sinistre tempétueux à des vents anormalement forts, de l’ordre de 100 km/h.

Ce sont principalement les relevés des stations de météo France et les dégâts aux constructions envi- ronnantes qui font office de conditions de déclenchement de l’indemnisation.

10

(29)

1.2. CAS DES ÉVÈNEMENTS NATURELS Les tempêtes en France

A la différence d’une assurance contre le vol ou les incendies, les tempêtes touchent une large zone géographique et peuvent ainsi impacter une grande fraction d’assurés, entrainant des conséquences très importantes pour l’assureur. La rareté, la difficulté de prédiction et les coûts de sinistres pouvant devenir très rapidement colossaux font des tempêtes un risque particulièrement difficile à appréhender.

L’exemple le plus flagrant est celui des tempêtes Lothar et Martin de 1999 qui ont engendrées à elles seules près de 20 milliards d’euros de dommages matériels en Europe dont 7 milliards pour les assureurs français.

En 2009, la tempête Klaus qui a balayé le sud ouest de la France a coûté aux assureurs près d’un milliard d’euros. La multiplication des évènements de forte ampleur combinée à la forte progression de la richesse en France risque de très fortement accentuer le risque pris par les assureurs.

Outre la rareté des évènements, les sinistres importants bien que localisés sur des zones géogra- phiques proches n’impactent pas forcément les mêmes régions pour deux évènements différents.

En reprenant en compte les cas des tempêtes de 1999, 2009 et 2010, la forte volatilité de la répartition des sinistres est encore plus marquée.

Figure 1.4 – Modélisation de la force des vents des tempêtes Lothar et Martin (1999) La première figure illustre parfaitement la difficulté de modélisation des évènements. Ces deux tempêtes ont frappé la France avec seulement un jour de décalage mais les zones ayant subis les rafales les plus fortes sont pourtant complètement différentes. La tempête du premier jour ayant davantage balayé la partie Nord du pays alors que la seconde a eu une trajectoire plus habituelle du Sud-Ouest vers le Sud-Est.

Les deux tempêtes suivantes permettent de montrer un peu plus à quel point, les quatre tempêtes les plus remarquables des dernières années ont des profils complètement différents.

Alors que la tempête Klaus était localisée essentiellement dans le Sud-Ouest, la tempête Xynthia a eu une trajectoire semblable à celle de Martin en épargnant seulement la partie Sud-Est de la France.

(30)

Figure 1.5 – Modélisation de la force des vents des tempêtes Klaus (2009) et Xynthia (2010) Modéliser un tel risque n’est donc pas une chose aisée et nécessite de s’attarder sur les méthodes de modélisation utilisées par les assureurs.

1.3 Modélisation des évènements naturels

L’assureur doit donc pour pouvoir maitriser les risques qu’il encourt savoir modéliser correctement les évènements naturels. Pour modéliser son portefeuille l’assureur a besoin d’un certain nombre d’informations. La première est une bonne information des caractéristiques de ses assurés. Dans le cas des tempêtes, cela passe par des connaissances sur les habitations, leur contenu et le type d’assuré.

Le risque étant géographique, il est également nécessaire de connaître la position exacte du bien mais aussi les caractéristiques de l’habitation telles que le type de construction, la solidité des ma- tériaux employés... Disposer de toutes ces informations est bien souvent très compliqué, le but étant de simplifier le plus possible à l’assuré le remplissage des dossiers d’adhésion. Il serait irréaliste de lui demander des informations trop techniques.

De plus, une connaissance précise du risque encouru est obligatoire, dans le cas d’inondations connaître les caractéristiques des différents cours d’eau environnant ou pour les cyclones, les historiques des trajectoires des vents.

Dans les deux cas obtenir ces données est souvent couteux ou dur à réaliser et c’est pour cela que peu d’assureurs se décident à modéliser en interne de tels risques. La solution la plus simple étant ainsi de faire appel à un modélisateur externe spécialisé sur la compréhension de ces risques.

Les trois spécialistes du Catastrophe Risk Management, RMS, Air et Eqecat, possèdent chacun leur modèle de modélisation des catastrophes naturelles et sont prédominants sur le marché.

Même si les résultats sont peu stables d’une agence à l’autre, voire d’une mise à jour à l’autre, 12

(31)

1.3. MODÉLISATION DES ÉVÈNEMENTS NATURELS

les grands groupes d’assurance préfèrent utiliser leurs modèles. Ceux-ci sont conçus à l’aide de géo- graphes et météorologues afin de bien comprendre le phénomène et de spécialistes de la modélisation pour mettre en place la partie assurantielle. Bien que certaines entreprises cherchent à utiliser des alternatives à ces outils, il reste toutefois difficile de modéliser ces risques sans une équipe spécialisée.

On peut donc décomposer les méthodes d’évaluation de ces évènements en deux catégories :

• l’approche déterministe ;

• l’approche stochastique.

1.3.1 Approche déterministe

Cette approche est la plus simple à mettre en œuvre et repose sur la connaissance de l’historique du portefeuille mais aussi de l’évènement naturel. Cette méthode est utilisée pour la tarification de la plupart des segments de l’activité non-vie ou Santé.

Elle repose sur l’hypothèse forte que les sinistres historiques observés sont représentatifs des évè- nements futurs. Le but est ainsi de modéliser la fréquence et la sévérité des sinistres à l’aide de lois de distribution. Elle nécessite ainsi peu de données afin d’obtenir une modélisation et permet surtout une mise en œuvre relativement rapide. Cette méthode est utilisée de manière fréquente pour les autres risques en non-vie mais présente quelques limites dans le cas des évènements naturels.

Tout d’abord, l’hypothèse du passé qui reflète le futur du portefeuille est très forte et est pour un grand nombre d’évènements naturels complètement biaisée. L’historique d’observation est très limité pour de tels évènements dont la survenance est loin de toute logique.

Comme énoncé plus haut, une très bonne connaissance du portefeuille est ensuite nécessaire, la fré- quence et la sévérité dépendant directement de l’état des biens.

De plus, et à la différence des autres risques non-vie, le manque de données historiques combiné à la faible occurrence de ces sinistres ne permet pas une compréhension parfaite des catastrophes. Dans le cas des assureurs les plus importants il est possible d’obtenir un historique d’une trentaine d’années alors qu’il faudrait des centaines d’années de sinistres pour pouvoir capter les évènements possédant une période de retour forte.

Un tel historique nécessite enfin un bon suivi des caractéristiques du bien de l’assuré dans le temps.

La qualité des bases de données seraient ainsi dégradées selon la taille du spectre temporel considéré.

1.3.2 Approche stochastique

Afin de pallier tous les problèmes de l’approche historique, une approche stochastique reposant sur la génération de nombreux scénarios peut être mise en place. Un catalogue de scénarii est ainsi simulé, basé sur les évènements passés afin de contourner la contrainte de la rareté des données.

Ces scénarii sont basés sur des évènements observés pour lesquels les caractéristiques sont choquées, dans les limites du cohérent, afin d’obtenir de nouveaux phénomènes, basés sur de l’existant.

(32)

Ce catalogue est ainsi à la base des outils de modélisation très souvent décomposés en trois grands modules :

• un module Aléaqui soit contient le catalogue soit permet de modéliser le catalogue contenant des milliers de scénarii pour chaque évènement naturel considéré. Ce module contient toutes les informations qui permettent de modéliser la fréquence (période de retour ou localisation de l’évènement) mais aussi l’intensité (paramètres physiques de la catastrophe) possible de l’évènement ;

• un moduleVulnérabilitéqui permet de modéliser les dégâts subis par le portefeuille de l’assureur. On cherche ainsi à regarder l’impact de chaque évènement simulé, selon ses caractéristiques sur les biens des assurés présents dans la zone touchée. Cela permet d’estimer combien d’assurés seront sinistrés et quel sera le taux de destruction de leurs biens ;

• un moduleFinancierqui permet enfin d’estimer les coûts pour l’assureur en prenant en compte les différentes clauses des contrats, les montants de franchises voire même les traités de réassu- rance.

Il est possible de schématiser le fonctionnement de tels outils de la manière suivante :

Figure1.6 – Fonctionnement d’un modèle CatNat

Ces modèles présentent évidemment un coût très important (de l’ordre du million d’euros) et demeurent très obscurs pour les utilisateurs n’ayant pas un accès total à la partie modélisation.

De plus, les résultats sont très volatils d’un logiciel à l’autre car fortement dépendant des hypothèses utilisées pour la génération des scénarii. Aussi complexes que soient ces modèles, ils ne permettent évidemment pas de capter tous les évènements climatiques et les résultats sont fortement dépendant du catalogue utilisé. Il est ainsi pratiquement impossible d’obtenir le même résultat avec des logiciels différents. Le catalogue étant mis à jour après une nouvelle catastrophe majeure, de fortes différences des estimations de pertes sont à recenser après chaque mise à jour de l’outil, ne garantissant pas une continuité des résultats.

14

(33)

1.3. MODÉLISATION DES ÉVÈNEMENTS NATURELS

Cette méthode a bien sûr un nombre d’avantages important de par la modélisation poussée des phénomènes mais souffre tout de même de cette dépendance forte au catalogue.

De plus, cette méthode présente un très grand défaut, à savoir sa grande difficulté de mise en œuvre lorsque l’on ne dispose ni d’outils ni connaissances sur les phénomènes physiques. L’utilisation de la méthode déterministe permet ainsi d’obtenir une première estimation du risque pris par un assureur.

1.3.3 Approche mise en place

Au vu de la difficulté de mise en place d’un modèle stochastique et du caractère particulier de la sinistralité tempête, une approche basée sur une approche historique est retenue.

Même si cette méthode est peu utilisée de par la profondeur d’historique trop faible, il demeure in- téressant de voir quel impact peut avoir l’utilisation de données externes associée aux méthodes de Machine-Learning en constante progression.

La méthode proposée peut évidemment s’adapter à la tarification de pratiquement tous les risques non-vie et Santé, la modélisation des tempêtes permettant néanmoins d’aborder certaines méthodes spécifiques.

La fréquence de tempête étant assez faible, il conviendra de s’intéresser à sa modélisation qui né- cessite une mise en œuvre particulière.

Le cœur de cette modélisation sera détaillée selon quatre grandes parties :

• un premier chapitre présentera le travail de création de la base de données en utilisant à la fois le portefeuille d’un assureur mais également des bases de données externes issus de projets Open-Data ou de données recueillis par des organismes. Cette partie permettra également de proposer quelques analyses préliminaires du portefeuille ;

• une deuxième partie introduira la tarification en assurance non-vie et les modèles classiquement utilisés ainsi que leur optimisation. Certaines méthodes permettant de traiter de manière plus indiquées les problématiques de modélisation de fréquence faible seront également abordées ;

• la troisième partie étudiera les concepts de Machine Learning ainsi que différentes méthodes alternatives de régression qui seront utilisées. L’essor de ces méthodes les rendent aujourd’hui incontournables ;

• enfin, le dernier chapitre comparera les différentes méthodes sur le portefeuille considéré et vérifiera leur apport. Un détail particulier sera également donné à l’utilisation des données externes.

(34)

(35)

Chapitre 2

Analyse du portefeuille utilisé

Ce chapitre a pour but d’offrir au lecteur les différentes étapes préalables à la modélisation de la sinistralité tempête. Il permettra de présenter dans un premier temps, la création de la base à partir des données de l’assureur ainsi que l’utilisation des données externes permettant d’enrichir les informations à disposition. Le travail d’étude de la qualité des données et d’imputation permettant d’obtenir la base de modélisation sera succinctement décrit.

Une deuxième partie abordera l’intérêt de certaines variables tarifaires sur la modélisation de la fré- quence.

Enfin la dernière partie sera consacrée à l’étude des corrélations entre les différentes variables et permettra ainsi de procéder à une première sélection de variables tarifaires.

2.1 Constitution de la base de données

Dans cette partie seront décrites les différentes étapes mises en œuvre pour créer la base de données utilisée pour la modélisation de la fréquence de sinistre.

2.1.1 Présentation des données assureur

Création d’une base initiale

La première étape de la mise en place de la base de données de modélisation est l’obtention d’une base de données de MRH d’un assureur. La gestion de ces bases est effectuée par des opérationnels sur des périodes assez longues. La conservation d’une uniformisation de remplissage des bases étant difficile, l’utilisation de ces bases de données n’est pas possible en état. La première étape consiste ainsi à vérifier la qualité des données de l’assureur et l’absence d’incohérences.

Le portefeuille étudié est celui d’un grand assureur français dont les données de la base MRH ont pu être recueillies. Dans un souci de confidentialité, le nom de cet assureur ne sera pas communiqué dans la suite du mémoire et les données utilisées ont été légèrement modifiées. Les résultats numériques ne possèdent ainsi qu’une valeur indicative mais ne modifient en rien les résultats de l’étude effectuée et impactent peu les conclusions du mémoire.

Les données fournies sont décomposées en deux bases de données, une première contenant les données relatives aux contrats des assurés et une seconde contenant toutes les données nécessaires au traitement d’un sinistre.

(36)

CHAPITRE 2. ANALYSE DU PORTEFEUILLE UTILISÉ

Afin de se limiter à une période de couverture cohérente avec le reste de nos données, seules les observations se déroulant entre le 1^er janvier 2012 et le 31 décembre 2017 ont été conservées. Cette période correspondant à la période d’observation des données climatiques qui seront introduites pro- chainement.

L’historique précédant cette période est considéré comme inexistant afin de ne pas apporter d’informations supplémentaires à certains assurés. Les contrats sont également limités à la France métropolitaine et ne prennent pas en compte la Corse pour laquelle le nombre d’observations était trop faible.

La base initiale contenant toutes les informations sur les contrats des assurés possède plus de 4 millions d’images, chaque observation correspondant, pour un assuré fixé, à la modification d’une des caractéristiques du contrat. Cela est donc bien en adéquation avec les contraintes légales mais un tel détail n’est pas nécessaire dans le cas de certaines variables qui ne seront pas considérées pour la modélisation.

La base de données étant volumineuse, la première étape a été de supprimer les images n’apportant aucune information pertinente. La création des nouvelles images induites par la modification des ca- ractéristiques inutilisables pour l’étude ont donc été supprimées. Cela permet de réduire le temps de simulation pour les modèles tout en conservant le caractère homogène de la base de données.

La base contrat avant ce retraitement comprenait plus de quatre millions d’observations pour 53 variables explicatives.

Parmi ces variables un grand nombre n’ayant aucun intérêt particulier pour l’étude, les variables inutilisables seront donc supprimées afin de ne conserver que les variables d’un réel intérêt pour l’étude.

Les variables supprimées de la base sont les variables qui sont considérées comme non-pertinentes pour l’étude telles que le nom de l’assureur précédent, le numéro de version ou la date d’anniversaire de l’assuré dont l’information est présente de manière cohérente pour trop peu d’assurés dans la base.

Traitement de la base de données

Ce traitement a ainsi permis un premier tri de la base mais nécessite une étude plus approfondie afin de vérifier la qualité des données. Bien que le traitement d’une base de données soit capital pour une modélisation efficace, seuls quelques traitements seront présentés.

Qualité des données : un première point consiste à vérifier la cohérence des dates pour les observations d’un même contrat. Il n’est pas rare d’avoir deux images d’un même contrat se chevauchant.

Dans le cas où les informations sont identiques cela n’a pas d’impact réel sur la modélisation. En revanche, dans certains cas, les informations obtenues peuvent être différentes et il faut donc décider d’une logique de conservation de l’image la plus adéquate.

Dans le cas où les variables semblent compatibles, par exemple un changement du type d’occupant ou la fréquence de paiement, les changements sont effectués en modifiant les dates d’images.

Dans les cas où ces modifications ne sont pas cohérentes, les changements doivent être effectués de manière plus particulière, selon des règles logiques ou d’un traitement plus approfondi.

La cohérence de certains changements est également étudiée, un changement d’adresse sans modification des caractéristiques de l’habitation peut ainsi fausser l’étude.

18