Mémoire d'actuariat

(1)

(2)

(3)

Remerciements

La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à qui je voudrais témoigner toute ma reconnaissance.

Je voudrais tout d’abord adresser toute ma gratitude à ma tutrice en entreprise Audrey ANDRONIC et mon responsable Guillaume VIGNAL, pour leur patience, leur disponibi- lité et surtout les judicieux conseils durant les points du lundi matin, qui ont contribué à alimenter ma réflexion.

Je désire aussi remercier les professeurs du DUAS, qui m’ont fourni les outils néces- saires à la réussite de mes études actuarielles. Je tiens à remercier spécialement mon tuteur universitaire Areski COUSIN, pour sa relecture, son support et ses réponses spontanées à mes mails.

Je voudrais exprimer ma reconnaissance envers les amis et collègues qui m’ont apporté leur support moral et intellectuel tout au long de ma démarche. Un grand merci à Rosnel SESSINOU pour les conseils concernant la bibliographie sur la sélection de variables. Ils ont grandement été utiles à mon travail. Enfin, je tiens à témoigner toute ma gratitude à tous les membres de ma famille (aussi bien en France qu’au Bénin) et Alain AINOU pour leur confiance et leur support inestimable.

(4)

(5)

Table des matières

Résumé 7

Abstract 9

Note de synthèse 11

Summary 18

Introduction générale 28

1 Présentation de l’étude 30

1.1 Cadre de l’étude . . . 31

1.1.1 GENERALI FRANCE . . . 31

1.1.2 Les réseaux de distribution . . . 31

1.1.2.1 Les réseaux traditionnels . . . 32

1.1.2.2 Les autres réseaux . . . 32

1.1.3 Idée source de l’étude . . . 32

1.2 La notion de rentabilité en assurance IARD . . . 34

1.2.1 Le Loss Ratio ou le ratio de sinistralité . . . 34

1.2.2 Le ratio combiné . . . 34

1.3 La multirisque commerce (MRC) . . . 35

1.3.1 Les garanties. . . 35

1.3.2 Positionnement de GENERALI sur la MRC. . . 35

1.4 Conclusion : Objectif du mémoire . . . 35

2 Présentation et traitement de la base d’étude 37 2.1 Les bases initiales. . . 38

2.1.1 Données internes . . . 38

2.1.2 Données externes . . . 40

2.2 La base d’étude finale . . . 40

2.2.1 Sélection de variables et construction de la base d’étude . . . 41

2.2.1.1 Sélection de variables de la base externe par LASSO . . . . 41

2.2.1.2 Jointure des deux bases : Création d’une base unique . . . 47

2.2.1.3 Traitement des données.. . . 47

2.2.2 Sélection de variables de la base unique construite : la base finale . . 48

2.3 Étude descriptive des variables . . . 48

2.3.1 Variables explicatives . . . 49

2.3.2 Variable à expliquer : le ratio de sinistralité . . . 54

2.3.2.1 Distribution du ratio de sinistralité . . . 54

(6)

TABLE DES MATIÈRES

3 Modélisation du ratio de sinistralité 56

3.1 Introduction. . . 57

3.2 Cadre théorique des modèles . . . 58

3.2.1 La régression linéaire multiple. . . 58

3.2.2 L’arbre de décision CART . . . 59

3.2.2.1 Construction de l’arbre maximal . . . 60

3.2.2.2 Élagage . . . 61

3.2.3 Les méthodes ensemblistes. . . 62

3.2.3.1 Le bagging et le boosting . . . 62

3.2.3.2 Le gradient boosting . . . 63

3.3 Indicateurs de performance des modèles . . . 67

3.4 Applications numériques . . . 67

3.4.1 La régression linéaire multiple. . . 67

3.4.1.1 Analyse des résidus . . . 68

3.4.2 Modélisation du ratio de sinistralité par Lasso. . . 69

3.4.3 Arbre de décision CART . . . 71

3.4.4 gradient boosting . . . 72

3.5 Conclusion . . . 80

4 Recommandation opérationnelle 81 4.1 Variables utiles pour une recommandation . . . 82

4.2 Interprétation des résultats sur les variables de recommandation et recommandation globale. . . 85

4.3 Local Interpretable Model-Agnostic Explanations (LIME) . . . 89

4.4 Recommandation individuelle . . . 89

4.4.1 Identification d’observations idéales proposées par le modèle de gradient boosting. . . 89

4.4.2 Composition de portefeuille des agents A et F. . . 90

4.4.3 Idées de recommandations : application de la méthode Lime . . . 94

4.5 Détermination de profils types d’agents. . . 96

4.5.1 Présentation des méthodes K-means et CAH . . . 98

4.5.2 Application . . . 99

4.6 Conclusion . . . 102

Conclusion générale 103

Appendices 106

A Description de quelques variables. 107

B Seuil d’équilibre du S/P 109

5

(7)

(8)

Résumé

L’avènement du big data a mis au service des organisations humaines (institutions, communautés, entreprises) un volume important de données de diverses sources qui ne cesse d’augmenter. Les entreprises se servent de plus en plus de ces données et des nouvelles techniques innovantes d’analyse de données pour évaluer, comprendre et améliorer leur rentabilité. Le monde de l’assurance n’est pas resté en marge de cette évolution. Les compagnies d’assurance utilisent la force des techniques du big data pour améliorer leur rentabilité, le ciblage des besoins des assurés rentables et aussi la rentabilité de leur réseau de distribution. Cependant les nouvelles méthodes de plus en plus innovantes utilisées par ces dernières sont difficilement compréhensibles.

La compréhension et la modélisation de la rentabilité du réseau agent des compagnies d’assurance restent difficiles faute de connaissance d’un certain nombre de paramètres. Des paramètres surtout qualitatifs et difficilement mesurables comme le mode de gestion d’une agence ou d’un contrat par un agent. Ce mémoire étudie la rentabilité d’un réseau agent. Il se sert de données externes et de données portant sur l’activité de l’agent en multirisques commerce pour modéliser et apporter des explications sur la rentabilité des agents. La modélisation se base sur des méthodes de machine learning, de régression linéaire robuste et de nouvelles méthodes d’interprétation de modèles difficilement compréhensibles.

Mots-clés :Machine learning, Gradient boosting, Forêt aléatoire, LIME, Lasso , Mul- tirisque commerce, Rentabilité, Classification, Agence.

7

(9)

(10)

Abstract

With the advent of big data, a significant volume of data from various sources was introduced at the service of human organizations (institutions, communities, companies).

Businesses are increasingly using this data with new innovative data analysis techniques to assess, understand and improve their profitability. The insurance world has not remained on the sidelines of this evolution. Insurance companies employ the strength of big data techniques to improve their profitability, profitable insureds’ needs targeting and also the profitability of their distribution network. However, these new innovative methods are difficult to understand.

The understanding and the modeling of the insurance companies’ agent networks’ profitability remain difficult due to a lack of knowledge of a certain number of parameters, especially qualitative. Such parameters are difficult to measure e.g the mode of manage- ment of an agency or a contract by an agent. This dissertation analyses the profitability of the agents network given different datasets (external data, data on the agent activity related to commercial multi-risk insurance). We aim to provide explanations of the agent profitability using complex prediction methods, robust linear regression and new interpretation methods for models that are difficult to understand.

keywords :Machine learning, Gradient boosting, Random Forest, LIME, Lasso , Com- mercial multi-risk insurance, Profitability, Classification, Agency.

9

(11)

(12)

Note de synthèse

Contexte et objectifs de l’étude

Les réseaux de distribution des contrats d’assurance sont principalement constitués des agents généraux et des courtiers. Tandis que les courtiers sont indépendants des sociétés d’assurance, les agents généraux sont liés par un mandat à une société donnée. Les agents généraux gérant en premier lieu les sinistres et les primes d’un contrat, leur performance a un impact direct sur la rentabilité de la compagnie d’assurance. Les compagnies d’assurance recherchant une rentabilité durable, l’analyse de la performance de leur réseau de distribution est indispensable. Dans ce mémoire, la performance des agents généraux est étudiée grâce à un indicateur de rentabilité : le ratio sinistre sur prime (S/P). Ce mé- moire étudie ainsi la rentabilité des agents généraux sur la branche multirisques commerces (MRC) et poursuit principalement trois objectifs :

• Construire un modèle compréhensible de rentabilité des agents généraux,

• Identifier les facteurs les plus influents de cette rentabilité,

• Analyser ces facteurs afin d’améliorer la rentabilité des agents généraux.

En 2018, une étude de rentabilité des agents généraux a été faite par l’équipe de data scientists de GENERALI France. Pour ce faire, l’équipe a modélisé la rentabilité des agents généraux grâce à l’utilisation d’un algorithme "boîte noire" :le gradient boosting. Les ré- sultats d’un algorithme "boîte noire" étant difficilement compréhensibles, le mémoire qui suit met en place des modèles alternatifs qui sont facilement interprétables. Afin d’aller plus loin dans la compréhension de la rentabilité des agents généraux, ce mémoire fait l’hypothèse selon laquelle :la rentabilité des agents généraux dépendrait de l’emplacement de ces derniers. Pour vérifier cette hypothèse et atteindre les objectifs du mémoire, des données externes sont utilisées. L’utilisation de ces données externes et la méthodologie de construction et d’interprétation de ce mémoire a permis de comprendre la rentabilité des agents généraux de GENERALI France et d’établir des recommandations pour l’améliorer.

Méthodologie

Dans un souci de modéliser la rentabilité des agents généraux grâce à des modèles facilement compréhensibles et performants, de vérifier l’influence du facteur extérieur sur la rentabilité, des données externes ont été récoltées. Ces données externes sont utilisées pour enrichir la base de données utilisée par l’équipe de data scientists en 2018 et par ailleurs d’améliorer les performances de l’ancien modèle de rentabilité en MRC. Ces don- nées externes portent sur la criminalité par département en France et sont représentées par 109 variables continues recueillies par la police nationale entre 2018 et 2019. Le nombre

11

(13)

TABLE DES MATIÈRES

de variables externes recueillies étant élevé, une sélection de variables par la méthode de sélection Lasso a permis de retenir 6 variables externes représentées de la plus influente à la moins influente sur la figure ci-dessous.

Figure1 – Variables externes sélectionnées par Lasso.

Ces six variables ont été par la suite rajoutées aux données internes utilisées l’année dernière et mises à jour. Ces données internes sont constituées de variables qui renseignent sur les agents, leurs clients et la constitution des portefeuilles de ces agents. Ce qui a permis de construire la base de données de variables explicatives. La variable à expliquer qui mesure la rentabilité des agents est le ratio sinistre sur prime (S/P). La rentabilité des agents généraux a été modélisée grâce au S/P en fonction de 103 variables continues constituées de 6 variables externes et 97 variables internes. Pour construire le modèle alternatif (qui est facilement interprétable) au modèle de l’année 2018, trois modèles ont été utilisés : un modèle linéaire multiple, un modèle linéaire régularisé Lasso et un arbre de décision CART.

L’un des buts de l’utilisation des données externes est d’améliorer la performance de l’ancien modèle de rentabilité construit à base de l’algorithme de gradient boosting. Pour vérifier si les six variables externes améliorent cette performance, un nouveau modèle de gradient boosting est construit sur la nouvelle base de données. Au total il a été construit dans ce mémoire quatre modèles de rentabilité dont trois modèles alternatifs et un modèle de gradient boosting. Le modèle de gradient boosting, le modèle de Lasso et le modèle d’arbre de décision permettant de faire ressortir les variables les plus importantes, nous vérifions si les variables externes se retrouvent parmi ces variables importantes. Cette mé- thode de vérification de l’importance du facteur extérieur pour la modélisation de la ren- tabilité des agents généraux n’est pas des plus sophistiquées, mais constitue néanmoins un moyen. L’utilisation d’une variable de score captant le risque du produit multirisques commerce par région devrait permettre de mieux apprécier l’importance des facteurs extérieurs.

Dans ce mémoire, un tel score n’a pas été créé car le but principal est d’identifier les facteurs de la composition du portefeuille des agents qui influencent le plus leur rentabilité.

Et cela dans le but de nous baser sur ces facteurs pour trouver des pistes d’amélioration de la rentabilité des agents. Cependant nous utilisons un score de risque calculé par l’équipe des risques catastrophes naturelles de GENERALI. Il s’agit de la variable"score de risque CatNat de la zone". Cette variable renseigne sur les zones à forte présence de risques catas- trophes naturelles de type inondation. Le score est compris entre 1 et 6 (score = 1 : zone de faible présence, score = 6 : zone de forte présence). La présence de cette variable parmi

(14)

TABLE DES MATIÈRES

les premières variables les plus importantes de nos modèles permettrait alors de conclure que la rentabilité des agents dépendrait de l’emplacement de ces derniers.

Une fois les modèles alternatifs construits sur un échantillon d’apprentissage qui repré- sente 70% de la base de données de l’étude, les performances de ces derniers sont comparées grâce aux indicateurs de performances RMSE et MAPE sur un échantillon TEST. L’échan- tillon TEST est composé des 30% restants de la base de données de l’étude. A l’issue de ces comparaisons, le modèle alternatif le plus performant est choisi. Les performances de ce modèle alternatif sont comparées à celles du modèle à base de gradient boosting qui a la réputation de donner des performances de prédiction élevées. Cette dernière comparaison permet de retenir le modèle de prédiction de la rentabilité des agents généraux.

En nous basant sur l’interprétation des résultats du modèle validé, les facteurs les plus influents de la rentabilité et sur l’analyse de la composition de portefeuille des agents généraux, des recommandations sont faites aux agents pour améliorer leur rentabilité. Une tentative de constitution de groupes homogènes d’agents généraux grâce à des techniques de classification a été réalisée afin d’établir des recommandations à des profils types d’agents.

Les résultats des travaux menés en suivant cette méthodologie sont présentés dans la section qui suit.

Principaux résultats

Le modèle de régression linéaire multiple est moins performant que les deux autres modèles alternatifs (Lasso et arbre de décision CART). Toutes les hypothèses nécessaires sur les résidus issus d’un modèle linéaire ne sont pas vérifiées. Les performances des deux modèles alternatifs (Lasso, arbre de décision CART) et celles du modèle complexe de gradient boosting sont données dans le tableau qui suit.

Arbre de décision Gradient

Échantillons Indicateurs LASSO CART Boosting

TRAIN RMSE 0.1546 0.1608 0.1386

MAPE 19.64% 21.90% 17.12%

TEST RMSE 0.1635 0.1812 0.1530

MAPE 20.18% 30.21% 19.12%

Table 1 – Indicateurs de performances des modèles

Les trois modèles sont stables. L’échantillon TRAIN désigne l’échantillon d’apprentissage. Le modèle alternatif Lasso est plus performant que le modèle à base d’arbres de décision CART, aussi bien sur l’échantillon d’apprentissage que sur l’échantillon TEST. Le modèle alternatif retenu est donc le modèle Lasso. Les performances du modèle Lasso sont proches de celles du modèle de gradient boosting. Cependant, aussi bien sur l’échantillon TRAIN que sur l’échantillon TEST, les performances du modèle de gradient boosting sont en moyenne supérieures à celles du modèle Lasso de 1%. En conclusion, le modèle de gradient boosting est validé comme modèle de prédiction du S/P. Mais le modèle alternatif facilement compréhensible est le modèle de régression régularisé Lasso.

Les figures suivantes présentent les variables les plus importantes des deux modèles 13

(15)

TABLE DES MATIÈRES

Lasso et gradient boosting.

Figure 2 – 10 variables importantes de la modélisation par Lasso

Figure3 – 15 variables importantes de la modélisation par gradient boosting Les points en bleu et rouge de la figure 2 représentent les coefficients des variables et sont issus du modèle linéaire Lasso. Les noms des variables les plus importantes sont donnés en abscisse sur chacune des figures. Il faut remarquer que, pour les deux modèles, plusieurs variables externes se trouvent parmi ces variables importantes. Quatre variables externes sur six font partie des dix variables importantes du modèle Lasso et trois sur six font partir des quinze variables importantes du gradient boosting. On conclut ainsi que la rentabilité des agents généraux dépendrait de leur emplacement. Cela se confirme par le fait que la variable "score de risque CatNat de la zone" qui représente un risque géo- graphique des emplacements des agents fait partie des variables importantes. Elle est la

(16)

TABLE DES MATIÈRES

première variable la plus importante du modèle de gradient boosting et la quatrième du modèle Lasso.

Ces résultats montrent que les objectifs de construction d’un modèle alternatif de ren- tabilité au modèle de gradient boosting et d’identification des facteurs les plus influents de la rentabilité ont été atteints. Le troisième objectif d’établissement de recommandations globales pour l’amélioration de la rentabilité de divers groupes homogènes d’agents géné- raux n’a pas été atteint. En effet, les résultats sur la constitution de groupes homogènes ne sont pas satisfaisants. Les deux techniques de partitionnement (la méthode de classification ascendante hiérarchique (CAH) et la méthode de k-means) utilisées recommandent deux groupes homogènes comme le montre la figure suivante.

Figure4 – Classes constituées

On remarque que sur 564 agents généraux, 2 agents généraux font partie de la deuxième classe et le reste de la première classe. Près de 99% des agents généraux se trouvent donc dans la première classe. Établir des recommandations pour de tels groupes revient alors à faire les mêmes recommandations à tous les agents généraux sans distinction de profils.

Le fait que les agents ne rencontrent pas les mêmes contraintes et n’aient pas les mêmes compositions de portefeuille fait que nous n’établissons pas de recommandations pour des profils types d’agents. Une analyse individuelle de portefeuille d’un agent est cependant envisageable. Cela permet d’établir des recommandations propres à un agent donné en se basant sur l’interprétation des prédictions issues du modèle de gradient boosting grâce à la nouvelle méthode d’interprétation LIME (Local Interpretable Model-Agnostic Explana- tions).

Ces analyses et interprétations ont permis d’identifier les pistes d’amélioration de la rentabilité pour deux agents généraux dans le chapitre 4 du mémoire (section 4.4). Par exemple, pour l’un de ces agents généraux, l’analyse du portefeuille a permis d’identifier les pistes suivantes :

1. Souscrire plus de contrats présentant des surfaces inférieures à 50m² et supérieures à 100m² que de contrats dont la surface est comprise entre 50 et 100m². Cela permettrait de diminuer la part de contrats dont la surface est comprise entre 50 et 100 m². Il s’agit des surfaces des lieux occupés par les clients pour l’exercice de leurs activités.

2. Envisager de souscrire plus de contrats à des clients menant des activités industrielles qu’à des clients menant des activités de la classe tarifaire 0180. La classe tarifaire 0180 est constituée de diverses activités données en annexe.

15

(17)

TABLE DES MATIÈRES

3. Envisager de souscrire plus de contrats en plaisance (assurance bateau). Cela dépend cependant de la zone où se situe l’agent. Un agent basé sur Paris par exemple aurait du mal à pouvoir souscrire des contrats d’assurance bateau. Ici, l’agent est localisé dans le département des Bouches-du-Rhône qui est situé en région Provence-Alpes- Côte d’Azur. Ce département est favorable à l’activité maritime. L’agent est donc bien situé pour souscrire des contrats de plaisance. Dans ce mémoire, nous n’avons pas pu identifier ce qui, dans les pratiques de souscription de ces agents pourraient expliquer de meilleurs résultats en MRC. Il serait intéressant de creuser de manière globale, la cause d’une meilleur rentabilité des agents liée aux contrats en plaisance.

Conclusions et limites

Bien qu’un modèle alternatif ait été construit et qu’il soit maintenant possible de donner des explications aux prédictions du modèle de gradient boosting pour une observation donnée (i.e. un agent général), une étude plus approfondie de l’impact du critère géogra- phique sur la rentabilité des agents aurait pu permettre d’obtenir des modèles encore plus performants. Nous déplorons dans ce mémoire l’impossibilité de constituer des groupes homogènes d’agents généraux en MRC pour l’établissement de recommandations globales à chaque groupe. Cependant la procédure d’analyse de portefeuille utilisée dans le chapitre 4 peut être appliquée pour établir des recommandations à chaque agent ayant besoin d’améliorer sa rentabilité.

(18)

(19)

Summary

Context and purpose of the study

The distribution networks for insurance contracts are mainly made up of general agents and brokers. Unilke Brokers, general agents are attached to a particular company. Since general agents primarily manage claims and contract premiums, their performance has a direct impact on the insurance company’s profitability. As insurance companies are looking for sustainable profitability, it is essential to analyse the performance of their distribution network. In this thesis, the performance of general agents is studied using the profitability indicator loss ratio to premium (S/P). In this paper, we focus on the profitability of general agents in the commercial multi-risk branch (MRC). This thesis has three objectives.

• Build an understandable model of general agent profitability,

• Identify the most influential factors in this profitability,

• Analyze these factors to improve the profitability of general agents.

In 2018, a team made of datascients studied the profitability of general agents using a black box algorithm : gradient boosting. Since the results of a black box algorithm are difficult to understand, the following paper sets up alternative models that are easily interpretable. In order to go further in understanding the profitability of general agents, this paper assumes that :the profitability of general agents would depend on their location.The analyse is taken using a broard dataset of internal and external data. The key strengths of our analysis are that it describes general agents’ profitabity regards to not only internal factors but also external variables ; captures general conditions’ impact on profitability ; is easy to understand and general enough to be replicated to any companies ; establish recommandations for improvement..

Methodology

In order to model the profitability of general agents through easily understandable and efficient models, to verify the influence of the external factor on profitability, external data were collected. These external data are used to enrich the database used by the data scientist team in 2018 and also to improve the performance of the old profitability model in the MRC. These external data related to crime by department in France and are represented by 109 continuous variables collected by the national police between 2018 and 2019. Since the number of external variables collected was high, a selection of variables by the Lasso selection method made it possible to select 6 external variables represented from the most influential to the least influential as shown in the figure below.

(20)

TABLE DES MATIÈRES

Figure5 – External variables selected by Lasso.

These six variables were then added to the internal data used last year and updated.

This internal data gathered information on the agents, their clients and the constitution of these agents’ portfolios. The target variable (general agents’ profitability) is proxied by the loss ratio on premium (S/P). The pThe target variable (general agents’ profitability) is proxied by the loss ratio on premium (S/P)rofitability of general agents was modelled using S/P based on 103 continuous variables consisting of 6 external variables and 97 internal variables. To build the alternative model (which is easily interpretable) to the 2018 model, three models were used : a multiple linear model, a Lasso regulated linear model and a CART decision tree.

One of the goals of using external data is to improve the performance of the old profitability model built using the gradient boosting algorithm. To check whether the six external variables improve this performance, a new gradient boosting model is built on the new database. In total, four profitability models were built in this thesis, including three alternative models and a gradient boosting model. The gradient boosting model, the Lasso model and the decision tree model allow us to highlight the most important variables, we check if the external variables are found among these important variables. This method of verifying the importance of the external factor in modelling the profitability of general agents is not the most sophisticated, but is nevertheless a way. The use of a score variable capturing the risk of the multi-risk product trade by region should allow a better appre- ciation of the importance of external factors.

In this paper, such a score was not created because the main purpose is to identify the factors in the composition of the portfolio of agents that most influence their profitability. This is in order to use these factors as a basis for finding ways to improve agent profitability. Nonetheless, we use a risk score calculated by GENERALI’s natural disaster risk team. This is the variable"score de risque CatNat de la zone". This variable provides information on areas with a high risk of natural disasters such as floods. The score is between 1 and 6 (score = 1 : low presence area, score = 6 : high presence area). The presence of this variable among the first most important variables in our models goes in the lead of validating our assumption.

Once the alternative models are built on a learning sample that represents 70% of the study database, their performance is compared using the RMSE and MAPE performance indicators on a TEST sample. The TEST sample is composed of the remaining 30% of

19

(21)

TABLE DES MATIÈRES

the study database. At the end of these comparisons, the most efficient alternative model is chosen. The performance of this alternative model is compared to that of the gradient boosting model, which has a reputation for high predictive performance. This last compa- rison makes it possible to retain the model for predicting the profitability of general agents.

Based on the interpretation of the results of the validated model, the most influential factors in profitability and the analysis of the portfolio composition of general agents, recommendations are made to agents to improve their profitability. An attempt was made to establish homogeneous groups of general agents using classification techniques in order to establish recommendations for typical agent profiles. The results of the work conducted using this methodology are presented in the following section.

Main results

The multiple linear regression model is less efficient than the other two alternative models (Lasso and CART decision tree). Not all necessary assumptions about the residues from a linear model are verified. The performance of the two alternative models (Lasso, CART decision trees) and the complex gradient boosting model are given in the following table.

Decision tree Gradient

Samples Indicators LASSO CART Boosting

TRAIN RMSE 0.1546 0.1608 0.1386

MAPE 19.64% 21.90% 17.12%

TEST RMSE 0.1635 0.1812 0.1530

MAPE 20.18% 30.21% 19.12%

Table 2 – Model performance indicators.

All three models are stable. The TRAIN sample is the learning sample. The alternative Lasso model is more efficient than the CART decision tree model, both on the learning sample and on the TEST sample. The alternative model used is therefore the Lasso model.

The performance of the Lasso model is similar to that of the gradient boosting model. Ho- wever, on both the TRAIN and TEST samples, the performance of the gradient boosting model is on average 1% higher than that of the Lasso model. In conclusion, the gradient boosting model is validated as a model for predicting the loss ratio on premium. But the easily understandable alternative model is the Lasso regularized regression model.

The following figures show the most important variables of the two Lasso and boosting gradients models.

(22)

TABLE DES MATIÈRES

Figure 6 – 10 important variables of Lasso modeling

Figure 7 – 15 important variables of gradient boosting modeling

The blue and red dots in Figure 2 represent the coefficients of the variables, and are derived from the Lasso linear model. The names of the most important variables are given on the abscissa on each of the figures. It should be noted that for both models, several external variables are among these important variables. Four out of six external variables are part of the ten important variables of the Lasso model and three out of six are part of the fifteen important variables of the gradient boosting. It is thus concluded that the profitability of general agents would depend on their location. This is confirmed by the fact that the variable"score de risque CatNat de la zone" which represents a geographical risk of agent locations is one of the important variables. It is the first most important variable of the gradient boosting model and the fourth of the Lasso model.

21

(23)

TABLE DES MATIÈRES

These results show that the objectives of constructing an alternative profitability model to the boosting gradient model and identifying the most influential factors of profitability have been achieved. The third objective of making overall recommendations for improving the cost-effectiveness of various homogeneous groups of general agents was not achieved.

Indeed, the results on the formation of homogeneous groups are not satisfactory. The two partitioning techniques (hierarchical agglomerative clustering HCA) method and the k-means method) used recommend two homogeneous groups as shown in the following figure.

Figure8 – Classes constituted

It should be noted that out of 564 General Service staff, 2 General Service staff are in the second level and the rest in the first level. Nearly 99% of General Service staff are therefore in the first class. Establishing recommendations for such groups then amounts to making the same recommendations to all general agents without distinction of profiles. The fact that agents do not face the same constraints and do not have the same portfolio composition means that we do not make recommendations to typical agent profiles. However, an individual portfolio analysis of an agent is possible. This makes it possible to establish recommendations specific to a given agent based on the interpretation of predictions from the gradient boosting model using the new LIME (Local Interpretable Model-Agnostic Explanations) interpretation method.

This analysis and interpretation made it possible to identify ways to improve profitability for two general agents in Chapter Four of the brief (section 4.4). For example, for one of these general agents, the analysis of his portfolio identified the following leads :

1. Subscribe more contracts with surfaces less than 50m² and more than 100m² than contracts with surfaces between 50 and 100m². This would reduce the proportion of contracts with a surface area between 50 and 100 m². These are the areas of the premises occupied by customers for the exercise of their activity.

2. Consider signing more contracts with customers engaged in industrial activities than with customers engaged in activities of"classe tarifaire 0180" ."classe tarifaire 0180"

consists of various activities listed in the appendix.

3. Consider taking out more yachting contracts (boat insurance). However, this depends on the area where the agent is located. An agent based in Paris, for example, would find it difficult to take out boat insurance policies. Here, the agent is located in the Bouches-du-Rhône department which is located in the Provence-Alpes-Côte d’Azur region. This department is favourable to maritime activity. The agent is therefore well located to sign pleasure craft contracts.

(24)

TABLE DES MATIÈRES

Conclusions and Limitations

Although an alternative model has been constructed and it is now possible to explain the predictions of the gradient boosting model for observation, a more in-depth study of the impact of the geographical criterion on agents’ profitability could have led to even better performing models. In this brief, we deplore the impossibility of forming homogeneous groups of general agents in MRC to make overall recommendations to each group.

However, the portfolio analysis procedure used in Chapter Four can be applied to establish recommendations for each agent in need of improving profitability.

23

(25)

Table des figures

1 Variables externes sélectionnées par Lasso. . . 12 2 10 variables importantes de la modélisation par Lasso . . . 14 3 15 variables importantes de la modélisation par gradient boosting. . . 14 4 Classes constituées . . . 15 5 External variables selected by Lasso. . . 19 6 10 important variables of Lasso modeling . . . 21 7 15 important variables of gradient boosting modeling . . . 21 8 Classes constituted . . . 22 1.1 Total des primes émises brutes par pays par GENERALI. . . 31 1.2 Variables influentes du ratio de sinistralité par le modèle MRC de l’équipe

de data scientists.. . . 33 2.1 Estimation de coefficient par lasso (à gauche) et par ridge (à droite) . . . . 42 2.2 La méthode de k-folds cross-validation . . . 44 2.3 Validation croisée pour la détermination du λ . . . 44 2.4 Matrice de corrélation des 86 variables sélectionnées avec le λoptimal . . . 45 2.5 Coefficient du modèle Lasso en fonction du lambda . . . 46 2.6 Matrice de corrélation des 6 variables sélectionnées de la base externe . . . 46 2.7 Matrice de corrélation finale. . . 48 2.8 Influence des variables de la base externe sur le ratio de sinistralité . . . 52 2.9 Évolution du ratio de sinistralité par nombre de "Prix illicites, publicité

fausse et infractions aux règles de la concurrence" . . . 52 2.10 Vols d’accessoires sur véhicules à moteur immatriculés . . . 54 2.11 Graphique de Cullen et Frey. . . 55 2.12 Loi Log-normale ajusté en rouge . . . 55 2.13 Loi normale ajustée à Log(S/P) . . . 55 3.1 Arbres binaires associés aux partitions rectangulaires de l’espace des va-

riables explicatives . . . 60 3.2 Dilemme biais variance. . . 61 3.3 Erreur résiduelle en fonction des valeurs prédites . . . 69 3.4 Nombre de variables influentes par Lasso. . . 70 3.5 10 variables importantes de la modélisation par Lasso . . . 70 3.6 Validation croisée . . . 71 3.7 Arbre élagué . . . 72 3.8 15 variables importantes de la modélisation par gradient boosting. . . 75 3.9 Graphique de dépendance partielle des variables"Poids des clients avec an-

cienneté 1-3 ans" et"Score de risque CatNat de la zone" . . . 77

(26)

TABLE DES FIGURES

3.10 Graphique de dépendance partielle des variables"Poids du PTF avec classe INC 0100" et"Poids des contrats MRC avec une surface entre 50 et 100m²" 77 3.11 Graphique de dépendance partielle des variables "Nombre de contrat MRI"

et"nb_classe_inc_180_AN_MRC" . . . 78 3.12 Graphique de dépendance partielle des variables"nb_classe_inc_180_AN_MRC"

et"Score de risque CatNat de la zone" . . . 79 3.13 Autres graphiques de dépendance partielle bivariées . . . 79 4.1 Variables à effet négatif issues de l’intersection des sélections Lasso et gra-

dient boosting. . . 83 4.2 Variables à effet positif issues de l’intersection des sélections Lasso et gra-

dient boosting. . . 83 4.3 Sinistralité issues du péril inondation entre 2010 et 2017 (GENERALI) . . . 86 4.4 Zones inondables en France (source : CCR) . . . 86 4.5 Type de produits en portefeuille de l’agent A . . . 91 4.6 Type de produits en portefeuille de l’agent F . . . 91 4.7 Composition de portefeuille en classe tarifaire . . . 92 4.8 Composition de portefeuille des agents selon le type de surfaces . . . 92 4.9 Composition de portefeuille en ancienneté . . . 93 4.10 Composition de portefeuille en activité . . . 93 4.11 LIME appliquée à l’agent F . . . 94 4.12 LIME appliquée à l’agent A . . . 96 4.13 Diagramme de décroissance de l’inertie. . . 97 4.14 "NbClust" appliqué à k-means . . . 99 4.15 Classes constituées . . . 99 4.16 Saut d’inertie du dendrogramme. . . 100 4.17 Dendrogramme. . . 100 4.18 Graphique de silhouette partitionnement en 4 classes. . . 101 B.1 Matrice de confusion Lasso . . . 109 B.2 Matrice de confusion gradient boosting . . . 109

25

(27)

Liste des tableaux

1 Indicateurs de performances des modèles . . . 13 2 Model performance indicators. . . 20 1.1 Part de marché des principales sociétés d’assurance en 2017 . . . 36 2.1 Seuils d’écrêtement des sinistres graves. . . 40 2.2 Comparaison du nombre de variables sélectionnées par Lasso. . . 46 2.3 Statistique descriptive du ratio de sinistralité. . . 54 3.1 Influence des données externes sur la performance du modèle MRC (N-1) . 73 3.2 Performances du modèle de gradient boosting final. . . 74 3.3 Indicateurs de performances des modèles . . . 75 4.1 Coefficient de LIME pour l’agent F . . . 95 4.2 Partitionnement en 4 classes. . . 100

(28)

(29)

Introduction générale

Dans le monde de l’assurance, le cycle de production est inversé : la vente du produit d’assurance précède la connaissance de son coût réel. Cette inversion de cycle ne favorise pas les assureurs lors de la survenance d’un gros sinistre pour un contrat. Afin de s’assurer que les sociétés d’assurance honorent leur engagement vis-à-vis des assurés, l’Autorité de Contrôle Prudentiel et de Résolution (ACPR) a mis en place des règles prudentielles qui contraignent les entreprises d’assurance à détenir un niveau minimum de capital. Il s’agit de la directive Solvabilité 2. L’entrée en vigueur de la directive Solvabilité 2 a conduit les assureurs à porter un regard minutieux sur la rentabilité non seulement de leurs contrats, mais plus généralement sur la conduite de leurs opérations.

Pour BERNARD et COLLI (1975), la rentabilité est la capacité d’un capital placé ou investi à produire des revenus exprimés en termes financiers. Définie de cette manière, la rentabilité s’apparente à une notion financière. La rentabilité est généralement mesurée comme le ratio entre le résultat obtenu et le passif utilisé pour sa réalisation. En assurance, la rentabilité d’une compagnie est souvent mesurée par son ratio combiné (combined ratio en anglais, ou COR).

Aujourd’hui le big data permet de déterminer le profil des clients les plus rentables d’une société (clients à forte valeur ajoutée). La connaissance du profil des clients rentables permet entre autres de savoir quel client fidéliser ou pas. Cette recherche de profils à forte valeur ajoutée a donné naissance à une nouvelle notion : la valeur client. La valeur client mesure la rentabilité dans le temps de la vente d’un contrat à un assuré.

La vente d’un contrat par un assureur traditionnel peut faire intervenir plusieurs acteurs comme : la société d’assurance, l’assuré et un intermédiaire d’assurance. Jusqu’ici la notion de rentabilité a plus porté sur la société d’assurance et l’assuré. Ce mémoire propose une étude de rentabilité de la troisième catégorie d’acteurs : les intermédiaires.

Dans ce mémoire, il est question d’étudier la rentabilité d’un type donné d’intermédiaire de GENERALI France sur la branche multirisques commerce : les agents généraux. Comme dit dans les paragraphes précédents, la rentabilité de la société d’assurance est mesurée par le COR et celle d’un assuré par la valeur client. Il se pose alors la question de savoir comment mesurer la rentabilité des agents généraux.

En 2018, l’équipe de data scientists de la direction Données et Approche client a utilisé le ratio sinistre sur prime pour mesurer la rentabilité d’un agent général et déterminer les facteurs influençant cette rentabilité sur plusieurs périmètres de risques IARD (MRH, AUTO, MRC, SANTE,. . .) grâce à une modélisation par gradient boosting. Cependant ce modèle ne permet pas d’expliquer la rentabilité des agents en s’appuyant sur les facteurs influents car il s’agit de modèle "boîte noire" et sa performance sur la multirisques commerce est faible. L’ambition de ce mémoire est donc de trouver un modèle alternatif de

(30)

modélisation de la rentabilité des agents généraux pouvant en permettre une interprétation en fonction des facteurs influents tout en améliorant la performance de l’ancien modèle et déterminant des actions capables d’aider les agents à améliorer leur rentabilité. Cette étude est présentée en quatre chapitres.

Le premier chapitre présente le contexte de l’étude tout en présentant un résumé du travail de l’équipe de data scientists sur la modélisation de la rentabilité et définit de ma- nière plus détaillée les objectifs de l’étude.

Le second chapitre présente les données utilisées pour la modélisation de la rentabilité.

Dans un souci d’amélioration de la performance du modèle de 2018, l’ancienne base de données est enrichie par des données externes. Le chapitre 2 présente donc la construction de la nouvelle base de données ainsi que les traitements et analyses statistiques de quelques variables.

Le troisième chapitre présente trois modèles alternatifs pouvant permettre d’apporter une interprétation à la rentabilité des agents. Il s’agit des modèles de régression linéaire multiple, de la régression pénalisée Lasso et de l’algorithme d’arbre CART. Afin de mesurer l’apport des données externes en terme de performance par rapport à l’ancien modèle de gradient boosting et de juger de la performance des trois premiers modèles, un modèle de gradient boosting est aussi utilisé pour la modélisation de la rentabilité sur la nouvelle base.

Enfin le dernier chapitre se base sur l’explication apportée par ces modèles sur la renta- bilité des agents pour établir une démarche d’analyse du portefeuille d’un agent. Il établit, sur la base de cette analyse et grâce à l’utilisation de la nouvelle méthode d’interprétation de modèles"boîte noire" (LIME), les actions capables d’améliorer la rentabilité de l’agent.

Cette démarche a été appliquée pour deux agents. Dans la suite du chapitre une tentative de construction de profils type d’agents est réalisée pour établir des actions d’amélioration de la rentabilité à des groupes distincts d’agents généraux.

29

(31)

Chapitre 1

Présentation de l’étude

Contents

1.1 Cadre de l’étude . . . . 31 1.1.1 GENERALI FRANCE . . . 31 1.1.2 Les réseaux de distribution . . . 31 1.1.2.1 Les réseaux traditionnels . . . 32 1.1.2.2 Les autres réseaux . . . 32 1.1.3 Idée source de l’étude . . . 32 1.2 La notion de rentabilité en assurance IARD . . . . 34 1.2.1 Le Loss Ratio ou le ratio de sinistralité . . . 34 1.2.2 Le ratio combiné . . . 34 1.3 La multirisque commerce (MRC) . . . . 35 1.3.1 Les garanties. . . . 35 1.3.2 Positionnement de GENERALI sur la MRC. . . . 35 1.4 Conclusion : Objectif du mémoire . . . . 35

(32)

1.1 Cadre de l’étude

1.1.1 GENERALI FRANCE

Implanté en France depuis 1832, GENERALI France est une filiale du groupe d’assurance Italien GENERALI. Le groupe GENERALI fait partir des plus grandes compagnies d’assurance dans le monde. Expert de l’assurance (VIE et IARD¹) depuis plus de 200 ans, le groupe est aujourd’hui présent dans plus de 50 pays avec plus de 500 compagnies d’assurance et 70 000 employés. GENERALI France est l’un des plus gros apporteurs de chiffre d’affaire du groupe.

Figure1.1 – Total des primes émises brutes par pays par GENERALI.

Dans l’objectif de figurer dans les Top 3 de ses marchés prioritaires, GENERALI a mis en place son plan stratégique "Excellence 2022". Ce plan repose sur 4 piliers :

1. La conquête business orientée autour du multicanal et de l’innovation.

2. L’innovation et la sophistication technique afin de conforter la rentabilité technique.

3. L’excellence opérationnelle et la digitalisation afin d’offrir une expérience client va- lorisante, renforcer le multi-équipement, et la fidélité des assurés.

4. La mobilisation des collaborateurs et le développement des compétences (GPEC) pour répondre à l’évolution des métiers de l’assurance.

GENERALI France participe à l’atteinte des objectifs du pilier 3 en partie à travers sa Direction Données et Approche client. La mission de cette direction est de structurer la donnée au sens large collectée entre autres par les agents tout au long du parcours de vie des clients, afin d’améliorer sa connaissance de ces derniers.

Le présent mémoire sur la rentabilité des agents a été réalisé au sein du service Études intermédiaires de cette direction.

1.1.2 Les réseaux de distribution

Les compagnies d’assurance vendent les contrats d’assurances par l’intermédiaire de divers canaux :

1. IARD : Incendie, Accidents et Risques Divers

31

(33)

1.1.2.1 Les réseaux traditionnels

• Les courtiers

Le courtier est le mandataire de son client. Inscrit au Registre du commerce, il n’est lié à aucune société d’assurances et recherche, en toute indépendance et au cas par cas, les produits qui garantissent au mieux les intérêts de ses clients. Leurs actes n’engagent nullement les assureurs auprès desquels les contrats sont placés (sauf s’ils sont titulaires d’un mandat de gestion). En tant que mandataire de l’assuré, le rôle du courtier est de mettre en rapport toute personne physique ou morale désirant s’assurer avec une société d’assurance en vue de la couverture d’un ou plusieurs risques.

• Les agents généraux

Ils sont mandataires de la société qui les a nommés. Ils ne peuvent pas proposer de produits d’une autre société. Les agents généraux sont rémunérés à la commis- sion qui est calculée sur la cotisation nette (hors taxes) des contrats qu’ils ont en portefeuille. Le rôle premier d’un agent général est de représenter la société qui l’a mandaté dans le secteur géographique qui lui a été imparti. Dans la suite du mémoire les agents généraux seront aussi désignés simplement par "les agents".

1.1.2.2 Les autres réseaux

En plus de ces réseaux traditionnels, d’autres réseaux existent. On distingue par exemple :

• Les réseaux salariés

Ils regroupent des commerciaux (conseillers commerciaux, chargés de clientèle, inspecteurs) qui sont salariés d’une société d’assurances.

• Sur internet

La vente de contrats d’assurance « en ligne » est le mode de distribution le plus récent. Elle peut se faire « en direct » depuis le site de l’assureur, ou via des partenariats avec des sites spécialisés dans la vente en ligne (exemple : Boursorama, ING Direct).

1.1.3 Idée source de l’étude

L’équipe "Études intermédiaires" du service "Données-Approche client et intermédiaires"

de GENERALI France se charge de mener des études sur les intermédiaires² de la compagnie. Comme mentionné ci-dessus, les agents généraux occupent une place clé dans l’activité de la compagnie. Connaître et anticiper le niveau de rentabilité des agents est donc un enjeu important pour la compagnie. L’étude de la rentabilité des agents est un des sujets de l’équipe. L’objectif de l’étude est de :

• Mettre en place un modèle permettant de prédire la rentabilité d’un agent.

• Mettre en évidence les variables explicatives de cette rentabilité et établir des recommandations pour aider l’agent à améliorer ses résultats techniques.

2. Intermédiaire : une autre manière de désigner les canaux de distributions.

(34)

Dans ce mémoire, nous traiterons le deuxième point. Le premier ayant été traité par une équipe de data scientists de GENERALI. En effet la rentabilité des agents a été modé- lisée par l’équipe de data scientists par la prédiction du ratio de sinistralité (S/P) calculé par agent et par année. Ayant remarqué que la moyenne duS/P sur 3 ans est plus stable que le S/P vu par année, il a été décidé de prendre comme variable à expliquer un S/P moyenné sur 3 ans. Les agents commercialisent plusieurs produits de l’assurance IARD. Le S/P a donc été modélisé par produit grâce à l’algorithme deGradient boosting, en utilisant de nombreuses variables explicatives provenant de diverses sources. En notant α_i le poids en montant de prime du produit dans le portefeuille de l’intermédiaire et SPi le SP mo- délisé dans chacun des modèles par produit, leS/Pprédit par agent est obtenu comme suit :

SP^Inter = ^X

i∈Produits

αi×SPi

Ce mémoire permettra d’approfondir les travaux de modélisation de l’équipe de data scientist sur une branche en particulier : la Multirisque commerce (MRC). Des travaux d’analyses ont déjà été menés sur les branches Automobile et Multirisque habitation au sein de différentes équipes de Generali. Suite aux travaux de modélisation du ratio S/P, une série de variables a été identifiée comme ayant le plus de pouvoir explicatif sur le ratio prédit. La figure1.2ci-contre présente une série de 13 variables les plus importantes dans la prédiction du ratio de sinistralité des agents en MRC.

Figure 1.2 – Variables influentes du ratio de sinistralité par le modèle MRC de l’équipe de data scientists.

L’objectif final des travaux présentés est d’expliquer comment ces variables agissent sur le ratio de sinistralité des agents, ce qui revient à expliquer le modèle de gradient boosting obtenu sur la MRC qui est qualifié de modèle"boîte noire" (modèle difficilement explicable) ou de trouver un autre modèle moins complexe. Ceci permettra d’établir des recommandations individuelles d’amélioration de rentabilité par agent. Par ailleurs, il est 33

(35)

1.2 La notion de rentabilité en assurance IARD

constaté que l’erreur commise par le modèle MRC est de 18% et est plus élevée que l’erreur commise par les modèles sur les branches automobiles et habitation, respectivement de 9%

et 12%. Ce mémoire cherchera alors aussi à améliorer les performances du modèle MRC.

1.2 La notion de rentabilité en assurance IARD

En assurance non-vie les principaux indicateurs de rentabilité sont : le ratio de sinis- tralité ou encore appelé le Loss Ratio et le ratio combiné.

1.2.1 Le Loss Ratio ou le ratio de sinistralité

Le ratio de sinistralité (notéS/P) est un indicateur technique généralement utilisé pour évaluer la rentabilité des contrats. Calculé sur une année, il s’exprime en fonction de la prime acquise et du coût des sinistres survenus. Un contrat dont le coût des sinistres est supérieur aux primes acquises est non rentable. La formule est la suivante :

S/P = Coût des sinistres

Primes acquises (1.1)

Dans ce mémoire, le coût des sinistres est composé uniquement des sinistres survenus payés. La liquidation des sinistres des branches longues prenant du temps, l’équipe de data scientists a fait l’hypothèse selon laquelle le plus gros des sinistres est clos avant 2 ans, et que le comportement des sinistres encore ouverts est indépendant et uniformément distribué parmi les agents. Il est donc pris une vision des sinistres 2 ans après pour chaque année (vision à juin de chaque année). Cependant cette hypothèse est discutable car le comportement des sinistres longs est différent selon les produits, et les agents possèdent chacun une certaine typologie de produits qui les impacte différemment.

1.2.2 Le ratio combiné

Considéré comme le meilleur indicateur de la performance dans le domaine de l’assurance non-vie, le ratio combiné COR est un indicateur de résultat de base pour une compagnie. Il permet de mesurer la rentabilité de l’activité de l’assureur et de comparer les assureurs entre eux. Exprimé en % des primes acquises, son seuil d’équilibre est de 100%. Une société d’assurance dont leCOR est inférieur à 100% est dite rentable sur son activité. La formule du ratio combiné est la suivante :

COR = Coût des sinistres + Commissions+frais de gestion + Coût de la réassurance Primes acquises

(1.2)

= Coût des sinistres

Primes acquises +Commissions + frais de gestion + Coût de la réassurance Primes acquises

(1.3) COR = S

P+ Taux de chargement (1.4)

Le COR s’écrit donc en fonction du ratio de sinistralité. La formule 1.4 montre l’importance duCOR par rapport au ratio de sinistralité.

Parmi ces deux indicateurs le ratio de sinistralité permet une bonne analyse de la rentabilité des agents en IARD. En effet l’activité de l’agent est principalement caractérisée

(36)

1.3 La multirisque commerce (MRC)

par les primes qu’il apporte à l’assureur et les sinistres liés aux portefeuilles qu’il détient.

(Olivier [2008]) en fait la même conclusion dans son mémoire où il étudie le meilleur indicateur technique d’un portefeuille d’agent en IARD.

1.3 La multirisque commerce (MRC)

Les contrats multirisque commerce sont à destination des prestataires de service, des commerçants, des artisans et des petits fabricants. Les contrats MRC permettent de souscrire des garanties dommages aux biens, responsabilité civile professionnelle (y compris recours et assistance judiciaire) et une protection juridique.

1.3.1 Les garanties.

• Garanties dommages aux biens

— Incendie et Vandalisme

— Dégât des eaux

— Vol

— Bris des glaces

• Garanties responsabilité civile professionnelle

• Garanties protection juridique. Protection professionnelle et commerciale in- cluant la gestion des litiges liés :

— Aux locaux professionnels

— Au quotidien commercial

— Aux relations employeurs / employés

— A l’administration et à l’Urssaf

— A l’administration fiscale

1.3.2 Positionnement de GENERALI sur la MRC.

En 2017 GENERALI France détenait 6.7% du marché de la MRC avec un montant de primes qui s’élevait à 120 072 ke. La compagnie occupe alors la sixième position sur ce marché comme le montre le tableau1.1. Vu sa vision d’Excellence 2022, l’amélioration de la rentabilité de ses agents en MRC pourrait lui permettre de faire évoluer son rang sur ce marché.

1.4 Conclusion : Objectif du mémoire

Le mémoire a principalement pour objectif la recherche de pistes d’amélioration de la rentabilité des agents généraux. Cette rentabilité sera étudiée grâce au ratio de sinistralité moyenné sur 3 ans sur la branche MRC. Afin de faire des recommandations pour améliorer la rentabilité, un modèle statistique compréhensible et performant (alternatif au modèle de gradient boosting construit l’année dernière) pouvant prédire le ratio de sinistralité sera étudié et mis en place. Pour finir, le modèle de prédiction devra permettre de déterminer les leviers d’amélioration de la sinistralité.

35

(37)

1.4 Conclusion : Objectif du mémoire

Société Rang Montant des Primes 2017 en Ke Part de marché en %

AXA France 1 300 031 16,9%

ALLIANZ 2 207 790 11,7%

MMA 3 199 966 11,2%

MAAF GROUPE 4 170 199 9,6%

MAIF 5 122 579 6,9%

GENERALI 6 120 072 6,7%

GAN ASSURANCE 7 91 922 5,2%

GROUPAMA 8 70 632 4,0%

MATMUT 9 41 142 2,3%

MAPA ASSURANCES 10 35 594 2,0%

PACIFICA 11 30 541 1,7%

MACIF 12 25 230 1,4%

SWISSLIFE ASSURANCES DE BIENS 13 27 472 1,5%

MACSF 14 24 859 1,4%

MUTUELLE DE POITIERS ASSURANCES 15 11 544 0,7%

THELEM ASSURANCE 16 11 933 0,4%

ALBINGIA 17 6 474 0,2%

MONCEAU GA 18 3 474 0,1%

CAMBTP 19 1 029 0,0%

ACTE IARD 20 726 0,0%

CMMA ASSURANCE 21 70 0,0%

Table 1.1 – Part de marché des principales sociétés d’assurance en 2017

(38)

Chapitre 2

Présentation et traitement de la base d’étude

Contents

2.1 Les bases initiales . . . . 38 2.1.1 Données internes . . . 38 2.1.2 Données externes . . . 40 2.2 La base d’étude finale . . . . 40 2.2.1 Sélection de variables et construction de la base d’étude . . . 41 2.2.1.1 Sélection de variables de la base externe par LASSO . . . 41 2.2.1.2 Jointure des deux bases : Création d’une base unique . . 47 2.2.1.3 Traitement des données.. . . 47 2.2.2 Sélection de variables de la base unique construite : la base finale . 48 2.3 Étude descriptive des variables . . . . 48 2.3.1 Variables explicatives . . . 49 2.3.2 Variable à expliquer : le ratio de sinistralité . . . 54 2.3.2.1 Distribution du ratio de sinistralité . . . 54

37

(39)

2.1 Les bases initiales

La population étudiée se compose de 575 agents actifs en 2019 (également présents sur la période 2010 à 2017). Des recommandations n’ayant pas de sens pour des agents non actifs, ils sont exclus du périmètre de l’étude.

Ce chapitre présente les traitements effectués sur les différentes bases. Il aborde la sélection des variables, la construction d’une base de données unique et décrit quelques variables présentes dans la base finale.

2.1 Les bases initiales

Des données internes et externes ont servi à la construction de la base de données de l’étude. Trois bases de données sont issues de la source interne :

— les données relatives aux agents

— les données relatives aux clients des agents

— les données de risques propres au produit multirisque commerce

Pour améliorer la performance du modèle de sinistralité existant, des données en open data sur la criminalité par département sont récupérées sur la plateforme ouverte des données publiques françaises (data.gouv.fr¹).

2.1.1 Données internes

Au total, 155 variables proviennent de cette source. Les modalités des 3 bases qui en découlent sont renseignées par agent et par année. Elle contient des variables continues, discrètes et qualitatives.

1. Données Agent

Ce sont des données liées à l’agent et son agence. Parmi les variables de cette base se trouvent :

• Le nombre de points de vente

• Le nombre de salariés

• Les coordonnées géographiques du point de vente principale

• La date de création de l’agence (ANCIENNETÉ)

• Le taux de résiliation

• Le taux de souscription 2. Données clients

Ces données concernent les assurés du portefeuille de l’agent. Parmi ces variables on peut citer :

• la tranche d’ancienneté du client

• la tranche d’âge du client

• Le type d’activité exercée par le client 3. Données risques

Les données risques apportent des précisions sur le risque (le type d’activité) à assurer avec le produit MRC. Parmi elles :

• Le nombre de sites du client

1. https://www.data.gouv.fr/fr/

(40)

2.1 Les bases initiales

• la tranche de surface du site

• La qualité de l’occupant

• Le poids des autres produits dans le portefeuille de l’agent

Afin de mieux caractériser le portefeuille de l’agent, les modalités des variables ci-dessus seront sous forme de tranches et considérées comme des variables à la place de la variable elle-même. Par exemple les modalités de la variable "tranche d’ancienneté du client dans le portefeuille" représentent 6 variables au sein de l’étude :

— Anc-M1 (Client ancien de moins d’un an)

— Anc-1_3 (Client dont l’ancienneté est entre 1 et 3 ans)

— Anc-4_10

— Anc-11_20

— Anc-21_30

— Anc-P30 (Client ancien de plus de 30 ans)

Par ailleurs, les modalités sont exprimées en pourcentage de la manière suivante. Par exemple pour un agent et une année donnée, le nombre de clients en portefeuille dont l’an- cienneté est contenue dans l’une de ces tranches est connu. Chaque valeur est rapportée au nombre de clients en portefeuille de l’agent, ce qui permet d’obtenir le poids de la modalité.

Prenons le cas de la modalité Anc-M1. Un agent en 2017 a dans son portefeuille par exemple 300 clients dont l’ancienneté est inférieure à un an avec au total 3000 clients. Pour cet agent, pour cette ligne du tableau (agent-année) la nouvelle variable Anc-M1 aura pour modalité ₃₀₀₀³⁰⁰ = 0,10. Ce qui signifie qu’en 2017 le portefeuille de l’agent est constitué de 10% d’assurés dont l’ancienneté est inférieure à un an. Pour la "tranche d’ancienneté du client dans le portefeuille", la base de données se présente comme suit :

Agent Année . . . Anc-M1 Anc-1_3 Anc-4_10 Anc-11_20 Anc-21_30 Anc-P30 . . .

100001 2017 . . . 0.08 0.28 0.27 0.13 0.11 0.13 . . .

300002 2017 . . . 0.07 0.25 0.27 0.14 0.10 0.16 . . .

17455A 2015 . . . 0.10 0.55 0.30 0.05 0.35 0.15 . . .

17455A 2010 . . . 0.20 0 0.51 0.09 0.12 0.18 . . .

Cette transformation de modalités en variables aléatoires est également appliquée aux variables qualitatives.

• Écrêtement de sinistres graves

Le ratio de sinistralité est calculé de manière annuelle à la maille agent après écrê- tement des sinistres graves. En effet la survenance de sinistres d’intensité peut entraîner une vision erronée de la rentabilité d’un agent. Des seuils d’écrêtement de sinistres graves sont fixés par an selon le volume de primes acquises de l’agent sur l’année. Le tableau2.1 présente les différents seuils.

Ces seuils sont issus d’un protocole général d’écrêtement utilisé pour calculer le résultat financier des agents généraux.

39

(41)

2.2 La base d’étude finale

Prime acquise SEUILS

<1 000 000 40 000

≥1 000 000 et < 1 500 000 60 000

≥1 500 000 et < 2 300 000 80 000

≥2 300 000 100 000

Table 2.1 – Seuils d’écrêtement des sinistres graves.

Le montant total de sinistres écrêtés est ensuite réparti par agent au prorata des primes afin de mutualiser les charges.

Comme dit dans le contexte de l’étude, le S/P à expliquer est un S/P écrêté puis moyenné sur 3 ans, car le S/P annuel présente une grande volatilité et celui moyenné sur 3 ans est plus stable. Pour un agent les données recueillies pour une année donnée sont rattachées à son S/P moyenné sur les trois prochaines années. Ce principe permet d’étudier la rentabilité future de l’agent en se basant sur sa composition de portefeuille actuelle. Par exemple la composition de portefeuille de l’année 2015 d’un agent est utilisée pour expliquer son S/P moyenné sur les années 2016, 2017 et 2018. Nous étudierons donc dans ce mémoire la rentabilité future des agents généraux que l’on appellera simplement

"rentabilité de l’agent".

2.1.2 Données externes

Dans le cadre de cette étude, nous supposons que la prise en compte de facteurs supplé- mentaires liés à la zone où évolue l’agent pourrait améliorer les performances du modèle de l’année dernière. Des données externes sont donc utilisées pour enrichir la base de données existante. Il s’agit des données départementales recueillies par la police nationale entre 2010 et 2018. La base présente 109 variables continues qui donnent des informations sur les particuliers et sur les professionnels. Ces informations permettent de caractériser la région où l’agent est implanté. Parmi les variables liées aux professionnels on peut citer :

• Vols à main armée contre des établissements industriels ou commerciaux

• Vols à l’étalage

• Contrefaçons et fraudes industrielles et commerciales

• Cambriolages de locaux industriels, commerciaux ou financiers

• Incendies volontaires de biens privés

• Fraudes fiscales

2.2 La base d’étude finale

Pour construire la base de l’étude, une jointure des deux bases est réalisée après une sélection de variables sur la base externe. Après cette jointure, une étude de corrélation a permis de supprimer les variables fortement corrélées. Une étude des données manquantes, la suppression de variables constantes et la normalisation des données ont permis de net- toyer la nouvelle base construite. Les sous-sections qui suivent présentent ces travaux en détail.