Mémoire d'actuariat

(1)

Mémoire présenté le : 8 juillet 2019

pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA et l’admission à l’Institut des Actuaires

Par : Mehdi MARTIN

Titre : Méthode de projection ligne à ligne de la sinistralité de la garantie RCDO en construc- tion permettant de prendre en compte la déformation du portefeuille.

Confidentialité : ⇤ NON ⇥ OUI (Durée : ⇤ 1 an ⇥ 2 ans)

Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus Membres présents du jury de

l’Institut des Actuaires : C. PARADIS

B. POTENTIER F. SCHWACH R. NOBIS

Membres présents du jury de l’ISFA :

Y. SALHI

Entreprise :

Nom : COVÉA - MMA Signature :

Directeur de mémoire en entreprise : Nom : Pierre GOLHEN

Signature :

Autorisation de publication et de mise en ligne sur un site de dif- fusion de documents actuariels (après expiration de l’éventuel délai de confidentialité)

Signature du responsable entreprise

Signature du candidat

(2)

(3)

Résumé

Les diﬃcultés récentes de plusieurs acteurs de l’assurance construction ainsi que le désengage- ment volontaire de certains autres, prouvent une fois encore que cette branche reste compliquée à maîtriser. En particulier, la couverture atypique de la garantie décennale rend diﬃcilement applicable les techniques habituelles d’assurance non-vie telles que les MLG ou encore le Chain Ladder. Ceci est d’autant plus vrai lorsque les assureurs sont confrontés à des portefeuilles qui se déforment. De plus, en raison d’un environnement de taux bas, ces derniers ne peuvent plus combler leurs éventuelles méconnaissances du risque à l’aide des produits financiers et doivent par conséquent se recentrer sur leur cœur de métier.

Cette étude a pour ambition de fournir une nouvelle méthode de projection de la sinistralité en RC décennale obligatoire permettant de prendre en compte l’évolution du portefeuille et in fine d’estimer la rentabilité de ce dernier. Utilisant aussi bien du Machine Learning et en particulier des arbres CART que des méthodes plus classiques d’estimation notamment paramétriques, l’approche est construite de manière sur-mesure à la problématique en tenant compte des spécificités de la garantie et dans la mesure du possible sans poser d’hypothèses fortes au préalable.

En outre, la prise en compte de la déformation du portefeuille s’appuie sur une projection de la sinistralité au niveau contrat. Autrement dit, la méthodologie proposée s’apparente à une projection ligne à ligne de la sinistralité décennale que l’on considère les sinistres connus mais non clos ou bien encore les sinistres non encore manifestés qui sont par définition inconnus. Il est important de préciser que cette même méthodologie repose sur la simulation de scénarios et donc a fortiori n’est pas déterministe. Cette approche permet par ailleurs de prendre en compte l’antériorité sinistre d’un contrat donné à l’instar de l’assurance automobile et de son coeﬃcient bonus-malus, ainsi que l’inflation qui est une composante essentielle dans un contexte où la garantie étudiée peut encore engager l’assureur des dizaines d’années après sa souscription.

Mots-clés:Actuariat non-vie,responsabilité civile décennale,assurance construction,projection de la sinistralité,projection ligne à ligne,estimation paramétrique,estimation non paramé- trique.

(4)

Abstract

The recent diﬃculties of several construction insurers as well as the voluntary disengagement of some others, prove once again that this line of business keeps being complicated. Furthermore, it’s quite diﬃcult to apply in a confident way the usual non-life insurance methods such as GLM or Chain Ladder on the decennial civil liability guarantee because of its atypical coverage. This is especially true when insurers are facing an evolution of their portfolios. In addition, the latter can no longer compensate their lack of awareness regarding the risk because of the reduction of financial profits and have to refocus on their core business.

This study’s purpose is to create and set up a new method which forecasts the claims for the decennial civil liability in construction insurance, taking into account the distortion of the current portfolio. This approach is specifically customized for the problem and the particularities of the guarantee in a framework where strong assumptions are avoided as much as possible.

This method uses Machine Learning and especially CART trees as well as classical parametric estimation techniques.

In order to take into account, the distortion of the portfolio, the expected claims are fore- casted at the contract level. In other words, the new approach can liken as a line-by-line method that predicts ultimate losses of the known claims as well as the losses of the unknown claims yet. It’s important to point out that this is a stochastic methodology which uses scenarios simulations, so it isn’t deterministic. Last but not least, the approach considers the past claims of a given contract and the inflation too. The latter is a key component in a context which the insurer’s liability can still be involved several decades after the subscription.

Keywords:Non-life actuarial sciences,decennial civil liability,construction insurance,claims forecasting,line-by-line predictions, parametric estimation,non-parametric estimation.

(5)

Remerciements

Je tiens à remercier M. Pierre GOLHEN, mon tuteur en entreprise, pour sa disponibilité, ses conseils, sa patience, ainsi pour toutes les réflexions que nous avons pu partager au gré des diﬀérentes diﬃcultés rencontrées. J’ai beaucoup appris et ai apprécié les moments passés à ses côtés. Il a notamment su prendre le temps de m’aiguiller et répondre à mes interrogations, même quand il était sollicité par d’autres projets.

Je voudrais aussi remercier M. Erwan GALÈS, mon manager, qui malgré son emploi du temps chargé, a toujours été présent quand j’en avais besoin. Il a en particulier grandement œuvré dans la réussite de cette année tant sur l’aspect technique qu’humain. La confiance qu’il m’a accordée m’a permis de m’épanouir d’un point de professionnel mais aussi personnel. Je tiens tout particulièrement à le remercier pour l’impact qu’il a pu avoir sur le début de ma carrière professionnelle.

De plus, j’aimerais remercier M. Anis MATOUSSI, professeur et directeur de l’IRA, ainsi que M. Nicolas LEBOISNE, professeur et directeur de l’ISFA, pour avoir pris le temps de relire mon travail.

En outre, je remercie aussi l’ensemble de la Direction Centrale Entreprise et plus particulièrement la Direction Oﬀre Entreprise, qui m’a permis de découvrir le monde de l’entreprise de manière adaptée et progressive, ce qui m’a tout de suite permis de me sentir intégré.

Enfin, j’aimerais finir par remercier l’ensemble des enseignants de l’ISFA pour la qualité de la formation dispensée. Les diverses notions et concepts abordés au cours de cette année universitaire m’ont été d’une aide précieuse dans la réalisation de la mission qui m’a été confiée.

(6)

(7)

Table des matières

Remerciements 1

Table des matières 3

1 Introduction 7

2 Problématique 9

2.1 Motivations . . . 9

2.2 Les enjeux spécifiques à MMA . . . 10

2.3 Quelques notions réglementaires . . . 10

2.4 Notations . . . 12

2.5 Spécificité de la construction et analyse en double vision . . . 13

2.6 Objectifs et idée générale de la méthode . . . 15

3 Préparation des données 17 3.1 Introduction . . . 17

3.2 Mise enas-if des données . . . 17

3.3 Étapes de constitution de la base de données . . . 19

3.4 Conclusion . . . 25

4 Quelques éléments introductifs à la méthodologie 27

(8)

4.1 Introduction . . . 27

4.2 Contraintes liées à l’entreprise . . . 28

4.3 Quelques informations sur les arbres CART . . . 28

4.4 Approche méthodologique générale . . . 30

4.5 Périmètre considéré . . . 32

5 Détermination du seuil des graves et de la distribution inhérente à ces derniers 33 5.1 Quelques rappels sur la théorie des valeurs extrêmes . . . 33

5.2 Détermination du seuil des graves . . . 35

5.3 Détermination de la loi des dépassements de seuil . . . 38

6 Modélisation de la fréquence pour la simulation des sinistres encore inconnus 41 6.1 Introduction . . . 41

6.2 Brève analyse préliminaire . . . 41

6.3 Segmentation de la probabilité de survenance d’au moins un sinistre . . . 44

6.4 Segmentation du nombre de sinistres conditionnellement au fait qu’au moins un sinistre soit survenu . . . 47

6.5 Intégration de l’antériorité de la sinistralité . . . 48

6.6 Segmentation de la probabilité de survenance d’un sinistre grave . . . 59

6.7 Schéma récapitulatif de la démarche relative à la fréquence . . . 60

7 Modélisation de la dépendance et des marginales relatives au coût et à la durée de vie des sinistres 61 7.1 Définition de la variable d’intérêt et point de vigilance quant aux coûts des sinistres . 61 7.2 Mise en évidence de la dépendance entre les coûts ultimes des sinistres et leurs durées de vie . . . 62

7.3 Segmentation du coût des sinistres attritionnels via un arbre CART . . . 65

7.4 Détermination des marginales relatives aux coûts ultimes . . . 66

(9)

7.5 Détermination des marginales relatives aux durées de vie . . . 70

7.6 Déterminations des structures de dépendance entre les coûts ultimes et les durées de vie . . . 79

7.7 Tableau et schéma récapitulatifs . . . 89

8 Validation du modèle relatif à la simulation de la sinistralité inconnue 91 8.1 Principe de la validation . . . 91

8.2 Validation dans sa globalité . . . 92

8.3 Validation au niveau du couple (contrat,DOC) . . . 97

9 Projection à l’ultime des sinistres connus et non clos 103 9.1 Explication générale . . . 103

9.2 Rappel sur les données utilisées . . . 103

9.3 Détermination de la probabilité qu’un sinistre se clôture à zéro . . . 104

9.4 Détermination du coeﬃcient de liquidation conditionnellement au fait que le sinistre ne se clôture pas à zéro . . . 105

9.5 Validation du modèle . . . 110

10 Phase de simulation et résultats 115 10.1 Quelques éléments de simulation . . . 115

10.2 Temps de calcul . . . 120

10.3 Résultats . . . 120

11 Conclusion 127

Annexes 132

(10)

A Projection du BT01 133

B Quelques généralités sur des distributions continues et positives usuelles 151

C Qualité d’ajustement de la distribution de Burr tronquée sur les coûts ultimes des sinistres attritionnels clos de certains groupes de risques homogènes 155

D Quelques copules usuelles et méthodes de simulation 157

E Rank-rank plots etheatmaps empiriques et simulés de certains groupes de risques

homogènes 163

(11)

Chapitre 1

Introduction

« L’engagement mutuel » tel est le slogan de Covéa, société de groupe d’assurance mutuelle qui, en quinze ans, est devenue le leader français de l’assurance de biens et de responsabilité. Cette SGAM, réunissant la MAAF, la GMF et MMA, est aujourd’hui l’un des acteurs phares du paysage assurantiel français. C’est au sein de la marque MMA et plus particulièrement dans la Direction Centrale Entreprise que cette étude a été eﬀectuée.

Dans un contexte où son portefeuille construction se déforme, l’entreprise a souhaité analyser et projeter la rentabilité des risques qu’elle accepte, afin d’éviter une éventuelle dérive de la sinistralité future. Cependant, le recours à des méthodes agrégées telles que Chain Ladder ou bien Bornhuetter- Ferguson, ne permet pas de prendre en compte cette spécificité. De plus, la période de couverture atypique de la Responsabilité Civile Décennale Obligatoire (RCDO) en construction rend inopérante l’application de ce type de méthodes.

A cet eﬀet, une projection ligne à ligne semble être une alternative intéressante dans la mesure où ceci permettrait d’analyser le risque de manière très fine entraînant par la même occasion la possibilité de diﬀérencier les bons risques des mauvais.In fine, ceci permettrait d’ajuster la politique de souscription dans le but d’assurer la rentabilité de la branche construction de l’entreprise.

En outre, l’utilisation d’approches non paramétriques empruntées auMachine Learning permet d’ajouter de la flexibilité comme le suggère Baudry et Robert (2017), tout en s’aﬀranchissant de la spécification relative à la forme des estimateurs. Néanmoins, l’estimation paramétrique n’est pas pour autant à négliger puisqu’elle permettra dans la suite de notre étude de capter l’hétérogénéité à l’intérieur d’un groupe de risquesa priori homogène au lieu de considérer une estimation unique.

Pour ce faire, nous introduirons dans un premier temps la problématique de manière plus formelle, puis nous nous attarderons sur la préparation des données. Ensuite, nous expliquerons et mettrons en place la méthodologie permettant de projeter les sinistres encore inconnus via les modélisations distinctes de la fréquence et du coût, tout en ne négligeant pas l’aspect temporel et l’inflation sous-jacente. Dans un quatrième temps, nous nous intéresserons à la projection des sinistres connus et non clos. Enfin, nous analyserons les résultats et finirons par conclure en évoquant quelques pistes d’amélioration possibles.

(12)

(13)

Chapitre 2

Problématique

2.1 Motivations

L’assurance construction est une branche d’assurance non-vie difficilement maîtrisable comme en témoignent les difficultés récentes de plusieurs acteurs opérant en libre prestation de services (LPS) au début de l’année 2018. De plus, certains acteurs majeurs de ce marché se désengagent volontairement, ce qui démontre une réelle crainte de ces derniers. Les spécificités de cette branche entraînent des difficultés qui sont multiples.

Tout d’abord, par définition, l’assurance décennale couvre le risque sur une période de 10 ans et ce, dès la livraison du bien. À cet eﬀet, pour un contrat souscrit aujourd’hui, l’assureur ne connaîtra le résultat final de ce dernier que quinze ou vingt ans plus tard. Ainsi, il est important d’évaluer dès à présent et de manière précise le risque inhérent à chaque police d’assurance sous peine de réagir à retardement, ce qui pourrait mettre l’assureur dans une position compromettante. En eﬀet, sans une réelle connaissance a priori du risque, certaines populations pourraient être sous-tarifées pendant plusieurs années avant que cela ne soit détecté.

De plus, dans un environnement de taux bas et de rendements financiers moins conséquents que les années précédentes, l’assureur ne peut compter sur ces derniers pour compenser sa mé- connaissance du risque. Eﬀectivement, les rendements financiers du début des années 2000 étaient importants et compte tenu des provisions conséquentes de cette branche longue, l’assureur pouvait légitimement se reposer sur ses produits financiers pour combler les pertes éventuelles liées à son activité assurantielle. Or ceci n’est plus la réalité d’aujourd’hui, ce qui contraint les assureurs à redevenir rentable sur leurs cœurs de métiers. Plus récemment, la faillite de plusieurs assureurs étrangers opérant en LPS constitue une source d’inquiétude pour les acteurs restants. En eﬀet, ceci pourrait entraîner de manière progressive et croissante une baisse des recours que ces derniers peuvent exercer.

À l’instar d’autres branches longues comme la RC corporelle, l’inflation joue un rôle prédominant en assurance construction. En eﬀet, un sinistre peut survenir jusqu’à quinze ou seize ans après la souscription d’un contrat et peut mettre plusieurs années à se liquider. Ainsi, il est nécessaire de s’intéresser et de projeter le taux d’inflation sur au minimum vingt ou vingt-cinq ans. Or, il n’existe pas d’indice réglementaire, celui le plus couramment utilisé étant le BT01. Néanmoins, il

(14)

CHAPITRE 2. PROBLÉMATIQUE

est préconisé de ne pas utiliser ce dernier si un indice plus pertinent est disponible. Il y a alors une réelle problématique autour de l’indice d’inflation.

Enfin, les méthodes classiques de provisionnement telles que le Chain Ladder, sont dans ce cadre inadaptées puisque ces dernières ne sont pertinentes que lorsque l’on a une bonne connaissance de la sinistralité dès le début de la vie du contrat. Or en assurance construction, la majorité des sinistres ne surviennent que plusieurs années après la souscription du contrat. Ainsi, en appliquant cette méthode on n’aurait une idée plus ou moins précise du résultat d’une année de souscription que minimum six ou sept ans après l’année en question.

2.2 Les enjeux spécifiques à MMA

Dans le cadre de sa stratégie, l’entreprise accroît de manière importante son chiﬀre d’aﬀaires.

L’enjeu pour MMA est donc, dans un premier temps de savoir si le développement sur certaines typologies d’activités ou tailles d’entreprise est en adéquation avec ses objectifs de rentabilité.

Dans un second temps, cette mesure de bonne péréquation à ses objectifs permettra d’adapter le développement et de mettre en place une surveillance accrue sur les éventuels segments déficitaires.

Cette stratégie d’expansion a pour conséquence de déformer le portefeuille de la compagnie, ce qui est un frein à l’utilisation de méthodes agrégées qui s’appuie uniquement sur le passé. Or, à l’instar de ce qui est proposé par Cambon (2011), Deplante (2010) ou encore Nataf (2014), les techniques actuarielles actuellement appliquées par le marché sont pour l’essentiel basées sur cette méthodologie, ce qui ne permet pas d’évaluer de manière relativement précise un risque a priori.

Ce constat vaut, à la fois pour l’évaluation de la rentabilité des DOC passées comme pour la tarification des DOC futures. À cet eﬀet, la recherche et la mise en place d’une approche permettant d’estimer le résultat ultime d’un contrat donné dès sa souscription, résoudraient à la fois le problème d’évaluation de la rentabilité mais aussi celui de la tarification. Collet (2013) propose une méthode de projection de la décennale, potentiellement en ligne à ligne, mais cette dernière ne s’appuie pas sur les caractéristiques des contrats et donc la déformation du portefeuille ne peut pas être prise en compte.

2.3 Quelques notions réglementaires

Dans le cadre de cette étude, nous nous intéressons à la responsabilité civile décennale obligatoire, ainsi il est tout d’abord important d’introduire cette notion. De plus, bien que cette étude n’ait pas vocation à calculer des provisions en normes françaises, il semble néanmoins nécessaire de présenter quelques notions réglementaires clés relatives à la construction.

2.3.1 Généralités sur l’assurance construction et présentation de la Responsa- bilité Civile Décennale Obligatoire

De manière générale, les réalisateurs (maçons, plombiers, ...) ou encore les concepteurs (ar- chitectes, maîtres d’œuvre, ...) s’assurent pour couvrir les responsabilités qui leur incombent. Tout d’abord, ils peuvent s’assurer pour tous les dommages tels que le vol ou bien la dégradation, pouvant survenir pendant la réalisation des travaux et avant la réception du bien. Par la suite, après la réception des travaux, ils peuvent se couvrir de manière facultative pour toutes les malfaçons dont ils sont responsables et qui aﬀectent la construction. Ces dernières relèvent :

(15)

2.3. QUELQUES NOTIONS RÉGLEMENTAIRES

• Du parfait achèvement, qui correspond à des malfaçons signalées par le maître d’œuvre jusqu’à un an après la réception.

• Du bon fonctionnement, qui correspond à des malfaçons aﬀectant le bon fonctionnement des éléments séparables de l’ouvrage jusqu’à deux ans après la réception.

Pour se prémunir contre ces deux risques, les professionnels de la construction peuvent souscrire à une assurance dite Responsabilité Civile Décennale Facultative.

Il existe par ailleurs une assurance dite Responsabilité Civile Décennale Obligatoire. Selon l’article 1792 du Code civil (Article 1792 du Code civil (1978)), « Tout constructeur d’un ouvrage est responsable de plein droit, envers le maître ou l’acquéreur de l’ouvrage, des dommages, même résultant d’un vice du sol, qui compromettent la solidité de l’ouvrage ou qui, l’aﬀectant dans l’un de ses éléments constitutifs ou l’un de ses éléments d’équipement, le rendent impropre à sa destination. ».

L’article 1792-4-2 (Article 1792-4-2 du Code civil (2008)), précise quant à lui la durée de couverture de la manière suivante « Les actions en responsabilité dirigées contre un sous-traitant en raison de dommages aﬀectant un ouvrage ou des éléments d’équipement d’un ouvrage mentionnés aux articles 1792 et 1792-2 se prescrivent par dix ans à compter de la réception des travaux ».

Pour résumer, tout constructeur qui a œuvré dans la construction d’un ouvrage engage sa responsabilité pendant une durée de 10 ans à compter de la réception des travaux. Cette garantie est déclenchée lorsque le vice compromet la solidité de l’ouvrage ou bien lorsqu’il le rend impropre à son utilisation.

Depuis la loi Spinetta de 1978 (Loi n^o78-12 du 4 janvier 1978 relative à la responsabilité et à l’assurance dans le domaine de la construction (1978)), tous les constructeurs sont dans l’obligation de souscrire à une assurance Responsabilité Civile Décennale Obligatoire afin de couvrir la garantie pour laquelle ils sont engagés. Ainsi, la RCDO représente une part importante de l’assurance construction dans sa globalité. A titre d’exemple, les primes émises pour cette seule garantie correspondent à plus de 50% des primes émises toutes assurances construction confondues.

2.3.2 La provision pour sinistres à payer (PSAP)

À l’instar des autres branches d’assurance non-vie, la PSAP est une provision présente en assurance construction. Selon l’article R343-7 du code des assurances (Article R343-7 du Code des assurances (2015)), elle est définie comme « la valeur estimative des dépenses en principal et en frais, tant internes qu’externes, nécessaires au règlement de tous les sinistres survenus et non payés, y compris les capitaux constitutifs des rentes non encore mises à la charge de l’entreprise ».

De plus, selon l’article 143-10 du règlement de l’ANC (Article 143-10 du Règlement n^o2015-11 du 26 novembre 2015 relatif aux comptes annuels des entreprises d’assurance (2015)) « l’évaluation des sinistres connus est eﬀectuée dossier par dossier, le coût d’un dossier comprenant toutes les charges externes individualisables ; elle est augmentée d’une estimation du coût des sinistres survenus mais non déclarés [IBNyR – Incurred But Not yet Reported] ». Il est important de préciser que toujours selon ce même article, « la provision pour sinistres à payer doit toujours être calculée pour son montant brut, sans tenir compte des recours à exercer ». Pour résumer, la PSAP correspond à la provision des sinistres qui se sont manifestés, qu’ils soient déclarés ou non.

(16)

2.3.3 La provision pour sinistres non encore manifestés (PSNEM)

La PSNEM est une provision exclusivement dédiée à l’assurance construction. Cette dernière est généralement, d’une part plus conséquente que la PSAP mais aussi plus compliqué à estimer.

Selon l’article 143-13 du règlement de l’ANC (Article 143-13 du Règlement n^o2015-11 du 26 novembre 2015 relatif aux comptes annuels des entreprises d’assurance (2015)), « le montant total des provisions pour sinistres à payer aﬀérentes aux garanties décennales d’assurance construction ne peut, pour chaque année d’ouverture de chantier, être inférieur à la somme des éléments suivants : 1. Le coût total des sinistres qui se sont manifestés jusqu’à la date de l’inventaire, comprenant :

— D’une part, le coût total, estimé dossier par dossier, des sinistres qui ont été déclarés jusqu’à la date d’inventaire, diminué des règlements déjà eﬀectués et des frais déjà payés ;

— D’autre part, une estimation prudente des sinistres non encore déclarés, eﬀectuée sur la base des méthodes statistiques ; [En d’autres termes, ceci correspond à la PSAP.]

2. Une estimation, calculée selon les méthodes fixées à l’article 143-14 du présent règlement (Article 143-14 du Règlement n^o2015-11 du 26 novembre 2015 relatif aux comptes annuels des entreprises d’assurance (2015)), du coût des sinistres non encore manifestés et qui devraient se manifester d’ici à l’expiration de la période de prescription décennale. [Ceci correspond à la PSNEM] ».

2.3.4 Méthode de provisionnement réglementaire des PSNEM

Selon l’article 143-14 de l’ANC (Article 143-14 du Règlement n^o2015-11 du 26 novembre 2015 relatif aux comptes annuels des entreprises d’assurance (2015)), « les entreprises calculent, pour chaque exercice d’ouverture de chantier, [...] l’ancienneté n des chantiers ainsi que les montants An et Bn, définis comme suit :

• n : diﬀérence de millésime entre l’exercice sous inventaire et l’exercice d’ouverture de chantier ;

• An : coût total, estimé dossier par dossier des sinistres aﬀérents aux garanties décennales d’assurance construction délivrées pour des chantiers d’ancienneté n et qui se sont manifestés jusqu’à la date de l’inventaire, diminué des recours encaissés ou à encaisser ;

• B_n : montant des primes émises et des primes restant à émettre, nettes des primes à annuler et des frais d’acquisition, aﬀérent à ces mêmes garanties.

L’estimation des sinistres non encore manifestés, [...] est égale au plus élevé des deux montants MSn et MPn suivants :

• M Sn=an⇥An;

• M Pn=bn⇥Bn,

an etbn prenant les valeurs suivantes :

n 0 1 2 3 4 5 6 7 8 9 10 11 12 13

a_n 0 0 3,4 2 1,4 1 0,7 0,5 0,35 0,25 0,20 0,15 0,10 0,05 bn 1 1 0,95 0,85 0,75 0,65 0,55 0,45 0,35 0,25 0,20 0,15 0,10 0,05

».

2.4 Notations

Dans le but de faciliter la lecture de ce mémoire, nous introduisons dès à présent les notations utilisées par la suite.

(17)

2.5. SPÉCIFICITÉ DE LA CONSTRUCTION ET ANALYSE EN DOUBLE VISION

On note :

• DOC : Déclaration d’Ouverture de Chantier. Cette date clé correspond à l’année de couverture de la garantie décennale. En d’autres termes, le contrat couvre l’ensemble des chantiers ayant débuté l’année en question. A titre d’exemple et de manière générale, la DOC 2017 couvre l’ensemble des chantiers ayant débuté en 2017 et ceci, pour une période de 10 ans dès lors que les chantiers seront terminés. On la retrouvera parfois sous l’appellation DROC (Déclaration Réglementaire d’Ouverture de Chantier).

On notera par la suite par D+0, D+1, D+2, ..., D+i, l’année de la DOC, l’année suivant la DOC, la2^èmeannée après la DOC, ..., i^èmeannées après la DOC. Ceci nous sera particulière- ment utile lorsque nous nous intéresserons au moment de connaissance des sinistres pour une DOC donnée. Dans la suite de cette étude, le terme « année de connaissance relativement à la DOC » fera référence à cette notion.

• S : Année de connaissance du sinistre. Ainsi, S+1, S+2, ..., S+j font référence à 1 an, 2 ans, ..., j ans après la connaissance du sinistre. Cette notation est introduite afin de faciliter l’analyse du développement d’un sinistre, de sa connaissance jusqu’à sa clôture.

On peut illustrer ces deux premières notations à l’aide de la figure suivante :

Figure 2.1 – Illustration de l’analyse en double vision des sinistres en construction

2.5 Spécificité de la construction et analyse en double vision

Tout d’abord, il est important de préciser que l’on raisonne avec les dates de connaissance des sinistres, ainsi à chaque date d’inventaire, on considérera les sinistres connus d’une part et les sinistres inconnus d’autre part.

(18)

Figure 2.2 – Typologie des sinistres considérés

Les sinistres inconnus peuvent à la fois correspondre à des sinistres survenus avant la date d’inventaire mais dont on a eu connaissance qu’après, autrement dit, des IBNyR. Mais encore, ils peuvent aussi faire référence à des sinistres qui sont eﬀectivement survenus après la date d’inventaire, en d’autres termes, des sinistres non encore manifestés (SNEM).

Dans ce cadre de travail et contrairement aux normes comptables, on sera amené à calculer d’une part des PSAP hors IBNyR et d’autre part des PSNEM augmentées des IBNyR.

La principale motivation de ce choix est la réduction de la complexité du modèle présenté infra.

En eﬀet, en considérant la date de survenance des sinistres, trois modélisations sont nécessaires, à savoir :

1. La projection à l’ultime des sinistres connus et non clos ; 2. La modélisation des IBNyR ;

3. La modélisation des sinistres non encore manifestés.

A contrario, en prenant en compte la date de connaissance des sinistres, on se limite à deux modélisations, en l’occurrence :

1. La projection à l’ultime des sinistres connus et non clos ; 2. La modélisation des sinistres inconnus.

En outre, ceci réduit par la même occasion le nombre d’hypothèses sous-jacentes au modèle dans sa globalité ainsi que l’erreur de modélisation. De plus, cette diﬀérence n’a que peu d’importance pour notre étude car on s’intéresse uniquement à la rentabilité et à la tarification de la branche construction. Néanmoins, si ultérieurement on souhaite appliquer cette méthodologie afin de calculer des provisions, il est important d’en être conscient et de modifier la méthode en conséquence, hormis pour eﬀectuer des provisions complémentaires.

La couverture décennale de la branche construction nécessite d’analyser la sinistralité du portefeuille sous deux angles : la vision DOC et la vision survenance. La première va permettre d’évaluer la rentabilité d’une année de souscription et le cas échéant mener à des correctifs quant à la politique de souscription. Cette vision sera particulièrement importante pour l’estimation des PSNEM et

(19)

2.6. OBJECTIFS ET IDÉE GÉNÉRALE DE LA MÉTHODE

des IBNyR. La vision survenance est quant à elle complémentaire à la première puisqu’elle va être utile pour l’estimation des PSAP hors IBNyR. Cet angle d’analyse permettra aussi d’identifier d’éventuelles dérives du coût moyen et encore des évolutions dans la politique de gestion des sinistres comme des modifications des forfaits d’ouverture ou bien la mise en place de provisionnements complémentaires.

À titre d’exemple, si on souhaite s’intéresser au coût évalué ou ultime d’un sinistre en 2021, connu en 2019 et correspondant à la DOC 2015, on se rapportera au triplet (DOC=2015, Survenance=D+4, Développement=S+2), ceci correspond aux cubes rouges de la figure 2.1. De la même manière, le triplet (DOC=2018, Connaissance=D+3, Développement=S+3) correspond aux coûts évalués ou ultimes en 2024 des sinistres de la DOC 2018, connus en 2021. Cet exemple correspond aux cubes bleus de la figure précédente.

2.6 Objectifs et idée générale de la méthode

2.6.1 Objectifs de la méthode

L’objectif principal de la méthode est d’obtenir, à terme, une méthodologie hybride permettant à la fois de projeter la sinistralité mais aussi de tarifer les garanties RCDO des contrats construction.

Le premier point permettra entre autres d’estimer la rentabilité du portefeuille y compris sur les DOC récentes malgré le fait que l’on ne connaisse encore que très peu le niveau de sinistralité. À cet eﬀet, la méthodologie en question doit s’appuyer sur un niveau de détail aussi fin que possible, soit au niveau contrat. De ce fait, la phase d’apprentissage s’eﬀectuant au niveau ligne à ligne, la sinistralité projetée et a fortiori la prime pure, vont pouvoir être obtenues à ce même niveau.

2.6.2 Idée directrice de la méthode

La méthodologie s’articule en trois temps : le retraitement des données, la phase d’apprentissage et la phase de projection.

Parmi les étapes présentes lors de la phase de retraitement des données, on pourrait évoquer : l’identification et la correction des données aberrantes ou manquantes, l’actualisation des montants avec un indice pertinent, ou encore la mise en forme des données suivant diﬀérentes visions, en l’occurrence la vision DOC et la vision survenance.

La phase d’apprentissage est quant à elle consacrée à l’application d’algorithmes de Machine Learning couplée à des ajustements paramétriques. En d’autres termes, des groupes homogènes de risque sont créés à l’aide d’algorithmes tels que les arbres CART, puis sur chacun de ces groupes, divers ajustements paramétriques sont eﬀectués pour tenir compte de la variabilité et surtout de la sinistralité antérieure. Ce double traitement s’eﬀectue pour chaque année de couverture d’une DOC donnée, soit en général quinze à seize ans après le commencement de cette dernière. Cette démarche s’applique à la fois sur le coût et sur le nombre de sinistres.

Enfin, la phase de projection suit la phase d’apprentissage. Comme indiqué précédemment, l’apprentissage se faisant au niveau ligne à ligne, la projection peut s’eﬀectuer à ce même niveau, en utilisant notamment des modèles Poisson composés. In fine, la projection au contrat permettra d’identifier les bons et les mauvais risques afin d’adapter les mesures tarifaires et les politiques de souscription. De manière plus agrégée, il sera aussi possible d’estimer la rentabilité des DOC au

(20)

travers d’intervalles de confiance.

2.6.3 Initiative de recherche Covéa – IRA – École Polytechnique

Cette méthodologie est l’un des premiers sujets de l’initiative de recherche formée par Covéa¹, l’IRA² et l’École Polytechnique³. Cette dernière aura pour but de valider et renforcer les fonde- ments théoriques de cette méthode en améliorant notamment certains aspects comme par exemple, l’application d’un processus de Hawkes pour modéliser la fréquence ou encore la mise en place d’algorithmes permettant de diminuer drastiquement le temps de calcul.

1. Covéa est une société de groupe d’assurance mutuelle (SGAM) française composée des marques MAAF, MMA et GMF, dont le siège social se situe 86-90 rue Saint-Lazare 75009 Paris

2. Institut du Risque et de l’Assurance du Mans – Le Mans Université Avenue Olivier Messiaen - 72085 LE MANS cedex 9

3. École Polytechnique – Route de Saclay - 91128 Palaiseau Cedex

(21)

Chapitre 3

Préparation des données

3.1 Introduction

La préparation des données est l’étape la plus importante lors du développement d’un nouveau modèle. En eﬀet, les conclusions et résultats d’un modèle n’ont aucune valeur si ce dernier s’appuie sur des données aberrantes ou erronées. Ainsi, avant toute modélisation, il est nécessaire de s’intéresser à ces dernières et notamment vérifier leurs pertinences et véracités. Dans ce contexte, il est parfois nécessaire d’émettre des hypothèses ou bien de prendre des partis pris. Ceci constitue autant de limites du modèle en question dont il faut avoir conscience. Cette partie s’intéressera aux hypothèses et aux partis pris considérés concernant la préparation des données.

3.2 Mise en as-if des données

À l’instar de la réassurance où cette notion est omniprésente, la mise en as-if des données est une étape cruciale en construction, d’autant que l’inflation est notablement plus importante dans cette branche que dans le reste de l’économie. Ceci nous sera particulièrement utile lors de la phase d’apprentissage qui sera détaillée ultérieurement. À cet eﬀet, plusieurs approches sont possibles : on peut procéder à une indexation des primes afin de tenir compte des évolutions tarifaires, à une indexation des sinistres ou encore à une « indexation » du portefeuille afin de tenir compte de l’évolution de sa composition. Néanmoins, dans le cadre de cette étude, nous nous intéresserons seulement à la mise enas-if des sinistres. En eﬀet, nous avons besoin de conserver la déformation du portefeuille afin de prendre en compte cette spécificité dans nos projections. Par ailleurs, nous avons pris le parti de ne pas indexer les primes car, d’une part elles ne sont pas utiles dans la méthode de projection présentée ultérieurement et d’autre part, ces dernières font l’objet par MMA d’un calcul spécifique afin de prendre en compte les produits financiers dans l’évaluation de la rentabilité de la branche décennale. Cette partie ne sera cependant pas développée par la suite dans un souci de confidentialité.

Ainsi, il nous reste à définir l’indice avec lequel les montants de sinistres doivent être indexés.

En effet, il n’existe pas d’indice réglementaire avec lequel l’indexation doit être effectuée et donc plusieurs possibilités s’offrent à nous : soit on considère un indice de place et dans ce cas-ci on s’expose au fait que cet indice ne soit pas adéquat compte tenu de la réelle inflation, ou bien on reconstitue un indice d’inflation à l’aide de nos données sinistres auquel cas on se heurte à plusieurs

(22)

CHAPITRE 3. PRÉPARATION DES DONNÉES

diﬃcultés comme par exemple, la définition des données à considérer ou bien encore la détermination de sinistres homogènes survenus à diﬀérentes périodes. Dans le cadre de cette étude, nous avons choisi de nous orienter vers la première solution en considérant le BT01. Ce choix a été motivé par le fait que la reconstruction d’un indice aurait mené à un travail relativement conséquent sans aucune garantie de résultats. De plus, bien que général, le BT01 permet de prendre en compte l’ensemble des composantes de la construction telles que l’évolution des salaires ou encore le prix des matériaux.

3.2.1 Les indices BT

De manière générale, les indices (BT) sont calculés par l’INSEE et sont définis comme « des indices composites de coûts de diﬀérentes activités ou sous-activités du secteur de la construction » (INSEE (2016)). En d’autres termes, il existe une multitude d’indices BT :

• BT01 – Tous corps d’état ;

• BT47 – Électricité ;

• BT10 – Revêtements en plastiques ;

• [. . .] ;

Chacun d’entre eux représente l’évolution de l’inflation d’une activité qui lui est propre en tenant compte de l’évolution du prix des matériaux, des salaires. . . le BT01 étant l’indice général censé représenter l’évolution globale de l’inflation sur l’ensemble de la construction. Dans les bases disponibles, et notamment dans la base relative aux sinistres, nous ne disposons pas de l’activité sinistrée, ce qui nous empêche d’utiliser les BT les plus fins et nous contraint à utiliser l’indice « Tous corps d’état » : le BT01. Néanmoins, l’entreprise a pour projet de renseigner l’activité sinistrée lors de l’ouverture d’un sinistre et le cas échéant, nous pourrons actualiser avec les indices BT autres que le BT01.

L’indice BT01

Comme indiqué précédemment, l’indice BT01 représente l’inflation « Tous corps d’état » en construction. Il est composé de la manière suivante :

• 44.9% de l’indice du coût horaire du travail dans le secteur de la construction ;

• 36,5% de l’indice du coût des matériaux ;

• 9,3% de l’indice des frais divers ;

• 5,9% de l’indice du coût du matériel en construction ;

• 2,4% de l’indice des frais de transport routiers ;

• 1% de l’indice des frais en énergie.

À l’instar des autres indices BT, le BT01 est publié mensuellement ce qui permet d’indexer, dans l’idéal, de manière mensuelle les montants de règlements et les recours. Néanmoins, dans notre cas, nous ne disposons pas d’un historique suﬃsamment précis pour actualiser de cette façon. Ainsi, nous procédons à une actualisation par année en considérant l’indice BT01 de décembre de chaque année entièrement écoulée et le dernier connu pour l’année en cours. Le choix du mois à retenir ne présente que peu d’importance compte tenu du fait que l’on souhaite seulement observer les sinistres sur une même base lors de notre phase d’apprentissage. Une méthode de projection du BT01 est présentée ultérieurement afin de pouvoir prendre en compte l’inflation pour les sinistres qui surviendront dans les années à venir.

(23)

3.3. ÉTAPES DE CONSTITUTION DE LA BASE DE DONNÉES

3.3 Étapes de constitution de la base de données

Dans cette sous-partie nous nous intéresserons aux diﬀérentes étapes de constitution de la base de données. À cette occasion, seuls les principes généraux seront mis en avant.

3.3.1 Base relative aux sinistres Création d’une fonction d’actualisation

Dans un premier temps, nous créons une fonction qui va permettre d’actualiser les sinistres afin que les montants réglés soient exprimés selon un euro de référence. Cette étape correspond à la mise en as-if des sinistres. Pour ce faire, nous récupérons :

• La valeur de l’indice BT01 de décembre pour les années entièrement écoulées ;

• La dernière valeur connue de l’indice BT01 pour l’année en cours, qui servira par ailleurs de référence.

Copie des bases BTP et définition d’une clé primaire

Afin de ne pas détériorer de manière involontaire les bases BTP, il est important d’eﬀectuer une copie des dernières versions de la base de production et de la base des sinistres.

De plus, dans le but de pouvoir faire coïncider les sinistres à la bonne DOC et à la bonne garantie, il est nécessaire de définir une clé primaire. À cet eﬀet, cette dernière est caractérisée à l’aide du triplet (Numéro de contrat, DOC, Garantie) sur la base des primes ainsi que sur la base des sinistres. Enfin, il convient de vérifier que la clé ainsi constituée est bien unique.

Définition des montants réglés et recours par an

Dans les bases sinistres de l’entreprise, les montants réglés et les recours sont exprimés en cumulé avec une profondeur d’historique de 25 ans. À titre d’exemple, en considérant 2018 comme l’année courante :

• M T_REGT_M0, correspond au montant total réglé (principal + frais d’expertise + ...) jusqu’à aujourd’hui ;

• M T_REGT_A1, correspond au montant total réglé (principal + frais d’expertise + ...) jusqu’au 31/12/2017 ;

• M T_REGT_Ai, correspond au montant total réglé (principal + frais d’expertise + ...) jusqu’au 31/12/2018-i.

Ainsi les montants sont exprimés en cumulé et donc pour actualiser les règlements convenable- ment, il faut au préalable les exprimer en décumulé. En d’autres termes, il est nécessaire d’aﬀecter à chaque année de développement du sinistre le montant réglé au cours de cette dernière. On obtient ce qu’il faut en procédant par soustraction et donc :

• M T_REGT_M0 M T_REGT_A1, correspond à ce qui a été réglé au cours de l’année 2018;

• M T_REGT_A(i 1) M T_REGT_Ai, correspond à ce qui a été réglé au cours de l’année 2018 i.

De la même manière, on considèreM T_REC_Aiqui correspond au montant cumulé des recours reçus.

(24)

Actualisation des montants et repassage en cumulé

Maintenant que tous les montants sont exprimés en décumulé, il est possible de les actualiser de manière convenable afin de les exprimer en euros constants. A titre d’exemple, si on souhaite exprimer un montant réglé en 2014 en euros d’aujourd’hui, on utilisera la formule suivante :

MontantRéglé2014!Aujourd⁰hui =MontantRéglé2014⇥BT01_Courant BT01₂₀₁₄ , avec :

• MontantRéglé2014!Aujourd⁰hui : Le montant réglé en 2014 en euros d’aujourd’hui ;

• MontantRéglé₂₀₁₄ : Le montant réglé en 2014 en euros de 2014 ;

• BT01₂₀₁₄ : La valeur de l’indice BT01 en décembre 2014 ;

• BT01_Courant : La dernière valeur connue de l’indice BT01 de l’année en cours.

Dorénavant, l’ensemble des règlements est actualisé, il est alors possible de repasser en cumulé afin d’obtenir un panorama des coûts des sinistres avec une inflation neutralisée. Pour ce faire, on utilise une méthode analogue à celle relative à la « décumulation » des montants et présentée supra.

Création d’un indicateur de sinistre clos à zéro

Pour la suite de l’étude, il est important de distinguer les sinistres clos à zéro des autres. À cet eﬀet, deux approches sont envisageables. La première consiste à considérer qu’un sinistre est clos à zéro dès lors que le montant total réglé est nul. La seconde prend en compte les recours reçus et donc un sinistre est clos à zéro quand le montant total réglé, diminué des recours reçus est nul.

Dans le cadre de cette étude, nous avons retenu la seconde approche car elle tient compte du fait que le sinistre n’a engendré aucun coût pour l’assureur alors qu’avec la première, on pourrait avoir tendance à sur-provisionner ou à sur-tarifier en considérant des sinistres comme de la charge qui en tout état de cause n’ont rien coûté.

Néanmoins, il pourrait être intéressant de confronter les deux approches ultérieurement et pour se faire, il faudrait coupler la première approche avec une modélisation des recours ce qui compliquerait un modèle qui s’avère déjà complexe.

Passage de la vision comptable à la double vision DOC/survenance

Comme indiqué précédemment, les données relatives aux sinistres sont présentées en vision comptable par rapport à l’année actuelle. Cependant, pour la suite de l’étude, il est nécessaire de les transposer en vision DOC ainsi qu’en vision connaissance sinistre. À cet eﬀet, plusieurs variables sont créées afin, d’une part de suivre le développement d’une DOC au fil des années et en particulier le nombre de sinistres, et d’autre part, de suivre le déroulement des sinistres à partir du moment où ils sont connus.

(25)

Figure 3.1 – Exemple de passage d’une vision comptable à une vision DOC pour un contrat fictif donné

Le même type de transformation est eﬀectué pour les sinistres à partir de leurs connaissances et ceci, en considérant trois types d’information : les montants réglés actualisés et en cumulé (MR), les recours encaissés actualisés et en cumulé (RE) et les montants provisionnés (MP). Les montants provisionnés ne sont pas actualisés car ces derniers sont censés permettre de payer les futurs règlements, ainsi l’inflation est prise en compte de manière implicite ce qui ne nécessite pas de les actualiser à nouveau. Bien que les provisions ne soient pas nécessairement évaluées avec la même valeur de l’euro que les deux autres grandeurs, il est compliqué de considérer des montants provisionnés actuels plus "justes". Ceci constitue alors une hypothèse et a fortiori une limite de notre modélisation.

Figure 3.2 – Exemple de passage d’une vision comptable à une vision connaissance sinistre pour quelques sinistres fictifs

De cette manière, on reconstruit la figure 2.1, en connaissant pour chaque sinistre son positionne-

(26)

ment par rapport à la vision DOC, mais aussi son développement dans le temps dès sa connaissance.

Détermination de la variable d’intérêt considérée pour le coût ultime des sinistres et la liquidation de ces derniers

Plusieurs alternatives sont possibles lorsqu’il s’agit de modéliser le coût des sinistres. Une solution envisageable consiste à modéliser les dynamiques des montants réglés, des recours encaissés et éventuellement des provisions, en tenant compte de leurs diﬀérentes interactions. Ainsi, on privilégie une modélisation fine avec descash-flows futurs précis, seulement en contrepartie on s’expose à une très forte erreur de modélisation. L’alternative, qui est la solution retenue dans le cadre cette étude, consiste à s’intéresser une variable agrégée, en l’occurrence la charge sinistre prévisionnelle brute de prévision de recours, définit de la manière suivante :

CSP BP Rt=M Rt+M Pt REt, avec :

• CSP BP Rt : La charge sinistre prévisionnelle brute de prévision de recours vu en t ;

• M Rt : Les paiements actualisés eﬀectués jusqu’en t ;

• M Pt : Le montant provisionné (PSAP) en t ;

• RE_t : Les recours actualisés encaissés jusqu’en t.

De cette manière, on s’aﬀranchit de la modélisation conjointe des diﬀérentes dynamiques tout en réduisant l’erreur de modélisation, au prix decash-flows futurs agrégés et donc moins discernables.

Nous ne prenons pas en compte les provisions de recours, autrement dit les recours à exercer car dans la base disponible cette variable n’est pas fiable sur les DOC anciennes du fait notamment d’un changement dans la manière d’enregistrer ces prévisions de recours. Après discussion avec la Direction Indemnisation, nous avons ainsi estimé qu’il était plus adéquat de ne pas les prendre en considération. À ce jour, les prévisions de recours représentent moins de 3% de la charge sinistre en décennale. Ainsi, cette approche permet d’être prudent notamment en considérant des coûts légèrement plus élevés qu’ils ne le sont réellement sans pour autant biaiser l’analyse de manière notable dans la mesure où les recours sont relativement faibles en RCDO. Ceci est au contraire diﬀérent lorsque l’on s’intéresse à la garantie Dommage-Ouvrage en construction.

Récupération de la sinistralité des DOC antérieures

Pour chacune des années de vie de la DOC, soit D+ 0, D+ 1, . . ., la méthodologie exposée ultérieurement s’appuiera sur des modèles Poisson composés appliqués à chacun des contrats. Ainsi, à l’instar des autres branches de l’assurance non-vie, l’antériorité de la sinistralité d’un contrat, et en particulier de ses DOC antérieures, peut-être utile lors de la tarification de la DOC à venir ou bien lors de l’estimation de la rentabilité à l’ultime d’une DOC en cours. À titre d’exemple, ces données peuvent servir à la mise en place d’un modèle Bayésien ou de crédibilité à l’intérieur d’un groupe de risques homogènes. Néanmoins, il est important de prendre quelques précautions lors de cette étape. En eﬀet, la vision avec laquelle on récupère la sinistralité est importante afin de ne pas prendre en compte des sinistres postérieurs à la vision considérée. Par exemple, pour un contrat donné, si on souhaite tarifer la DOC N+1, il faut prendre en compte l’information seulement jusqu’au début de cette dernière, soit une vision fin N/début N+1 et non l’information complète, c’est-à-dire celle jusqu’à aujourd’hui. Ainsi, pour chaque DOC considérée, l’information relative à la sinistralité passée doit être arrêtée au début de chacune d’elles. L’exemple présenté en figure 3.3 permet d’illustrer le propos.

(27)

Figure 3.3 – Exemple illustratif de la prise en compte de la sinistralité antérieure

Bien que l’information collectée entre les visions fin N-1 et fin N ne puisse pas être considérée comme une information a priori afin de ne pas anticiper le futur lors de la tarification de la DOC à venir, elle n’est pas pour autant négligée. En eﬀet, elle sera prise en compte ultérieurement dans la méthodologie présentée par la suite et en particulier elle sera utilisée de manière séquentielle dès D+1 et jusqu’à l’extinction totale de la DOC.

3.3.2 Base relative aux chiﬀres d’aﬀaires

Intuitivement, mais également selon les avis des experts de la branche construction, le chiffre d’affaires est une variable déterminante lors de l’appréciation du risque. En effet, le chiffre d’affaires d’une entreprise de construction est intimement lié à la taille et/ou au nombre de chantiers que cette dernière a effectués durant l’année écoulée eta fortiori au risque auquel elle s’est exposée.

Pour la majorité des contrats souscrits jusqu’à aujourd’hui, cette variable cruciale n’est pas disponible dans les bases mises à disposition mais seulement via une extraction des SI de gestion.

De plus, pour une année de souscription donnée, notée N, le chiffre d’affaires demandé au client correspond à celui de l’année N-2 avec une révision de la cotisation une fois que le véritable chiffre d’affaires de l’année N est connu, soit approximativement en N+2.

Ce décalage temporel nécessite d’apporter quelques correctifs et en particulier il est important de réaffecter les bons chiffres d’affaires aux bonnes DOC pour les contrats présents en portefeuille depuis quelques années. De cette manière, les chiffres d’affaires renseignés respectivement au moment de la souscription des DOC N, N-1, N-2 et N-3, correspondent en réalité, respectivement à ceux réalisés lors des DOC N-2, N-3, N-4 et N-5. Cependant, en procédant de cette manière les chiffres d’affaires des DOC N et N-1 deviennent généralement manquants et ceci, avec aucune possibilité de les connaître. De plus, les exclure purement et simplement de l’étude n’est pas une solution

(28)

appropriée, puisque cela constitue une perte d’information conséquente, sans compter qu’on ne pourra pas évaluer leurs rentabilités.

Afin de traiter cette complication, deux solutions sont envisageables. La première consiste à tenter de prédire le chiffre d’affaires des deux dernières années, néanmoins dans ce cas-ci on s’expose au risque d’obtenir des prédictions très éloignées de la réalité une fois que ces dernières seront connues. De plus, pour les contrats présents en portefeuille depuis seulement deux ou trois ans, la prédiction sera peu robuste puisqu’elle ne s’appuiera que sur quelques observations. Par le biais de la seconde option, on considère le dernier chiffre d’affaires connu, soit celui de l’année N-2, et on fait l’hypothèse que ce dernier est stable sur les trois dernières années, hormis si ce dernier est bien renseigné pour les années N-1 et N. Autrement dit, le chiffre d’affaires est identique pour les DOC N-2, N-1 et N. Bien que dégradée, cette solution semble être aujourd’hui la meilleure alternative, en attendant des éventuelles évolutions quant aux politiques de souscription et en particulier dans la mise à jour du chiffre d’affaires.

3.3.3 Base relative aux coeﬃcients de liquidation

Bien que le principal challenge consiste à modéliser les sinistres encore inconnus, il ne faut pas pour autant négliger les sinistres déjà connus et non clos. À cet eﬀet, il est important de projeter ces derniers à leurs ultimes de manière appropriée.

La méthodologie employée consiste à modéliser le coeﬃcient de liquidation permettant de passer de la valeur actuelle du sinistre à son ultime et ceci, en utilisant des caractéristiques intrinsèques à ce dernier telles que le montant déjà réglé ou encore le montant de PSAP. Pour ce faire, il y aura au préalable une phase d’apprentissage non-paramétrique dans un premier temps puis paramétrique sur les sinistres clos. Il est important de préciser que cette phase d’apprentissage est personnalisée pour chacun des sinistres non clos considérés puisque la base d’apprentissage sera diﬀérente pour chacun d’entre eux. A titre d’exemple, si le sinistre non clos considéré est ouvert depuis 100 jours à la date d’extraction, la base d’apprentissage personnalisée pour ce sinistre contiendra l’ensemble des sinistres désormais clos mais étant restés ouverts au moins 100 jours. Ainsi, on récupère au niveau sinistre et uniquement pour ceux qui sont clos, les variables suivantes :

• Le coût ultime du sinistre à sa clôture.

• Le coût prévisionnel brut de provision de recours (le montant déjà réglé diminué des recours encaissés auquel la PSAP est ajoutée) à l’instant le plus proche de la durée d’ouverture consi- dérée. En reprenant notre exemple précédent, si un sinistre désormais clos a été réévalué 90 jours après son ouverture puis 150 jours après son ouverture, on retiendra le coût prévisionnel brut de provision de recours le plus proche des 100 jours d’ouverture soit la première option.

Cette approximation provient du fait les sinistres ne sont pas réévalués de manière quotidienne mais seulement lorsque des informations additionnelles sont connues.

• La proportion de PSAP dans le coût prévisionnel brut de provision de recours à l’instant le plus proche de la durée d’ouverture considérée.

• La proportion de réglé diminué des recours reçus dans le coût prévisionnel brut de provision de recours à l’instant le plus proche de la durée d’ouverture considérée.

Afin de mieux visualiser les données considérées, une figure explicative est présentée ci-dessous, en reprenant l’exemple introduit précédemment :

(29)

3.4. CONCLUSION

Figure 3.4 – Données considérées pour un sinistre non clos ouvert depuis 100 jours

À titre indicatif, la trajectoire s’arrête au moment de la clôture et les points représentent les moments de réévaluation dans la vie du sinistre.

3.4 Conclusion

Pour résumer, la constitution des bases de données nous a contraints à prendre quelques partis pris. Tout d’abord, les charges sinistres ont été actualisées de manière annuelle et non mensuelle, faute d’avoir les dates de règlements de manière aisée. Ainsi, ceci pourrait mener à sous-estimer ou bien à surestimer la charge sinistre actualisée réelle. De plus, cette mise en as-if a été faite avec le BT01 qui est un indice relativement général. Néanmoins, l’actualisation avec un indice plus pertinent ne peut pas être mise en place compte tenu du fait qu’il est compliqué d’accéder aux circonstances sinistres et notamment à l’activité sinistrée. Enfin la récupération des chiﬀres d’aﬀaires constitue une réelle problématique, puisque l’on formule une hypothèse de stabilité sur les trois dernières années, alors que cette variable est probablement l’une des plus importantes pour segmenter le risque.

Nous pouvons désormais nous intéresser au cœur de cette étude : l’explication et la mise en place de la méthodologie permettant de projeter la sinistralité RCDO en tenant compte de la déformation du portefeuille.

(30)

(31)

Chapitre 4

Quelques éléments introductifs à la méthodologie

4.1 Introduction

Contrairement à la majorité des risques inhérents à l’assurance non-vie, le risque construction présente des particularités nécessitant de mettre en place une méthodologie adaptée, que ce soit pour l’étude de la rentabilité ou bien pour la tarification. En eﬀet, pour rappel, à la souscription d’un contrat en responsabilité civile décennale obligatoire (RCDO), la période de couverture s’étend sur dix ans à compter de la livraison du bien et ceci, pour l’ensemble des chantiers ayant été entrepris l’année de souscription en question, autrement nommée la DOC. Ainsi, l’extinction d’une DOC n’intervient que dix ou quinze ans après que cette dernière a commencé. Néanmoins, il serait absurde de ne s’appuyer uniquement que sur les DOC entièrement éteintes pour tarifer les DOC à venir. À cet eﬀet, dans le cadre de cette étude, nous mettons en place une méthodologie qui s’appuie sur l’ensemble des informations présentes dans les bases en découpant le problème par année de connaissance relativement à la DOC puis en mettant en place un modèle individuel à l’instar de ce qui est pratiqué fréquemment en assurance non-vie. Cette nouvelle approche présente comme principal avantage d’être dynamique. Autrement dit, les tarifs ou les rentabilités peuvent être réévalués à mesure que de nouvelles informations sont disponibles. De cette manière, on exploite de façon continue l’information qui est intégrée dans les bases de données.

Cette approche a pour ambition initiale de ne pas intégrer d’hypothèses fortes en amont de la modélisation. De cette manière et dans la mesure du possible, les solutions retenues seront celles qui correspondent le mieux aux problèmes et aux données, sans pour autant avoir spécifié de formes prédéterminées sauf pour satisfaire aux contraintes de l’entreprise mentionnées ultérieurement.

Enfin, cette nouvelle méthodologie peut être qualifiée de méthode hybride à mi-chemin entre la modélisation non-paramétrique et la modélisation paramétrique. En eﬀet, nous utiliserons aussi bien des algorithmes issus du Machine Learning comme des arbres CART, que des notions plus traditionnelles comme la vraisemblance, la censure. . .

(32)

CHAPITRE 4. QUELQUES ÉLÉMENTS INTRODUCTIFS À LA MÉTHODOLOGIE

4.2 Contraintes liées à l’entreprise

Contrairement à des sujets de types recherche et développement, la finalité de l’étude est soumise à quelques contraintes opérationnelles qui ont un impact non négligeable sur les choix de modélisation. En eﬀet, les souscripteurs veulent continuer d’utiliser un fichier Excel pour tarifer les garanties proposées aux prospects. À cet eﬀet, lors de la phase d’apprentissage il est possible d’utiliser des logiciels dédiés aux statistiques comme R mais au final lorsqu’il s’agira de prédire la sinistralité, nous ne pourrons pas y avoir recours.

Ainsi deux stratégies sont possibles pour satisfaire cette contrainte. Premièrement, on pourrait opter pour une approche entièrement non-paramétrique en considérant l’ensemble des combinaisons possibles de variables explicatives et en particulier, celles relatives à l’antériorité de la sinistralité qui sont des variables quantitatives. Néanmoins le temps de calcul deviendrait beaucoup trop conséquent avec une multitude de boucles et de cas diﬀérents. Quant à la seconde approche, elle consiste à créer des groupes de risques homogènes à l’aide des covariables autres que celles relatives à la sinistralité passée. Ces groupes sont constitués à l’aide d’une approche non-paramétrique en n’intégrant aucun apriori. La sinistralité passée d’un contrat donné est ensuite prise en compte via une approche paramétrique en spécifiant une forme prédéterminée. De cette manière, on tient compte de l’hétérogénéité au sein d’un groupe de risquesa priori homogènes. Dans le cadre de cette étude, nous avons retenu cette dernière approche.

4.3 Quelques informations sur les arbres CART

L’arbre CART (Classification And Regression Tree) est un algorithme fréquemment utilisé en Machine Learning et qui constitue la pierre angulaire de la nouvelle méthodologie mise en place dans le cadre de cette étude. Cette méthode de classification et de régression non-paramétrique développée par Breiman et al.(1984), peut être utilisée en tant que telle mais est aussi à la base de nombreux autres algorithmes deMachine Learning tels que lesrandom forrest ou encore legradient boosting machine.

Cette partie n’a pas pour vocation à fournir une liste exhaustive d’explications concernant les arbres de décision, seules quelques éléments généraux nécessaires à la compréhension du reste de la méthodologie seront présentés. Si le lecteur est intéressé, il pourra se référer à l’ouvrage original ou bien à la documentation relative à ce sujet.

4.3.1 Vocabulaire

Les arbres de décision font appel à un vocabulaire spécifique faisant référence au sens propre du mot arbre.

La racine contient l’ensemble de la population à segmenter. C’est en d’autres termes, le point de départ de l’algorithme. Par la suite, si la segmentation est pertinente, un nœud, qui contient une sous-population ou bien la population initiale de la racine, est subdivisé en deux sous-populations de tailles inférieures, homogènes tant sur les caractéristiques que sur la variable d’intérêt, via deux branches et une règle de décision renvoyant une réponse binaire de type oui/non. Enfin, lorsque pour une sous-population donnée il n’existe plus de segmentation pertinente, cette dernière constitue une feuille.

(33)

4.3. QUELQUES INFORMATIONS SUR LES ARBRES CART

Figure 4.1 – Exemple d’un arbre CART

Il y a deux types d’arbres : les arbres de régression et les arbres de classification. À l’instar des autres techniques de ce type, les arbres de régressions sont utilisés pour prédire des variables quantitatives, ainsi la prédiction correspond à la moyenne de la feuille. Quant aux arbres de classification, ils sont utilisés pour prédire des variables catégorielles comme la survenance d’événement ou non, et donc la prédiction correspond à la modalité la plus représentée à l’intérieur la feuille.

4.3.2 Intérêt des arbres CART

Contrairement à des modèles paramétriques comme les GLM, où la forme du prédicteur ou la classe de l’estimateur est spécifiée, les arbres CART sont des modèles purement non-paramétriques aboutissant à des estimateurs par morceaux qui sont construits de manière récursive. Ainsi, en ne partant d’aucunapriori, on ne spécifie aucune forme à l’estimateur. En d’autres termes, on n’impose aucune restriction aux estimateurs à considérer et a fortiori, on diminue la potentielle erreur de modèle. Cependant, quelques précautions doivent être prises pour limiter le sur-apprentissage.

4.3.3 Principe de segmentation d’un arbre CART

La segmentation d’un nœud répond à une procédure relativement précise. Il est nécessaire de choisir au préalable un critère d’homogénéité, comme l’erreur quadratique moyenne ou bien encore l’indice de Gini. Ensuite, pour chaque variable explicative, on teste tous les partitionnements lorsque cette dernière est quantitative ou toutes les modalités lorsqu’elle est catégorielle et on retient le partitionnement ou la modalité qui conduit aux deux sous-populations les plus homogènes. Une fois que ceci est eﬀectué pour l’ensemble des variables explicatives, on retient celle qui, via son partitionnement ou sa modalité optimale conduit à la plus grande homogénéité.

4.3.4 Construction de l’arbre maximal

Cet algorithme ne dispose pas de critère d’arrêt arbitraire ainsi, sauf contre-indication, l’algorithme ne s’arrêtera que lorsque les feuilles seront parfaitement homogènes. En d’autres termes, lorsque ces dernières seront constituées de sous-populations ayant les mêmes valeurs pour la quantité d’intérêt. L’arbre ainsi créé est appelé l’arbre maximal. Bien que les prédictions soient parfaites sur la base d’apprentissage, l’arbre maximal n’est absolument pas l’arbre optimal puisqu’on se situe typiquement en sur-apprentissage. À cet eﬀet, Il est nécessaire d’élaguer l’arbre maximal pour

(34)

CHAPITRE 4. QUELQUES ÉLÉMENTS INTRODUCTIFS À LA MÉTHODOLOGIE

obtenir l’arbre optimal, qui est de ce fait, le meilleur compromis entre la précision et le pouvoir de généralisation.

4.3.5 Construction de l’arbre optimal

En utilisant l’ensemble des données pour construire l’arbre, on s’expose très fortement au risque de sur-apprentissage. À cet eﬀet, la validation croisée permet de lutter contre ce phénomène. La construction de l’arbre optimal, s’appuie sur ce principe, en élaguant l’arbre maximal jusqu’à ce que l’erreur de validation minimale soit atteinte. Par ce biais, on conserve l’estimateur par morceaux le plus précis tout en évitant le sur-apprentissage. D’un point de vue pratique, on retient le coeﬃcient de complexité, qui est en réalité un paramètre detuning, qui minimise l’erreur de validation croisée.

Figure 4.2 – Illustration du sur-apprentissage des arbres CART 4.3.6 Principale critique sur les arbres CART

La principale critique qui peut être faite envers les arbres CART est son manque de robustesse.

En eﬀet, les résultats peuvent varier de manière notable suite à une modification mineure des données. Ainsi, les arbres CART sont rarement utilisés en tant que tel mais via une agrégation de ces derniers, autrement dit via desrandom forrest. Ceci permet de réduire la variance de l’estimateur et donc de le rendre plus robuste et stable.

Dans le cadre de cette étude, le recours à un arbre CART n’est qu’un moyen de constituer des groupes de risquesa priori homogènes tout en évitant le sur-apprentissage. La prédiction résultant de ce dernier n’est pas utilisée en tant que telle, elle sert simplement d’identifiant à analyse plus fine et plus ciblée du risque. Ainsi, nous sommes peu confrontés à ce problème de robustesse.

4.4 Approche méthodologique générale

Cette méthodologie de projection s’appuie sur deux points distincts :

• La projection de la sinistralité future jusqu’ici inconnue ;

• La projection à l’ultime de la sinistralité connue mais non close.

Les méthodologies relatives à ces deux aspects seront décrites brièvement dans la suite de cette partie. Toutefois, dans les deux cas, les données seront séparées en deux sous-ensembles distincts :