Mémoire présenté le : 15 septembre 2020
pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA et l’admission à l’Institut des Actuaires
Par : Pierre MARJOLLET
Titre : Nouvelles approches en tarification de produits santé pour expatriés
Confidentialité : NON (Durée : 1 an 2 ans)
Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus
Membres présents du jury de l’Institut des Actuaires
Signature
M. Lionel LAURENT
. . . . . . . .
Membres présents du jury de l’ISFA
M. Stéphane LOISEL
. . . . . . . .
Entreprise : SwissLife Prévoyance et Santé
Nom : Signature :
Directeur de mémoire en entre- prise :
Nom : M. Nicolas NEUVILLE Signature :
Invité : Nom : Signature :
Autorisation de publication et de mise en ligne sur un site de diffusion de documents actuariels (après expiration de l’éventuel délai de confidentialité) Signature du responsable entreprise
Signature du candidat
Résumé
Dans le contexte de création de normes de tarification en assurance non-vie, l’approche la plus employée pour la modélisation de la charge de sinistres est la décomposition fréquence × coût moyen par Modèles Linéaires Généralisés (MLG). Depuis plusieurs années les assureurs concentrent leurs efforts sur le développement de méthodes innovantes de modélisation en ayant recours notamment auMachine Learning.
Dans ce mémoire, le modèle classique de décomposition fréquence×coût moyen est rappelé et une étude du modèle de décomposition probabilité de consommer×consommation totale est entreprise. En plus d’une mise en oeuvre d’une modélisation MLG, le choix d’algorithmes d’ap- prentissage porte sur l’algorithmeClassification And Regression Tree (CART) et sur l’algorithme Gradient Boosting Machine (GBM).
L’application de la méthodologie retenue à la modélisation de la sinistralité d’un portefeuille de couverture d’assurance santé pour expatriés est détaillée. Le travail effectué porte sur les deux groupes de garanties présentant le montant le plus important de consommation d’un produit standard, à savoir les soins courants et l’hospitalisation.
Les étapes de cette modélisation comprennent une étude statistique de la base de données constituée ainsi qu’une description des hypothèses retenues dans le traitement et la mise en forme des données. Une présentation des résultats et une sélection des meilleurs modèles au sens d’un critère de sélection défini sont entreprises.
Les résultats de ces travaux montrent l’apport du machine learning dans la décomposition fréquence × coût moyen, sans pour autant remiser l’outil classique des modèles linéaires gé- néralisés. Ils mettent également en évidence des axes d’amélioration envisageables permettant éventuellement l’obtention de meilleurs performances, permettant une meilleure compréhension des influences des variables explicatives sélectionnées ou permettant une plus large généralisation des résultats.
Mots-clés:MLG,GBM,CART,tarification,assurance non-vie,fréquence× coût,probabilité de consommer ×coût
Abstract
In the context of expats health covers pricing, the most common undertaken approach isfrequency
×average cost method using Generalised Linear Models (GLM) framework. For years insurance companies have been focusing their efforts on the development of new pricing methods involving innovative machine learning methods.
The purpose of this thesis is to implement theclaim probability×total cost method using the GLM framework and two machine learning approachs, the Classification And Regression Tree (CART) method and the Gradient Boosting Machine method (GBM).
The realised work in this span from data gathering and structuring to pure premium compu- tation. This thesis focuses on two benefits categories of expat health covers: the outpatient and inpatient treatments.
The modelling steps include a statistical overview of the data and a detailed description of the hypothesis involved in the data preparation step. It includes a presentation of the modeling results and a selection based on a performance criteria of the best model.
This thesis emphasises the performance of the machine learning approach in the frequency× average total cost method. It also emphasises the versality of the GLM approach that remains pertinent even with the development of new strong methods. The conclusion highlights possible improvement developments to conduct. These developments would provide better results and it would allow a better explanatory variables effects on results explanation.
Keywords: GLM;GBM;CART;premium pricing;non-life insurance;frequency× average cost;claim probability × total cost
Remerciements
JesouhaiteremercierNicolasNEUVILLEpoursonaccompagnementdanslaconstructionet larédaction dece mémoire.
JetiensàadressermesremerciementsàMonsieurPhilippeGALASquiaassurél’encadrement en entreprise demon apprentissageetqui m’a faitconfiancet outa ul ongd ec edéveloppement.
Je remercie mon manager, Sébastien LEBRETON, et ma directrice de service, Delphine DROUET D’AUBIGNY, pour leur bienveillance et leurs encouragements tout au long de ce travail.
JeremercieégalementMonsieurFrédéric PLANCHET pourses conseilsetsadisponibilité.
J’adresse mes remerciements à tous mes collègues de travail, intervenants, camarades de promotion et professeursqui ont tous contribué, parde nombreux échanges, au développement de ce mémoire.
Enfin,jeremerciemamère,monpèreetmonfrèrepourleuraccompagnementetleursoutien inconditionnel toutau longde cestravaux.
Table des matières
Remerciements 3
Table des matières 6
Introduction 7
1 Cadre général de l’étude 9
1.1 L’assurance santé pour expatriés en France . . . 9
1.1.1 Une demande croissante . . . 9
1.1.2 Les acteurs de l’offre . . . 10
1.1.3 Les types de contrats . . . 10
1.1.4 Les mécanismes . . . 11
1.2 Les produits étudiés . . . 12
1.2.1 Les garanties santé . . . 12
1.2.2 Les conditions de souscription . . . 13
1.3 Enjeux pour l’entreprise . . . 14
1.3.1 Développer une expertise en santé standard individuel à l’international . . 14
1.3.2 Étayer statistiquement les prises de décisions tarifaires . . . 14
2 Le cadre théorique et méthodologique du travail de création de normes de tarification 15 2.1 Travaux préparatoires . . . 16
2.1.1 Variables d’intérêts . . . 16
2.1.2 Traitement des sinistres graves . . . 17
2.1.3 Analyse descriptive, sélection de variables et segmentation . . . 17
2.2 Travaux de modélisation . . . 18
2.2.1 Choix des modèles . . . 18
2.2.2 Choix d’algorithmes d’apprentissage . . . 22
2.2.3 Pouvoir de prédiction . . . 33
3 Etude d’un portefeuille 35 3.1 Recueil et préparation des données . . . 35
3.1.1 Les sources . . . 35
3.1.2 Les produits. . . 36
3.1.3 Préparation . . . 38
3.2 Sélection des grands postes à modéliser. . . 39
3.2.1 Exposition par grand poste . . . 39
3.2.2 Dépenses annuelles par grand poste. . . 40
3.2.3 Choix et motivations . . . 40
3.3 Statistiques descriptives . . . 42
3.3.1 Séparation des sinistres attritionnels et graves . . . 42
3.3.2 Etude de la fréquence de survenance de sinistres hospitalisation . . . 43
3.3.3 Âge atteint au début de la période d’étude. . . 43
3.3.4 Pays d’expatriation. . . 44
3.3.5 Sexe . . . 45
3.3.6 Qualité du bénéficiaire . . . 45
3.3.7 Exposition. . . 45
3.3.8 Type de prestations . . . 46
3.3.9 Niveaux de garantie . . . 46
3.4 Zonage . . . 47
3.4.1 Description . . . 47
3.4.2 Présentation des résultats . . . 47
3.5 Analyse des corrélations . . . 50
3.5.1 Corrélations entre variables explicatives . . . 50
3.5.2 Corrélations entre variables explicatives et variables dépendantes . . . 50
3.5.3 La survenance. . . 50
3.5.4 Le montant de prestations pris en charge par l’assureur . . . 53
3.6 Conclusion modalités de référence. . . 56
3.7 Création de la base d’apprentissage . . . 56
4 Modélisations et résultats 57 4.1 Modélisation de la médecine courante. . . 57
4.1.1 Probabilité de consommer . . . 57
4.1.2 Consommation annuelle . . . 58
4.2 Modélisation des frais d’hospitalisation . . . 62
4.2.1 Probabilité de consommer . . . 62
4.2.2 Consommation annuelle . . . 63
Conclusion 69
Table des figures 71
Bibliographie 73
Introduction
Les activités d’assurance liées à l’expatriation, et plus particulièrement à l’assurance santé, connaissent une importante croissance sous l’impulsion de la mondialisation dès l’après-guerre.
La date charnière de la création de la Caisse des Français à l’Etranger en 1978 marque le début d’une période d’intenses mutations sur un marché encore en devenir.
D’abord destinée aux entreprises et de manière plus générale aux organisations souhaitant fournir une couverture santé à leurs collaborateurs, l’assurance santé s’est développée petit à petit pour les particuliers sous l’impulsion d’acteurs toujours plus nombreux sur ce marché. Souvent qualifié de niche, le marché de l’assurance santé pour expatriés est d’abord un marché d’experts où la connaissance des habitudes de consommation et la capacité de répondre efficacement aux attentes des assurés sont réservées à des acteurs présents sur le ce segment de longue date.
Comme beaucoup d’assureurs privés, Swisslife a fait son entrée sur ce marché sur le segment de l’assurance collective destinée aux entreprises il y a une vingtaine d’années. Les produits alors proposés étaient des produits collectifs sur-mesures. Ce n’est que depuis une dizaine d’années, devant une demande toujours plus croissante des particuliers pour des couvertures santé à l’in- ternationale, que Swisslife développe, en partenariat avec des courtiers gestionnaires spécialisés sur le marché, des produits standards d’assurance santé pour particuliers.
Avec une volonté affichée de développer son expertise sur ce marché, plusieurs projets de conception de normes de tarifications ont vu le jour dans les équipes dédiées à la souscription et à la tarification de l’offre internationale. Nous pouvons citer (B. Seguin, (2013))[12], un rapport interne explorant la méthode de décomposition fréquence-coût moyen par une approche avec les Modèles Linéaires Généralisés sur le portefeuille d’un partenaire. En 2018 a été soutenu un mémoire pour l’obtention du titre d’actuaire (T. Lago 2018)[6] qui s’est intéressé aux innovations que permet le machine learning en matière de tarification. L’approche retenue a alors était la décomposition classique fréquence-coût-moyen.
L’objet des travaux entrepris à fin 2018, à l’origine de la présentation de ce mémoire, est la modélisation des frais de soins de produits santé à destination d’expatriés sur des bases de données plus larges que celles sur lesquelles reposent les études précédentes.
Les références dans le domaine de la tarification non-vie sont très abondantes. D’abord explo- rées par approches paramétriques avec les modèles linéaires et les modèles linéaires généralisés, les méthodes issues du machine learning ont ensuite été appliquées à ces problématiques avec succès.
Le travail de création de normes de tarifications repose sur le recueil de données, sur leur fiabilisation et leur interprétation, et enfin sur la construction de modèles tarifaires. Sur Nous sommes parfois contraints d’oeuvrer avec des données parfois de qualité médiocre, ne permettant pas la mise en oeuvre de modélisations classiques telles que la décomposition fréquence-coût.
Devant un choix restreint de modélisations envisageables découlant dans notre cas particulier d’un manque de fiabilité des données de décompte du nombre de prestations dans les bases de sinistres de gestion, une exploration de la décomposition probabilité de consommer - coût est entreprise. Ne se limitant pas à l’étude de la problématique à travers le prisme des modèles
linéaires généralisés, le choix est fait d’inclure des méthodes issues dumachine learning. Ainsi, ce mémoire fait appel aux arbres de régression, plus précisément les Classification And Regression Trees, et au Gradient Boosting Machine (GBM).
La restitution réalisée ici de ces travaux s’organise en 4 parties afin de répondre à la probléma- tique de modélisation de la sinistralité de produits d’assurance santé pour expatriés. Le premier chapitre est consacré à un exposé des spécificités des produits d’assurance étudiés qui guident les choix faits dans le chapitre 2 consacré au développement du cadre théorique et méthodologique des travaux entrepris. Enfin les 2 derniers chapitres sont dédiés à la mise en oeuvre de la démarche présentée, à savoir une étude statistique de la base des données et la présentation des résultats.
Outre les 2 références évoquées plus haut, le travail entrepris ici se base sur des ouvrages de référence. Le premier est (Mc Cullagh et Nelder, 1989) [9] qui présente de façon très pédagogue les Modèles Linéaires Généralisées. Le second est (Breiman et al., 1984)[4] qui introduit l’algorithme CART de manière théorique en proposant des exemples permettant de s’approprier clairement et rapidement les notions exposées. Enfin, la richesse des expositions et démonstrations détaillées dans le cadre de la théorie de la tarification en assurance non-vie dans (M Denuit et A. Charpen- tier, 2004)[7] ont aiguillé les raisonnements tout au long de ce travail. La réflexion est également nourrie des travaux réalisés dans le cadre de mémoires d’actuaires. Ainsi, les réflexions dans (JM Aouizerate, 2010)[2] autour de l’introduction d’un taux de couverture comme indicateur du niveau de garantie seront évoquées. Le formalisme de la démarche de comparaison et de présentation des méthodes de tarification classiques type MLG avec des méthodes issues du machine learning développé dans (R. Bellina, 2014)[3] a servi de socle aux travaux présentés ici.
Chapitre 1
Cadre général de l’étude
Afin de saisir tout l’enjeu et toutes les particularités de l’assurance santé pour expatriés qui ont motivé les choix de modélisation réalisés, après avoir défini les champs d’application de cette assurance, l’articulation des activités entre le ou les preneurs de risque, les courtiers et les délégataires de gestion est présentée. Ensuite les différents produits et leurs garanties rencontrés généralement sur ce marché sont décrits. Enfin les enjeux que représente le travail effectué pour la société d’assurance sont mis en évidence.
1.1 L’assurance santé pour expatriés en France
1.1.1 Une demande croissante
En se basant sur le rapport 2017 du gouvernement sur la situation des français à l’étranger, le nombre d’inscrits au registre d’expatriation du ministère des affaires étrangères [5] est en constante augmentation depuis 10 ans, avec une croissance globale sur cette période de près de 30% et un taux de croissance moyen annuel de 3.4%.
Figure 1.1 – Evolution du nombre d’expatriés inscrits au registre
1.1.2 Les acteurs de l’offre 1.1.2.1 Les porteurs de risque
Les assureurs présents sur ce marché sont relativement peu nombreux. Sont présents les acteurs majeurs de l’assurance en France comme Axa, Allianz, Generali et SwissLife. Dans une moindre mesure, la sécurité sociale et ou la Caisse des Français à l’Etranger (C.F.E.) peuvent garantir des prestations aux expatriés, mais le niveau des garanties proposées, puisque basé sur les coûts des frais de santé en France, se retrouve bien souvent insuffisants.
1.1.2.2 Les courtiers
Le courtage est le canal de distribution privilégié pour les produits d’assurance à destination des expatriés. On retrouve sur ce marché April, Henner, MSH, BDAE (un des plus importants courtiers en santé en Allemagne). Chaque courtier dispose généralement d’une plateforme in- ternet, et d’une forte expertise dans ce domaine d’assurance, leur permettant de satisfaire au mieux les exigences de conseil qui leur incombent. La présence d’un courtier dans le montage d’un produit entraîne inéluctablement la présence de frais, participant à l’augmentation de la prime commerciale demandée pour une couverture santé pour expatriés.
1.1.2.3 Les délégataires de gestion
Swisslife travaille exclusivement avec des délégataires de gestion pour l’assurance santé in- ternationale. Ces délégataires peuvent également détenir le rôle de courtiers pour les produits qu’ils gèrent. Bien que déchargeant l’assureur d’une activité, la délégation de gestion présente toutefois un coût financier et un coût en termes d’organisation. En effet, avec le durcissement des exigences sous solvabilité 2 et l’entrée en vigueur du Règlement Général sur la Protection des données, l’assureur doit s’assurer d’une part de la sécurité des données des assurés échangées avec le délégataire, surtout lorsque celles-ci sont d’ordre médical, et d’autre part de la bonne qualité des reporting, lui permettant de connaître au mieux le risque qu’il porte.
1.1.2.4 Les réseaux de soins
Il n’est pas rare de croiser des délégataires de gestion disposant d’un réseau de soins pour la prise en charge directe des dépenses de santé. Ce genre de réseau, si la maille est suffisamment fine sur le territoire, facilite la prise en charge des assurés qui n’ont pas à avancer les fonds pour se faire soigner. Cela leur économise également la procédure de demande de remboursement a posteriori qui peut se révéler chronophage.
1.1.3 Les types de contrats
Comme évoqué un peu plus haut, l’Assurance Maladie locale ou du pays d’origine par exemple peut prendre en charge, sous certaines conditions, une partie des dépenses de santé des expatriés. Par ailleurs, le contrat d’assurance peut être souscrit par des particuliers ou bien par leur employeur, la distinction entre contrat collectif et contrat individuel est nécessaire.
Enfin, une dernière distinction est faite selon le caractère du départ à l’étranger : expatria- tion ou détachement professionnel. Toutes ces caractéristiques conduisent à une relative grande diversité des types de produits proposés
1.1.3.1 Complémentaire et 1er euro
Ces notions, et les mécanismes sous-jacents sont fondamentaux pour la compréhension des produits proposés. Les garanties peuvent être définies en complément d’une ou plusieurs autres couvertures. Par exemple, un salarié affilié à la C.F.E. peut choisir, pour compléter sa couverture s’il le trouve opportun, de souscrire à une assurance complémentaire privée. Cette dernière ne prendra en charge que tout ou partie des frais de santé restant à la charge de l’assuré après l’intervention de la C.F.E. dans l’exemple. Dans la majorité des cas, l’intervention de la couver- ture complémentaire est conditionnée par l’intervention de la couverture qui est complétée. On retrouve ici un mécanisme bien connu en France avec la complémentaire santé.
A l’inverse, une couverture dite au 1er euro prendra en charge les sinistres directement après déduction d’éventuelles franchises.
1.1.3.2 Individuel et collectif
Avec la généralisation de la complémentaire santé en France, les entreprises françaises expa- triant leurs salariés sont obligées de souscrire à une assurance collective. Plus généralement, beau- coup d’entreprises à l’étranger, et surtout dans les pays germaniques ou anglo-saxons proposent des couvertures collectives à leurs salariés. Ce faisant, une demande croissante est observée de la part de ces entreprises en matière de protection santé collective pour expatriés. Cette évolution se fait au détriment de l’assurance individuelle, plus traditionnelle, mais qui reste toute de même en nette croissance.
1.1.4 Les mécanismes
L’assurance santé pour expatriés présente des spécificités de montage des produits afin de répondre au mieux aux demandes des assurés, des courtiers et des gestionnaires et de faciliter la gestion et le déploiement des solutions d’assurance. Concernant le déploiement des solutions d’assurance, il convient d’évoquer le cadre réglementaire européen de la zone de Libre Prestation de Services (LPS) offrant à une société d’assurance de couvrir à partir de l’Etat membre dans lequel elle est implantée un risque située dans un autre Etat.
1.1.4.1 Les montages associatifs
D’un point de vue juridique, l’assuré ne souscrit pas directement son assurance auprès d’un assureur, mais adhère à un contrat collectif à adhésion facultative souscrit par une association.
Dès lors le contrat est collectif, mais les règles de souscription sont semblables à celles des contrats individuels, notamment concernant celles permettant de se prémunir de l’antisélection.
Par ce montage, les informations des adhésions et de la vie du contrat des assurés transitent par différents acteurs, qui dès lors influenceront la qualité des données remontées.
Le processus d’adhésion passe généralement par l’intermédiaire d’un courtier (apporteur) qui collecte les informations nécessaires de l’assuré pour le conseiller. Une fois l’assuré ayant pris la décision d’adhérer, le délégataire de gestion enregistre l’adhésion de l’assuré, émet les primes, paie les sinistres, et plus généralement gère les flux d’informations avec celui-ci.
Figure 1.2 – Montage classique en assurance santé pour expatriés
1.1.4.2 Libre Prestation de Service
Par directives européennes, toute société d’assurance disposant des agréments nécessaires à l’exercice d’activité dans son pays d’origine membre de l’Union Européenne, délivrés par le régulateur de son pays d’origine, est libre de proposer ses services sur l’ensemble du territoire de l’Union Européenne.
Cette liberté élargit les frontières aux assureurs européens qui désormais peuvent proposer leurs services à l’étranger. La population alors assurée n’est plus forcément d’origine française, avec des habitudes de consommation locales qu’un assureur français connaît bien, mais présente potentiellement des habitudes de consommation différentes respectives d’autres populations.
1.1.4.3 Réassurance
La réassurance est certes une façon de se couvrir pour l’assureur ou de profiter des bases de tarification plus larges du réassureur lorsqu’il souhaite développer des activités nouvelles. C’est aussi une façon de tisser des liens dans le monde entier afin d’accéder à de nouveaux marchés et ainsi à ne pas se limiter à l’assurance de ressortissants européens.
En effet, l’assureur doit disposer d’un agrément dans chaque pays hors Union Européenne où il souhaite développer une activité en étant "fronteur". Pour contourner cette nécessité d’agrément, l’assureur peut se placer en cessionnaire d’un assureur local, qui sera fronteur dans le pays cible, et qui lui transférera tout ou partie de son risque dans le cadre d’un traité de réassurance en quote-part.
1.2 Les produits étudiés
1.2.1 Les garanties santé
Les garanties proposées peuvent être distinguées par grand poste et par poste. Dans le tableau 1.3 ci-dessous, qui peut être plus moins affiné par contrat, nous retrouvons les 5 grands postes classiquement évoqués en assurance santé, à savoir l’Hospitalisation, la Médecine Courante, la Maternité, l’Optique et le Dentaire.
Alors qu’en France, les frais de santé pris en charge par les complémentaires sont majo- ritairement les frais d’optique et de dentaire, en assurance pour expatriés, ce sont les frais d’hospitalisation et de médecine courante qui occupent les premiers rangs. En effet, même dans le cas de contrats en complément d’un régime de base type Caisse de Français à l’Etranger (C.F.E.) ou de la sécurité sociale française, les niveaux de garantie étant établis selon les frais de soin en France, le reste à charge de l’assuré en cas d’hospitalisation par exemple peut être très important.
Figure 1.3 – Classification des actes médicaux
1.2.2 Les conditions de souscription
Bien que variant d’un produit à l’autre, des similitudes se retrouvent parmi les conditions de souscription de chaque produit d’assurance santé pour expatriés qu’il convient de souligner.
1.2.2.1 Les délais de carence
Afin d’éviter des phénomènes d’anti-sélection, les assureurs mettent généralement en place des délais de carence. Les garanties principalement concernées sont :
— La maternité : entre 9 et 12 mois de délai de carence
— Le dentaire : généralement 6 mois, avec suppression du délai de carence en cas d’accident
— L’optique : comme pour le dentaire, généralement 6 mois, avec suppression du délai de carence en cas d’accident. Un délai de carence supplémentaire peut être rencontré pour la garantie chirurgie réfractive de l’œoeil.
1.2.2.2 Plafonds de garanties et franchises
Les différences de plafonds de garanties entre produits et niveaux de couverture sont bien plus importantes que les différences en termes de délais de carence.
Les plafonds de garanties peuvent s’exprimer en montant global annuel ou en montant par acte ou en nombre d’actes ou en durée de prise en charge.
Comme pour la prise en compte de délais de carence, la prise en compte de plafonds de garantie nécessite une attention particulière.
Certaines garanties présentent des franchises annuelles fixes et toutes présentent un taux de prise en charge, qui, s’il est inférieur à 1, induit un rest à charge à l’assuré.
Plafonds et franchises constiuent un niveau de garanties. Ce niveau de garanties produit des effets sur le comportement des assurés.
1.2.2.3 Les garanties annexes
Lors d’une expatriation, il peut être intéressant pour un assuré de souscrire des produits garantissant d’autres risques rencontrés en expatriation.
— Prévoyance: capitaux décès, rentes incapacité/ invalidité, indemnités journalières, rente de conjoint, rente éducation. Les garanties sont tout à fait semblables à celles proposées en France, à ceci près qu’elles peuvent être au 1er euro.
— Assistance: couvrant généralement le rapatriement, l’envoi de médicaments introuvables sur place, et le séjour d’un proche en cas d’hospitalisation, il peut être intéressant de souscrire à une telle couverture étant donné les frais importants pouvant être engagés.
— Dommages aux biens : principalement destinées à assurer les bagages et les effets personnels des expatriés pendant leur voyage, cette couverture garantie les objets contre la casse ou le vol, propose des solutions en cas de perte ou de vol des papiers d’identité ou des cartes de crédit.
— Responsabilité civile : comme en France, s’assurer pour les dommages causés aux tiers non intentionnellement peut faire partie des préoccupations des expatriés. Certains contrats proposent également une responsabilité locative.
Comme l’assurance santé est généralement la première préoccupation des expatriés, les solutions d’assurances listées ci-dessus sont considérées comme annexes au contrat santé.
1.3 Enjeux pour l’entreprise
Avec une présence sur le marché de l’assurance santé pour expatriés depuis plusieurs années et une forte croissance de la demande, la création de normes de tarification apparaît primordiale et revêt de multiples enjeux.
1.3.1 Développer une expertise en santé standard individuel à l’international Comme évoqué précédemment, les principaux acteurs avec le degré le plus élevé de connais- sance de ce marché sont les courtiers sur lesquels les assureurs se sont longtemps reposés pour la mise en place de ces produits d’assurance spécifiques. Avec le recul que donne l’historique du portefeuille santé standard individuel, l’enjeu pour Swisslife est de rationaliser ses connaissances afin de développer petit à petit un niveau d’expertise comparable à celle de ses courtiers par- tenaires afin d’être toujours plus à même de proposer des produits répondant pleinement aux attentes des assurés en termes de tarifs et de garanties.
1.3.2 Étayer statistiquement les prises de décisions tarifaires
Le développement de normes de tarification résulte de la volonté d’ancrer toujours plus profondément dans le processus de prise de décision des outils statistiques fiables permettant une juste évaluation des engagement pris envers les assurés par le biais de contrats d’assurance.
Ces outils sont de première importance lorsqu’il s’agit de définir un positionnement tarifaire d’un produit en fonction des garanties proposées.
Chapitre 2
Le cadre théorique et méthodologique du travail de création de normes de tarification
Figure 2.1 – Orgaisation des travaux
Des études et modélisations des frais de santé de produits pour expatriés ont été réalisées par le passé au sein de Swisslife par d’autres étudiants en alternance. Ce mémoire s’appuiera sur une référence interne, (B. Seguin 2012)[12], posant les premiers jalons du projet de conception de normes de tarification en mettant en oeuvre une première modélisation par MLG des frais de soins réels par décomposition fréquence-coût. Il s’appuiera également sur un mémoire d’actuaire, (T. Lagos, 2017)[6], présentant l’apport du machine learning dans le cadre de la modélisation de frais de santé par décomposition fréquence-coût moyen.
2.1 Travaux préparatoires
2.1.1 Variables d’intérêts
La prime pure s’entend comme la contrepartie financière demandée par l’assureur pour assumer en totalité, sans pertes ni excédents, l’ensemble des prestations dues au titre de ses engagements auprès de chaque assuré.
Notéeπ, elle minimise l’écart quadratique moyen avec S, le montant total de sinistre d’un assuré au cours d’une année, pour un grand poste donné. On l’estime par
ˆ
π =argmin
π∈R+
E[(S−π)2] 2
En réécrivant l’expression à minimiser
E[(S−π)2] =E[(S−E[S] +E[S]−π)2]
=E[(S−E[S])2] + 2 (E[S]−π)E[S−E[S]]
| {z }
=0
+ (E[S]−π)2
=E[(S−E[S])2] + (E[S]−π)2
AlorsE[(S−E[S])2]atteint son minimumE[(S−E[S])2]en π =E[S].
On en conclut que
ˆ
π =E[S] (2.1)
Une méthode envisageable pour la modélisation de l’ensemble des frais de soins par assuré est de modéliser la sinistralité garantie par garantie. Par sinistralité, on entend ici les prestations payées par l’assureur à l’assuré ou au professionnel de santé dans le cas d’un tiers payant au cours d’une année d’assurance. La notion de sinistre employée n’est pas rattachée, comme dans la grande majorité des autres produits d’assurance, à la notion de fait générateur. Un sinistre correspond ici à un acte de soins.
Une base de données exploitable à la granularité "garantie" devrait compter un nombre important de lignes et la saisie par les gestionnaires de la garantie mise en jeu pour chaque acte ne devrait souffrir d’aucun doute quant à sa fiabilité. Afin de palier à ces 2 problématiques, nous choisissons d’orienter notre réflexion vers une granularité moins fine et modélisons les frais de soins par "grand poste". Le détail des grands postes rencontrés au détour de tableaux de garanties santé internationale est présenté au chapitre 1.
Dès lors, nous modélisons 5 des 6 grands postes et agrégeons leurs résultats par une somme.
Pour le grand poste intitulé "Autres", il s’agit de la réunion de toutes prestations relatives à des garanties atypiques et non prises en charge par tous les produits étudiés. On y retrouve par exemple les dépenses liées au traitement de la fertilité ou les cures thermales. Ce 6e grand poste n’est pas modélisé par manque de données.
2.1.2 Traitement des sinistres graves
Dans les approches de modélisation détaillées un peu plus bas, il peut être judicieux de traiter séparément les sinistres dits extrêmes des sinistres attritionnels afin d’améliorer les per- formances des modèles obtenus. Plusieurs méthodes pour la modélisation des sinistres extrêmes sont envisageables.
Une approche naïve qui consiste à calculer une sur prime égale au coût moyen par année d’exposition des sinistres graves sur l’ensemble du portefeuille peut être retenue.
Il existe des méthodes graphiques issues de la théorie des valeurs extrêmes qui permettent d’identifier le seuil de séparation entre les sinistres graves et les sinistres attritionnels. La méthode graphique qui sera retenue dans le cadre de cette étude est celle relative au tracé de la Mean Excess Function (MEF). Cette fonction représente la moyenne des observations dépassant un u.
Soit Y une variable aléatoire réelle d’espérance finie. La fonction MEF est défini par
∀u∈R, e(u) =E[X−u|X > u]
Le package R ’evir’ propose une fonction meplot() estimant cette fonction. Le seuil de séparation sera défini en abscisse de la première rupture de linéarité des points. Suivant la forme de la courbe au-delà de ce seuil, il est possible de déterminer le type de loi que les valeurs extrêmes suivent.
Par exemple,la fonction est croissante au-delà du seuil, cela pourrait correspondre à une loi de Pareto généralisée.
2.1.3 Analyse descriptive, sélection de variables et segmentation
Par cette analyse, nous cherchons à identifier le comportement des variables explicatives entre elles et à dégager une liste de variables explicatives significatives dans leurs interactions avec les variables d’intérêts. En outre, cette analyse permet de comprendre le portefeuille et d’identifier d’éventuelles lacunes en termes de qualité de la donnée.
Suivant le type de variables, l’analyse met en jeu différents outils statistiques tels que l’analyse de la variance (anova), le test du khi2. Les fondements théoriques de ces outils ne font pas l’objet d’une description dans le corps de ce mémoire.
La segmentation est le regroupement de de la population selon ses caractéristiques (variables explicatives) en groupes homogènes de risque. Dans ce mémoire dédié à la modélisation des frais de soins à l’international, nous identifions 2 travaux sensibles de segmentation tarifaire à mener. Le premier est relatif au zonage tarifaire. Le second, découlant de la grande diversité des conditions de souscriptions, de l’information sur le ratio de couverture.
2.1.3.1 Le zonage
Pour une couverture santé internationale, le zonage est une étape essentielle de la tarification.
En effet, les prestations de santé peuvent fortement varier d’un pays d’expatriation à un autre.
Il est alors nécessaire de segmenter le tarif suivant le pays d’expatriation. Cela se traduit par la prise en compte par les variables explicatives de la zone géographique du risque. Afin de rendre un tarif lisible et pour prévenir un manque de données suite à une segmentation trop fine, la segmentation tarifaire selon la zone géographique du risque prévoit généralement 3 ou 4 groupes de pays d’expatriation.
Nous décrivons ici la méthode retenue de d’agrégation territoriale et l’algorithme de classifi- cation couramment utilisé qui a retenu notre attention dans notre projet, à savoir l’algorithme des k plus proches voisins.
Étape 1 : Agrégation par pays
A cette étape, nous agrégeons par pays d’expatriation le nombre de sinistres observés et le nombre d’assurés présents dans la base destinée à l’évaluation de la probabilité de consommer.
Pour le montant annuel de prestation, nous agrégeons les montants totaux de prestation et l’exposition.
Étape 2 : Seuil minimal d’exposition et agrégation préalable
Un seuil raisonnable d’exposition minimal est défini en-dessous duquel le pays concerné est agrégé à une maille géographique supérieure arbitraire, définie en cohérence avec l’observation des tarifs par zone pratiqués par les différents produits composant notre portefeuille.
Étape 3 : Évaluation des indicateurs pour la classification
Pour la probabilité de consommer, il s’agit de, à la maille géographique retenue, calculer le rapport entre le nombre de sinistres observés et le nombre d’assurés. Pour les montants, il s’agit de diviser les montants totaux annuels par l’exposition totale.
Étape 4 : Application de l’algorithme de clustering
Dans cette étude nous retiendrons l’algorithme des k plus proches voisins afin de regrouper en 3 zones les pays d’expatriation.
2.1.3.2 Ratio de couverture
L’objet de cette étude est de modéliser les prestations de santé qu’est amené à verser l’assu- reur. Le montant de ces prestations dépend notamment des niveaux de garantie distingués par la présence de franchises et de plafonds. Devant la grande diversité des tableaux de garanties nous introduisons la notion de taux de couverture. Cette notion apparaît dans les travaux (JM.
Aouizerate, 2010)[2]. Elle est ici simplifiée, le taux de couverture est calculé naïvement par assuré et placé en variable explicative. Cette démarche a notamment été adoptée par (T. Lago, 2018)[6]. Ce taux de couverture est bien un indicateur du niveau de garantie en cela qu’il intègre l’application d’éventuelles franchises et ou plafonds. Le taux de couverture est défini par
tcouv= prestations d’assurance frais de soins
L’introduction de cette notion nécessitera pour le travail de prédiction l’évaluation du ratio de couverture moyen attendu pour un nouveau tableau de garanties à tarifer. Une méthode pourrait consister en l’application de ce nouveau tableau à la base de sinistres constituées pour cette étude et à calculer par segment tarifaire retenu un taux moyen de couverture. Nous identifions ici une méthode à mettre en oeuvre ultérieurement pour rendre opérationnel les modèles obtenus.
2.2 Travaux de modélisation
La première étape du travail de modélisation, est de choisir quelle modélisation retenir en fonction de l’objectif recherché et des éventuelles observations apportées par les travaux pré- liminaires. La seconde étape est le choix de méthodes statistiques et d’apprentissage à mettre en oeuvre en accord avec la modélisation retenue. Enfin vient la phase d’implémentation et d’obtention des résultats, d’optimisation et de sélection de modèles.
2.2.1 Choix des modèles
Nous présentons ici 2 modélisations possibles de la sinistralité en assurance non-vie, la dé- composition fréquence - coût moyen et la décomposition probabilité de consommer - coût total et motivons le choix du modèle retenu.
2.2.1.1 Modèle 1 : Approche décomposition fréquence - coût moyen Hypothèses
— N ∈ N le nombre de sinistres d’un assuré sur la période d’observation
— {Yi}{i∈[[1,N]]} une suite variables aléatoires réelles indépendantes identiquement distribuées représentant les montants individuels de chaque de sinistre
— S =
N
P
i=1
Yi alors le montant total de sinistres pour l’assuré pour la période d’observation L’objectif est donc de modéliser S pour tous les profils d’assurés. Nous nous proposons d’utiliser la méthode de décomposition fréquence-coût moyen
En supposant l’indépendance entre la fréquence des sinistres et leurs montants, on obtient E[S] = E[N]×E[Y]
En effet, en faisant appel au conditionnement,
E[S] =E[
N
X
i=1
Yi]
=E[E[
N
X
i=1
Yi|N =n]]
=E[N ×E[Y]]
=E[N]×E[Y]
Nous devons porter une attention particulière à la durée d’exposition au risque. En effet, nous cherchons à modéliser les frais de soins annuels. La durée d’exposition au risque s’entend comme la durée, sur la période d’étude définie, pendant laquelle l’assuré est couvert par les garanties souscrites. Elle court de la date d’adhésion au contrat au plus tôt ou la date de début de période d’étude au plus tard à la date de sortie du contrat ou la date de fin de période d’étude si la première intervient avant la seconde
En supposant que la charge moyenne par sinistre ne dépende pas de l’exposition, seule la fréquence de sinistre se trouve liée à l’exposition. Cette hypothèse n’est pas vérifiée dans le cas d’une longue exposition, le risque santé dérivant lentement avec l’âge de l’assuré. En supposant que les dates de survenance des sinistres sont équiréparties sur une année de couverture et sur l’ensemble de la période d’exposition observée, nous pouvons introduire la notion de fréquence annuelle définie comme le rapport du nombre de sinistres pendant la période d’exposition observée sur la durée d’exposition observée en années :
fréquence annuelle= fréquence exposition
Pour résumé, les 4 hypothèses sous-jacentes à cette modélisation sont l’indépendance des sinistres d’un assuré entre eux, l’indépendance entre le coût des sinistres et leur fréquence, l’indépendance entre la durée d’exposition et le coût moyen des sinistres et enfin l’équirépartition des sinistres sur la période d’exposition.
2.2.1.2 Modèle 2 : Approche décomposition indicatrice sinistralité-coût total Une seconde approche serait de considérer la charge de sinistre comme le produit entre une indicatrice valant 1 si consommation il y a et le montant moyen de consommation annuelle.
Plus formellement, en reprenant les notations introduites pour la décomposition fréquence coût
moyen, il s’agit d’écrire S selon la partition N = 0 et N >0 et calculer E[S] en appliquant le théorème de l’espérance totale selon cette même partition
S= 11{N=0}×S+ 11{N >0}×S
avec M le montant moyen total de consommation sachant que consommation il y a eu. Nous cherchons ensuite l’espérance de cette variable aléatoire afin d’évaluer la prime pure
E[S] =P(N = 0)×E[S|N = 0]
| {z }
=0
+P(N >0)×E[S|N >0]
=P(11N >0 = 1)E[S|11N >0 = 1]
En d’autres termes, la prime correspond au produit entre la probabilité de consommer et l’espérance du montant total de consommation si consommation il y a eu.
La durée d’exposition comme définie précédemment est plus complexe à appréhender dans cette modélisation.
Prise en compte de l’exposition dans le coût
Prenons un assuré présentant un montant YE de prestation sur sa période d’exposition no- tée E. Nous pourrions définir un montant de consommation annuelle, à la manière dont nous avons défini une fréquence annuelle dans le modèle précédent en divisant le montant total par l’exposition :
Y = YE E .
Cette approche ne convient cependant pas. En effet, nous cherchons à définir un montant an- nuel de consommation s’il y a eu consommation dans l’année. Ainsi, si sur sa période d’exposition E, l’assuré n’a consommé que sur une partie de la période, prenons pour exemple la première année d’exposition, alors sa consommation annuelle sachant qu’il y a eu consommation dans l’année estYE. Prendre la moyenne pondérée par l’exposition, est alors minorer la consommation annuelle si consommation dans l’année il y eu.
Nous proposons de découper la période d’exposition E en tranches annuelles. Dans notre étude, l’exposition maximale est de 4 ans. Notons (Et)t∈[[ 1;4 ]] la suite de des tranches annuelles de E vérifiant :
—
4
P
t=1
Et = E
— ∀t∈[[1; 4]], Et=max(0, min(1, E−(t−1)))
NotonsUE l’ensemble des indices de tranches annuelles présentant une sinistralité.
Notons YE le montant de prestations total sur la période d’exposition E. Pour chacune des tranches Et avec t dans [[ 1 ;4 ]], nous notons YEt le montant total de prestations versées sur la tranche Et. Naturellement, nous avons l’églité suivante :
Y = X
t∈[[ 1;4 ]]
YEt
Nous définissonsYt le montant annuel de prestations versées sur la tranche t : Yt= YEt
Et
Enfin, nous retenons le montant annuel de consommation pour l’assuré comme la moyenne pondérée suivante :
Y = P
t∈UE
Yt × Et
P
t∈UE
Et
Qui s’écrit simplement :
Y = YE P
t∈UE
Et
En reprenant la première définition naïve de Y, nous avons YE
E 6 P
t∈UE
Yt × Et
P
t∈UE
Et
Prise en compte de l’exposition dans la probabilité de consommer
La probabilité annuelle de consommer doit être exprimée en fonction de la probabilité de consommer sur la période d’exposition considérée.
Nous reprenons ici une idée développée par A. Charpentier dans un article publié sur son blog [].
Il s’agit de supposer que la survenance d’un sinistre constitue le premier saut d’un processus de poisson. Nous supposerons par exemple, que l’intensité positive du processus de Poisson dont sont issus les nombres de sinistresNtd’un assuré sur la périodetestλ. En reprenant les notations introduites précédemment, pour une période d’exposition E, nous observons l’évènement CE = 11{NE>0} correspondant à la survenance d’un sinistre. Nous cherchons à exprimer P(CE = 1), l’évènement correspondant à la survenance d’un sinistre sur une période d’exposition E. Les égalités suivantes peuvent être établies :
P(CE = 0) =P(NE = 0) =e−λE=
e−λ E
=P(N1= 0)E Nous en déduisons :
P(CE = 1) = 1−P(CE = 0) = 1−P(N1 = 0)E
Nous présenterons dans la sous-partie suivante différentes approches statistiques pour estimer cette probabilité.
Enfin, une seconde façon un peu brutale de s’exonérer d’un travail sur l’exposition dans la modélisation de la probabilité de consommer est de ne s’intéresser tout simplement qu’à une partie de la base sur une période d’exposition d’exactement un an. Toutefois, cette méthode n’est pas privilégiée car elle entraîne une perte d’information qui peut être conséquente suivant la répartition de l’exposition dans le portefeuille étudié.
2.2.1.3 Synthèse
L’avantage de la seconde modélisation sur la première est de lever l’hypothèse, qui en pra- tique n’est pas vérifiée, d’indépendance, pour un assuré, entre ses sinistres. En effet, certains actes médicaux, comme les actes d’imagerie médicale ou ceux d’auxiliaires médicaux (infirmerie, kinésithérapie), se font en série.
Par ailleurs, la diversité des délégataires de gestion et leur méthode respective de saisie des sinistres rendent la variable identifiant le nombre d’actes médicaux, donc la fréquence de sinistres à modéliser dans le modèle, relativement peu fiable. L’alternative présentée par le modèle ne souffre elle, pas d’un problème de fiabilité de la donnée.
Ces 2 considérations sont pertinentes dans le cas d’un grand poste ne présentant pas une probabilité de survenance trop faible et donc susceptible de générer plusieurs sinistres. Toutefois, la seconde décomposition a l’inconvénient majeur d’une difficulté accrue dans la prise en compte de l’exposition. Dès lors, dans le cas d’évènements rares où nous devons profiter de toute la profondeur d’historique disponible, la première décomposition apparaît plus pertinente.
2.2.2 Choix d’algorithmes d’apprentissage 2.2.2.1 Modèles Linéaires Généralisés (MLG)
Une des approches possibles pour modéliser une espérance comme celle écrite en (2.1) est l’utilisation d’un Modèle Linéaire Généralisé (GLM pour l’acronyme anglais). Pour davantage d’informations sur les MLG, le lecteur pourra consulter [McCullagh et Nelder 1989][9] Nous introduisons succinctement la notion de MLG dans cette sous-partie. Les modélisations rete- nues seront détaillées dans le chapitre 3. En toute généralité, un modèle linéaire généralisé est caractérisé par 3 composantes. Cette sous-partie s’inspire largement de [Denuit et Charpentier 2005][7]
2.2.2.1.1 Généralités Composante aléatoire
Supposons que nous disposions d’un échantillon de taillen∈N {Yi}{i∈[[1,n]]}, constitué de n variables aléatoires indépendantes. La composante aléatoire est la loi de la variable aléatoire à expliquer. Elle doit être issue d’une famille de lois particulières, la famille exponentielle
Définition 1 (Famille exponentielle) En reprenant les notations introduites dans [7], soit Y une variable aléatoire réelle de paramètres (θ, φ) admettant une fonction densité f par rapport à la mesure de comptage dans le cas discret ou par rapport à la mesure de Lebesgue dans le cas continu. On dit que Y appartient à la famille exponentielle s’il existe a, b et c, 3 fonctions réelles telles que
∀y∈R,(y|θ, φ) = exp
yθ−b(θ)
φ +c(y, φ)
(2.2) Son choix dépend généralement de la nature de la variable à expliquer (binaire : Bernouilli, comptage : Poisson, continue : normale ou gamma).
Composante déterministe ou prédicteur linéaire
Supposons que nous disposions de p∈ N variables explicatives pour expliquer Y. A chaque réponse Yi pour i∈ [[1, n]], est associé un vecteur de variables explicatives (variables observée) Xi = (Xij)j∈[[1,p]]. On note sous forme matricielle X = (Xi)i∈[[1,n]]. Soit β = (βj)j∈[[1,p]] un vecteurs de p paramètres. Le prédicteur linéaire à n composantes associé aux observations X et aux réponses Y s’écrit sous forme matricielleη =Xβ.
Fonction lien
C’est une fonction supposée monotone et différentiable faisant le "lien" entre la composante aléatoire et le prédicteur linéaire. En la notant g, elle vérifie
∀i∈[[1, n]], g(E[Yi|Xi]) =ηi =β0Xi (2.3) On noteµi=E[Yi|Xi] Les MLG sont une généralisation du modèle linéaire gaussien.
Il est possible de réécrire l’expression (2.2) de la structure exponentielle en posant : Q(θ) = θ
phi, v(θ) =exp
−a(θ) φ
w(y) =exp{b(y, φ)}
Les variables aléatoires de la famille exponentielles possèdent des propriétés intéressantes pour leur espérance et leur variance qui peuvent s’écrire explicitement à partir de l’écriture de leur densité sous la forme (2.2) On se rapportera à [Denuit et Charpentier 2005][7] pour une preuve de la proposition suivante
Proposition 2 Soit Y une variable aléatoire de la famille exponentielle admettant une densité de la forme (2.2) On a
E[Y] =b0(θ) et V[Y] =b00(θ)φ
g est appelée fonction lien. En théorie g peut être n’importe quelle fonction bijective telle g(µ) = η. Toutefois, on distingue pour chaque loi de la famille exponentielle une fonction lien particulière, la fonction canonique.
Définition 3 (Fonction lien canonique) Avec les notations précédentes, la fonction lien ca- nonique est la fonction réelle telle que g(µ) =θ.
Cette fonction permet de faire le lien entre l’espérance µet le paramètre θ, dit paramètre cano- nique. Le tableau ci-dessous présente les fonctions liens canoniques pour certaines lois usuelles appartenant à la famille exponentielle :
Loi Fonction lien canonique
Normale µ
Poisson ln(µ)
Gamma µ1
Binomiale ln(µ)−ln(1−µ)
Avec ces premières définitions, nous constatons que les modèles linéaires généraux sont des cas particuliers des modèles linéaires généralisés.
Estimation des paramètres du modèle
L’estimation des paramètres met en jeu la maximisation de la vraisemblance ou de la log- vraisemblance du modèle. On cherche un estimateur βˆtel que
βˆ=argmax
β∈R
lY(θ, φ)
Dans le cas général avec les notations introduites précédemment, la vraisemblance du modèle s’écrit
LY(θ, φ) =
n
Y
i=1
f(yi|θi, φ) =exp
n
X
i=1
yiθi−b(θi)
φ +
n
X
i=1
c(yi, φ)
!
D’où on déduit aisément la log-vraisemblance lY(θ, φ) =
n
X
i=1
yiθi−b(θi)
φ +
n
X
i=1
c(yi, φ) (2.4)
Les équations du 1er ordre à vérifier pour la résolution de ce programme de maximisation sont
∀j ∈[[1, p]],
n
X
i=1
(yi−µi)xij
V[Yi]
∂µi
∂ηi = 0 (2.5)
On trouvera une démonstration de ces équations dans [Denuit et Charpentier 2005 chapitre 9][7]
Si le choix de la fonction lien canonique comme fonction lien est fait, il est possible de simplifier les équations obtenues ci-dessus. Si g est la fonction lien canonique associée à Y, alors par définition g(µi) =ηi=θi. Alors
∂µi
∂ηi
= ∂µi
∂θi
= ∂b0
∂θi
(θi)
=b00(θi) Ce qui donne en reprenant (2.5)
∀j∈[[1, p]],
n
X
i=1
(yi−µi)xij
Mettant en évidence l’orthogonalité entre les résidus et les variables explicatives.
Les MLG permettent d’étudier des données qui ne satisferaient pas les conditions plus restrictives des modèles linéaires généraux (normalité et homoscédasticité des erreurs). Ils permettent en outre d’étudier comme variables explicatives à la fois des variables quantitatives et qualitatives.
En effet, peu de problèmes de modélisation en assurance non vie ne présentent que des variables explicatives quantitatives.
2.2.2.1.2 Cas particulier de la régression logistique pour la probabilité de consom- mer
La modélisation de la probabilité de consommer passe par la modélisation d’une réponse binaire à différentes variables explicatives.
Formellement, en reprenant les notations introduites plus haut, nous cherchons à modéliser π=E[C= 1|X =x] =P(N >0|X =x). (2.6) Le modèle utilisé est un modèle logistique, qui est un cas particulier des modèles binomiaux.
Définition 4 (Modèle logistique) Soit Y une variable aléatoire binaire à valeurs dans {0,1}.
On notep=P(Y = 1)la probabilité de succès. Y suit donc une loi de Bernoulli de paramètre p.
Soit g une fonction lien telle que définie par 2.3.
Le modèle de régression logistique s’écrit
g(E[Y|X]) =β0X Les fonctions liens rencontrées sont
Fonctions Expression
logit ∀π ∈]0,1[, logit(π) =log π
1−π
probit ∀π∈]0,1[, probit(π) = Φ−1(π)∗ clog-log ∀π∈]0,1[, cloglog(π) =log(−log(1−π))
log-log ∀π∈]0,1[, loglog(π) =−log(−log(π)) (*) Φdésigne ici la fonction de répartition de la loi normale centrée réduite.
Lien logit
Le choix de la fonction logit comme fonction lien dans le modèle de régression logistique revêt plusieurs avantages.
Le premier est le fait que la fonction logit soit la fonction lien canonique. Le second tient à l’expression deπ qui peut en être déduite et l’interprétation qu’il est possible d’en faire.
Écrivons le modèle dans le cas de la fonction lien logit log
π 1−π
=β0X (2.7)
Par inversion de la fonction logit, on obtient d’après (2.7) P(Y = 1|X) =π= exp(β0X)
1 +exp(β0X) (2.8)
Ainsi, le sens de variation de π pour la variation d’une unité d’une variable explicative, toutes choses égales par ailleurs dépendra du signe du coefficient associé. S’il est positif, la variable explicative en question aura un effet à la hausse surπ, s’il est négatif, à la baisse.
L’expression (2.8) permet de calculer le rapport entre la probabilité de succès et d’échec : P(Y = 1|X)
P(Y = 0|X) =
exp(β0X) 1+exp(β0X)
1 1+exp(β0X)
=exp(β0X) (2.9)
Si on suppose que nous disposons d’un échantillon de taille n (ci, xi)i∈[[1,n]], où pour tout i, ci vaut 0 ou 1 et xi est le vecteur des variables exogènes observées, alors la log-vraisemblance du modèle s’écrit simplement en utilisant l’équation (2.4)
n
X
i=1
ciln(π(xi)) (1−ci)ln(1−π(xi)) (2.10) qui se résout numériquement. Pour le détail des équations du premier ordre du programme de maximisation de la vraisemblance, le lecteur pourra consulter le chapitre 9 de (M. Denuit et A.
Charpentier, 2004)[7]
Le principal inconvénient du modèle logit repose sur la difficile prise en compte de l’exposi- tion dans la modélisation. Prendre simplement en poids l’exposition n’apparaît pas comme une méthode satisfaisante.
Lien cloglog
La problématique rencontrée dans l’étude est l’estimation, pour un individu, de sa probabilité de consommer sur sa période d’exposition E :
P(CE = 1) = 1−P(N1 = 0)E Supposons qu’il existe une fonctiong telle que
g(P(N1 = 0)|X) =g(E[11N1=0|X]) =β0X, Et que cette fonction g soit la fonction lien clog-log. Remarquons que :
P(CE = 1) =E[11CE=1]|X]
= 1−P(N1= 0)E
= 1−elog(P(N1=0))×E
=g−1 X0β+log(E)
Ainsi, comme pour la modélisation classique de la fréquence par un log-poisson, l’exposition E vient ici en offset du modèle logistique clog-log.
L’inconvénient majeur de la sélection de la fonction clog-log comme fonction de lien est l’impossible interprétation des coeffcients estimés.
2.2.2.2 Les modèles classiques pour la fréquence
Les modèles les plus courants pour expliquer la fréquence sont le modèle de poisson et le modèle binomial négatif avec une fonction lien log. L’avantage du choix d’une fonction lien log est que cela permet de décomposer multiplicativement le résultat de l’estimation afin de faire apparaître le coefficient associé à chaque variable explicative. Il est alors d’autant plus facile d’interpréter les effets de chaque variable. Cette interprétabilité est un atout majeur lors de la présentation du modèle, et pour expliquer commercialement les effets de telle ou telle caractéristique de l’assuré sur la prime qui lui sera demandée. Modélisée sous cette forme, la prime sera évaluée multiplicativement à partir d’une prime de référence.
Le modèle s’écrit
ln(E[N|X]) =X0β ou encore
E[N|X] =exp X0β
Cependant, la prise en compte dun terme d’exposition est nécessaire. En effet, l’étude portant sur 4 années d’historique, mais chaque contrat n’est pas nécessairement exposé pendant 4 ans.
Afin d’obtenir un nombre de sinistre de sinistres comparable, il convient de l’exprimer en termes de fréquence annuelle en s’intéressant plutôt à Ne avececorrespondant à l’exposition. L’équation de régression devient
ln(E[N|X]) =ln(e) +X0β
On remarque que l’exposition est prise en compte dans le modèle simplement sous forme d’un offset.
Prise en compte de masse en 0
Lorsque l’on cherche à modéliser une variable de comptage, il est possible d’être confronté à une masse en 0 plus importantes que celle de la loi que l’on cherche à estimer. Lors d’une régression de poisson ou binomiale négative, on peut envisager un modèle zero inflated, qui consiste en la modélisation d’une indicatrice de la présence ou non de sinistres. Pour plus de détails sur la construction du modèle ainsi sur l’estimation des paramètres, le lecteur est invité à consulter
Prise en compte de la surdispersion
De manière générale, la sur-dispersion est caractérisée par une variance de la variable endo- gène supérieure à son espérance. Lorsqu’il y a surdispersion lors d’une régression poissonienne.
Une solution envisageable serait la construction de glm quasi poisson, consistant en l’introduction d’un paramètre φà exprimer supplémentaire.
Les modèles classiques de coût moyen
Les 2 familles de loi que l’on retient généralement pour la modélisation du coût moyen sont les lois gamma et les lois log normales.
Les lois gamma appartiennent bien à la famille exponentielle. La fonction lien canonique est la fonction inverse, mais pour les raisons d’"interprétabilité"", évoquées dans la présentation des modèles courants de fréquence, des coefficients obtenus, nous préférons choisir la fonction log comme fonction lien.
La loi log normale n’appartient pas à la famille exponentielle. On entend par là une régression gaussienne sur une transformation logarithmique de la variable à expliquer.
2.2.2.2.1 MLG retenus
Les 2 familles de loi que l’on retient généralement pour la modélisation de coût sont les lois gamma et les lois log normales. Les lois gamma appartiennent bien à la famille exponentielle.
La fonction lien canonique est la fonction inverse, mais pour les raisons d’"interprétabilité"", évoquées dans la présentation des modèles courants de fréquence, des coefficients obtenus, la fonction log sera retenue comme fonction lien. La loi log normale n’appartient pas à la famille exponentielle. On entend par là une régression gaussienne sur une transformation logarithmique de la variable à expliquer.
Pour la modélisation de la probabilité de consommer nous retenons la régression logistique avec fonction de lien logit. Ce choix nécessite un découpage de la base de données pour ne retenir que les assurés exposés exactement une année. Il est pertinent uniquement dans le cas où la quantité de données à disposition est suffisamment importante pour permettre une estimation fiable du modèle.
Dans les cas où la qualité des données le permet, et où l’évènement à modéliser est relati- vement peu fréquent, l’approche décomposition fréquence - coût moyen sera privilégiée avec un MLG log poisson ou binomiale négatif pour la fréquence et un modèle log gamma ou un modèle log normal comme introduit plus haut pour le coût.
2.2.2.2.2 Qualité d’ajustement du modèle
Une approche pour valider la qualité d’ajustement du modèle serait de comparer la vrai- semblance du modèle ajusté à celle du modèle saturé. Il s’agit du modèle où les estimateurs de la variable d’intérêt coïncident avec les observations. Le modèle saturé maximise alors la vraisemblance.
En notantLla vraisemblance du modèle ajusté et LS la vraisemblance du modèle saturé, la déviance est définie par
D=−ln L
LS
Dès lors que le modèle saturé est le meilleur modèle, plus la déviance sera faible meilleur l’ajustement du modèle sera considéré.
D’après le théorème de Wilk,Dsuit asymptotiquement une loi du khi-2 avec pour nombre de degré de liberté la différence entre le nombre de composantes du prédicteur linéaire et le nombre de variables explicatives.
De l’indépendance entre les observations naît la décomposition en une somme de termes positifs de la déviance du modèle défini précédemment. Cette somme s’interprête comme la somme des contributions à la déviance totale de chaque observation. Le résidu de déviance individuel est alors défini comme la racine carrée de la contribution individuelle de l’observation signée par le signe du résidu brut.
Ainsi, lors de l’étape de validation des modèles GLM, nous chercherons à contrôler le com- portement des résidus de déviance autour de 0.
2.2.2.2.3 Sélection de modèle
La sélection d’un modèle plutôt qu’un autre se fait sur la base de la définition d’un critère de sélection. Le critère retenu dans cette étude est le critère d’Akaike (AIC).
Ce critère est défini par
AIC = 2k−ln(LM)
où k est le nombre de paramètres du modèle et LM la vraisemblance maximisée du modèle.
Ce critère, en étant pénalisé par la complexité du modèle (le nombre de paramètres à estimer), répond à la contrainte de la recherche d’un modèle parcimonieux. Le meilleur modèle à retenir selon ce critère est celui qui minimise sa valeur.
2.2.2.3 Classification And Regression Trees (CART)
Les arbres de classification et de régression sont un type d’algorithme d’apprentissage super- visé imaginé par Léo Breiman et présenté pour la première fois en 1984 dans [4].
2.2.2.3.1 Arbres de classifications
Comme introduit en préambule de cette sous-partie, le problème de classification rencontré dans l’étude est réduit à sa plus simple forme : il s’agit d’une variable à expliquer comportant 2 modalités. Dans la suite de cette présentation des arbres de classification, nous nous limiterons donc à une classe de 2 éléments à expliquer.
La méthode de classification par arbre est ici itérative et binaire. Elle consiste en une dicho- tomie itératives de sous-ensembles de l’espace des variables explicatives. La construction d’un tel classifieur repose sur la définition de règles concernant les 3 éléments suivants :
1. Critère de construction : le partitionnement d’un sous-ensemble de X, 2. Critère d’arrêt : l’arrêt de l’algorithme de partitionnement,
3. Critère d’assignation : l’attribution à chaque sous-ensemble d’une classe.
Formellement, en reprenant les notations introduites dans la partie consacrée aux MLG, notons X l’ensemble des variables explicatives dont chaque individu i∈Ndispose d’un élément Xi ∈ X. Un exemple de représentation d’un arbre de classification en 2 classes est présenté en Figure 2.2. Plus généralement, considérons une variable à expliquer présentant J ∈Nclasses.
Le noeud initial, ou racine, est composé de l’ensemble X entier. Les noeuds intermédiaires sont représentés par convention par des cercles et sont des sous-ensembles des noeuds ascendants.
A chaque noeud intermédiaire est précisée une règle définissant la partition de ce sous-ensemble.
Les noeuds terminaux, ou feuilles, sont représentés par convention par des carrés, et pour chacun d’eux est attribué une modalité de la variable à expliquer.
Ainsi, l’arbre présenté en exemple est constitué de 4 noeuds intermédiaires et de 5 feuilles et définit 2 classesY1 etY2 :
— Y0=X4∪X7
— Y1=X3∪X5∪X8 Avec, bien entendu, X=Y0∪Y1
Critère de construction - Approche bayésienne
Chaque division du sous-ensemble à un noeud répond à un principe de maximisation de la pureté des noeuds enfant. Pour cela, nous nous dotons d’une fonction d’hétérogénéité h à valeurs dansR, qui prend en paramètre un vecteur de probabilité de taille card(J) dont la somme des éléments vaut 1. Cette fonction h atteint son minimum en
1 card(J)
j∈J et son maximum en card(J) points tels pour tout j compris de 1 à card(J) la j-ème composante du vecteur soit égale à 1 et les autres nulles. Pour chaque noeud t, l’hétérogénéité s’écrit
h(t) =h
p(j|t)j∈J Avec
∀j ∈ J, p(j|t) = p(t, j)
p(t) = "probabilité qu’une observation soit dans le noeud t et dans de classe j"
"probabilité qu’une observation soit dans le noeud t"