Retour d expérience comparé de 2 POCs Data Science sur l analyse du comportement en Epargne

(1)

(2)

Atelier animé par :

– Nicolas Le Berrigaud - Practice Leader Big Data & Digital – Emmanuel Berthelé - Responsable Practice

– Gildas Robert - Directeur métier Actuariat Conseil

Atelier F

Retour d’expérience comparé de 2 POCs Data

Science sur l’analyse du comportement en Epargne

(3)

• La collecte de l’Assurance Vie a encore légèrement augmenté en 2015

– 24,6 milliards d’euros de collecte nette sur l’année 2015 et 1 580 milliards d’euros d’encours

– Une part de collecte UC qui poursuit son augmentation

• Malgré une image égratignée par la baisse des taux, l’année 2015 a confirmé ainsi l’engouement des français pour ce produit et une plus grande ouverture aux supports en unités de compte

100 102 108 109

14 17 20 27

-20 0 20 40 60 80 100 120 140

2012 2013 2014 2015

Historique de la collecte

Prestation Collecte nette Collecte Euro Collecte UC Mrds €

12% 14% 16% 20%

Source FFSA

Contexte et objectifs

(4)

Le fonds en euros est resté attractif : son taux de rendement net d’inflation augmente depuis 5 ans

2,8%2,5% 2,3%

0%

1%

2%

3%

4%

5%

Evolution des taux de rendement moyen

OAT 10 ans Taux de rendement de l'Assurance Vie

Sources : - AFA

- Banque de France

1,20%

3,50%

1,90%

0,90% 0,90%

1,90% 2,00% 2,30%

0%

1%

2%

3%

4%

5%

Taux de rendement net d'inflation

Taux de rendement net d'inflation Taux de rendement de l'Assurance Vie

Une nécessité pour les assureurs de chercher à favoriser les investissements sur les UC

Contexte et objectifs

(5)

La part des encours en UC est en progression constante depuis 2012

Les UC offrent des performances très intéressantes dans le contexte actuel

Il est toutefois important pour les assureurs de comprendre les drivers comportementaux des assurés

• Evolution des comportements en fonction du contexte de marché

• Comportement vis-à-vis des autres produits d’épargne financière et de la concurrence

14.4%

5.2%

-7.0%

11.0%

8.2%

4.7% 4.1%

2009 2010 2011 2012 2013 2014 2015

Rendement moyen annuel des UC

Contexte et objectifs

(6)

Nécessité dans le cadre Solvabilité 2

• De projeter les flux futurs pour le calcul des provisions techniques

• De distinguer les mouvements conjoncturels des mouvements structurels, les mouvements conjoncturels dépendant essentiellement de conditions extérieures, notamment

 Evolution des marchés financiers

 Taux servis par la concurrence

Prise en compte différenciée du comportement des assurés en fonction des piliers

• Limitation liée aux frontières des contrats et au contexte de run-off dans le cadre du pilier 1

• Intégration du new business surl’horizon de pilotage stratégique dans le cadre du pilier 2

Les contraintes d’interprétabilité inhérentes à Solvabilité influent directement sur la démarche poursuivie dans le cadre du POC

• Identification des drivers influant sur le comportement des assurés via des algorithmes de machine learning au travers d’une approche data driven

• Réintégration de ces drivers dans une approche GLM pour respecter les contraintes

Contexte et objectifs

(7)

Etat de l’art du marché de l’assurance en matière de recours à la data science

• Constat macro

 Evolution des organisations pour une partie des acteurs

 Des recrutements réalisés, en cours, mais surtout à venir

 Des expérimentations mises enœuvre mais peu d’industrialisation à ce stade

• De fortes disparités suivant les acteurs

 Seuls certains acteurs ont véritablement investi tant en termes de moyens que de ressources

 Une partie du marché ne dispose pas des ressources suffisantes pour mener de front

• La bonne prise en compte des évolutions réglementaires attendues dans le cadre de Solvabilité

• Les évolutions produit nécessaires (concurrence, loi Hamon, loi Eckert,…)

• L’investissement nécessaire pour bénéficier des apports liés au Big Data et à la Data Science

Les préoccupations des acteurs portent par ordre de priorité sur

• La compréhension des comportements client à des fins Marketing

• L’adaptation des produits et des offres

La prise en compte des apports de la Data Science pour optimiser la gestion des risques reste encore très marginale

Contexte et objectifs

(8)

Données Assureurs

Données

Sélection Evaluation/

Interprétation Pre-processing

- - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - -

Data exploration Machine

Learning

Modèles

Une construction en 5 étapes principales

Démarche mise en œuvre

(9)

Retour d’expérience basé sur 2 POCs Data Science Epargne Les comportements ont été modélisés sur les actes suivant

• rachats totaux et partiels

• versements et plus spécifiquement versements libres

• arbitrages avec distinction des arbitrages du support euro vers le support UC et vice versa

Les POCs ont été réalisés en mode agile afin de

• partager les réflexions et avancées des modélisations réalisées

• confronter les résultats aux connaissances métier

• faciliter la transmission des travaux et du code

Les POCs ont mobilisé 2 personnes et se sont étalés sur environ 3 mois

Démarche mise en œuvre

(10)

Performance Volatilité Typologie

Frais d’arbitrage Minimum de rachat

Commission Encours (yc UC)

Frais de gestion Historique des

mouvements

Données Contrat Données Financières

Croisement des données afin d’identifier les drivers des comportements de rachats, de

versements et d’arbitrage Données Produit

Taux concurrence Taux livrets réglementés

INSEE

Données Externes Sexe

Age

Situation familiale Données Client

Démarche mise en œuvre

(11)

Data Lake

vs

Infocentre

Démarche mise en œuvre

(12)

Phase de data exploration

• L’objectif de cette phase est la compréhension des données à disposition

• Elle constitue une des phases les plus consommatrices en temps

Plusieurs travaux ont été menés durant cette étape

• Visualisation des données

 Etude des distributions des variables à disposition

 Etude graphique des liens entre les données et la variable à expliquer

• Détection des outliers

 Les outliers peuvent fortement impacter la modélisation

• Résumé des données

 Etude des principales caractéristiques des données : moyenne, médiane,…

 Etude des corrélations entre variables et avec la variable cible

• Contrôle de cohérence

 Rapprochement entre les données, contrôle métier,…

Démarche mise en œuvre

(13)

Phase de data preprocessing

• L’objectif de cette phase est de préparer les données à l’utilisation d’algorithmes de machine learning

Différents retraitements appliqués

• Gestion des données manquantes

 4 méthodes ont été utilisées : suppression des enregistrements, correction des données, imputation des données (médiane ou autres méthodes), création d’une classe dédiée (lorsque l’absence d’information était normale)

• Gestion des outliers

• Transformation des données et création de variables

 Réduction d’asymétrie

Transformation log sur les encours Box-Cox

Yeo-Johnson

 Discrétisation

Age

Ancienneté

 Normalisation et mise à l’échelle

 Découpage de variables

 Cumul/produits de variables



Encoding des variables catégorielles : one-hot encoding,…

Démarche mise en œuvre

(14)

Assureur 1 Assureur 2

Yeo-Johnson Discrétisation

Démarche mise en œuvre

(15)

•

Création d’une base d’apprentissage et de test

• Objectif : donner la même base de travail et d’évaluation à tous les intervenants afin de pouvoir comparer les approches

• Base d’apprentissage : X% des données

 Subdivisée en N sous-ensembles (exp : 10) afin de faire une validation croisée des modèles utilisés avant d’évaluer l’erreur sur la base de test

• Base de test : 1-X% des données

Base d’apprentissage Base de test

Apprentissage

1 2 3 4 5 6 7 8 9

_Validation

¹⁰

Démarche mise en œuvre

(16)

Des échantillons et des approches d’échantillonnage différents

Assureur 1

3 ans d’historique

Base d’apprentissage et de test échantillonnée par tirage aléatoire



Robustesse plus importante des modèles prospectifs pour l’assureur 2

Assureur 2

8 ans d’historique

Base d’apprentissage : 7 années d’historique les plus anciennes Base de test : année la plus récente

Démarche mise en œuvre

(17)

R&D R&D + Production

Production

Assureur 1 Assureur 2

Démarche mise en œuvre

(18)

Les approches

• Pour l’assureur 1

 seule une approche probabilité x montant a été réalisée

• Pour l’assureur 2

 un modèle simple servant de benchmark

 un modèle probabilité x montant

 un modèle montant

Les métriques utilisées

• Probabilité

 L’objectif étant de quantifier la population effectuant un rachat, un arbitrage ou un versement, la métrique qui a été utilisée estl’erreur logloss (similaire à la fonction coût d’une régression logistique)

• Montant

 L’objectif étant de quantifier les montants rachetés, arbitrés ou versés, des métriques basées sur l’erreur quadratique (erreur mse et rmse) etl’erreur relative ont été privilégiées.

Démarche mise en œuvre

(19)

Gradient boosting

Création d’un ensemble d’arbres à agréger Random Forest

Création d’un ensemble d’arbres à agréger

Construction de plusieurs Boostrap chacun à la base d’un arbre

Aléa supplémentaire : tirage aléatoire des prédicteurs Agrégation des arbres indépendants

Algorithme itératif

Chaque arbre est une version adaptée du précédent Application d’un poids plus fort aux segments les moins bien

ajustés par le modèle sur l’arbre précédent

Neural Network

Modélisation mathématique du fonctionnement des neurones biologiques

Le modèle se base sur une optimisation par itération successive des connexions entre neurones

Seuil Neurone Poids

GLM

Modélisation paramétrique à partir de variables explicatives

La loi de la variable réponse : binomiale,log-normale, poisson, gamma

La fonction lien : fonction identité, fonction logarithme

Modèles testés

Démarche mise en œuvre

(20)

Gradient boosting

Création d’un ensemble d’arbres à agréger Random Forest

Création d’un ensemble d’arbres à agréger

Construction de plusieurs Boostrap chacun à la base d’un arbre

Aléa supplémentaire : tirage aléatoire des prédicteurs Agrégation des arbres indépendants

Algorithme itératif

Chaque arbre est une version adaptée du précédent Application d’un poids plus fort aux segments les moins bien

ajustés par le modèle sur l’arbre précédent

Neural Network

Modélisation mathématique du fonctionnement des neurones biologiques

Le modèle se base sur une optimisation par itération successive des

Seuil Neurone Poids

GLM

Modélisation paramétrique à partir de variables explicatives

La loi de la variable réponse : binomiale,log-normale, poisson, gamma

La fonction lien : fonction identité, fonction logarithme

Modèles conservés

Démarche mise en œuvre

(21)

Actuellement

• Lois uniquement basées sur des données Epargne

• Approche statistique classique, lois calibrées sur la base de variables considérées comme déterminantes

Restriction et recalibrage des lois sur la base des drivers pouvant être aisément intégrés au modèle de projection

• Obtention d’une maille plus fine, adaptée aux capacités actuelles du modèle de projection

• Meilleure prise en compte du comportement

• ^{Suite à} ^l’étude

• Identification des variables les plus déterminantes au sein d’un périmètre élargi (Epargne, IARD, autres données externes dont financières et concurrence)

• Calibrage des lois via recours au machine learning

Dr1 Dr2 Dr3 Rép

Mod_1(Dr1) Mod_1(Dr2) Mod_1(Dr3) A%

Mod_1(Dr1) Mod_1(Dr2) Mod_2(Dr3) B%

Mod_1(Dr1) Mod_2(Dr2) Mod_1(Dr3) C%

Mod_1(Dr1) Mod_2(Dr2) Mod_2(Dr3) D%

Mod_2(Dr1) Mod_1(Dr2) Mod_1(Dr3) E%

Mod_2(Dr1) Mod_1(Dr2) Mod_2(Dr3) F%

Mod_2(Dr1) Mod_2(Dr2) Mod_1(Dr3) G%

Mod_2(Dr1) Mod_2(Dr2) Mod_2(Dr3) H%

Données Epargne

Dr1 Dr2 Dr3 Dr4 Rép

Mod_1(Dr1) Mod_1(Dr2) Mod_1(Dr3) Mod_1(Dr4) a%

Mod_1(Dr1) Mod_1(Dr2) Mod_1(Dr3) Mod_2(Dr4) b%

Mod_1(Dr1) Mod_1(Dr2) Mod_2(Dr3) Mod_1(Dr4) c%

Mod_1(Dr1) Mod_1(Dr2) Mod_2(Dr3) Mod_2(Dr4) d%

Mod_1(Dr1) Mod_2(Dr2) Mod_1(Dr3) Mod_1(Dr4) e%

Mod_1(Dr1) Mod_2(Dr2) Mod_1(Dr3) Mod_2(Dr4) f%

Mod_1(Dr1) Mod_2(Dr2) Mod_2(Dr3) Mod_1(Dr4) g%

Mod_1(Dr1) Mod_2(Dr2) Mod_2(Dr3) Mod_2(Dr4) h%

Mod_2(Dr1) Mod_1(Dr2) Mod_1(Dr3) Mod_1(Dr4) i%

Mod_2(Dr1) Mod_1(Dr2) Mod_1(Dr3) Mod_2(Dr4) j%

Mod_2(Dr1) Mod_1(Dr2) Mod_2(Dr3) Mod_1(Dr4) k%

Mod_2(Dr1) Mod_1(Dr2) Mod_2(Dr3) Mod_2(Dr4) l%

Mod_2(Dr1) Mod_2(Dr2) Mod_1(Dr3) Mod_1(Dr4) m%

Mod_2(Dr1) Mod_2(Dr2) Mod_1(Dr3) Mod_2(Dr4) n%

Données Epargne et autres données déterminantes aisément intégrables au modèle de projection

Résultats et perspectives

(22)

Profondeur d’historique

• Privilégier une profondeur d’historique importante dans le cas où l’on introduit des variables décrivantl’environnement économique et social

Source de données

• L’utilisation d’un Data Lake est recommandée afin de disposer d’un volume et d’une variété importante de données. Il permet aussi de pouvoir partir sans a priori sur les données

Infrastructure

• Les data scientists ont besoin d’avoir accès à un environnement dans lequel ils peuvent installer facilement les outils et packages dont ils ont besoin

Echantillonnage

• La méthode doit être adaptée à la profondeur d’historique disponible et à la problématique adressée.

Apport du Machine Learning

• Une précision accrue

Résultats et perspectives

(23)

Une limite

• Les travaux réalisés ne permettent pas de prédire le comportement des assurés face à la restriction des rachats envisagée dans le cadre de la loi Sapin II

Cependant des capacités accrues en accompagnement du marché de l’Epargne pour les assureurs partenaires

• Vision affinée de l’impact des politiques commerciales

• Capacité à développer un positionnement concurrentiel conjoncturel

• Possibilité d’anticiper le comportement des assurés dans le cadre des évolutions de la politique monétaire de la BCE

• Elargissement probable du programme de rachat d’actifs pour la fin d’année (recherche de liquidité)

• Tapering s’accompagnant probablement d’une remontée progressive des taux au second semestre 2017

Au-delà des problématiques liées à la modélisation du comportement au sein des modèles prospectifs, un réel apport pour le marketing et l’actuariat produits