Atelier animé par :
– Nicolas Le Berrigaud - Practice Leader Big Data & Digital – Emmanuel Berthelé - Responsable Practice
– Gildas Robert - Directeur métier Actuariat Conseil
Atelier F
Retour d’expérience comparé de 2 POCs Data
Science sur l’analyse du comportement en Epargne
• La collecte de l’Assurance Vie a encore légèrement augmenté en 2015
– 24,6 milliards d’euros de collecte nette sur l’année 2015 et 1 580 milliards d’euros d’encours
– Une part de collecte UC qui poursuit son augmentation
• Malgré une image égratignée par la baisse des taux, l’année 2015 a confirmé ainsi l’engouement des français pour ce produit et une plus grande ouverture aux supports en unités de compte
100 102 108 109
14 17 20 27
-20 0 20 40 60 80 100 120 140
-20 0 20 40 60 80 100 120 140
2012 2013 2014 2015
Historique de la collecte
Prestation Collecte nette Collecte Euro Collecte UC Mrds €
12% 14% 16% 20%
Source FFSA
Contexte et objectifs
Le fonds en euros est resté attractif : son taux de rendement net d’inflation augmente depuis 5 ans
2,8%2,5% 2,3%
0%
1%
2%
3%
4%
5%
Evolution des taux de rendement moyen
OAT 10 ans Taux de rendement de l'Assurance Vie
Sources : - AFA
- Banque de France
1,20%
3,50%
1,90%
0,90% 0,90%
1,90% 2,00% 2,30%
0%
1%
2%
3%
4%
5%
Taux de rendement net d'inflation
Taux de rendement net d'inflation Taux de rendement de l'Assurance Vie
Une nécessité pour les assureurs de chercher à favoriser les investissements sur les UC
Contexte et objectifs
La part des encours en UC est en progression constante depuis 2012
Les UC offrent des performances très intéressantes dans le contexte actuel
Il est toutefois important pour les assureurs de comprendre les drivers comportementaux des assurés
• Evolution des comportements en fonction du contexte de marché
• Comportement vis-à-vis des autres produits d’épargne financière et de la concurrence
14.4%
5.2%
-7.0%
11.0%
8.2%
4.7% 4.1%
2009 2010 2011 2012 2013 2014 2015
Rendement moyen annuel des UC
Contexte et objectifs
Nécessité dans le cadre Solvabilité 2
• De projeter les flux futurs pour le calcul des provisions techniques
• De distinguer les mouvements conjoncturels des mouvements structurels, les mouvements conjoncturels dépendant essentiellement de conditions extérieures, notamment
Evolution des marchés financiers
Taux servis par la concurrence
Prise en compte différenciée du comportement des assurés en fonction des piliers
• Limitation liée aux frontières des contrats et au contexte de run-off dans le cadre du pilier 1
• Intégration du new business surl’horizon de pilotage stratégique dans le cadre du pilier 2
Les contraintes d’interprétabilité inhérentes à Solvabilité influent directement sur la démarche poursuivie dans le cadre du POC
• Identification des drivers influant sur le comportement des assurés via des algorithmes de machine learning au travers d’une approche data driven
• Réintégration de ces drivers dans une approche GLM pour respecter les contraintes
Contexte et objectifs
Etat de l’art du marché de l’assurance en matière de recours à la data science
• Constat macro
Evolution des organisations pour une partie des acteurs
Des recrutements réalisés, en cours, mais surtout à venir
Des expérimentations mises enœuvre mais peu d’industrialisation à ce stade
• De fortes disparités suivant les acteurs
Seuls certains acteurs ont véritablement investi tant en termes de moyens que de ressources
Une partie du marché ne dispose pas des ressources suffisantes pour mener de front
• La bonne prise en compte des évolutions réglementaires attendues dans le cadre de Solvabilité
• Les évolutions produit nécessaires (concurrence, loi Hamon, loi Eckert,…)
• L’investissement nécessaire pour bénéficier des apports liés au Big Data et à la Data Science
Les préoccupations des acteurs portent par ordre de priorité sur
• La compréhension des comportements client à des fins Marketing
• L’adaptation des produits et des offres
La prise en compte des apports de la Data Science pour optimiser la gestion des risques reste encore très marginale
Contexte et objectifs
Données Assureurs
Données
Données
Données
Sélection Evaluation/
Interprétation Pre-processing
- - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - - - - - -- - - -
Data exploration Machine
Learning
Modèles
Une construction en 5 étapes principales
Démarche mise en œuvre
Retour d’expérience basé sur 2 POCs Data Science Epargne Les comportements ont été modélisés sur les actes suivant
• rachats totaux et partiels
• versements et plus spécifiquement versements libres
• arbitrages avec distinction des arbitrages du support euro vers le support UC et vice versa
Les POCs ont été réalisés en mode agile afin de
• partager les réflexions et avancées des modélisations réalisées
• confronter les résultats aux connaissances métier
• faciliter la transmission des travaux et du code
Les POCs ont mobilisé 2 personnes et se sont étalés sur environ 3 mois
Démarche mise en œuvre
Performance Volatilité Typologie
Frais d’arbitrage Minimum de rachat
Commission Encours (yc UC)
Frais de gestion Historique des
mouvements
Données Contrat Données Financières
Croisement des données afin d’identifier les drivers des comportements de rachats, de
versements et d’arbitrage Données Produit
Taux concurrence Taux livrets réglementés
INSEE
Données Externes Sexe
Age
Situation familiale Données Client
Démarche mise en œuvre
Data Lake
vs
Infocentre
Démarche mise en œuvre
Phase de data exploration
• L’objectif de cette phase est la compréhension des données à disposition
• Elle constitue une des phases les plus consommatrices en temps
Plusieurs travaux ont été menés durant cette étape
• Visualisation des données
Etude des distributions des variables à disposition
Etude graphique des liens entre les données et la variable à expliquer
• Détection des outliers
Les outliers peuvent fortement impacter la modélisation
• Résumé des données
Etude des principales caractéristiques des données : moyenne, médiane,…
Etude des corrélations entre variables et avec la variable cible
• Contrôle de cohérence
Rapprochement entre les données, contrôle métier,…
Démarche mise en œuvre
Phase de data preprocessing
• L’objectif de cette phase est de préparer les données à l’utilisation d’algorithmes de machine learning
Différents retraitements appliqués
• Gestion des données manquantes
4 méthodes ont été utilisées : suppression des enregistrements, correction des données, imputation des données (médiane ou autres méthodes), création d’une classe dédiée (lorsque l’absence d’information était normale)
• Gestion des outliers
• Transformation des données et création de variables
Réduction d’asymétrie
Transformation log sur les encours Box-Cox
Yeo-Johnson
Discrétisation
Age
Ancienneté
Normalisation et mise à l’échelle
Découpage de variables
Cumul/produits de variables
Encoding des variables catégorielles : one-hot encoding,…Démarche mise en œuvre
Assureur 1 Assureur 2
Yeo-Johnson Discrétisation
Démarche mise en œuvre
•
Création d’une base d’apprentissage et de test
• Objectif : donner la même base de travail et d’évaluation à tous les intervenants afin de pouvoir comparer les approches
• Base d’apprentissage : X% des données
Subdivisée en N sous-ensembles (exp : 10) afin de faire une validation croisée des modèles utilisés avant d’évaluer l’erreur sur la base de test
• Base de test : 1-X% des données
Base d’apprentissage Base de test
Apprentissage
1 2 3 4 5 6 7 8 9
Validation10
Démarche mise en œuvre
Des échantillons et des approches d’échantillonnage différents
Assureur 13 ans d’historique
Base d’apprentissage et de test échantillonnée par tirage aléatoire
Robustesse plus importante des modèles prospectifs pour l’assureur 2
Assureur 28 ans d’historique
Base d’apprentissage : 7 années d’historique les plus anciennes Base de test : année la plus récente
Démarche mise en œuvre
R&D R&D + Production
Production
Assureur 1 Assureur 2
Démarche mise en œuvre
Les approches
• Pour l’assureur 1
seule une approche probabilité x montant a été réalisée
• Pour l’assureur 2
un modèle simple servant de benchmark
un modèle probabilité x montant
un modèle montant
Les métriques utilisées
• Probabilité
L’objectif étant de quantifier la population effectuant un rachat, un arbitrage ou un versement, la métrique qui a été utilisée estl’erreur logloss (similaire à la fonction coût d’une régression logistique)
• Montant
L’objectif étant de quantifier les montants rachetés, arbitrés ou versés, des métriques basées sur l’erreur quadratique (erreur mse et rmse) etl’erreur relative ont été privilégiées.
Démarche mise en œuvre
Gradient boosting
Création d’un ensemble d’arbres à agréger Random Forest
Création d’un ensemble d’arbres à agréger
Construction de plusieurs Boostrap chacun à la base d’un arbre
Aléa supplémentaire : tirage aléatoire des prédicteurs Agrégation des arbres indépendants
Algorithme itératif
Chaque arbre est une version adaptée du précédent Application d’un poids plus fort aux segments les moins bien
ajustés par le modèle sur l’arbre précédent
Neural Network
Modélisation mathématique du fonctionnement des neurones biologiques
Le modèle se base sur une optimisation par itération successive des connexions entre neurones
Seuil Neurone Poids
GLM
Modélisation paramétrique à partir de variables explicatives
La loi de la variable réponse : binomiale,log-normale, poisson, gamma
La fonction lien : fonction identité, fonction logarithme
Modèles testés
Démarche mise en œuvre
Gradient boosting
Création d’un ensemble d’arbres à agréger Random Forest
Création d’un ensemble d’arbres à agréger
Construction de plusieurs Boostrap chacun à la base d’un arbre
Aléa supplémentaire : tirage aléatoire des prédicteurs Agrégation des arbres indépendants
Algorithme itératif
Chaque arbre est une version adaptée du précédent Application d’un poids plus fort aux segments les moins bien
ajustés par le modèle sur l’arbre précédent
Neural Network
Modélisation mathématique du fonctionnement des neurones biologiques
Le modèle se base sur une optimisation par itération successive des
Seuil Neurone Poids
GLM
Modélisation paramétrique à partir de variables explicatives
La loi de la variable réponse : binomiale,log-normale, poisson, gamma
La fonction lien : fonction identité, fonction logarithme
Modèles conservés
Démarche mise en œuvre
Actuellement
• Lois uniquement basées sur des données Epargne
• Approche statistique classique, lois calibrées sur la base de variables considérées comme déterminantes
Restriction et recalibrage des lois sur la base des drivers pouvant être aisément intégrés au modèle de projection
• Obtention d’une maille plus fine, adaptée aux capacités actuelles du modèle de projection
• Meilleure prise en compte du comportement
• Suite à l’étude
• Identification des variables les plus déterminantes au sein d’un périmètre élargi (Epargne, IARD, autres données externes dont financières et concurrence)
• Calibrage des lois via recours au machine learning
Dr1 Dr2 Dr3 Rép
Mod_1(Dr1) Mod_1(Dr2) Mod_1(Dr3) A%
Mod_1(Dr1) Mod_1(Dr2) Mod_2(Dr3) B%
Mod_1(Dr1) Mod_2(Dr2) Mod_1(Dr3) C%
Mod_1(Dr1) Mod_2(Dr2) Mod_2(Dr3) D%
Mod_2(Dr1) Mod_1(Dr2) Mod_1(Dr3) E%
Mod_2(Dr1) Mod_1(Dr2) Mod_2(Dr3) F%
Mod_2(Dr1) Mod_2(Dr2) Mod_1(Dr3) G%
Mod_2(Dr1) Mod_2(Dr2) Mod_2(Dr3) H%
Données Epargne
Dr1 Dr2 Dr3 Dr4 Rép
Mod_1(Dr1) Mod_1(Dr2) Mod_1(Dr3) Mod_1(Dr4) a%
Mod_1(Dr1) Mod_1(Dr2) Mod_1(Dr3) Mod_2(Dr4) b%
Mod_1(Dr1) Mod_1(Dr2) Mod_2(Dr3) Mod_1(Dr4) c%
Mod_1(Dr1) Mod_1(Dr2) Mod_2(Dr3) Mod_2(Dr4) d%
Mod_1(Dr1) Mod_2(Dr2) Mod_1(Dr3) Mod_1(Dr4) e%
Mod_1(Dr1) Mod_2(Dr2) Mod_1(Dr3) Mod_2(Dr4) f%
Mod_1(Dr1) Mod_2(Dr2) Mod_2(Dr3) Mod_1(Dr4) g%
Mod_1(Dr1) Mod_2(Dr2) Mod_2(Dr3) Mod_2(Dr4) h%
Mod_2(Dr1) Mod_1(Dr2) Mod_1(Dr3) Mod_1(Dr4) i%
Mod_2(Dr1) Mod_1(Dr2) Mod_1(Dr3) Mod_2(Dr4) j%
Mod_2(Dr1) Mod_1(Dr2) Mod_2(Dr3) Mod_1(Dr4) k%
Mod_2(Dr1) Mod_1(Dr2) Mod_2(Dr3) Mod_2(Dr4) l%
Mod_2(Dr1) Mod_2(Dr2) Mod_1(Dr3) Mod_1(Dr4) m%
Mod_2(Dr1) Mod_2(Dr2) Mod_1(Dr3) Mod_2(Dr4) n%
Données Epargne et autres données déterminantes aisément intégrables au modèle de projection
Résultats et perspectives
Profondeur d’historique
• Privilégier une profondeur d’historique importante dans le cas où l’on introduit des variables décrivantl’environnement économique et social
Source de données
• L’utilisation d’un Data Lake est recommandée afin de disposer d’un volume et d’une variété importante de données. Il permet aussi de pouvoir partir sans a priori sur les données
Infrastructure
• Les data scientists ont besoin d’avoir accès à un environnement dans lequel ils peuvent installer facilement les outils et packages dont ils ont besoin
Echantillonnage
• La méthode doit être adaptée à la profondeur d’historique disponible et à la problématique adressée.
Apport du Machine Learning
• Une précision accrue
Résultats et perspectives
Une limite
• Les travaux réalisés ne permettent pas de prédire le comportement des assurés face à la restriction des rachats envisagée dans le cadre de la loi Sapin II
Cependant des capacités accrues en accompagnement du marché de l’Epargne pour les assureurs partenaires
• Vision affinée de l’impact des politiques commerciales
• Capacité à développer un positionnement concurrentiel conjoncturel
• Possibilité d’anticiper le comportement des assurés dans le cadre des évolutions de la politique monétaire de la BCE
• Elargissement probable du programme de rachat d’actifs pour la fin d’année (recherche de liquidité)
• Tapering s’accompagnant probablement d’une remontée progressive des taux au second semestre 2017