Amélioration des techniques d’apprentissage automatique en présence de don- don-nées censurées

en assurance non vie

2.8. Amélioration des techniques d’apprentissage automatique en présence de don- don-nées censurées

2.8.1. Technique de modification des algorithmes

Cette étape consiste à appliquer une méthode d’apprentissage automatique existant à la version pon-dérée des données d’apprentissage où chaque individu de la base d’apprentissage est pondéré par son poids T . L’intégration des poids IPCW dans les algorithmes varie suivant les techniques d’appren-tissage automatique utilisées. La mise en œuvre standard de certaines techniques d’apprend’appren-tissage permettent la spécification directe des poids observés comme paramètres du modèle, auquel cas il faut peu de travail supplémentaire pour prédire les risques. L'incorporation des poids de l’IPCW se fait de manière assez simple lors de la phase d’estimation des hyper-paramètres du modèle (par exemple à l'aide d'estimateurs du maximum de vraisemblance) et de la phase d’évaluation de la qualité de l'ajustement/pureté du modèle (fit and purity). Le lecteur pourra trouver des justifications plus com-plètes de l'utilisation de l'IPCW dans Tsiatis et al. (2006) [50] et Vock et al. (2016) [43].

En pratique, lors de la phase d’apprentissage du modèle, une étape de prétraitement est réalisée. Elle consiste à pondérer par un poids IPCW nul tous les individus ayant un statut d'événement inconnu et par un poids IPCW non nul tous ceux ayant un statut d'événement connu. Cette précaution permet de tenir compte des individus qui auraient eu la même durée de sinistre et pour lesquels les observations sont censurées dans les bases. Par exemple pour l’estimation des durées de sinistre, des poids plus élevés sont attribués aux individus avec des durées de maintien plus importants pour tenir compte du fait qu'ils sont plus susceptibles d'être censurés avant leur rétablissement. Les données ainsi pondé-rées peuvent ensuite être exploitées par toute technique d'apprentissage automatique pouvant incor-porer ces paramètres (des poids IPCW appliqués aux observations).

2.8.2. Modification de l’algorithme CART

Une version d’adaptation de l’algorithme CART aux données censurées (Tree base censored) en assu-rances non-vie est proposée par Lopez et al. (2015) [16]. Ils introduisent une stratégie d’élagage des arbres de régressions intégrant la pénalisation par le poids de Kaplan-Meier permettant de gérer les données censurées et d’obtention de l’arbre maximal.

Notons % l’indicateur de survenance de l’événement que l’on cherche à prédire (tel que : % = 1 si l’événement s’est produit et % = 0 sinon). Dans le cas simple non pondéré, la proportion de l’échan-tillon ^ Y au nœud Y est calculée comme une moyenne des indicateurs de survenance de l’événement des individus affectés à ce nœud.

A l’étape de test pour un individu représenté par la réalisation des covariables (features) notées L, appartenant au nœud terminal Y , nous pouvons estimer son risque noté L , comme la proportion des individus appartenant à ce nœud terminal lors de l’étape d’apprentissage et pour lesquels l’évé-nement est survenu (c’est-à-dire % = 1). Il est simple d’adapter les arbres de décision pour incorporer les poids IPCW. Dans ce cas, il faut affecter aux individus lors de la phase d’apprentissage les poids T comme décrits ci-dessus. Ces poids sont utilisés pour la pondération des classes dans l’algorithme d’arbre de décision.

Avec les poids IPCW, nous calculons une diminution pondérée de l’indice de diversité de Gini suivant la formule ∆]9^g= ^g Y ;1 − ^g Y < − ¹ _^g` _^g_a^g Yb ;1 − ^g Yb < + _^g_d^g Ye ;1 − ^g Ye <f avec _{_}^g= ∑ T∈_ ^, _^g_a = ∑∈__aT ^, _^g_d = ∑∈__dT^,^g Y =^{∑ g}_@∈i @h_@ 5_ij , ^g Yb =^∑^@∈ia₅^g^@^h^@ ia^j ^,^g Ye = ∑_@∈idg_@h_@ 5_idj .

Une fois la structure de l’arbre de décision déterminée, la prédiction lors de la phase de test avec les réalisations L des features représentant les individus appartenant au nœud terminal Y , du risque

^ L , est estimée en utilisant la moyenne pondérée ^g L =^∑_@∈ik^g@h_@

5_ikj ,

où T correspond au poids IPCW donné précédemment, et _^g_k = ∑ T_S ]lm_@S__kn^.

Notons , les données d’entrée de calcul pour le calcul des poids de Kaplan-Meier comme résul-tats. On suppose qu’on a une variable de durée dont l’observable est = , et = ]l _@ _@n^{. La formule pour le calcul des poids de Kaplan-Meier}ω est donnée par

T , = Ð Í _{− Ñ − 1Î}^{− Ñ} ³^@

8 ÄS

où T , ^{est le poids de Kaplan-Meier associé à la} ^{-ème valeur} ^{classé par ordre croissant.}

Notons M, T, X les données d’entrée d’une base composée de individus. L’objectif de cet algo-rithme est de fournir un arbre de régression maximal élagué sur des données contenant des observa-tions censurées et des prédicobserva-tions des paramètres d’intérêt (par exemple la durée de maintien et la charge sinistre en assurance non-vie).

La construction de l’arbre maximal

Elle consiste d’abord par le calcul de l’estimateur GÖ suivant la formule analytique proposée pour les individus. Ensuite une étape d’initialisation de l’algorithme est réalisée en considérant l’arbre avec une feuille unique composée de _¤ s individus non censurés ( ¤ ≤ ).

65 Enfin des étapes d’itérations de split ou subdivision des feuilles en nœud. Il s’agit de considérer que l’arbre obtenu à l’étape Y − 1 avec 1_8 ^{feuilles où les individus de chaque feuille}ˆ correspondant à la classe _b^_8 sont distincts de ceux des autres feuilles. Les observations censurées (au nombre de ¤^b⁾

de mêmes caractéristiques, c’est-à-dire = ∈ _b_8 _{sont assignés à cette feuille.}

Pour chaque feuille ˆ, avec 1 ≤ ˆ ≤ 1_8 deux cas sont possibles. Si ¤^b = 1 ou si toutes les observations ont les même valeurs que =, alors on ne procède pas à la subdivision (split) de la feuille (cas 1). Si non la feuille devient un nœud du prochain arbre issu de cette étape (cas 2).

Pour le cas 2, le split est réalisé en déterminant les valeurs Ñ et L_b^Ä× qui minimisent 1b¯Ñ, L_b^Ä °, puis de définir les deux nouveaux sous-ensembles disjoints

b^_8 ⋂ § = Ä_× ≤ L_b^Ä× ª et _b^_8 ⋂ § = Ä_× > L_b^Ä× ª.

Le nombre de feuilles devient alors 1_^{et on passe à l’étape}Y + 1 jusqu’à ce que la condition suivante 1_= 1_ ^{soit remplie.}

La procédure s’arrête lorsque toutes les feuilles ne peuvent plus être subdivisées.

L’élagage de l’arbre maximal

Cette phase consiste à sélectionner un sous arbre o| Å possédant ÙÖÚ^{feuilles, parmi l’ensemble}ℵ des sous arbres de l’arbre maximal (possédant Ù ≤ feuilles) déterminé lors de la phase de construction de l’arbre maximal, tel que

o| Å = ••‘

mÜℵ UÝ '( , ^m ,, L )·K= , ,, L +^{ÅÙ o} Þ

avec Ù o le nombre total des feuilles du sous arbre o, Å le facteur de pondération du terme de péna-lisation ^{ß m}.

Pour ce faire, l’algorithme est d’abord initialisé en mettant le facteur Å = 0, puis suivi d’une étape d’incrémentation consistant à augmenter progressivement la valeur de Å telle que 0 < Å < Åš< ⋯ < Åß_E^{jusqu’à ce que} ÙÖÚ_CáG= ÙÖÚ_C^{. Le choix de la valeur optimale}ÅÄ_×^{correspond à la valeur}

mini-misant pour un échantillon de taille , noté , , , â^{, la formule}ã(ÅÄ) suivante ã(ÅÄ) = ∑ ³^@^4ä5^@^,$¬

å¯æC° ₇_@_,6_@ _ç

89= 6_@8 â

S ^.

L’estimateur de est donné par la formule suivante

m ,, L = ∑^{ß m}_bS ¹b b ,, L .

Pour ˆ une feuille du sous arbre optimal est associé un sous-ensemble d’individus b^{(distinct des autres}

sous-ensemble d’individus et tel que la réunion de tous forme l’ensemble de tous les individus) et au critère _b Lè = ]_{l—è ∈} _an^{permettant de déterminer si un individu est affecté ou non à cette feuille.}

Le coefficient ¹b= ••‘

$Ü7 %&' , é ê ∈ b*.

L’estimation du risque est donnée par ^m Ú_{comme l’estimateur final de} _.

Limite de l’algorithme Tree-base censored

L’une des principales limites de cet algorithme découle de la grande flexibilité de CART qui le rend instable et souvent confronté à un problème de sur-apprentissage sur les données d’entraînement. Plusieurs procédures d'élagage permettant de contourner ce problème de sur-apprentissage sont pro-posées avec la plupart impliquant un paramètre de réglage qui limite la complexité de l'arbre [52, 53].

66 L'une des stratégies consiste à définir une limite inférieure pour le nombre d'individus affectés à un nœud terminal. Dans notre notation ci-dessus, le nœud o ne serait pas subdivisé (suivant la règle de subdivision utilisée) à moins que ( __a, __d) ≥ .

Cette stratégie est facilement généralisable au cas des données censurées en retenant comme con-trainte _{_}^g_a, _^g_d ≥ . Cependant nous notons que __a≈ _^g_a^et __d≈ _^g_d^{si la valeur attendue}

de T = 1. En pratique, fixer une limite inférieure pour ( __a, __d) est généralement suffisante. Une autre approche consiste à accepter la subdivision d’un nœud dès lors que la diminution de l’indice de diversité de Gini dépasse un certain seuil fixé r, c’est-à-dire ∆]9 Y ≥ r . Substituer ∆]9 Y ≥ r par ∆]9^g Y ≥ r permet d'utiliser la même règle dans le paramétrage des données censurées.

Finalement, les valeurs optimales des paramètres de réglage peuvent être choisies par des techniques de validation croisée.

2.8.3. Modification de l’algorithme de forêt aléatoire

Nous proposons une modification de l’algorithme de forêt aléatoire pour l’adapter aux données cen-surées (Random Forest Censored).

Notons le nombre d’arbres optimaux élagués prédéfini, on dispose d’une base composée de n indi-vidus représentés par ƒ = ` , , , S ,…, f. L’objectif de cet algorithme est de fournir des pré-dictions des paramètres d’intérêt (par exemple la durée de maintien et la charge sinistre en assurance non-vie).

La première étape consiste à initialiser la procédure. Elle permet de calculer de l’estimateur GÖ suivant la formule analytique proposée pour les individus et les poids de Kaplan-Meir.

La seconde étape est une itération de l’algorithme Tree base censred dans les conditions du boostrap. Pour = 1 à , on fait un tirage aléatoire dans la base z d’un échantillon boostrap (avec remise) noté ƒ_}^~ et on estime l’arbre de régression optimal élagué {|_…

P^† suivant les critères de l’algorithme Tree base censred afin d’obtenir modèles.

La dernière étape consiste à l’agrégation des modèles, l’estimateur par la méthode bagging est tout simplement la moyenne des prédictions de chaque modèle, calculer avec la formule suivante

{|~•€ L =_}∑ {|_… P^† L

‚

}S ^.

Ainsi, un estimateur du paramètre d’intérêt ou du risque serait {|~•€.

2.8.4. Modification du Gradient boosting censuré (Gradient tree boosting censored)

La démarche proposée est similaire à la précédente. Nous proposons une modification de l’algorithme du Gradient Boosting pour l’adapter aux données censurées (Gradient tree boosting censored). Notons le nombre d’arbres optimaux élagués prédéfini, on dispose d’une base composée de indi-vidus représentés par ƒ = ` , , , S ,…, f. L’objectif de cet algorithme est de fournir des pré-dictions des paramètres d’intérêt (par exemple la durée de maintien et la charge sinistre en assurance non-vie).

La première étape consiste à initialiser la procédure. D’une part, elle permet de calculer de l’estimateur += suivant la formule analytique proposée pour les individus et les poids de Kaplan-Meir. D’autre part, de la fonction de perte

{| = ••‘

67 La seconde étape est récursive. Pour = 1 à , on calcule

•}= − ’^“b^”^(•@,– —_@ )

“– —_@ ˜

–S–_P™G^,

pour = 1, … , .

Puis on ajuste l’arbre de régression optimal élagué _} au couple L , •}

S ,…, ^{avec l’algorithme} Tree-base censored.

Ensuite on calcul Š} en résolvant

min_• ∑ ˆ (Œ , {_S }8 L − Š } L ). Enfin on met à jour {|_} L = {|_}8 L − Š_{} }} L .

Ainsi, un estimateur du paramètre d’intérêt ou du risque serait la valeur finale {|‚^.

Dans le document Contributions au provisionnement en assurance de personnes et à la gestion des risques (Page 64-68)