Les arbres CART et la forˆ et al´ eatoire

1.4 Arbre de r´ egression pour la pr´ ediction de dur´ ee

1.4.2 Les arbres CART et la forˆ et al´ eatoire

Dans cette section exclusivement, nous nous pla¸cons dans le cas o`u la variable `a ex-

pliquer, not´ee V , n’est pas censur´ee. L’algorithme CART (Breiman et al. (1984)) et

l’algorithme de forêt aléatoire (Breiman (2001)) sont des méthodes d’apprentissage statistique très utilisées, appliquées sur des données non censurées pour résoudre des problèmes de régression et de classification. Nous allons présenter ces algorithmes dans le contexte de la régression, où le problème consiste à estimer la fonction f (x) = E[V |X = x], dite fonction de régression.

Les arbres CART

Soit (Vi, Xi)i=1,...,n un ´echantillon de n observations et D = {1, . . . , n} l’ensemble des

indices de l’´echantillon. Pour une partie B ⊂ X , nous notons nD(B) = P

i∈D1Xi∈B le

nombre d’observations telles que Xi ∈ B et ¯VBD = 1/n

D_(B)P

i∈DVi1Xi∈B la moyenne

empirique de V pour les observations appartenant `a B. Pour un ensemble E, nous notons

egalement Card(E) le cardinal de cet ensemble (i.e. son nombre d’´el´ements).

L’algorithme CART consiste à construire un arbre binaire, tel que celui représenté à la Fig. 1.5, à partir du noeud initial constitué de l’échantillon complet D. Chaque séparation

en deux branches correspond `a une segmentation d’un sous-ensemble d’observations en

deux parties. Par exemple, la s´eparation issue du noeud d’origine segmente D en deux

groupes d’observations. Les coupures effectu´ees en chaque noeud correspondent `a des

r`egles binaires de type (Xj _{≤ u), o`}_{u X}j _d´_{esigne la j-i`}_{eme dimension de X (j ∈ {1, . . . , p})}

et u est un réel. Une fois construit, un arbre binaire détermine une partition de l’espace X en sous-ensembles (Xk)k=1,...,K(aussi appelés feuilles), ainsi qu’une partition de l’échantillon

D en sous-échantillons. On associe alors à cet arbre l’estimateur, constant par morceaux, de la fonction de régression f (x) donné par ˆm(x) =PK

k=1V¯ D

Xk1Xi∈Xk.

A taille de partition K fix´ee, les coupures (Xj _{≤ u) sont optimis´ees pour que l’estimateur}

m soit `a distance minimale du nuage de points form´e par les observations (Vi, Xi)i∈D. En

effet, on d´efinit pour un noeud de l’arbre A ⊂ X ,

L(u, j, A, D) = 1 nD_(A) · X i∈D Vi− ¯VADl1X_ij≤u− ¯V D Ar1Xj_i>u 2 · 1Xi∈A, (1.37)

avec Al = A ∩ {Xj ≤ u} et Ar = A ∩ {Xj > u}. Etant donn´´ e un couple (u, j),

L mesure une distance (erreur quadratique) entre les observations contenues dans A : {i ∈ D/Xi ∈ A}, et le mod`ele simple qui attribue les pr´edictions ¯VADl et ¯V

Ar aux ensembles

Al et Ar, respectivement. Les param`etres j et u sont alors choisis en chaque noeud de

sorte qu’ils minimisent le crit`ere L.

Un autre élément important de l’algorithme CART est le critère qui décide de l’arrêt de la subdivision d’un noeud en sous-ensembles. Dans la version originale de Breiman et al. (1984), un noeud A n’est pas divisé si son effectif n(A) est inférieur à une constante spécifiée en paramètre à la procédure (nous appellerons ce paramètre minsplit). Toutefois,

d’autres crit`eres sont couramment employ´es, notamment pour l’usage de CART dans le

cadre de l’algorithme de forˆet al´eatoire (voir Algorithme 2). La profondeur d’un noeud

Fig. 1.5: Exemple d’arbre CART avec deux variables explicatives X1 et X2. La profondeur de l’arbre est de 4.

correspond `a la longueur du chemin qui descend depuis le noeud d’origine de T dans le

noeud A, avec la convention que la profondeur du noeud d’origine est 1. Par extension, la profondeur de l’arbre T correspond à la profondeur maximale d’une feuille de l’arbre. Une autre méthode pour stopper la division d’un noeud consiste alors à fixer une profondeur maximale (paramètre que nous appellerons maxdepth) au-delà de laquelle un noeud n’est pas divisé.

La procédure CART est détaillée dans l’Algorithme 1. Notons que nous avons intro- duit 3 modifications majeures dans cet algorithme par rapport à l’algorithme original de Breiman et al. (1984). En effet, pour simplifier la présentation de l’algorithme de forêt aléatoire dans la partie suivante, nous avons ajouté les paramètres maxdepth (cf. para- graphe précédent) et mtry à la procédure. Dans la version originale, on ne tirerait pas de sous-ensemble de variables Mtry et la ligne 10 serait ”pour j ∈ {1, . . . , p} faire”. De

plus, l’Algorithme 1 ne fait pas mention de la partie ´elagage pr´esente dans l’algorithme original.

Algorithme 1 : CART

Entr´ee : Donn´ees : (Vi, Xi)i∈D, mtry ∈ {1, . . . , p}, maxdepth ∈ N∗, minsplit ∈ N∗

Sortie : Arbre binaire T , estimateur ˆm. // Construction de l’arbre T

1 Initialiser T = (X ) l’arbre form´e du noeud initial.

2 Initialiser A = {X } l’ensemble des noeuds terminaux de T .

3 tant que Card(A) > 0 faire

4 Définir A le premier élément de A.

5 si P rof ondeur(A) = maxdepth, n(A) ≤ minsplit ou si tous les X_i ∈ A sont

egaux alors

6 Retirer l’´el´ement A de A.

7 fin

8 sinon

9 Tirer uniform´ement, sans remise, un sous-ensemble M_try ⊂ {1, . . . , p} de

cardinal mtry.

10 pour j ∈ Mtry faire

11 Trouver u_j tel que

uj = arg min

u∈{X_ij/ i∈D t.q. Xi∈A}

L(u, j, A, D).

12 fin

13 Trouver j∗ = arg min

j∈Mtry L(uj, j, A, D). 14 D´efinir A∗_l = A ∩ {Xj ∗ ≤ uj∗} et A∗_r = A ∩ {Xj ∗ > uj∗}. 15 Ajouter A∗_l et A∗_r `a l’ensemble A.

16 Augmenter l’arbre T des noeuds A∗_l et A∗_r.

17 Retirer l’´el´ement A de A.

18 fin 19 fin

// Construction de l’estimateur ˆm

20 D´efinir X₁, . . . , X_K les K noeuds terminaux de l’arbre T . 21 D´efinir ˆm(x) =PK_k=1V¯_XD

k1Xi∈Xk.

La forˆet al´eatoire

L’algorithme de forêt aléatoire (Breiman (2001)) est construit à partir de l’algorithme

CART. Nous allons voir qu’il s’agit en fait d’un assemblage de diff´erents arbres CART

construits en parallèles et en respectant une même procédure.

L’idée du bagging (contraction de bootstrap-aggregating) a été introduite par Breiman (1996). Le principe se résume en deux phases : dans un premier temps, tirer uniformément et avec remise un nombre M d’échantillons bootstrap (que nous noterons Dn) à partir

de l’échantillon initial D et calibrer sur chacun d’eux un même modèle statistique (phase

bootstrap) ; dans un second temps, agr´eger les M mod`eles obtenus, avec une moyenne

par exemple, pour former le modèle final (phase d’agrégation). L’expérimentation montre que, utilisé pour calibrer un modèle statistique, le bagging aboutit en général à un meilleur modèle, c’est à dire à une erreur de prédiction plus faible, que l’approche classique qui consiste à calibrer une seule fois le modèle sur l’échantillon entier D. Breiman souligne que l’amélioration obtenue est importante lorsque les modèles individuels calibrés sur les ´

echantillon Dn ont une forte variance (i.e. forte sensibilité du modèle à l’échantillon Dn,

forte variabilité dans la procédure de calibrage du modèle), mais que toutefois, appliqué dans une situation où les modèles individuels varient peu, le bagging n’a pas d’effet positif et peut même conduire à une diminution sensible de la précision du modèle.

La combinaison des arbres CART et du bagging est propos´ee par Breiman en 1996.

Breiman montre que les performances de l’algorithme CART sont grandement am´elior´ees

lorsque que ce dernier est associé au bagging. Les résultats de la procédure CART sont en effet très sensibles aux variations d’échantillon (Breiman et al. (1996)) car la modification de la coupure choisie en un noeud de l’arbre se répercute sur tous les noeuds enfants qui en découlent. Ces réflexions aboutissent au développement du concept de forêt aléatoire dans Breiman (2001).

L’Algorithme 2 décrit la procédure de forêt aléatoire. On peut voir que la forêt aléatoire correspond en fait au bagging d’arbres CART. Plus précisément, il s’agit d’une version avancée du bagging d’arbre CART, car différentes améliorations sont apportées par

Breiman. Plutˆot que de chercher, en chaque noeud, la coupure optimale parmi l’ensemble

des coupures possibles, Breiman propose de tirer aléatoire (uniformément, sans remise) pour chaque noeud, un nombre mtry de variables explicatives parmi lesquelles la coupure optimale est recherchée (lignes 9 à 13 dans l’Algorithme 1). Bien que cette technique rende chaque prédicteur individuel moins précis, Breiman s’est aper¸cu qu’associée au bagging cette modification apportait souvent une amélioration de l’estimateur agrégé de

la forêt aléatoire : plus précis, plus robuste aux observations extrêmes, et aussi plus rapide à calculer. Ce dernier point qui concerne les temps de calcul est particulièrement important lors de l’utilisation de l’algorithme en grande dimension (lorsque p est grand). D’autre part, Breiman souligne l’importance de ne pas élaguer les arbres individuels de la forêt aléatoire, c’est à dire de ne pas sélectionner un sous-arbre optimal à partir d’un arbre initialement construit comme cela est proposé dans l’algorithme CART. Enfin, il ex- plore la piste des quantités out-of-bag, qui permettent de suivre en continu l’amélioration du modèle agrégé au fil de l’ajout de nouveaux prédicteurs individuels, et de mesurer l’importance de chaque variable explicative.

Algorithme 2 : Forˆet al´eatoire

Entr´ee : Donn´ees : (Vi, Xi)i=1,..,n, M ∈ N∗ the number of trees, mtry ∈ {1, . . . , p},

maxdepth ∈ N∗, minsplit ∈ N∗.

Sortie : Ensemble des arbres RF , estimateur ˆmRF.

1 Initialiser RF = {} l’ensemble des arbre de la forêt aléatoire. 2 Initialiser ˆmRF = 0 l’estimateur de la fonction de régression. 3 pour j = 1, . . . , M faire

4 Construire l’´echantillon bootstrap D_n,j en tirant uniform´ement, avec remise, n

observations dans l’ensemble D.

5 Construire l’arbre CART T_j `a partir de l’´echantillon D_n,j, en utilisant

l’Algorithme 1, et en respectant les valeurs des arguments mtry, maxdepth et minsplit.

6 Ajouter l’arbre T_j `a l’ensemble RF . 7 fin

8 Construire l’estimateur ˆmRF = _M1 PM_j=1mˆj où chaque estimateur ˆmj est calculé à

partir de l’arbre Tj.

renvoyer : RF , ˆmRF

Du fait de la censure des données de durée (Ti)i=1,..,n et des biais évoqués à la Section

1.2.4, les algorithmes décrits dans cette section ne permettent pas d’estimer E[T |X = x]. Toutefois, différentes adaptations de l’algorithme CART et de la forêt aléatoire ont été proposées pour répondre à ce problème. Nous présentons dans les parties suivantes les principales méthodes rencontrées dans la littérature.

1.4.3 Une premi`ere approche : L’algorithme RSF (Random Sur-

Dans le document Contributions à la modélisation des données de durée en présence de censure : application à l’étude des résiliations de contrats d’assurance santé (Page 61-66)