• Aucun résultat trouvé

3.6 Application

Nous illustrons maintenant les résultats présentés en Section 3.4 et 3.5 sur les don-nées de cancer du sein collectées à l’Institut Curie introduites en Section2.6. Nous nous focalisons ici sur la variable “taille de la tumeur”. Nous séparons d’un côté les patients dont la taille de la tumeur est inférieure à 60mm, et ceux pour lesquels elle est strictement supérieure à 60mm. On crée ainsi une covariable binaire. La Figure3.6présente le proces-sus du score standardisé pour la taille de la tumeur. On constate bien une dérive et donc d’un effet dépendant du temps. On voit même plus précisément que la pente du processus diminue, c’est-à-dire que l’effet de la taille de la tumeur diminue avec le temps. Au regard de la Figure3.6, on peut se demander si, à la fin de l’étude, l’effet de la taille de la tumeur n’augmente pas. On hésite donc entre deux modèles réduits (3.2) : un modèle avec un changepoint et un modèle avec deux changepoints. On utilise les moindres carrés pour leurs estimations, puis on estime les coefficients de part et d’autre de ces changepoints par vraisemblance partielle. On obtient les modèles suivants

M1 β(t) = 1.68ˆ 1t≤28.06+ 0.581t>28.06

M2 β(t) = 1.82ˆ 1t≤26+ 0.64126<t≤73.00+ 1.031t>73.00. L’estimation des points de rupture est aussi représentée en Figure3.6.

(a) M1 (b) M2

Figure 3.4 – Tracé du processus du score standardisé pour la covariable “taille de la tumeur” (en noir) et du ou des changepoints estimés (en rouge)

Chapitre 4

Une approche non paramétrique :

les forêts de survie aléatoires

Ce chapitre est le résultat d’un travail réalisé en collaboration avec M. Erwan Scornet.

4.1 Introduction

Les forêts aléatoires sont une classe d’algorithmes d’apprentissage utilisés pour résoudre des problèmes de reconnaissance de formes. Le principe est de faire grandir plusieurs arbres qui permettent d’apprendre sur le jeu de données, puis ils sont agrégés pour former une prédiction. Pour avoir plusieurs arbres différents à partir d’un seul jeu de données, il faut introduire de l’aléa dans le processus de construction de l’arbre, en échantillonnant le jeu de données par exemple. En conséquence, il existe une grande variété de forêts aléatoires, suivant la manière dont les arbres sont construits et l’aléa introduit dans ce processus de construction.

L’une des forêts aléatoires les plus populaires est celle deBreiman(2001) pour laquelle la croissance de l’arbre est basée sur la procédure CART (Classification and Regression Trees,Breiman et al.,1984) et la randomisation s’effectue à la fois sur le jeu d’apprentissage et les directions de coupure. Les forêts de Breiman (2001) sont intensivement étudiées depuis la dernière décennie, principalement grâce à leurs bonnes performances en pratique et leur faculté à gérer des jeux de données de grande dimension. De plus, leur utilisation est simple puisqu’elles ne dépendent que de quelques paramètres qui sont facilement réglables

(Liaw and Wiener,2002;Genuer et al.,2008). Ces méthodes font déjà partie de l’état de

l’art dans des domaines comme la génomique (Qi, 2012) et la reconnaissance de forme

(Rogez et al., 2008), pour ne citer qu’eux. Elles progressent par ailleurs dans d’autres

domaines tels que les données de survie (Ishwaran et al., 2008). C’est celui qui nous intéresse ici.

Cependant, même si les forêts aléatoires sont connues pour leurs performances dans plu-sieurs contextes, on sait peu de choses sur leurs propriétés mathématiques. Les premières tentatives pour comprendre les principes mathématiques en jeu dans les forêts aléatoires se sont concentrées sur un modèle de forêt simplifié (voir par exemple, Biau et al.,2008;

Ishwaran and Kogalur,2010;Denil et al.,2013) dont la construction ne dépend pas du jeu

de données. D’un autre côté, des études récentes ont tenté d’analyser l’algorithme original de Breiman pour prouver sa normalité asymptotique (Mentch and Hooker,2014;Wager,

2014) ou sa consistance (Scornet et al.,2014). Mais l’apparente simplicité de ces résultats contraste avec la complexité des preuves correspondantes. C’est pourquoi, plutôt que de s’intéresser directement aux forêts de survie aléatoires qui sont utilisées dans le cas de

84

Chapitre 4. Une approche non paramétrique : les forêts de survie aléatoires données censurées, nous nous plaçons d’abord dans le cadre plus simple de régression sans censure et nous nous focalisons sur l’étude des forêts de Breiman.

Les forêts médianes sont un bon compromis entre la simplicité de forêts construites indépendamment du jeu de données et les forêts de Breiman qui dépendent à la fois des positions et des labels du jeu de données. La construction des forêts médianes dépend seulement de la position du jeu de données et peut être réglée pour faire en sorte que chaque feuille de chaque arbre contienne exactement un point. De cette manière, les forêts médianes sont plus proches de celles de Breiman que les forêts simplifiées dont les feuilles ne peuvent pas contenir un nombre prédéfini de points, car leur construction est indépendante des observations.

L’objectif de ce chapitre est d’étudier l’influence du taux de sous-échantillonnage sur la performance des forêts de Breiman. Pour cela nous nous basons sur l’influence de ce paramètre sur la performance des forêts médianes. Nous présentons une majoration de la vitesse de convergence des forêts médianes et montrons que la performance de ces forêts ne dépend pas du taux de sous-échantillonnage, pourvu qu’il soit assez grand, mais plutôt du niveau de chaque arbre dans la forêt. Nous démontrons que les bénéfices d’une forêt médiane totalement développée sur des forêts médianes moins développées ne se trouvent pas dans la précision de la prédiction mais plutôt dans la diminution du temps de calcul. La Section 4.2est consacrée à l’introduction des notations et fournit l’algorithme des forêts de Breiman. Les principaux résultats théoriques sur les forêts médianes sont ras-semblés en Section4.3. Ces résultats s’adaptent aux forêts de Breiman, comme présenté en Section4.4. Nous revenons ensuite au problème de données de survie en Section 4.5à travers une application à des données de cancer du sein de l’Institut Curie. Les preuves sont détaillées en AnnexeA.

4.2. Notations 85

4.2 Notations

Dans ce chapitre, on note Dn= (X1, Y1), . . . , (Xn, Yn) un échantillon d’apprentissage à valeurs dans [0, 1]d× R indépendantes et identiquement distribuées selon la loi d’un couple de variables aléatoires (X, Y ), oùE[Y2] < ∞. La variable X représente la variable prédicteur et Y la variable réponse. On souhaite estimer la fonction de régression non paramétrique m(x) =E [Y |X = x]. Dans ce contexte, on utilise les forêts aléatoires pour construire un estimateur mn: [0, 1]d→ R de m, basé sur le jeu de données Dn.

Les forêts aléatoires sont des méthodes de classification et de régression basées sur une collection de plusieurs, disons M , arbres aléatoires. On note mn(x, Θj, Dn) la valeur prédite du j-ème arbre, au point x, où Θ1, . . . , ΘM sont des variables aléatoires indépendantes, distribuées selon une variable aléatoire générique Θ, indépendante de l’échantillon Dn. En pratique, la variable Θ peut être utilisée pour échantillonner le jeu d’apprentissage ou pour sélectionner les directions ou positions candidates à une coupure. Les prédictions de M arbres aléatoires sont moyennées pour donner la prédiction finale, i.e.,

mM,n(x, Θ1, . . . , ΘM, Dn) = 1 M M X m=1 mn(x, Θm, Dn). (4.1)

Pour plus de simplicité, on note mn(x) la quantité mM,n(x, Θ1, . . . , ΘM, Dn). D’après la loi forte des grands nombres, pour un x fixé, conditionnellement à Dn, l’estimateur de la forêt finie tend vers l’estimateur de la forêt infinie

m∞,n(x) =EΘ[mn(x)] , qu’on peut écrire

m∞,n(X) = n X i=1 Wni(X)Yi,Wni(X) =EΘ " 1XΘ ↔Xi Nn(X, Θ) #

Comme nous nous plaçons dans le cadre de l’estimation par régression L2, on définit le risque de m∞,n par

E[m∞,n(X) − m(X)]2, le risque de mM,n par

E[mn(X) − m(X)]2,

et on dit que m∞,n(resp. mn) estL2consistante siE[m∞,n(X)−m(X)]2 (resp.E[mn(X)− m(X)]2) tend vers zéro quand n → ∞.

Parmi la grande variété de forêts, on s’intéresse en particulier aux forêts de Breiman (2001) originales. Dans cette procédure, à chaque nœud de chaque arbre, on coupe sur un sous-ensemble aléatoire de directions et en minimisant la variance à l’intérieur de chaque cellule fille. La manière de construire les arbres est détaillée dans l’Algorithme 1, où mtry est le nombre de directions pré-sélectionnées pour couper, anest le nombre de points sous-échantillonnés dans chaque arbre et tn est le nombre de feuilles dans chaque arbre.

86

Chapitre 4. Une approche non paramétrique : les forêts de survie aléatoires Algorithm 1: Valeur prédite d’une forêt aléatoire de Breiman au point x.

Input: Échantillon d’apprentissage Dn, nombre d’arbres M > 0, mtry ∈ {1, . . . , p}, an∈ {1, . . . , n}, tn∈ {1, . . . , an} et x ∈ [0, 1]p.

Output: Prédiction de la forêt aléatoire en x. 1 for j = 1, . . . , M do

2 Sélectionner an points, sans remise, uniformément dans Dn. 3 Initialiser P0= {[0, 1]p} la partition associée à la racine de l’arbre. 4 Pour tout 1 ≤ ` ≤ an, on pose P` = ∅.

5 On pose nnodes = 1 et level = 0. 6 while nnodes < tn do

7 if Plevel= ∅ then 8 level = level + 1

9 else

10 Soit A le premier élément de Plevel. 11 if A contient exactement un point then 12 Plevel← Plevel\{A}

13 Plevel+1 ← Plevel+1∪ {A}

14 else

15 Sélectionner uniformément, sans remise, un sous-ensemble Mtry ⊂ {1, . . . , p} de cardinal mtry.

16 Sélectionner la meilleure coupure dans A en optimisant le critère de coupure CART (Breiman et al.,1984) sur chaque coordonnée de Mtry.

17 Couper la cellule A selon la meilleure coupure. Nommer AL et AR les deux cellules filles.

18 Plevel← Plevel\{A}

19 Plevel+1 ← Plevel+1∪ {AL} ∪ {AR} 20 nnodes = nnodes+ 1

21 end

22 end

23 end

24 Calculer la valeur prédite mn(x; Θj, Dn) en x en moyennant les Yi des points tombant dans la même cellule que x dans la partition Plevel∪ Plevel+1. 25 end

26 Calculer l’estimateur de la forêt aléatoire mM,n(x; Θ1, . . . , ΘM, Dn) au point x selon la formule (4.1).

Parce qu’elle minimise la variance à l’intérieur des cellules, la procédure de construction d’arbre de Breiman (2001) dépend de tout l’échantillon Dn. Cette caractéristique spéci-fique permet à ces forêts d’avoir, en pratique, de bonnes performances, mais nous avons une compréhension moindre de leur comportement théorique. Au contraire, pour des forêts totalement indépendantes des observations (Biau,2012), on peut prouver leur consistance et trouver des vitesses de convergence. Cependant, à cause de leur construction simplifiée, elles sont loin de modéliser précisément une forêt de Breiman (2001). Pour faire un pas de plus vers la compréhension du comportement des forêts de Breiman (2001), on étudie la forêt aléatoire médiane, qui satisfait la X-propriété. En effet, leur construction dépend seulement des Xi, ce qui est un bon compromis entre la complexité des forêts de Breiman (2001) et la simplicité des forêts totalement non adaptatives. Cela permet également d’es-sayer de comprendre pourquoi les forêts aléatoires sont toujours consistantes même quand

4.2. Notations 87

il reste exactement un point dans chaque feuille. Dans l’esprit de l’algorithme de Brei-man (2001), avant la construction de chaque arbre, les données sont sous-échantillonnées, c’est-à-dire an points (an< n) sont sélectionnés sans remise. Ensuite, chaque coupure est effectuée sur la médiane empirique d’une coordonnée choisie uniformément aléatoirement parmi les d coordonnées. Rappelons que la médiane de X1, . . . , Xn est définie comme l’unique X(`) satisfaisant Fn(X(`−1)) ≤ 1/2 < Fn(X(`)), où les X(i) sont ordonnées de manière croissante. Pour que la loi des observations soit uniforme sur les cellules filles, les points sur lesquels sont effectuées les coupures ne sont pas reportés dans les cellules filles. En effet, sinon il y aurait au moins un point sur le bord de la cellule fille, et donc la loi des observations ne serait plus uniforme dans cette cellule. Finalement, l’algorithme s’arrête quand chaque cellule contient exactement un point. On note kn la profondeur d’un arbre et on considère que kn vérifie

an 2kn ≥ 4.

Tout au long de ce chapitre, on utilise les forêts de Breiman (2001) et les forêts médianes pour illustrer nos résultats.

88

Chapitre 4. Une approche non paramétrique : les forêts de survie aléatoires

Documents relatifs