Bagging et Random Forests

(1)

M

ÉTHODES ENSEMBLISTES Julie Scholler

février 2020

M Éc E n

I. Introduction

Stratégies d’amélioration des modèles et algorithmes classiques Idée

• construire une collection de prédicteurs de base en parallèle

• agréger l’ensemble de leurs prédictions

Autre idée

• construire une collection de prédicteurs de base en série

• repose sur une construction adaptative du modèle

→ cours suivant

Méthodes générales s’appliquant à toute méthode de prédiction mais intérêt surtout pour les méthodes instables

(2)

I. Introduction

Situation

• X = (X₁,X₂, . . . ,X_p) : variables explicatives ou prédicteurs (quantitatives ou qualitatives)

• Y : variable à prédire (ou expliquer) qualitative à m modalités

• f : Y = f (X) +ε

I. Introduction

Arbre élagué - Défaut de paiement

PAY_0 >= 2

EDUCATIO < 3

LIMIT_BA < 45e+3

BILL_AMT >= 44e+3 ok

.21 .79 def

.68 .32 def

.72 .28

def .56 .44 def

.72 .28

ok .47 .53 def

.62 .38

ok .24 .76 ok

.16 .84

yes no

(3)

I. Introduction

Estimations des erreurs de prédictions

Modèle Err_appr Err_test Arbre maximal 0.123 0.236 Arbre élagué (seuil 0.5) 0.173 0.185 Arbre élagué (seuil 0.2) 0.175 0.182

II. BAGGING

BAGGING

Idée

• créer plein de modèles sur des échantillons différents et les agréger

Mise en œuvre

• B échantillons indépendants de n observations :

z^(b) = ⁿx^(b)₁ ,y₁^(b), . . . ,x^(b_n ⁾,y_n^(b)^o, b = 1, . . . ,B

• Estimation du modèle : fb(x₀) = argmax

k

n

Cardⁿb ; ^bf^(b)(x₀) = k^oo avec f^b^(b) : estimation du modèle sur l’échantillon b

(4)

II. BAGGING

Gain

• diminution de la variance Problème

• irréaliste de considérer B échantillons indépendants (nécessite trop de données)

Idée

• utiliser B échantillons bootstrap

Bootstrap AGGregatING BAGGING

II. BAGGING

Algorithme de BAGGING

1. Soit x₀ à prévoir

2. Soit z = {(x₁,y₁), . . . ,(x_n,y_n)} un échantillon 3. Pour b allant de 1 à B

• tirer un échantillon bootstrap z^∗b

• construire à partir de z^∗b : bf^∗b

• calculer bf^∗b(x0)

4. Calculer ^bf_BAG (x₀) = argmax

k

n

Cardⁿb ; f^b^∗b (x₀) = k^oo

(5)

II. BAGGING

Estimation de l’erreur de prédiction

Possibilités

• découpage apprentissage/validation

• validation croisée : très coûteux en temps de calculs

• erreur Out Of Bag : OOB Rappel

• chaque échantillon bootstrap contient environ 1/3 des données

• le tiers restant constitue les données OOB Dans l’algorithme de BAGGING,

• chaque observation n’a pas été choisie environ B/3 fois

• pour chaque observation, on peut faire des prédictions avec les modèles provenant d’échantillon ne la contenant pas

On obtient l’erreur OOB associée au processus de BAGGING.

II. BAGGING

BAGGING avec CART

Stratégies pour la construction des arbres 1. construction complète avec élagage

• validation croisée pour la sélection de la complexité : coûteuse

2. limiter le nombre de feuilles

• comment choisir les nombres de feuilles

3. arbres complets ou profonds

• faible biais mais grande variance

• variance réduite par l’agrégation

• arbres profonds moins corrélés entre eux

(6)

II. BAGGING

Estimations des erreurs de prédictions

Modèle Err_appr Err_test Err_OOB Arbre maximal 0.123 0.236

Arbre élagué (seuil 0.5) 0.173 0.185 Arbre élagué (seuil 0.2) 0.175 0.182

Bagging avec arbre max 0 0.180 0.182

II. BAGGING

0.1750 0.1775 0.1800 0.1825 0.1850

5 10 15 20 25

Profondeur de l’arbre

Erreur en test

Erreur selon la profondeur pour du bagging

(7)

II. BAGGING

0.15 0.20 0.25

0 100 200 300 400 500

Nombre d’arbres de la fôret

Type

oob test

Erreur selon le nombre d’arbres

II. BAGGING

Avantages et inconvénients

• algorithme simple, se comprend et se programme facilement quelque soit la méthode de base choisie

• temps de calculs éventuellement important

• nécessite de stocker tous les modèles pour les prédictions

• amélioration de la qualité au détriment de l’interprétabilité

→ boîte noire

(8)

III. Forêt aléatoire

Forêt aléatoire

Amélioration du BAGGING dans le cas des modèles CART Idée

ajouter de l’aléa dans le choix des variables afin de rendre moins corrélés les différents arbres de l’agrégation

Algorithme

1. Soit x0 à prévoir

2. Soit z = {(x₁,y₁), . . . ,(x_n,y_n)} un échantillon 3. Pour b allant de 1 à B

• tirer un échantillon bootstrap z^∗b

• estimer un arbre bf^∗b sur cet échantillon avec randomisation des variables : la recherche de chaque nœud optimal est précédé d’un tirage aléatoire d’un sous-ensemble de q prédicteurs autorisés

• construire à partir de z^∗b : bf^∗b

• calculer bf^∗b(x0)

4. Calculer ^bf_FA (x₀) = argmax

k

n

Cardⁿb ; ^bf^∗b (x₀) = k^oo

Choix de q

• q = p : BAGGING

• diminuer q accroît la variabilité des arbres donc augmente la décorrélation des arbres

• valeurs courantes de q : b√

pc, bln(p) + 1c ou q = 1

• petites valeurs de q : bons résultats

• sauf si la proportion de prédicteurs discriminants est faible

<0.5 ou 0.4

Situation où q = 2 et il y a 5 variables discriminantes Nombre de variables non dis-

criminantes

5 10 20 50 100

Probabilité de choisir au moins une variable discriminante

0.78 0.57 0.37 0.18 0.09

(9)

0.15 0.20 0.25 0.30

0 100 200 300 400 500

B : nombre d’itérations

Méthode

q = 1 q = 4 q = 5 q = 8 q = 10

Erreur selon le choix de q

0.17 0.18 0.19 0.20

5 10 15 20

Nombre de variables choisies

Erreur en test

Erreur selon le nombre de variables

(10)

Élagage ou non

• choisir moins de prédicteurs décorrèle déjà les arbres

• dans certains cas, on peut se limiter à des arbres de faible profondeur (même 2)

0.16 0.17 0.18 0.19 0.20 0.21

10 20 30

Profondeur de l’arbre

Erreur en test

Erreur selon la profondeur pour une RF

(11)

Estimations des erreurs de prédictions

Modèle Err_appr Err_test Err_OOB Arbre maximal 0.123 0.236

Arbre élagué (seuil 0.5) 0.173 0.185 Arbre élagué (seuil 0.2) 0.175 0.182

Bagging avec arbre max 0 0.180 0.182

R.F. avec q = 1 0.195 0.189

R.F. avec q = 4 0.176 0.183

R.F. avec q = 5 0.177 0.184

R.F. avec q = 8 0.177 0.184

R.F. avec q = 10 0.179 0.182

Avantages et inconvénients

• algorithme simple, se comprend et se programme facilement

• temps de calculs éventuellement important

• nécessite de stocker tous les modèles pour les prédictions

• amélioration de la variablilité par rapport au bagging d’arbres CART

• même problème d’interprétabilité que pour le bagging

→ boîte noire

(12)

IV. Interprétation des modèles

Interprétation

Perte de l’aspect interprétation des arbres Solution

• évaluer l’importance d’une variable dans la construction d’une forêt aléatoire

Mesure de l’importance

• fréquence d’apparition : trop rudimentaire

• Mean Decrease Gini : typique des arbres

• Mean Decrease Accuracy : méthode générale

Measure de l’importance d’une variable

MDG : Mean Decrease Gini

• baisses d’impureté des nœuds résultants de la scission de la variable considérée moyennées sur l’ensemble des arbres MDA : Mean Decrease Accuracy

• pour chaque arbre k

• mesure l’erreur OOB : E_k

• permutation aléatoire des valeurs de la variable considérée parmi les individus OOB

• nouvelle mesure du taux d’erreur E_k⁰

• MDA = moyenne des (E_k⁰ − E_k) normalisé par son écart type

(13)

SEX MARRIAGE AGE EDUCATION ID PAY_AMT6 BILL_AMT3 PAY_AMT5 BILL_AMT4 BILL_AMT6 PAY_AMT4 BILL_AMT2 BILL_AMT5 BILL_AMT1 LIMIT_BAL PAY_AMT3 PAY_AMT1 PAY_AMT2 PAY_6 PAY_4 PAY_5 PAY_3 PAY_2 PAY_0

0 50 100

Méthode

Mean Decrease Accuracy Mean Decrease Gini

Mesure d’importance des variables

V. Sélection de variables

• La variabilité des mesures d’importance des variables non

informatives est plus faible que celle des variables informatives.

⇒ méthode de sélection de variables Méthode du package VSURF

due à Genuer, Poggi, Tuleau-Marlot en 2010 Étape 1 Élimination préliminaire

on élimine les variables dont la variabilité de la mesure de l’importance est sous un certain seuil

Étape 2 Sélection pour l’interprétation en comparant les erreurs OOB de modèles emboîtés

Étape 3 Sélection pour la prédiction

on ajoutant une à une les variables et on les garde

effectivement que si l’erreur OOB décroît de plus qu’un seuil

(14)

Base de données défauts de paiement

0.00 0.01 0.02 0.03

0 5 10 15 20 25

Importance des variables

1e-04 2e-04 3e-04 4e-04

0 5 10 15 20 25

Écarts type des VI

Exemple d’un base de données avec

• seulement 6 variables liées à Y

• très liées entre elles par 3

0.00 0.05 0.10

0 10 20 30 40

Importance des variables

0.000 0.001 0.002 0.003

0 10 20 30 40