• Aucun résultat trouvé

Bagging et Random Forests

N/A
N/A
Protected

Academic year: 2022

Partager "Bagging et Random Forests"

Copied!
14
0
0

Texte intégral

(1)

M

ÉTHODES ENSEMBLISTES Julie Scholler

février 2020

M Éc E n

I. Introduction

Stratégies d’amélioration des modèles et algorithmes classiques Idée

construire une collection de prédicteurs de base en parallèle

agréger l’ensemble de leurs prédictions

Autre idée

construire une collection de prédicteurs de base en série

repose sur une construction adaptative du modèle

cours suivant

Méthodes générales s’appliquant à toute méthode de prédiction mais intérêt surtout pour les méthodes instables

(2)

I. Introduction

Situation

X = (X1,X2, . . . ,Xp) : variables explicatives ou prédicteurs (quantitatives ou qualitatives)

Y : variable à prédire (ou expliquer) qualitative à m modalités

f : Y = f (X) +ε

I. Introduction

Arbre élagué - Défaut de paiement

PAY_0 >= 2

EDUCATIO < 3

LIMIT_BA < 45e+3

BILL_AMT >= 44e+3 ok

.21 .79 def

.68 .32 def

.72 .28

def .56 .44 def

.72 .28

ok .47 .53 def

.62 .38

ok .24 .76 ok

.16 .84

yes no

(3)

I. Introduction

Estimations des erreurs de prédictions

Modèle Errappr Errtest Arbre maximal 0.123 0.236 Arbre élagué (seuil 0.5) 0.173 0.185 Arbre élagué (seuil 0.2) 0.175 0.182

II. BAGGING

BAGGING

Idée

créer plein de modèles sur des échantillons différents et les agréger

Mise en œuvre

B échantillons indépendants de n observations :

z(b) = nx(b)1 ,y1(b), . . . ,x(bn ),yn(b)o, b = 1, . . . ,B

Estimation du modèle : fb(x0) = argmax

k

n

Cardnb ; bf(b)(x0) = koo avec fb(b) : estimation du modèle sur l’échantillon b

(4)

II. BAGGING

Gain

diminution de la variance Problème

irréaliste de considérer B échantillons indépendants (nécessite trop de données)

Idée

utiliser B échantillons bootstrap

Bootstrap AGGregatING BAGGING

II. BAGGING

Algorithme de BAGGING

1. Soit x0 à prévoir

2. Soit z = {(x1,y1), . . . ,(xn,yn)} un échantillon 3. Pour b allant de 1 à B

tirer un échantillon bootstrap z∗b

construire à partir de z∗b : bf∗b

calculer bf∗b(x0)

4. Calculer bfBAG (x0) = argmax

k

n

Cardnb ; fb∗b (x0) = koo

(5)

II. BAGGING

Estimation de l’erreur de prédiction

Possibilités

découpage apprentissage/validation

validation croisée : très coûteux en temps de calculs

erreur Out Of Bag : OOB Rappel

chaque échantillon bootstrap contient environ 1/3 des données

le tiers restant constitue les données OOB Dans l’algorithme de BAGGING,

chaque observation n’a pas été choisie environ B/3 fois

pour chaque observation, on peut faire des prédictions avec les modèles provenant d’échantillon ne la contenant pas

On obtient l’erreur OOB associée au processus de BAGGING.

II. BAGGING

BAGGING avec CART

Stratégies pour la construction des arbres 1. construction complète avec élagage

validation croisée pour la sélection de la complexité : coûteuse

2. limiter le nombre de feuilles

comment choisir les nombres de feuilles

3. arbres complets ou profonds

faible biais mais grande variance

variance réduite par l’agrégation

arbres profonds moins corrélés entre eux

(6)

II. BAGGING

Estimations des erreurs de prédictions

Modèle Errappr Errtest ErrOOB Arbre maximal 0.123 0.236

Arbre élagué (seuil 0.5) 0.173 0.185 Arbre élagué (seuil 0.2) 0.175 0.182

Bagging avec arbre max 0 0.180 0.182

II. BAGGING

0.1750 0.1775 0.1800 0.1825 0.1850

5 10 15 20 25

Profondeur de l’arbre

Erreur en test

Erreur selon la profondeur pour du bagging

(7)

II. BAGGING

0.15 0.20 0.25

0 100 200 300 400 500

Nombre d’arbres de la fôret

Type

oob test

Erreur selon le nombre d’arbres

II. BAGGING

Avantages et inconvénients

algorithme simple, se comprend et se programme facilement quelque soit la méthode de base choisie

temps de calculs éventuellement important

nécessite de stocker tous les modèles pour les prédictions

amélioration de la qualité au détriment de l’interprétabilité

→ boîte noire

(8)

III. Forêt aléatoire

Forêt aléatoire

Amélioration du BAGGING dans le cas des modèles CART Idée

ajouter de l’aléa dans le choix des variables afin de rendre moins corrélés les différents arbres de l’agrégation

Algorithme

1. Soit x0 à prévoir

2. Soit z = {(x1,y1), . . . ,(xn,yn)} un échantillon 3. Pour b allant de 1 à B

tirer un échantillon bootstrap z∗b

estimer un arbre bf∗b sur cet échantillon avec randomisation des variables : la recherche de chaque nœud optimal est précédé d’un tirage aléatoire d’un sous-ensemble de q prédicteurs autorisés

construire à partir de z∗b : bf∗b

calculer bf∗b(x0)

4. Calculer bfFA (x0) = argmax

k

n

Cardnb ; bf∗b (x0) = koo

III. Forêt aléatoire

Choix de q

q = p : BAGGING

diminuer q accroît la variabilité des arbres donc augmente la décorrélation des arbres

valeurs courantes de q : b√

pc, bln(p) + 1c ou q = 1

petites valeurs de q : bons résultats

sauf si la proportion de prédicteurs discriminants est faible

<0.5 ou 0.4

Situation où q = 2 et il y a 5 variables discriminantes Nombre de variables non dis-

criminantes

5 10 20 50 100

Probabilité de choisir au moins une variable discriminante

0.78 0.57 0.37 0.18 0.09

(9)

III. Forêt aléatoire

0.15 0.20 0.25 0.30

0 100 200 300 400 500

B : nombre d’itérations

Méthode

q = 1 q = 4 q = 5 q = 8 q = 10

Erreur selon le choix de q

III. Forêt aléatoire

0.17 0.18 0.19 0.20

5 10 15 20

Nombre de variables choisies

Erreur en test

Erreur selon le nombre de variables

(10)

III. Forêt aléatoire

Élagage ou non

choisir moins de prédicteurs décorrèle déjà les arbres

dans certains cas, on peut se limiter à des arbres de faible profondeur (même 2)

III. Forêt aléatoire

0.16 0.17 0.18 0.19 0.20 0.21

10 20 30

Profondeur de l’arbre

Erreur en test

Erreur selon la profondeur pour une RF

(11)

III. Forêt aléatoire

Estimations des erreurs de prédictions

Modèle Errappr Errtest ErrOOB Arbre maximal 0.123 0.236

Arbre élagué (seuil 0.5) 0.173 0.185 Arbre élagué (seuil 0.2) 0.175 0.182

Bagging avec arbre max 0 0.180 0.182

R.F. avec q = 1 0.195 0.189

R.F. avec q = 4 0.176 0.183

R.F. avec q = 5 0.177 0.184

R.F. avec q = 8 0.177 0.184

R.F. avec q = 10 0.179 0.182

III. Forêt aléatoire

Avantages et inconvénients

algorithme simple, se comprend et se programme facilement

temps de calculs éventuellement important

nécessite de stocker tous les modèles pour les prédictions

amélioration de la variablilité par rapport au bagging d’arbres CART

même problème d’interprétabilité que pour le bagging

→ boîte noire

(12)

IV. Interprétation des modèles

Interprétation

Perte de l’aspect interprétation des arbres Solution

évaluer l’importance d’une variable dans la construction d’une forêt aléatoire

Mesure de l’importance

fréquence d’apparition : trop rudimentaire

Mean Decrease Gini : typique des arbres

Mean Decrease Accuracy : méthode générale

IV. Interprétation des modèles

Measure de l’importance d’une variable

MDG : Mean Decrease Gini

baisses d’impureté des nœuds résultants de la scission de la variable considérée moyennées sur l’ensemble des arbres MDA : Mean Decrease Accuracy

pour chaque arbre k

mesure l’erreur OOB : Ek

permutation aléatoire des valeurs de la variable considérée parmi les individus OOB

nouvelle mesure du taux d’erreur Ek0

MDA = moyenne des (Ek0Ek) normalisé par son écart type

(13)

IV. Interprétation des modèles

SEX MARRIAGE AGE EDUCATION ID PAY_AMT6 BILL_AMT3 PAY_AMT5 BILL_AMT4 BILL_AMT6 PAY_AMT4 BILL_AMT2 BILL_AMT5 BILL_AMT1 LIMIT_BAL PAY_AMT3 PAY_AMT1 PAY_AMT2 PAY_6 PAY_4 PAY_5 PAY_3 PAY_2 PAY_0

0 50 100

Méthode

Mean Decrease Accuracy Mean Decrease Gini

Mesure d’importance des variables

V. Sélection de variables

La variabilité des mesures d’importance des variables non

informatives est plus faible que celle des variables informatives.

méthode de sélection de variables Méthode du package VSURF

due à Genuer, Poggi, Tuleau-Marlot en 2010 Étape 1 Élimination préliminaire

on élimine les variables dont la variabilité de la mesure de l’importance est sous un certain seuil

Étape 2 Sélection pour l’interprétation en comparant les erreurs OOB de modèles emboîtés

Étape 3 Sélection pour la prédiction

on ajoutant une à une les variables et on les garde

effectivement que si l’erreur OOB décroît de plus qu’un seuil

(14)

V. Sélection de variables

Base de données défauts de paiement

0.00 0.01 0.02 0.03

0 5 10 15 20 25

Importance des variables

1e-04 2e-04 3e-04 4e-04

0 5 10 15 20 25

Écarts type des VI

V. Sélection de variables

Exemple d’un base de données avec

seulement 6 variables liées à Y

très liées entre elles par 3

0.00 0.05 0.10

0 10 20 30 40

Importance des variables

0.000 0.001 0.002 0.003

0 10 20 30 40

Écarts type des VI

Références

Documents relatifs