HAL Id: hal-03149764
https://hal.archives-ouvertes.fr/hal-03149764
Submitted on 23 Feb 2021
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Mesures d’importance relative par décomposition de la performance de modèles de régression
Marouane Il Idrissi, Bertrand Iooss, Vincent Chabridon
To cite this version:
Marouane Il Idrissi, Bertrand Iooss, Vincent Chabridon. Mesures d’importance relative par décom-
position de la performance de modèles de régression. 52èmes Journées de Statistique de la Société
Française de Statistique (SFdS), Jun 2021, Nice, France. �hal-03149764�
Mesures d’importance relative par d´ ecomposition de la performance de mod` eles de r´ egression
Marouane Il Idrissi
1,2,3, Bertrand Iooss
1,2,3, Vincent Chabridon
1,31
EDF R&D, 6 Quai Watier, 78400 Chatou, France; marouane.il-idrissi@edf.fr
2
Institut de Math´ ematiques de Toulouse, 31062, Toulouse, France
3
SINCLAIR AI Laboratory, Saclay, France
R´ esum´ e. En apprentissage statistique supervis´ e, les mesures d’importance relative ont pour but de quantifier de mani` ere interpr´ etable l’importance des covariables sur la sortie du mod` ele d’apprentissage, notamment en pr´ esence de d´ ependance entre ces covari- ables. Dans ce papier, deux mesures particuli` eres (les valeurs de Shapley et les valeurs proportionnelles) sont ´ etudi´ ees. Ces mesures sont inspir´ ees de deux solutions d’allocations issues de la th´ eorie des jeux. Leurs liens avec d’autres mesures connues en r´ egression lin´ eaire (LMG et PMVD) sont pr´ esent´ es. Apr` es une premi` ere illustration de leur formu- lation analytique dans le cas lin´ eaire gaussien ` a deux variables, leur estimation pratique, dans un contexte de r´ egression logistique, sur un jeu de donn´ ees public de pr´ evision des feux de fˆ oret (Algerian Forest Fires) est propos´ ee et discut´ ee.
Mots-cl´ es. Mesures d’importance, r´ egression lin´ eaire, r´ egression logistique, Shapley.
Abstract. In the context of supervised statistical learning, the goal of relative impor- tance measures is to quantify, in an interpretable manner, the importance of each input in the model output, even in the context of input dependency. In the present paper, two par- ticular measures (Shapley values and Proportional values) are studied. These measures arise from conceptual games and allocation strategies in game theory. Here, their links with usual importance measures for linear regression (LMG and PMVD) are presented.
After a first illustrative analytical derivation in a two-dimensional linear Gaussian case, their practical estimation using a logistic regression model applied to a public dataset (Algerian Forest Fires) is proposed and discussed.
Keywords. Importance measures, linear regression, logistic regression, Shapley.
1 Introduction
En apprentissage statistique, la quantification de l’importance relative vise ` a produire des m´ ethodes permettant d’identifier et de mesurer l’importance des covariables par le biais de mesures interpr´ etables. Nous nous attachons ici au mod` ele lin´ eaire Y = β
0+ X
>β, o` u Y ∈ R , X = (X
1, . . . , X
d)
>∈ R
dest le vecteur al´ eatoire des covariables du mod` ele, β
0∈ R et β ∈ R
d. On note V (X
i) = σ
i2et Cov(X
i, X
j) = σ
iσ
jρ
ijpour i ∈ D, D = {1, . . . , d}. La d´ ecomposition de la variance de Y fournit la m´ etrique CVD (covariance decomposition), qui s’´ ecrit CVD
i= β
iσ
iP
dj=1
β
jσ
jρ
ij, et qui permet d’assigner une valeur d’importance
`
a chaque X
i, i ∈ D (Feldman 2005). Si les covariables sont ind´ ependantes, la part de variance de Y expliqu´ ee par chacune d’entre elles est donn´ ee par β
i2σ
2i/ V (Y ). Cependant, dans le cas de covariables corr´ el´ ees, cette mesure CVD peut ˆ etre n´ egative ce qui rend son interpr´ etation, en tant que part de variance, sujette ` a caution.
La notion d’allocation de jeux coop´ eratifs statistiques (Feldman 2005) permet de re- lier les domaines de la th´ eorie des jeux et de l’apprentissage statistique, afin de con- struire des mesures d’importance interpr´ etables. Pour un mod` ele total param´ etrique emboˆıtable Θ(X, β) (construit avec toutes les covariables), une mesure de performance positive et faiblement monotone µ
Θpeut lui ˆ etre associ´ e et ˆ etre ´ evalu´ ee pour chaque sous- mod` ele restreint aux covariables d’indices S ⊂ D, et de performance µ
Θ(S). Une famille d’allocations pour le jeu coop´ eratif statistique (D, µ
Θ), dites ` a ordres al´ eatoires, peut ˆ etre d´ efinie pour chaque covariable i ∈ D (Weber 1988):
φ
i= E
ph
µ
ΘD \ S
i−1r− µ
ΘD \ S
iri
= X
r∈R(D)
p(r)
µ
ΘD \ S
r(i)−1r− µ
ΘD \ S
r(i)r(1)
o` u p d´ esigne une fonction de masse de probabilit´ e d´ efinie sur R(D) (l’ensemble des per- mutations de D), S
ir= {r
j}
ij=1d´ enote l’ensemble des i
`emespremi` eres composantes de r (r = (r
1, . . . , r
d) ∈ R(D)), et r(i) est la position de l’indice i dans r. Cette famille d’allocations permet de redistribuer la performance du mod` ele total ` a chacune de ses covariables, facilitant leur interpr´ etation.
Dans le cadre du mod` ele lin´ eaire, quatre crit` eres permettent de d´ efinir une mesure d’importance relative admissible (Johnson and Lebreton 2004; Feldman 2005; Gr¨ omping 2007) : la positivit´ e (∀i ∈ D, φ
i≥ 0), l’exclusion (soit Θ(X, β), si β
i= 0, alors φ
i= 0), l’inclusion (soit Θ(X, β), si β
i6= 0, alors φ
i> 0), la contribution totale ( P
ni=1
φ
i= µ
Θ(D)). Pour un choix sp´ ecifique de p, les allocations d´ efinies en Eq. (1) permettent de produire des allocations candidates ` a mesurer l’importance relative, sous couvert du respect de ces crit` eres.
Notre objectif est d’´ etudier deux cas particuliers d’allocations, inspir´ es de r´ esultats g´ en´ eraux en th´ eorie des jeux : les valeurs de Shapley et les valeurs proportionnelles. La Section 2 vise ` a d´ efinir ces mesures d’importance relative dans le cadre de jeux coop´ eratifs statistiques et d’´ etudier leur admissibilit´ e, ainsi que d’illustrer leur comportement analy- tique dans le cas lin´ eaire gaussien. La Section 3 est d´ edi´ ee ` a un cas d’utilisation sur le jeu de donn´ ees Algerian Forest Fires, dans un but de classification binaire par mod` ele de r´ egression logistique.
2 Valeurs de Shapley et valeurs proportionnelles
Les valeurs de Shapley (Shapley 1951) constituent une solution d’allocation pour jeux
coop´ eratifs. Elles sont l’unique solution d’une d´ efinition axiomatique garantissant le re-
spect de quatre propri´ et´ es d´ esir´ ees en th´ eorie des jeux. Dans le contexte des allocations
par mod` ele ` a ordres al´ eatoires (Eq. (1)), les valeurs de Shapley du jeu coop´ eratif statis- tique (D, µ
Θ) sont ´ equivalentes ` a choisir p comme ´ etant uniforme sur R(D) (i.e., chaque ordre est ´ equi-vraisemblable). Ainsi, ∀r ∈ R(D), p(r) = 1/d!, ce qui am` ene ` a la mesure d’importance relative Sh
i, ∀i ∈ D (Eq. (1) avec p(r) = 1/d!). Cependant, Feldman (2005) montre que cette mesure d’importance relative particuli` ere n’est pas admissible au sens des crit` eres ´ enonc´ es plus haut. En effet, elle ne respecte pas le crit` ere d’exclusion : une covariable qui n’est pas pr´ esente dans le mod` ele total (i.e., son param` etre est ´ egal ` a z´ ero) peut recevoir une part de performance si elle est corr´ el´ ee avec une ou plusieurs covariables qui sont pr´ esentes dans le mod` ele (i.e., dont les param` etres sont diff´ erents de z´ ero). Cet effet a ´ et´ e mis en ´ evidence en analyse de sensibilit´ e (Iooss and Prieur 2019).
De plus, le choix d’un a priori uniforme peut ˆ etre remis en question en remarquant que µ
Θpeut contenir de l’information sur l’importance relative. En effet, si pour une permutation r = (r
1, . . . , r
d), les contributions s´ equentielles M
i(r) = µ
ΘD \ S
i−1r− µ
ΘD \ S
irsont croissantes (i.e., M
1(r) < M
2(r) < · · · < M
d(r)), alors il est probable que les ´ el´ ements de r soient rang´ es par ordre croissant d’importance relative. En ´ etendant les valeurs proportionnelles (issues des jeux coop´ eratifs, voir Ortmann (2000)) aux jeux coop´ eratifs statistiques, Feldman (2005) introduit la mesure PMD (proportional marginal decomposition) par le biais d’une autre d´ efinition de p :
p(r) = L(r) P
m∈R(D)
L(m) , avec L(r) =
Y
S∈{Sri}di=1
µ
Θ(D) − µ
Θ(D \ S)
−1
.
L’allocation sur (D, µ
Θ) ainsi d´ efinie est donn´ ee par :
PMD
i=
X
m∈R(D)
L(m)
−1
X
r∈R(D)
L(r)
µ
ΘD \ S
r(i)−1r− µ
ΘD \ S
r(i)r.
L’existence et l’unicit´ e de cette fonction de masse sont garanties par une d´ efinition ax- iomatique qui stipule notamment que si µ
Θ(D \ {i}) = µ
Θ(D) (i.e., la covariable X
in’a aucun effet sur la performance du mod` ele total), alors PMD
i= 0. La valeur de l’allocation est d´ efinie sur le jeu coop´ eratif statistique (D \ {i}, µ
Θ), et X
ire¸coit une part nulle. Ceci permet de garantir qu’une covariable non-pr´ esente dans le mod` ele total ne re¸coive aucune contribution, malgr´ e le fait qu’elle puisse ˆ etre corr´ el´ ee aux variables pr´ esentes. Cette mesure d’importance relative est admissible (cf. Section 1).
Appliqu´ ees au mod` ele de r´ egression lin´ eaire, avec le coefficient de d´ etermination R
2comme mesure de performance, les valeurs de Shapley du jeu coop´ eratif statistique (D, R
2) sont connus comme ´ etant les indices LMG (Lindeman, Merenda, and Gold 1980). Les valeurs proportionnelles de (D, R
2), quant ` a elles, sont connues sous le nom de PMVD (proportional marginal variance decomposition).
Pour un mod` ele lin´ eaire ` a deux covariables Y = β
1X
1+ β
2X
2, avec (X
1, X
2)
>un
vecteur gaussien centr´ e v´ erifiant pour i = 1, 2, V (X
i) = σ
i2et Cov(X
1, X
2) = σ
1σ
2ρ,
associ´ e au coefficient de d´ etermination R
2comme mesure de performance, les mesures LMG et PMVD sont donn´ ees analytiquement par :
LMG
1=
1V(Y)
β
12σ
12+ β
1β
2σ
1σ
2ρ +
ρ22(β
22σ
22− β
12σ
12)
; PMVD
1=
β2 β12σ12 1σ12+β22σ22; LMG
2=
V(Y1 )β
22σ
22+ β
1β
2σ
1σ
2ρ +
ρ22(β
12σ
12− β
22σ
22)
; PMVD
2=
β2 β22σ22 1σ12+β22σ22v´ erifiant la relation LMG
1+ LMG
2= PMVD
1+ PMVD
2= R
2({1, 2}) = 1. Dans ce cas pr´ ecis, les PMVD ne d´ ependent pas de ρ (ce comportement ne se g´ en´ eralise pas pour d > 2), alors que la mesure LMG semble partager la part de variance due ` a la corr´ elation
´ equitablement entre X
1et X
2. De plus, si β
12σ
12= β
22σ
22, les quatres indices associ´ es aux covariables se confondent. Dans le cas o` u ρ = 0, les deux mesures se comportent de la mˆ eme fa¸con. Lorsque l’un des deux param` etres β
i= 0, alors PMVD
i= 0 tandis que LMG
ipeut ˆ etre non-nul, pour des valeurs de ρ non-nulles : ce comportement est contraire au crit` ere d’exclusion.
Dans les cas ` a plus de deux covariables, l’´ etude analytique de ces mesures propos´ ee par Gr¨ omping (2007) permet de conclure que la mesure LMG aura tendance ` a r´ epartir les effets dus ` a la corr´ elation ´ equitablement entre les covariables, ind´ ependamment de leur importance dans le mod` ele, tandis que la mesure PMVD aura tendance ` a attribuer ces effets aux covariables les plus importantes.
3 Pr´ evision des feux de forˆ et
Dans cette section, nous ´ etendons l’utilisation des mesures d’importance pr´ ec´ edentes au cadre du mod` ele lin´ eaire g´ en´ eralis´ e pour la r´ egression logistique et les appliquons ` a un jeu de donn´ ees public.
Le jeu de donn´ ees Algerian Forest Fires (Abid and Izeboudjen 2020) contient n = 244 observations journali` eres enregistr´ ees dans deux r´ egions d’Alg´ erie (Bejaia et Sidi Bel- abbes) entre les mois de juin et septembre 2012. Les 8 covariables sont Temp (temp´ erature maximale en degr´ es Celsius), RH (humidit´ e relative en %), Ws (vitesse du vent en km/h), Rain (pluviom´ etrie totale en mm), FFMC (Fine Fuel Moisture Code), DMC (Duff Moisture Code), DC (Drought Code) et ISI (Initial Spread Index). Comme illustr´ e en Figure 1, ces covariables peuvent ˆ etre tr` es corr´ el´ ees les unes aux autres. Nous cherchons ` a mod´ eliser la probabilit´ e qu’un feu de forˆ et ait eu lieu par r´ egression logistique et nous prenons comme mesure de performance le coefficient de d´ etermination g´ en´ eralis´ e, qui dans ce cas vaut :
R
2(S) = 1 − d´ eviance du sous-mod` ele d’indices dans S d´ eviance du mod` ele nul .
Estim´ e sur le jeu de donn´ ees, nous obtenons R c
2' 0.803 et un coefficient de pr´ edictivit´ e Q
2(R
2en pr´ ediction), calcul´ e par validation crois´ ee ´ egal ` a Q c
2' 0.79. Les mesures de multicolin´ earit´ e VIF (variance inflation factor )
1ont ´ egalement ´ et´ e calcul´ ees, en plus
1. Fonction vif() du package car sous R.
o
1
−0.65
−0.28
−0.33 0.68 0.48 0.37 0.61
−0.65 1 0.24 0.22
−0.65
−0.41
−0.22
−0.69
−0.28 0.24 1 0.17
−0.16 0 0.08 0.01
−0.33 0.22 0.17 1
−0.54
−0.29
−0.3
−0.35 0.68
−0.65
−0.16
−0.54 1 0.6 0.5 0.74
0.48
−0.41 0
−0.29 0.6
1 0.88 0.68
0.37
−0.22 0.08
−0.3 0.5 0.88 1 0.5
0.61
−0.69 0.01
−0.35 0.74 0.68 0.5
1
−1
−0.8
−0.6
−0.4
−0.2 0 0.2 0.4 0.6 0.8
Temp RH Ws Rain FFMC DMC DC ISI 1
Temp RH Ws Rain FFMC DMC DC ISI
Temp
2050800515030600515
25 35
20406080
RH
Ws
10 20 0 5 1015
Rain
FFMC
30507090 0 204060
DMC
DC
0 50 150 0510
ISI
253510203060900100
0.0 0.4 0.8
0.00.6
Fire