Data Science en pratique
Transparence des algorithmes et interpr´ etabilit´ e
Maxime Jumelle ESLSCA Big Data - MBA 2
2019 - 2020
Transparence des algorithmes
Au cours des derni`eres ann´ees, les mod`eles de Machine Learning atteignaient des performances de plus en plus ´elev´ees, d´epassant parfois les performances r´ealis´ees par des humains sur certaines tˆaches pr´ecises.
La comp´etition annuelle ILSVRC, o`u des ´equipes de recherche ´evaluent des algorithmes de traitement d’image sur le jeu de donn´ees ImageNet [1], voyait les meilleurs taux d’erreurs `a 26 %.
En 2012, l’av`enement des r´eseaux de neurones et de l’apprentissage profond, et plus particuli`erement les r´eseaux de neurones convolutifs [4]
ont permis d’abaisser le taux d’erreur `a 16 %. Depuis, les r´eseaux de neurones sont majoritairement utilis´es dans cette comp´etition et d’autres semblables.
Taux d’erreur ILSVRC
3
Transparence des algorithmes
En contrepartie, les r´eseaux de neurones sont souvent consid´er´es comme desboˆıtes noires, c’est-`a-dire des algorithmes dont le
fonctionnement est opaque et difficile `a interpr´eter. En effet, du fait du tr`es grand nombre de param`etres (plusieurs dizaines voir centaines de millions), l’interpr´etation de ces mod`eles n’est pas faisable.
Les r´eseaux de neurones sont un exemple deboˆıtes noires, tout comme le sont les algorithmes d’ensemble learning ou les Support Vector Machine [3].
D´ efinition de l’interpr´ etabilit´ e
Le termetransparence des algorithmes est propre au contexte ´etudi´e, et il n’existe pas une d´efinition unique. La transparence peut faire r´ef´erence `a la connaissance de la d´ecision prise par l’algorithme, au degr´e d’exactitude de la pr´ediction ou `a l’importance des variables sur la pr´ediction.
Christoph Molnar [7] reprend la d´efinition de l’interpr´etabilit´e de Tim MillerL’interpr´etabilit´e est le degr´e `a quel point un humain peut expliquer de mani`ere coh´erente les pr´edictions du mod`ele 1. Sous cette d´efinition, l’interpr´etabilit´e est une partie int´egrante de la transparence, qui vise `a ˆetre capable d’expliquer de mani`ere pr´ecise et consistante la pr´ediction, que ce soit pour une observation ou dans le comportement global de l’algorithme.
1. Traduit de la phrase d’origineInterpretability is the degree to which a human can consistently predict the model’s result.
5
Des modules naturellement interpr´ etables
Certains mod`eles sontnaturellement interpr´etables. C’est le cas du mod`ele lin´eaire : une variable r´eponseY est en relation lin´eaire avec les variables explicativesX1, . . . , Xp par l’interm´ediaire des coefficients β1, . . . , βp
Y =β0+
p
X
j=1
βjXj.
Dans ce mod`ele, plus la valeurβj est ´elev´ee, plus une variation de la valeur deXj impacte la r´eponse Y. Il est donc facile de comprendre le comportement du mod`ele, et d’expliquer la pr´ediction pour une observationx.
D’autres moins
En revanche, les mod`eles qui permettent d’atteindre des performances plus ´elev´ees, sont ´egalement plus difficilement interpr´etables. Le mod`ele XGBoost est construit de mani`ere r´ecursive, et chaque arbre d´epends des pr´ec´edents. Pour expliquer la pr´ediction d’une observationx, il est n´ecessaire de calculer la sortie de chaque arbre, en sachant que les pr´edicteurs faibles ne cherchent plus `a mod´eliser la variable r´eponse, mais les pseudo-r´esidus. C’est la multiplicit´e des arbres (associ´ee `a d’´eventuels arbres profonds) qui rend la compr´ehension du comportement du mod`ele quasi-impossible.
7
Sommaire
Vue d’ensemble des m´ethodes d’interpr´etabilit´e
´Etude globale et effets marginaux Lois marginales
Partial Dependency Plot Mod`eles de substitution globale D´ecomposition additive des attributions
Substitution locale (LIME) Valeurs de Shapley
Th´eorie des jeux
Exemple d’un jeu coop´eratif Valeurs SHAP
Vue d’ensemble
Ainsi, au cours des derni`eres ann´ees, la recherche acad´emique s’est pench´ee sur des m´ethodes d’interpr´etabilit´e afin de pouvoir expliquer le comportement et les pr´edictions des algorithmes. Deux types de m´ethodes ont ´et´e d´evelopp´ees.
Vue d’ensemble des m´ethodes d’interpr´etabilit´e 9
M´ ethodes agnostiques
Les m´ethodes ditesagnostiques, ind´ependantes du mod`ele pr´edictif utilis´e. Le principal avantage est leur flexibilit´e, puisque ces m´ethodes peuvent ˆetre appliqu´ees sans connaissance particuli`ere du mod`ele pr´edictif, si ce n’est qu’obtenir la pr´edictionfˆ(x)pour toute observation x. Ces m´ethodes agnostiques s’intercalent sur des mod`eles boˆıtes noires.
Les PDP (Partial Dependency Plot) [2] furent une des premi`eres m´ethodes d’interpr´etabilit´e, en estimant les lois marginales des variables sous des hypoth`eses d’ind´ependance entre les variables. Plus r´ecemment, d’autres m´ethodes telles que LIME [8] ou Kernel SHAP [5] ont ´et´e introduites afin de pallier certaines faiblesses des pr´ec´edentes m´ethodes et de les adapter pour des mod`eles plus complexes et plus coˆuteux en terme de calcul.
M´ ethodes sp´ ecifiques
Les m´ethodes ditessp´ecifiques, d´ependantes du mod`ele pr´edictif utilis´e.
Bien que ces m´ethodes soient moins flexibles, elles permettent d’obtenir de meilleurs interpr´etabilit´e puisqu’elles sont sp´ecifiquement d´evelopp´ees pour un mod`ele pr´edictif particulier. Ces m´ethodes ne se reposent pas uniquement sur la pr´edictionfˆ(x)des observationsx, mais utilisent
´egalement les propri´et´es et m´ethodes de construction d’un mod`ele pour en extraire le plus d’information quant au comportement que celui-ci adopte. Les r´eseaux de neurones sont principalement vis´es par ces m´ethodes, dont DeepLIFT [9], ou les m´ethodes `a base d’arbres, tel que Tree SHAP [5].
Vue d’ensemble des m´ethodes d’interpr´etabilit´e 11
Niveau de granularit´ e
Lorsque le terme d’interpr´etabilit´e est employ´e, deux niveaux de granularit´e peuvent ˆetre distingu´es en classes de m´ethodes.
I Les m´ethodes diteslocales, o`u la m´ethode consiste `a expliquer la pr´ediction d’une observation particuli`ere. Christoph Molnar diff´erencie l’interpr´etabilit´e (g´en´erale) du mod`ele et appelle l’explication le fait de pouvoir pleinement expliquer la pr´ediction pour une observation particuli`ere. DeepLIFT ou Tree SHAP sont des exemples de m´ethodes locales.
I Les m´ethodes ditesglobales, qui cherchent plutˆot `a expliquer les tendances du mod`ele sur l’ensemble des pr´edictions, comme par exemple les lois marginales. PDP ou Tree Interpreter sont des exemples de m´ethodes globales.
R´ ecapitulatif
Sp´ecifique Agnostique Local Tree SHAP, Saabas LIME, Kernel SHAP Global Information Gain,
Feature Importence
PDP, ALE
Cependant, il ne faut pas oublier que certaines m´ethodes
d’interpr´etabilit´e peuvent ´egalement induire en erreur : souvent, il s’agit non pas de calculs exacts mais d’approximations pour pouvoir interpr´eter facilement.Attention `a la sur-interpr´etation!
Vue d’ensemble des m´ethodes d’interpr´etabilit´e 13
Sommaire
Vue d’ensemble des m´ethodes d’interpr´etabilit´e
´Etude globale et effets marginaux Lois marginales
Partial Dependency Plot Mod`eles de substitution globale D´ecomposition additive des attributions
Substitution locale (LIME) Valeurs de Shapley
Th´eorie des jeux
Exemple d’un jeu coop´eratif Valeurs SHAP
Effets marginaux
Lorsque l’on ´etudie les effets marginaux, on s’int´eresse `a la loi marginale d’un sous-ensemble de variables explicatives. En th´eorie des probabilit´es, pour obtenir la loi marginale d’une variableXj, on int`egre la loi jointe
Pj(x) = Z
E1×...Ej−1×Ej+1×···×Ep
dP(x1, . . . , xj−1, x, xj+1, . . . , xp)
avecE1×. . . Ej−1×Ej+1× · · · ×Ep le pav´e des valeurs possibles des variablesX1, . . . , Xj−1, Xj+1, . . . , Xp. Par exemple, pour des valeurs continues dansR, le pav´e prends la formeRp−1.
Etude globale et effets marginaux´ 15
Effets marginaux
En choisissant un sous-ensembleI⊆ {1, . . . , p} de variables que l’on souhaite ´etudier et le sous-ensembleJ ={1, . . . , p}\I les autres variables, la loi marginale deI est
PI(x) = Z
j∈J
dP(x, xJ)
Partial Dependency Plot (PDP)
Les graphes de d´ependence partielle permettent de montrer l’effet marginal d’un sous-ensemble defeatures (usuellement1ou2) sur la sortie d’un mod`ele pr´edictif. En particulier, les PDP permettent de faire varier, pour une ou deuxfeatures, les valeurs possiblessans modifier les valeurs des autres featurespour chaque individu. Le graphe correspond ensuite `a la moyenne des courbes de chaque individu.
Etude globale et effets marginaux´ 17
Partial Dependency Plot (PDP)
Supposons que l’on souhaite ´etudier un sous-ensemble defeatures d’indicesI (avec|I|+|J|=p, o`up´etant le nombre de features,J ´etant l’ensemble d’indice des autres features v´erifiantI∩J =∅), alors la fonction de d´ependence partielle est
fˆI(x) =EPJ[ ˆf(x, xJ)] = Z
fˆ(x, xJ)dP(x, xJ)
Nous n’avons pas directement connaissance dedP(x, xJ), mais il est n´eanmoins possible d’estimer la valeur par m´ethode de Monte-Carlo :
fˆI(x) = 1 n
n
X
i=1
f(x, xˆ iJ)
o`u chaquefˆ(x, xiJ)repr´esente un individu et est repr´esent´ee par une courbe ICE (Individual Conditional Expectation).
Variable de dur´ ee d’appel
Etude globale et effets marginaux´ 19
Variable de revenu moyen
Interaction crois´ ee entre revenu moyen et dur´ ee d’appel
Etude globale et effets marginaux´ 21
Variable agr´ eg´ ee de revenu moyen
Conclusion
Avantages
I Lecture des graphes intuitives.
I Facilit´e d’impl´ementation et de calcul.
Inconv´enients
I Forte hypoth`ese d’ind´ependance entre les variables.
I Difficult´e de repr´esentation `a partir de3variables.
I Le calcul d’esp´erance peut cacher des effets locaux h´et´erog`enes.
Etude globale et effets marginaux´ 23
Mod` ele substitut
Les m´ethodes de substitution sont des m´ethodes d’interpr´etabilit´e qui consiste `a entraˆıner un sur-mod`eleg naturellement interpr´etable sur un mod`ele boˆıte noiref. Il est suppos´ˆ e que seuls les observationsxet les pr´edictions associ´eesyˆsont disponibles : aucune information directe sur le mod`elefˆn’est connue.
Il est important de choisir un sur-mod`ele naturellement interpr´etable, puisque c’est sur celui-ci que les interpr´etations seront r´ealis´ees.
Usuellement, les sur-mod`eles utilis´es sont des mod`eles lin´eaires ou des arbres de d´ecision.
Global Surrogate
Un mod`eleGlobal Surrogateest un mod`elepr´edictif simplequi se substitue `a un mod`ele pr´edictif complexe que l’on souhaite ´etudier.
L’objectif est donc de constuire un mod`elegˆqui soit naturellement ou facilement interpr´etable afin qu’il reproduise le comportement du mod`ele pr´edictif complexefˆ.
Ainsi, le mod`ele de substitutiongˆ”imite” le comportement defˆmais aura l’avantage d’ˆetre interpr´etable.
Etude globale et effets marginaux´ 25
Global Surrogate
Supposons quefˆait ´et´e entraˆın´e sur une base d’entraˆınement(X, Y). La proc´edure de construction d’un mod`ele Global Surrogate est
I S´election d’un datasetX0 ⊆X I Calcul des pr´edictions Y0= ˆf(X0)
I Entraˆınement du mod`ele de substitutiongˆsur(X0, Y0) I Calcul des pr´edictions ˆg(X0)
I Mesure de performanceL(Y0,g(Xˆ 0))
Global Surrogate
Il faut bien comprendre que le mod`ele de substitutiontente de reproduireles pr´edictions defˆ, et plusieurs dangers surviennent :
I Si le mod`ele complexefˆn’est pas performant, il y a tr`es peu de chances pour que le mod`ele de substitutiongˆle soit aussi.
I Du fait de la nature plus simple du mod`ele de substitution, il se peut que des comportements int´eressants ne soient plus observables par ce dernier.
I Le choix du mod`ele de substitution peut impacter l’interpr´etabilit´e, ce qui cr´ee une d´ependance au mod`ele candidat.
Etude globale et effets marginaux´ 27
Sommaire
Vue d’ensemble des m´ethodes d’interpr´etabilit´e
´Etude globale et effets marginaux Lois marginales
Partial Dependency Plot Mod`eles de substitution globale D´ecomposition additive des attributions
Substitution locale (LIME) Valeurs de Shapley
Th´eorie des jeux
Exemple d’un jeu coop´eratif Valeurs SHAP
Additive Feature Attribution (AFA)
Les m´ethodes AFA (pour Additive Feature Attribution) tentent de d´ecomposer la pr´ediction d’une observationxcomme ´etant une somme de contributions (pouvant ˆetre positives ou n´egatives) de chaque variable.
Soitf le mod`ele (etfˆsa version construite). Les mod`eles d’interpr´etabilit´e utilisent souvent unerepr´esentation simplifi´ee
x0∈Rd d’une observationxde sorte `a pouvoir la reconstruire `a partir de x0 par l’interm´ediaire d’une fonctionhx i.e.x=hx(x0).
Les m´ethode locales quant `a elles vont construire un mod`eleg de sorte queg(z0)≈f(hx(z0))d`es lors quez0 ≈x0.
D´ecomposition additive des attributions 29
Additive Feature Attribution (AFA)
Le mod`elefˆest entraˆın´e sur(xi)1≤i≤n alors quegˆest entraˆın´e sur (zi0)1≤i≤n.
Additive Feature Attribution (AFA)
Les m´ethodes AFA fournissent un mod`ele d’interpr´etabilit´e lin´eaire en les variables binaires dans l’espace de repr´esentation simplifi´ee :
g(z0) =φ0+
M
X
j=1
φjz0j
avecz0 ∈ {0,1}M un vecteur de l’espace de repr´esentation simplifi´ee et φj ∈R.
Aujourd’hui, de nombreuses mod`eles d’interpr´etabilit´e utilisent la m´ethode AFA pour expliquer les pr´edictions des observations au niveau local.
D´ecomposition additive des attributions 31
Additive Feature Attribution (AFA)
Dans le plupart des cas, le sur-mod`eleg est d’une complexit´e moindre afin d’ˆetre plus facilement interpr´etable. On y retrouve souvent des mod`eles lin´eaires, des arbres de d´ecisions ou des falling rule lists[10].
LIME (Local Surrogate)
LIME(pour Local Interpretable Model-agnostic Explanations) est une m´ethode de substitution locale qui vise `a expliquer les pr´edictions au niveau local. Cette m´ethode est particuli`erement appliqu´ee pour l’interpr´etabilit´e des mod`eles manipulant du texte et pour les images (SVM et r´eseaux de neurones). LIME cherche `a construire, pour une observationxdonn´ee, appel´einstance d’int´erˆet, un sur-mod`eleg permettant d’expliquer la pr´ediction pour cet individu. Le terme local fait r´ef´erence au fait que l’interpr´etation n’est r´ealis´e sur pour l’instance d’int´erˆet, et n’a de sens que lorsque l’´etude se porte sur une observation en particulier.
D´ecomposition additive des attributions 33
Apprentissage du mod` ele substitut
Pour construire le sur-mod`eleg, il est n´ecessaire de d´efinir un voisinage de l’instance d’int´erˆet, ´etant donn´e que l’interpr´etation, et donc la construction deg s’effectue auniveau local. Une notion de distance, repr´esent´ee par un noyauπx, permet de quantifier la notion de voisinage autour de l’instance d’int´erˆet. SoitG la classe de fonctions candidates pour le sur-mod`eleg, LIME cherche `a r´esoudre le probl`eme d’optimisation
ˆ
g(x) = argmin
g∈G
LLIME( ˆf , g, πx) + Ω(g),
avecLLIME la fonction de pertedu sur-mod`eleetΩune r´egularisation d´efinie au pr´ealable.
R´ egularisation du mod` ele substitut
Contrairement `a la plupart des termes de r´egularisation appliqu´ees aux fonctions de pertes (r´egularisationl1 et/oul2), le termeΩ(g)a surtout pour objectif de p´enaliser un sur-mod`ele de complexit´e ´elev´e, puisqu’il aurait ainsi une interpr´etabilit´e plus difficile a obtenir. Le termeΩ(g)agit donc comme unemesure de complexit´e.
Le choix du termeΩ(g)d´epend ainsi du sur-mod`ele s´electionn´e : I Pour un arbre de d´ecision, Ω(g) =γT avecT la profondeur de
l’arbre etγ un param`etre.
I Pour un mod`ele lin´eaire, Ω(g) =|{βj:βj= 0,1≤j≤p}|avecβ les coefficients du mod`ele lin´eaire.
D´ecomposition additive des attributions 35
Apprentissage du mod` ele substitut
Le sur-mod`eleg ayant pour objectif d’ˆetre interpr´etable, les observations de la base d’apprentissage ne sont pas directement les voisinsz de l’instance d’int´erˆet, mais une repr´esentation binaire simplifi´ee z0∈ {0,1}p0 (avecp0 un entier) pour am´eliorer l’interpr´etabilit´e.
NotonsE= (z, z0)1≤i≤n l’ensemble des couples d’observations initiales et en repr´esentation binaire simplifi´ee. Dans le cas d’un probl`eme de r´egression, la notion est voisinage est intuitive, puisque les points`a proximit´eindiquent fid`element le comportement du mod`ele.
Apprentissage du mod` ele substitut
Avec une fonction de perteL quadratique et sous un noyau gaussien, le probl`eme de minimisation pr´ec´edent revient `a r´esoudre un probl`eme des moindres carr´es p´enalis´es
LLIME(f, g, πx) = X
(z,z0)∈E
πx(z)h
fˆ(z)−ˆg(z0)i2
avec πx(z) = exp
−kx−zk2 σ2
, σ >0.
Le noyauπx est cens´e faire tendre vers0 les observationsz qui se retrouvent´eloign´es dex. Cette notion est l’une des principales difficult´es de LIME, puisque la notion de proximit´e d´epends du choix du noyau.
D´ecomposition additive des attributions 37
Exemple 1
Consid´erons un jeu de donn´ees `a deux dimensions de1000observations g´en´er´ees al´eatoirement dans[0,1]2.
Exemple 1
Un Random Forest `a50arbres de profondeur maximale4a ´et´e entraˆın´e dont la fronti`ere de d´ecision est mat´erialis´ee en arri`ere plan par un changement de couleur.
D´ecomposition additive des attributions 39
Exemple 1
Th´ eorie des jeux
Les valeurs de Shapley puisent leur origine dans la th´eorie des jeux coop´eratifs. Ils furent invent´es par Lloyd Shapley en 1953.
En th´eorie des jeux coop´eratifs, on s’int´eresse notamment aux situations o`u desjoueurspeuvent former descoalitionspour d´efinir une strat´egie dans l’optique de maximiser un gain.
Dans le cas o`u tous les joueurs formentune seule et mˆeme coalition, on souhaiterait alors connaˆıtre uner´epartition ´equitable des gains entre chaque joueur en fonction de leur apport dans cette coalition.
Ce sont lesvaleurs de Shapleyqui indiquent les gains ´equitables pour chaque joueur.
D´ecomposition additive des attributions 41
Equitable ´ 6= Identique
Comprenons bienqu’´equitable ne signifie pas identique. Prenons trois joueursA, B etC. Aucun joueur n’apporte de gain tout seul.
I SiAetB jouent ensemble, le gain vaut2.
I SiAetC jouent ensemble, le gain vaut2.
I SiB etC jouent ensemble, le gain vaut3.
I SiA, B etC jouent tous ensemble, le gain vaut4.
On voit bien que la coalition{B, C} est plus forte que toutes les autres coalitions. Ainsi, le gain en coalition totale est plus impact´e par la sous-coalition{B, C}que les autres. Ainsi, on s’attends `a ce que les gains soient plus grands pourB etC que pourA.
Calcul de la valeur de Shapley
Supposons que dans un jeu, il y apjoueurs. Alors il peut y avoir2p−1 coalitions non vides possibles. Plus couramment, on appelle ce ”gain” la fonction caract´eristiquev qui prends un ´el´ement des parties de {1, . . . , p}\{∅} (un sous-ensemble non vide).
On peut supposer que pour deux coalitionsC1etC2 disjointes (n’ayant aucun joueur identique) alors la coalition regroup´ee affiche des gains plus
´elev´es que si chaque coalition jouait ind´ependamment : v(C1∪C2)≥v(C1) +v(C2)
D´ecomposition additive des attributions 43
Calcul de la valeur de Shapley
Attention
En revanche, rien ne suppose que les gains d’une coalition soient toujours sup´erieurs aux gains individuels
v [
i
{i}
! X
i
v({i})
Dans ce cas de figure, un ou plusieurs joueurs auront unevaleur de Shapley n´egative, car ils contribueront `a faire baisser les gains lors du rassemblement en coalition.
Il s’agit bien d’un ´ev´enement r´ealiste (deux entreprises qui coop`erent ensemble peuvent gagner moins que si elles ne coop´eraient pas), et nous verrons dans l’application en Machine Learning pourquoi ce cas
particulier est important.
Calcul de la valeur de Shapley
Pour un jeu `apjoueurs et de fonction caract´eristique
v:P({1, . . . , p})\{∅} →R, la valeur de Shapley du joueuri se calcule exactement par
ϕi= X
Z⊆{1,...,p}:i∈Z
(p− |Z|)!(|Z| −1)!
p! (v(Z)−v(Z\{i}))
o`u|Z|est le nombre de joueurs pour la coalition Z.
Exercice
Montrer que pour un jeu `a deux joueurs, les valeurs de Shapley sont ϕ1= 1
2[v({1,2})+v({1})−v({2})] ϕ2=1
2[v({1,2})+v({2})−v({1})]
Que peut-on dire des valeurs de Shapley si les gains individuels sont identiques ?
D´ecomposition additive des attributions 45
Calcul de la valeur de Shapley
Remarque
Le calcul des valeurs de Shapley implique de connaˆıtre les gains pour toutes les coalitions possibles! En pratique, cela n’est pas toujours possible, notamment lorsque les coalitions ne peuvent pas se reformer apr`es l’´evaluation du gain d’une coalition (si deux entreprises coop`erent, leurs gains individuels apr`es coop´eration peuvent ˆetre diff´erents des gains individuels avant coop´eration).
Autrement dit, on suppose quev est enti`erement d´etermin´e et que l’on est capable de d´eterminerv(C)pour toutC⊆ {1, . . . , p}.
Exemple d’un jeu coop´ eratif
Consid´erons un jeu coop´eratif `a3joueurs o`u les gains individuels sont identiques :
v({1}) =v({2}) =v({3}) = 10
Il y a23−1 = 7coalitions non vides possibles. On donne les gains pour les4 autres coalitions.
D´ecomposition additive des attributions 47
Coalitions
Coalitions
On a donc la fonction caract´eristique suivante pour ce jeu : I v({1}) =v({2}) =v({3}) = 10
I v({1,2}) = 30 I v({1,3}) = 35 I v({2,3}) = 40 I v({1,2,3})) = 50
On voit tout de suite que le joueur1est celui qui contribue le moins `a la fonction caract´eristique parmi les coalitions possibles. De plus, on remarque pour le joueur2, le score est plus ´elev´e lorsqu’il s’associe avec le joueur3. On s’attends donc `a avoirϕ1< ϕ2< ϕ3.
Utilisons la formule pour calculer les valeurs de Shapley des joueurs.
D´ecomposition additive des attributions 49
Calcul de ϕ
1Z={1} : (3−1)!0!
3! (v({1})−v(∅)) = 2!
3!×(10−0) = 10 3 Z={1,2} : (3−2)!1!
3! (v({1,2})−v({2})) = 1
3!×(30−10) = 10 3 Z={1,3} : (3−2)!1!
3! (v({1,3})−v({3})) = 1
3!×(35−10) = 25 6 Z={2,3} : 0 car1∈ {2,/ 3}
Z={1,2,3} : (3−3)!2!
3! (v({1,2,3})−v({2,3})) = 2!
3!×(50−40) = 10 3
La valeur de Shapley du joueur 1 est : ϕ1= 85
6 ≈14.2
Calcul de ϕ
2Z={2} : (3−1)!0!
3! (v({2})−v(∅)) = 2!
3!×(10−0) = 10 3 Z={1,2} : (3−2)!1!
3! (v({1,2})−v({1})) = 1
3!×(30−10) = 10 3 Z={1,3} : 0 car2∈ {1,/ 3}
Z={2,3} : (3−2)!1!
3! (v({2,3})−v({3})) = 1
3!×(40−10) = 15 3 Z={1,2,3} : (3−3)!2!
3! (v({1,2,3})−v({1,3})) = 2!
3!×(50−35) = 15 3
La valeur de Shapley du joueur 2 est : ϕ2= 100
6 ≈16.7
D´ecomposition additive des attributions 51
Calcul de ϕ
3Z={3} : (3−1)!0!
3! (v({3})−v(∅)) = 2!
3!×(10−0) = 10 3 Z={1,2} : 0 car3∈ {1,/ 2}
Z={1,3} : (3−2)!1!
3! (v({1,3})−v({1})) = 1
3!×(35−10) = 25 6 Z={2,3} : (3−2)!1!
3! (v({2,3})−v({2})) = 1
3!×(40−10) = 15 3 Z={1,2,3} : (3−3)!2!
3! (v({1,2,3})−v({1,2})) = 2!
3!×(50−30) = 20 3
La valeur de Shapley du joueur 3 est : ϕ3= 115
6 ≈19.2
Valeurs de Shapley
Au final, on obtient ϕ1= 85
6 ϕ2=100
6 ϕ3= 115 6
Et on v´erifie bien queϕ1+ϕ2+ϕ3=v({1,2,3}) = 50. Le joueur3est celui qui remportera le plus grand montant compar´e au joueur1 qui empochera le plus petit montant.
D´ecomposition additive des attributions 53
Axiomes
Les valeurs de Shapley doivent v´erifier les axiomes suivants
1. Efficacit´e: la somme des valeurs de Shapley et ´egale `a la fonction caract´eristique de la coalition de tous les joueurs :
X
i∈{1,...,p}
ϕi=v({1, . . . , p})
2. Sym´etrie: si deux joueurs se substituent de toute coalition, alors les valeurs de Shapley sont identiques.
3. Additivit´e: si un joueur qui participe `a deux jeux de fonctions caract´eristiquesv etwayant les mˆemes joueurs alors la valeur de Shapley est additive en les deux jeux.
4. Joueur nul: si un joueur iest nul (que pour toute coalitionZ on a v(Z∪ {i}) =v(Z)) alors ϕi= 0.
Application en Machine Learning
Quel peut-ˆetre l’int´erˆet du probl`eme de r´epartition d’un gain dans une coalition en Machine Learning ?
Imaginez que chaque variable (oufeature) estrepr´esent´e par un joueur. La fonction indicatrice correspondrait au mod`elefˆ. L’objectif est donc d’expliquer, pour une variableXj d’un individuxi la valeur de Shapley de cette variable, qui caract´eriserait l’apport de cette variable sur la pr´edictionpour l’individu concern´e.
D´ecomposition additive des attributions 55
Application en Machine Learning
Le caract`ere individuel des valeurs de Shapley est tr`es important : lesϕj
d´ependent de l’individuxi car il existe desinteractions crois´eesentre les variables.
Par exemple, prenons un mod`ele qui fournit un prix de vente d’un appartement. Supposons disposer des variables suivantes :
I Ascenseur : pr´esence (oui ou non) d’un ascenseur I Etage : numero de l’´etage de l’appartement
Si l’appartement est au RDC, la variableAscenseur ne devrait pas influencer grandement la pr´ediction : la valeur de Shapley pour cet appartement est donc proche de0. En revanche, si l’appartement se trouve au 7`eme ´etage, la variableAscenseur a un impact beaucoup plus fort, la pr´esence d’un ascenseur pourrait faire varier plus significativement le prix.
Application en Machine Learning
Ainsi, pour un jeu de donn´ees de nindividus `apvariables, on se retrouve avec une matrice de valeurs de Shapley(ϕij)1≤i≤n,1≤j≤p.
D´ecomposition additive des attributions 57
Valeurs SHAP
En 2017, Scott Lundberg propose SHAP (pour SHapley Additive exPlanations), une approche unifi´ee pour expliquer les pr´edictions d’un mod`ele boˆıte noire. Il utilise alors les valeurs de Shapley de sorte `a pouvoir appliquer ce r´esultat de la th´eorie des jeux au Machine Learning.
Valeurs SHAP
Lundberg construisit son mod`ele dans la lign´ee des m´ethodes agnostiques actuelles par composition additive des variables. Plusieurs propri´et´es sont souhait´ees lorsque l’on explique la pr´ediction d’un mod`ele dont :
I Performance locale :
f(x) =ϕi0+
p
X
j=1
ϕijxij
I Absence : si xij = 0alorsϕij= 0.
D´ecomposition additive des attributions 59
Valeurs SHAP
Il a d´emontr´e que les seules valeurs pouvant satisfaire ces propri´et´es sont lesvaleurs de Shapley. En particulier :
ϕij =X
z⊆x
|z|!(p− |z| −1)!
p!
fˆ(hxi(z))−fˆ(hxi(z(i)))
o`u|z| d´esigne le nombre de variables non nulles dez,hx une fonction de mappage de l’individuxi etz(i)le vecteurzpriv´e de la i-`eme variable (et donc ´el´ement deRp−1).
Valeurs SHAP
Probl`eme: ce calcul est extrˆemement coˆuteux, et en pratique, il est impossibled’obtenir des r´esultats en un temps raisonnable.
C’est alors qu’apparaissent les valeurs SHAP, qui sont des estimations des valeurs de Shapley par m´ethode de Monte-Carlo.
N´eanmoins, le mˆeme auteur `a d´emontr´e en 2018 [6] que pour les m´ethodes `a base d’arbres, il est possible de calculerexactementles valeurs de Shapley en un temps raisonnable (complexit´eO(T Llog(L)2) avecT le nombre d’arbres etL le nombre maximal de feuilles des arbres.
D´ecomposition additive des attributions 61
Exemples
Exemples
D´ecomposition additive des attributions 63
Exemples
Conclusion
Avantages
I Bas´e sur une th´eorie et non des suppositions.
I Capable d’´etudier les interactions crois´ees entre les variables.
I Une pr´ecision d’explication `a la maille individuelle.
Inconv´enients
I Gourmand en terme de calculs.
I N´ecessite la base d’entraˆınement.
I Plus grande difficult´e d’interpr´etation par rapport `a d’autres m´ethodes agnostiques.
D´ecomposition additive des attributions 65
R´ ef´ erences I
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei.
ImageNet : A Large-Scale Hierarchical Image Database.
InCVPR09, 2009.
Jerome H. Friedman.
Greedy function approximation : A gradient boosting machine.
The Annals of Statistics, 29(5) :1189–1232, 2001.
Marti A. Hearst.
Support vector machines.
IEEE Intelligent Systems, 13(4) :18–28, July 1998.
Yann Lecun, L´eon Bottou, Yoshua Bengio, and Patrick Haffner.
Gradient-based learning applied to document recognition.
InProceedings of the IEEE, pages 2278–2324, 1998.
R´ ef´ erences II
Scott Lundberg and Su-In Lee.
A unified approach to interpreting model predictions.
CoRR, abs/1705.07874, 2017.
Scott M. Lundberg, Gabriel G. Erion, and Su-In Lee.
Consistent individualized feature attribution for tree ensembles.
ArXiv, abs/1802.03888, 2018.
Christoph Molnar.
Interpretable Machine Learning.
2019.
https://christophm.github.io/interpretable-ml-book/.
Marco T´ulio Ribeiro, Sameer Singh, and Carlos Guestrin.
”why should I trust you ?” : Explaining the predictions of any classifier.
CoRR, abs/1602.04938, 2016.
D´ecomposition additive des attributions 67
R´ ef´ erences III
Avanti Shrikumar, Peyton Greenside, and Anshul Kundaje.
Learning important features through propagating activation differences.
CoRR, abs/1704.02685, 2017.
Fulton Wang and Cynthia Rudin.
Falling rule lists.
CoRR, abs/1411.5899, 2014.