• Aucun résultat trouvé

Data Science en pratique Transparence des algorithmes et interpr´etabilit´e

N/A
N/A
Protected

Academic year: 2022

Partager "Data Science en pratique Transparence des algorithmes et interpr´etabilit´e"

Copied!
68
0
0

Texte intégral

(1)

Data Science en pratique

Transparence des algorithmes et interpr´ etabilit´ e

Maxime Jumelle ESLSCA Big Data - MBA 2

2019 - 2020

(2)

Transparence des algorithmes

Au cours des derni`eres ann´ees, les mod`eles de Machine Learning atteignaient des performances de plus en plus ´elev´ees, d´epassant parfois les performances r´ealis´ees par des humains sur certaines tˆaches pr´ecises.

La comp´etition annuelle ILSVRC, o`u des ´equipes de recherche ´evaluent des algorithmes de traitement d’image sur le jeu de donn´ees ImageNet [1], voyait les meilleurs taux d’erreurs `a 26 %.

En 2012, l’av`enement des r´eseaux de neurones et de l’apprentissage profond, et plus particuli`erement les r´eseaux de neurones convolutifs [4]

ont permis d’abaisser le taux d’erreur `a 16 %. Depuis, les r´eseaux de neurones sont majoritairement utilis´es dans cette comp´etition et d’autres semblables.

(3)

Taux d’erreur ILSVRC

3

(4)

Transparence des algorithmes

En contrepartie, les r´eseaux de neurones sont souvent consid´er´es comme desboˆıtes noires, c’est-`a-dire des algorithmes dont le

fonctionnement est opaque et difficile `a interpr´eter. En effet, du fait du tr`es grand nombre de param`etres (plusieurs dizaines voir centaines de millions), l’interpr´etation de ces mod`eles n’est pas faisable.

Les r´eseaux de neurones sont un exemple deboˆıtes noires, tout comme le sont les algorithmes d’ensemble learning ou les Support Vector Machine [3].

(5)

D´ efinition de l’interpr´ etabilit´ e

Le termetransparence des algorithmes est propre au contexte ´etudi´e, et il n’existe pas une d´efinition unique. La transparence peut faire r´ef´erence `a la connaissance de la d´ecision prise par l’algorithme, au degr´e d’exactitude de la pr´ediction ou `a l’importance des variables sur la pr´ediction.

Christoph Molnar [7] reprend la d´efinition de l’interpr´etabilit´e de Tim MillerL’interpr´etabilit´e est le degr´e `a quel point un humain peut expliquer de mani`ere coh´erente les pr´edictions du mod`ele 1. Sous cette d´efinition, l’interpr´etabilit´e est une partie int´egrante de la transparence, qui vise `a ˆetre capable d’expliquer de mani`ere pr´ecise et consistante la pr´ediction, que ce soit pour une observation ou dans le comportement global de l’algorithme.

1. Traduit de la phrase d’origineInterpretability is the degree to which a human can consistently predict the model’s result.

5

(6)

Des modules naturellement interpr´ etables

Certains mod`eles sontnaturellement interpr´etables. C’est le cas du mod`ele lin´eaire : une variable r´eponseY est en relation lin´eaire avec les variables explicativesX1, . . . , Xp par l’interm´ediaire des coefficients β1, . . . , βp

Y =β0+

p

X

j=1

βjXj.

Dans ce mod`ele, plus la valeurβj est ´elev´ee, plus une variation de la valeur deXj impacte la r´eponse Y. Il est donc facile de comprendre le comportement du mod`ele, et d’expliquer la pr´ediction pour une observationx.

(7)

D’autres moins

En revanche, les mod`eles qui permettent d’atteindre des performances plus ´elev´ees, sont ´egalement plus difficilement interpr´etables. Le mod`ele XGBoost est construit de mani`ere r´ecursive, et chaque arbre d´epends des pr´ec´edents. Pour expliquer la pr´ediction d’une observationx, il est n´ecessaire de calculer la sortie de chaque arbre, en sachant que les pr´edicteurs faibles ne cherchent plus `a mod´eliser la variable r´eponse, mais les pseudo-r´esidus. C’est la multiplicit´e des arbres (associ´ee `a d’´eventuels arbres profonds) qui rend la compr´ehension du comportement du mod`ele quasi-impossible.

7

(8)

Sommaire

Vue d’ensemble des m´ethodes d’interpr´etabilit´e

´Etude globale et effets marginaux Lois marginales

Partial Dependency Plot Mod`eles de substitution globale D´ecomposition additive des attributions

Substitution locale (LIME) Valeurs de Shapley

Th´eorie des jeux

Exemple d’un jeu coop´eratif Valeurs SHAP

(9)

Vue d’ensemble

Ainsi, au cours des derni`eres ann´ees, la recherche acad´emique s’est pench´ee sur des m´ethodes d’interpr´etabilit´e afin de pouvoir expliquer le comportement et les pr´edictions des algorithmes. Deux types de m´ethodes ont ´et´e d´evelopp´ees.

Vue d’ensemble des m´ethodes d’interpr´etabilit´e 9

(10)

M´ ethodes agnostiques

Les m´ethodes ditesagnostiques, ind´ependantes du mod`ele pr´edictif utilis´e. Le principal avantage est leur flexibilit´e, puisque ces m´ethodes peuvent ˆetre appliqu´ees sans connaissance particuli`ere du mod`ele pr´edictif, si ce n’est qu’obtenir la pr´edictionfˆ(x)pour toute observation x. Ces m´ethodes agnostiques s’intercalent sur des mod`eles boˆıtes noires.

Les PDP (Partial Dependency Plot) [2] furent une des premi`eres m´ethodes d’interpr´etabilit´e, en estimant les lois marginales des variables sous des hypoth`eses d’ind´ependance entre les variables. Plus r´ecemment, d’autres m´ethodes telles que LIME [8] ou Kernel SHAP [5] ont ´et´e introduites afin de pallier certaines faiblesses des pr´ec´edentes m´ethodes et de les adapter pour des mod`eles plus complexes et plus coˆuteux en terme de calcul.

(11)

M´ ethodes sp´ ecifiques

Les m´ethodes ditessp´ecifiques, d´ependantes du mod`ele pr´edictif utilis´e.

Bien que ces m´ethodes soient moins flexibles, elles permettent d’obtenir de meilleurs interpr´etabilit´e puisqu’elles sont sp´ecifiquement d´evelopp´ees pour un mod`ele pr´edictif particulier. Ces m´ethodes ne se reposent pas uniquement sur la pr´edictionfˆ(x)des observationsx, mais utilisent

´egalement les propri´et´es et m´ethodes de construction d’un mod`ele pour en extraire le plus d’information quant au comportement que celui-ci adopte. Les r´eseaux de neurones sont principalement vis´es par ces m´ethodes, dont DeepLIFT [9], ou les m´ethodes `a base d’arbres, tel que Tree SHAP [5].

Vue d’ensemble des m´ethodes d’interpr´etabilit´e 11

(12)

Niveau de granularit´ e

Lorsque le terme d’interpr´etabilit´e est employ´e, deux niveaux de granularit´e peuvent ˆetre distingu´es en classes de m´ethodes.

I Les m´ethodes diteslocales, o`u la m´ethode consiste `a expliquer la pr´ediction d’une observation particuli`ere. Christoph Molnar diff´erencie l’interpr´etabilit´e (g´en´erale) du mod`ele et appelle l’explication le fait de pouvoir pleinement expliquer la pr´ediction pour une observation particuli`ere. DeepLIFT ou Tree SHAP sont des exemples de m´ethodes locales.

I Les m´ethodes ditesglobales, qui cherchent plutˆot `a expliquer les tendances du mod`ele sur l’ensemble des pr´edictions, comme par exemple les lois marginales. PDP ou Tree Interpreter sont des exemples de m´ethodes globales.

(13)

R´ ecapitulatif

Sp´ecifique Agnostique Local Tree SHAP, Saabas LIME, Kernel SHAP Global Information Gain,

Feature Importence

PDP, ALE

Cependant, il ne faut pas oublier que certaines m´ethodes

d’interpr´etabilit´e peuvent ´egalement induire en erreur : souvent, il s’agit non pas de calculs exacts mais d’approximations pour pouvoir interpr´eter facilement.Attention `a la sur-interpr´etation!

Vue d’ensemble des m´ethodes d’interpr´etabilit´e 13

(14)

Sommaire

Vue d’ensemble des m´ethodes d’interpr´etabilit´e

´Etude globale et effets marginaux Lois marginales

Partial Dependency Plot Mod`eles de substitution globale D´ecomposition additive des attributions

Substitution locale (LIME) Valeurs de Shapley

Th´eorie des jeux

Exemple d’un jeu coop´eratif Valeurs SHAP

(15)

Effets marginaux

Lorsque l’on ´etudie les effets marginaux, on s’int´eresse `a la loi marginale d’un sous-ensemble de variables explicatives. En th´eorie des probabilit´es, pour obtenir la loi marginale d’une variableXj, on int`egre la loi jointe

Pj(x) = Z

E1×...Ej−1×Ej+1×···×Ep

dP(x1, . . . , xj−1, x, xj+1, . . . , xp)

avecE1×. . . Ej−1×Ej+1× · · · ×Ep le pav´e des valeurs possibles des variablesX1, . . . , Xj−1, Xj+1, . . . , Xp. Par exemple, pour des valeurs continues dansR, le pav´e prends la formeRp−1.

Etude globale et effets marginaux´ 15

(16)

Effets marginaux

En choisissant un sous-ensembleI⊆ {1, . . . , p} de variables que l’on souhaite ´etudier et le sous-ensembleJ ={1, . . . , p}\I les autres variables, la loi marginale deI est

PI(x) = Z

j∈J

dP(x, xJ)

(17)

Partial Dependency Plot (PDP)

Les graphes de d´ependence partielle permettent de montrer l’effet marginal d’un sous-ensemble defeatures (usuellement1ou2) sur la sortie d’un mod`ele pr´edictif. En particulier, les PDP permettent de faire varier, pour une ou deuxfeatures, les valeurs possiblessans modifier les valeurs des autres featurespour chaque individu. Le graphe correspond ensuite `a la moyenne des courbes de chaque individu.

Etude globale et effets marginaux´ 17

(18)

Partial Dependency Plot (PDP)

Supposons que l’on souhaite ´etudier un sous-ensemble defeatures d’indicesI (avec|I|+|J|=p, o`up´etant le nombre de features,J ´etant l’ensemble d’indice des autres features v´erifiantI∩J =∅), alors la fonction de d´ependence partielle est

I(x) =EPJ[ ˆf(x, xJ)] = Z

fˆ(x, xJ)dP(x, xJ)

Nous n’avons pas directement connaissance dedP(x, xJ), mais il est n´eanmoins possible d’estimer la valeur par m´ethode de Monte-Carlo :

I(x) = 1 n

n

X

i=1

f(x, xˆ iJ)

o`u chaquefˆ(x, xiJ)repr´esente un individu et est repr´esent´ee par une courbe ICE (Individual Conditional Expectation).

(19)

Variable de dur´ ee d’appel

Etude globale et effets marginaux´ 19

(20)

Variable de revenu moyen

(21)

Interaction crois´ ee entre revenu moyen et dur´ ee d’appel

Etude globale et effets marginaux´ 21

(22)

Variable agr´ eg´ ee de revenu moyen

(23)

Conclusion

Avantages

I Lecture des graphes intuitives.

I Facilit´e d’impl´ementation et de calcul.

Inconv´enients

I Forte hypoth`ese d’ind´ependance entre les variables.

I Difficult´e de repr´esentation `a partir de3variables.

I Le calcul d’esp´erance peut cacher des effets locaux h´et´erog`enes.

Etude globale et effets marginaux´ 23

(24)

Mod` ele substitut

Les m´ethodes de substitution sont des m´ethodes d’interpr´etabilit´e qui consiste `a entraˆıner un sur-mod`eleg naturellement interpr´etable sur un mod`ele boˆıte noiref. Il est suppos´ˆ e que seuls les observationsxet les pr´edictions associ´eesyˆsont disponibles : aucune information directe sur le mod`elefˆn’est connue.

Il est important de choisir un sur-mod`ele naturellement interpr´etable, puisque c’est sur celui-ci que les interpr´etations seront r´ealis´ees.

Usuellement, les sur-mod`eles utilis´es sont des mod`eles lin´eaires ou des arbres de d´ecision.

(25)

Global Surrogate

Un mod`eleGlobal Surrogateest un mod`elepr´edictif simplequi se substitue `a un mod`ele pr´edictif complexe que l’on souhaite ´etudier.

L’objectif est donc de constuire un mod`elegˆqui soit naturellement ou facilement interpr´etable afin qu’il reproduise le comportement du mod`ele pr´edictif complexefˆ.

Ainsi, le mod`ele de substitutiongˆ”imite” le comportement defˆmais aura l’avantage d’ˆetre interpr´etable.

Etude globale et effets marginaux´ 25

(26)

Global Surrogate

Supposons quefˆait ´et´e entraˆın´e sur une base d’entraˆınement(X, Y). La proc´edure de construction d’un mod`ele Global Surrogate est

I S´election d’un datasetX0 ⊆X I Calcul des pr´edictions Y0= ˆf(X0)

I Entraˆınement du mod`ele de substitutiongˆsur(X0, Y0) I Calcul des pr´edictions ˆg(X0)

I Mesure de performanceL(Y0,g(Xˆ 0))

(27)

Global Surrogate

Il faut bien comprendre que le mod`ele de substitutiontente de reproduireles pr´edictions defˆ, et plusieurs dangers surviennent :

I Si le mod`ele complexefˆn’est pas performant, il y a tr`es peu de chances pour que le mod`ele de substitutiongˆle soit aussi.

I Du fait de la nature plus simple du mod`ele de substitution, il se peut que des comportements int´eressants ne soient plus observables par ce dernier.

I Le choix du mod`ele de substitution peut impacter l’interpr´etabilit´e, ce qui cr´ee une d´ependance au mod`ele candidat.

Etude globale et effets marginaux´ 27

(28)

Sommaire

Vue d’ensemble des m´ethodes d’interpr´etabilit´e

´Etude globale et effets marginaux Lois marginales

Partial Dependency Plot Mod`eles de substitution globale D´ecomposition additive des attributions

Substitution locale (LIME) Valeurs de Shapley

Th´eorie des jeux

Exemple d’un jeu coop´eratif Valeurs SHAP

(29)

Additive Feature Attribution (AFA)

Les m´ethodes AFA (pour Additive Feature Attribution) tentent de d´ecomposer la pr´ediction d’une observationxcomme ´etant une somme de contributions (pouvant ˆetre positives ou n´egatives) de chaque variable.

Soitf le mod`ele (etfˆsa version construite). Les mod`eles d’interpr´etabilit´e utilisent souvent unerepr´esentation simplifi´ee

x0∈Rd d’une observationxde sorte `a pouvoir la reconstruire `a partir de x0 par l’interm´ediaire d’une fonctionhx i.e.x=hx(x0).

Les m´ethode locales quant `a elles vont construire un mod`eleg de sorte queg(z0)≈f(hx(z0))d`es lors quez0 ≈x0.

ecomposition additive des attributions 29

(30)

Additive Feature Attribution (AFA)

Le mod`elefˆest entraˆın´e sur(xi)1≤i≤n alors quegˆest entraˆın´e sur (zi0)1≤i≤n.

(31)

Additive Feature Attribution (AFA)

Les m´ethodes AFA fournissent un mod`ele d’interpr´etabilit´e lin´eaire en les variables binaires dans l’espace de repr´esentation simplifi´ee :

g(z0) =φ0+

M

X

j=1

φjz0j

avecz0 ∈ {0,1}M un vecteur de l’espace de repr´esentation simplifi´ee et φj ∈R.

Aujourd’hui, de nombreuses mod`eles d’interpr´etabilit´e utilisent la m´ethode AFA pour expliquer les pr´edictions des observations au niveau local.

ecomposition additive des attributions 31

(32)

Additive Feature Attribution (AFA)

Dans le plupart des cas, le sur-mod`eleg est d’une complexit´e moindre afin d’ˆetre plus facilement interpr´etable. On y retrouve souvent des mod`eles lin´eaires, des arbres de d´ecisions ou des falling rule lists[10].

(33)

LIME (Local Surrogate)

LIME(pour Local Interpretable Model-agnostic Explanations) est une m´ethode de substitution locale qui vise `a expliquer les pr´edictions au niveau local. Cette m´ethode est particuli`erement appliqu´ee pour l’interpr´etabilit´e des mod`eles manipulant du texte et pour les images (SVM et r´eseaux de neurones). LIME cherche `a construire, pour une observationxdonn´ee, appel´einstance d’int´erˆet, un sur-mod`eleg permettant d’expliquer la pr´ediction pour cet individu. Le terme local fait r´ef´erence au fait que l’interpr´etation n’est r´ealis´e sur pour l’instance d’int´erˆet, et n’a de sens que lorsque l’´etude se porte sur une observation en particulier.

ecomposition additive des attributions 33

(34)

Apprentissage du mod` ele substitut

Pour construire le sur-mod`eleg, il est n´ecessaire de d´efinir un voisinage de l’instance d’int´erˆet, ´etant donn´e que l’interpr´etation, et donc la construction deg s’effectue auniveau local. Une notion de distance, repr´esent´ee par un noyauπx, permet de quantifier la notion de voisinage autour de l’instance d’int´erˆet. SoitG la classe de fonctions candidates pour le sur-mod`eleg, LIME cherche `a r´esoudre le probl`eme d’optimisation

ˆ

g(x) = argmin

g∈G

LLIME( ˆf , g, πx) + Ω(g),

avecLLIME la fonction de pertedu sur-mod`eleetΩune r´egularisation d´efinie au pr´ealable.

(35)

R´ egularisation du mod` ele substitut

Contrairement `a la plupart des termes de r´egularisation appliqu´ees aux fonctions de pertes (r´egularisationl1 et/oul2), le termeΩ(g)a surtout pour objectif de p´enaliser un sur-mod`ele de complexit´e ´elev´e, puisqu’il aurait ainsi une interpr´etabilit´e plus difficile a obtenir. Le termeΩ(g)agit donc comme unemesure de complexit´e.

Le choix du termeΩ(g)d´epend ainsi du sur-mod`ele s´electionn´e : I Pour un arbre de d´ecision, Ω(g) =γT avecT la profondeur de

l’arbre etγ un param`etre.

I Pour un mod`ele lin´eaire, Ω(g) =|{βjj= 0,1≤j≤p}|avecβ les coefficients du mod`ele lin´eaire.

ecomposition additive des attributions 35

(36)

Apprentissage du mod` ele substitut

Le sur-mod`eleg ayant pour objectif d’ˆetre interpr´etable, les observations de la base d’apprentissage ne sont pas directement les voisinsz de l’instance d’int´erˆet, mais une repr´esentation binaire simplifi´ee z0∈ {0,1}p0 (avecp0 un entier) pour am´eliorer l’interpr´etabilit´e.

NotonsE= (z, z0)1≤i≤n l’ensemble des couples d’observations initiales et en repr´esentation binaire simplifi´ee. Dans le cas d’un probl`eme de r´egression, la notion est voisinage est intuitive, puisque les points`a proximit´eindiquent fid`element le comportement du mod`ele.

(37)

Apprentissage du mod` ele substitut

Avec une fonction de perteL quadratique et sous un noyau gaussien, le probl`eme de minimisation pr´ec´edent revient `a r´esoudre un probl`eme des moindres carr´es p´enalis´es

LLIME(f, g, πx) = X

(z,z0)∈E

πx(z)h

fˆ(z)−ˆg(z0)i2

avec πx(z) = exp

−kx−zk2 σ2

, σ >0.

Le noyauπx est cens´e faire tendre vers0 les observationsz qui se retrouvent´eloign´es dex. Cette notion est l’une des principales difficult´es de LIME, puisque la notion de proximit´e d´epends du choix du noyau.

ecomposition additive des attributions 37

(38)

Exemple 1

Consid´erons un jeu de donn´ees `a deux dimensions de1000observations g´en´er´ees al´eatoirement dans[0,1]2.

(39)

Exemple 1

Un Random Forest `a50arbres de profondeur maximale4a ´et´e entraˆın´e dont la fronti`ere de d´ecision est mat´erialis´ee en arri`ere plan par un changement de couleur.

ecomposition additive des attributions 39

(40)

Exemple 1

(41)

Th´ eorie des jeux

Les valeurs de Shapley puisent leur origine dans la th´eorie des jeux coop´eratifs. Ils furent invent´es par Lloyd Shapley en 1953.

En th´eorie des jeux coop´eratifs, on s’int´eresse notamment aux situations o`u desjoueurspeuvent former descoalitionspour d´efinir une strat´egie dans l’optique de maximiser un gain.

Dans le cas o`u tous les joueurs formentune seule et mˆeme coalition, on souhaiterait alors connaˆıtre uner´epartition ´equitable des gains entre chaque joueur en fonction de leur apport dans cette coalition.

Ce sont lesvaleurs de Shapleyqui indiquent les gains ´equitables pour chaque joueur.

ecomposition additive des attributions 41

(42)

Equitable ´ 6= Identique

Comprenons bienqu’´equitable ne signifie pas identique. Prenons trois joueursA, B etC. Aucun joueur n’apporte de gain tout seul.

I SiAetB jouent ensemble, le gain vaut2.

I SiAetC jouent ensemble, le gain vaut2.

I SiB etC jouent ensemble, le gain vaut3.

I SiA, B etC jouent tous ensemble, le gain vaut4.

On voit bien que la coalition{B, C} est plus forte que toutes les autres coalitions. Ainsi, le gain en coalition totale est plus impact´e par la sous-coalition{B, C}que les autres. Ainsi, on s’attends `a ce que les gains soient plus grands pourB etC que pourA.

(43)

Calcul de la valeur de Shapley

Supposons que dans un jeu, il y apjoueurs. Alors il peut y avoir2p−1 coalitions non vides possibles. Plus couramment, on appelle ce ”gain” la fonction caract´eristiquev qui prends un ´el´ement des parties de {1, . . . , p}\{∅} (un sous-ensemble non vide).

On peut supposer que pour deux coalitionsC1etC2 disjointes (n’ayant aucun joueur identique) alors la coalition regroup´ee affiche des gains plus

´elev´es que si chaque coalition jouait ind´ependamment : v(C1∪C2)≥v(C1) +v(C2)

ecomposition additive des attributions 43

(44)

Calcul de la valeur de Shapley

Attention

En revanche, rien ne suppose que les gains d’une coalition soient toujours sup´erieurs aux gains individuels

v [

i

{i}

! X

i

v({i})

Dans ce cas de figure, un ou plusieurs joueurs auront unevaleur de Shapley n´egative, car ils contribueront `a faire baisser les gains lors du rassemblement en coalition.

Il s’agit bien d’un ´ev´enement r´ealiste (deux entreprises qui coop`erent ensemble peuvent gagner moins que si elles ne coop´eraient pas), et nous verrons dans l’application en Machine Learning pourquoi ce cas

particulier est important.

(45)

Calcul de la valeur de Shapley

Pour un jeu `apjoueurs et de fonction caract´eristique

v:P({1, . . . , p})\{∅} →R, la valeur de Shapley du joueuri se calcule exactement par

ϕi= X

Z⊆{1,...,p}:i∈Z

(p− |Z|)!(|Z| −1)!

p! (v(Z)−v(Z\{i}))

o`u|Z|est le nombre de joueurs pour la coalition Z.

Exercice

Montrer que pour un jeu `a deux joueurs, les valeurs de Shapley sont ϕ1= 1

2[v({1,2})+v({1})−v({2})] ϕ2=1

2[v({1,2})+v({2})−v({1})]

Que peut-on dire des valeurs de Shapley si les gains individuels sont identiques ?

ecomposition additive des attributions 45

(46)

Calcul de la valeur de Shapley

Remarque

Le calcul des valeurs de Shapley implique de connaˆıtre les gains pour toutes les coalitions possibles! En pratique, cela n’est pas toujours possible, notamment lorsque les coalitions ne peuvent pas se reformer apr`es l’´evaluation du gain d’une coalition (si deux entreprises coop`erent, leurs gains individuels apr`es coop´eration peuvent ˆetre diff´erents des gains individuels avant coop´eration).

Autrement dit, on suppose quev est enti`erement d´etermin´e et que l’on est capable de d´eterminerv(C)pour toutC⊆ {1, . . . , p}.

(47)

Exemple d’un jeu coop´ eratif

Consid´erons un jeu coop´eratif `a3joueurs o`u les gains individuels sont identiques :

v({1}) =v({2}) =v({3}) = 10

Il y a23−1 = 7coalitions non vides possibles. On donne les gains pour les4 autres coalitions.

ecomposition additive des attributions 47

(48)

Coalitions

(49)

Coalitions

On a donc la fonction caract´eristique suivante pour ce jeu : I v({1}) =v({2}) =v({3}) = 10

I v({1,2}) = 30 I v({1,3}) = 35 I v({2,3}) = 40 I v({1,2,3})) = 50

On voit tout de suite que le joueur1est celui qui contribue le moins `a la fonction caract´eristique parmi les coalitions possibles. De plus, on remarque pour le joueur2, le score est plus ´elev´e lorsqu’il s’associe avec le joueur3. On s’attends donc `a avoirϕ1< ϕ2< ϕ3.

Utilisons la formule pour calculer les valeurs de Shapley des joueurs.

ecomposition additive des attributions 49

(50)

Calcul de ϕ

1

Z={1} : (3−1)!0!

3! (v({1})−v(∅)) = 2!

3!×(10−0) = 10 3 Z={1,2} : (3−2)!1!

3! (v({1,2})−v({2})) = 1

3!×(30−10) = 10 3 Z={1,3} : (3−2)!1!

3! (v({1,3})−v({3})) = 1

3!×(35−10) = 25 6 Z={2,3} : 0 car1∈ {2,/ 3}

Z={1,2,3} : (3−3)!2!

3! (v({1,2,3})−v({2,3})) = 2!

3!×(50−40) = 10 3

La valeur de Shapley du joueur 1 est : ϕ1= 85

6 ≈14.2

(51)

Calcul de ϕ

2

Z={2} : (3−1)!0!

3! (v({2})−v(∅)) = 2!

3!×(10−0) = 10 3 Z={1,2} : (3−2)!1!

3! (v({1,2})−v({1})) = 1

3!×(30−10) = 10 3 Z={1,3} : 0 car2∈ {1,/ 3}

Z={2,3} : (3−2)!1!

3! (v({2,3})−v({3})) = 1

3!×(40−10) = 15 3 Z={1,2,3} : (3−3)!2!

3! (v({1,2,3})−v({1,3})) = 2!

3!×(50−35) = 15 3

La valeur de Shapley du joueur 2 est : ϕ2= 100

6 ≈16.7

ecomposition additive des attributions 51

(52)

Calcul de ϕ

3

Z={3} : (3−1)!0!

3! (v({3})−v(∅)) = 2!

3!×(10−0) = 10 3 Z={1,2} : 0 car3∈ {1,/ 2}

Z={1,3} : (3−2)!1!

3! (v({1,3})−v({1})) = 1

3!×(35−10) = 25 6 Z={2,3} : (3−2)!1!

3! (v({2,3})−v({2})) = 1

3!×(40−10) = 15 3 Z={1,2,3} : (3−3)!2!

3! (v({1,2,3})−v({1,2})) = 2!

3!×(50−30) = 20 3

La valeur de Shapley du joueur 3 est : ϕ3= 115

6 ≈19.2

(53)

Valeurs de Shapley

Au final, on obtient ϕ1= 85

6 ϕ2=100

6 ϕ3= 115 6

Et on v´erifie bien queϕ123=v({1,2,3}) = 50. Le joueur3est celui qui remportera le plus grand montant compar´e au joueur1 qui empochera le plus petit montant.

ecomposition additive des attributions 53

(54)

Axiomes

Les valeurs de Shapley doivent v´erifier les axiomes suivants

1. Efficacit´e: la somme des valeurs de Shapley et ´egale `a la fonction caract´eristique de la coalition de tous les joueurs :

X

i∈{1,...,p}

ϕi=v({1, . . . , p})

2. Sym´etrie: si deux joueurs se substituent de toute coalition, alors les valeurs de Shapley sont identiques.

3. Additivit´e: si un joueur qui participe `a deux jeux de fonctions caract´eristiquesv etwayant les mˆemes joueurs alors la valeur de Shapley est additive en les deux jeux.

4. Joueur nul: si un joueur iest nul (que pour toute coalitionZ on a v(Z∪ {i}) =v(Z)) alors ϕi= 0.

(55)

Application en Machine Learning

Quel peut-ˆetre l’int´erˆet du probl`eme de r´epartition d’un gain dans une coalition en Machine Learning ?

Imaginez que chaque variable (oufeature) estrepr´esent´e par un joueur. La fonction indicatrice correspondrait au mod`elefˆ. L’objectif est donc d’expliquer, pour une variableXj d’un individuxi la valeur de Shapley de cette variable, qui caract´eriserait l’apport de cette variable sur la pr´edictionpour l’individu concern´e.

ecomposition additive des attributions 55

(56)

Application en Machine Learning

Le caract`ere individuel des valeurs de Shapley est tr`es important : lesϕj

d´ependent de l’individuxi car il existe desinteractions crois´eesentre les variables.

Par exemple, prenons un mod`ele qui fournit un prix de vente d’un appartement. Supposons disposer des variables suivantes :

I Ascenseur : pr´esence (oui ou non) d’un ascenseur I Etage : numero de l’´etage de l’appartement

Si l’appartement est au RDC, la variableAscenseur ne devrait pas influencer grandement la pr´ediction : la valeur de Shapley pour cet appartement est donc proche de0. En revanche, si l’appartement se trouve au 7`eme ´etage, la variableAscenseur a un impact beaucoup plus fort, la pr´esence d’un ascenseur pourrait faire varier plus significativement le prix.

(57)

Application en Machine Learning

Ainsi, pour un jeu de donn´ees de nindividus `apvariables, on se retrouve avec une matrice de valeurs de Shapley(ϕij)1≤i≤n,1≤j≤p.

ecomposition additive des attributions 57

(58)

Valeurs SHAP

En 2017, Scott Lundberg propose SHAP (pour SHapley Additive exPlanations), une approche unifi´ee pour expliquer les pr´edictions d’un mod`ele boˆıte noire. Il utilise alors les valeurs de Shapley de sorte `a pouvoir appliquer ce r´esultat de la th´eorie des jeux au Machine Learning.

(59)

Valeurs SHAP

Lundberg construisit son mod`ele dans la lign´ee des m´ethodes agnostiques actuelles par composition additive des variables. Plusieurs propri´et´es sont souhait´ees lorsque l’on explique la pr´ediction d’un mod`ele dont :

I Performance locale :

f(x) =ϕi0+

p

X

j=1

ϕijxij

I Absence : si xij = 0alorsϕij= 0.

ecomposition additive des attributions 59

(60)

Valeurs SHAP

Il a d´emontr´e que les seules valeurs pouvant satisfaire ces propri´et´es sont lesvaleurs de Shapley. En particulier :

ϕij =X

z⊆x

|z|!(p− |z| −1)!

p!

fˆ(hxi(z))−fˆ(hxi(z(i)))

o`u|z| d´esigne le nombre de variables non nulles dez,hx une fonction de mappage de l’individuxi etz(i)le vecteurzpriv´e de la i-`eme variable (et donc ´el´ement deRp−1).

(61)

Valeurs SHAP

Probl`eme: ce calcul est extrˆemement coˆuteux, et en pratique, il est impossibled’obtenir des r´esultats en un temps raisonnable.

C’est alors qu’apparaissent les valeurs SHAP, qui sont des estimations des valeurs de Shapley par m´ethode de Monte-Carlo.

N´eanmoins, le mˆeme auteur `a d´emontr´e en 2018 [6] que pour les m´ethodes `a base d’arbres, il est possible de calculerexactementles valeurs de Shapley en un temps raisonnable (complexit´eO(T Llog(L)2) avecT le nombre d’arbres etL le nombre maximal de feuilles des arbres.

ecomposition additive des attributions 61

(62)

Exemples

(63)

Exemples

ecomposition additive des attributions 63

(64)

Exemples

(65)

Conclusion

Avantages

I Bas´e sur une th´eorie et non des suppositions.

I Capable d’´etudier les interactions crois´ees entre les variables.

I Une pr´ecision d’explication `a la maille individuelle.

Inconv´enients

I Gourmand en terme de calculs.

I N´ecessite la base d’entraˆınement.

I Plus grande difficult´e d’interpr´etation par rapport `a d’autres m´ethodes agnostiques.

ecomposition additive des attributions 65

(66)

R´ ef´ erences I

J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei.

ImageNet : A Large-Scale Hierarchical Image Database.

InCVPR09, 2009.

Jerome H. Friedman.

Greedy function approximation : A gradient boosting machine.

The Annals of Statistics, 29(5) :1189–1232, 2001.

Marti A. Hearst.

Support vector machines.

IEEE Intelligent Systems, 13(4) :18–28, July 1998.

Yann Lecun, L´eon Bottou, Yoshua Bengio, and Patrick Haffner.

Gradient-based learning applied to document recognition.

InProceedings of the IEEE, pages 2278–2324, 1998.

(67)

R´ ef´ erences II

Scott Lundberg and Su-In Lee.

A unified approach to interpreting model predictions.

CoRR, abs/1705.07874, 2017.

Scott M. Lundberg, Gabriel G. Erion, and Su-In Lee.

Consistent individualized feature attribution for tree ensembles.

ArXiv, abs/1802.03888, 2018.

Christoph Molnar.

Interpretable Machine Learning.

2019.

https://christophm.github.io/interpretable-ml-book/.

Marco T´ulio Ribeiro, Sameer Singh, and Carlos Guestrin.

”why should I trust you ?” : Explaining the predictions of any classifier.

CoRR, abs/1602.04938, 2016.

ecomposition additive des attributions 67

(68)

R´ ef´ erences III

Avanti Shrikumar, Peyton Greenside, and Anshul Kundaje.

Learning important features through propagating activation differences.

CoRR, abs/1704.02685, 2017.

Fulton Wang and Cynthia Rudin.

Falling rule lists.

CoRR, abs/1411.5899, 2014.

Références

Documents relatifs

Obtenue comme compos´ ee licite de ces applications, ϕ A est bien une forme lin´ eaire sur M n ( K ).. B.2 Cette application est bien d´ efinie d’apr` es la question pr´

[r]

D´ esignons par Ω le compl´ ementaire du support

La qualit´ e de la r´ edaction, la clart´ e et la pr´ ecision des raisonnements interviendront pour une part importante dans l’appr´ eciation des copies.. Montrer que φ est

(b) ´ Etudier f : on donnera en particulier une expression simplifi´ ee de f sur tout intervalle de la forme ]k, k + 1[ avec k entier puis on pr´ ecisera ses variations, son

Donner une d´ efinition de l’int´ erieur, de l’adh´ erence et de la fronti` ere de

La syntaxe g´en´erale des fonctions utilis´ees peut ˆetre obtenue au moyen de l’aide en ligne, en faisant pr´ec´eder le nom de la fonction par un point d’interrogation.

Programme d’amélioration de la qualité et de la sécurité des soins 8a Fonction de coordination de la gestion des risques associés aux soins 8b. Obligations légales et