Data Science en pratique Transparence des algorithmes et interpr´etabilit´e

(1)

Data Science en pratique

Transparence des algorithmes et interpr´ etabilit´ e

Maxime Jumelle ESLSCA Big Data - MBA 2

2019 - 2020

(2)

Transparence des algorithmes

Au cours des dernières années, les modèles de Machine Learning atteignaient des performances de plus en plus élevées, dépassant parfois les performances réalisées par des humains sur certaines tâches précises.

La compétition annuelle ILSVRC, où des équipes de recherche évaluent des algorithmes de traitement d’image sur le jeu de données ImageNet [1], voyait les meilleurs taux d’erreurs à 26 %.

En 2012, l’avènement des réseaux de neurones et de l’apprentissage profond, et plus particulièrement les réseaux de neurones convolutifs [4]

ont permis d’abaisser le taux d’erreur à 16 %. Depuis, les réseaux de neurones sont majoritairement utilisés dans cette compétition et d’autres semblables.

(3)

Taux d’erreur ILSVRC

3

(4)

Transparence des algorithmes

En contrepartie, les réseaux de neurones sont souvent considérés comme desboˆıtes noires, c’est-à-dire des algorithmes dont le

fonctionnement est opaque et difficile à interpréter. En effet, du fait du très grand nombre de paramètres (plusieurs dizaines voir centaines de millions), l’interprétation de ces modèles n’est pas faisable.

Les r´eseaux de neurones sont un exemple deboˆıtes noires, tout comme le sont les algorithmes d’ensemble learning ou les Support Vector Machine [3].

(5)

D´ efinition de l’interpr´ etabilit´ e

Le termetransparence des algorithmes est propre au contexte étudié, et il n’existe pas une définition unique. La transparence peut faire référence à la connaissance de la décision prise par l’algorithme, au degré d’exactitude de la prédiction ou à l’importance des variables sur la prédiction.

Christoph Molnar [7] reprend la définition de l’interprétabilité de Tim MillerL’interprétabilité est le degré à quel point un humain peut expliquer de manière cohérente les prédictions du modèle ¹. Sous cette définition, l’interprétabilité est une partie intégrante de la transparence, qui vise à être capable d’expliquer de manière précise et consistante la prédiction, que ce soit pour une observation ou dans le comportement global de l’algorithme.

1. Traduit de la phrase d’origineInterpretability is the degree to which a human can consistently predict the model’s result.

5

(6)

Des modules naturellement interpr´ etables

Certains modèles sontnaturellement interprétables. C’est le cas du modèle linéaire : une variable réponseY est en relation linéaire avec les variables explicativesX₁, . . . , X_p par l’intermédiaire des coefficients β1, . . . , βp

Y =β₀+

p

X

j=1

β_jX_j.

Dans ce modèle, plus la valeurβ_j est élevée, plus une variation de la valeur deX_j impacte la réponse Y. Il est donc facile de comprendre le comportement du modèle, et d’expliquer la prédiction pour une observationx.

(7)

D’autres moins

En revanche, les modèles qui permettent d’atteindre des performances plus élevées, sont également plus difficilement interprétables. Le modèle XGBoost est construit de manière récursive, et chaque arbre dépends des précédents. Pour expliquer la prédiction d’une observationx, il est nécessaire de calculer la sortie de chaque arbre, en sachant que les prédicteurs faibles ne cherchent plus à modéliser la variable réponse, mais les pseudo-résidus. C’est la multiplicité des arbres (associée à d’éventuels arbres profonds) qui rend la compréhension du comportement du modèle quasi-impossible.

7

(8)

Sommaire

Vue d’ensemble des méthodes d’interprétabilité

´Etude globale et effets marginaux Lois marginales

Partial Dependency Plot Mod`eles de substitution globale D´ecomposition additive des attributions

Substitution locale (LIME) Valeurs de Shapley

Th´eorie des jeux

Exemple d’un jeu coop´eratif Valeurs SHAP

(9)

Vue d’ensemble

Ainsi, au cours des dernières années, la recherche académique s’est penchée sur des méthodes d’interprétabilité afin de pouvoir expliquer le comportement et les prédictions des algorithmes. Deux types de méthodes ont été développées.

Vue d’ensemble des méthodes d’interprétabilité 9

(10)

M´ ethodes agnostiques

Les méthodes ditesagnostiques, indépendantes du modèle prédictif utilisé. Le principal avantage est leur flexibilité, puisque ces méthodes peuvent être appliquées sans connaissance particulière du modèle prédictif, si ce n’est qu’obtenir la prédictionfˆ(x)pour toute observation x. Ces méthodes agnostiques s’intercalent sur des modèles boˆıtes noires.

Les PDP (Partial Dependency Plot) [2] furent une des premières méthodes d’interprétabilité, en estimant les lois marginales des variables sous des hypothèses d’indépendance entre les variables. Plus récemment, d’autres méthodes telles que LIME [8] ou Kernel SHAP [5] ont été introduites afin de pallier certaines faiblesses des précédentes méthodes et de les adapter pour des modèles plus complexes et plus coûteux en terme de calcul.

(11)

M´ ethodes sp´ ecifiques

Les méthodes ditesspécifiques, dépendantes du modèle prédictif utilisé.

Bien que ces méthodes soient moins flexibles, elles permettent d’obtenir de meilleurs interprétabilité puisqu’elles sont spécifiquement développées pour un modèle prédictif particulier. Ces méthodes ne se reposent pas uniquement sur la prédictionfˆ(x)des observationsx, mais utilisent

également les propriétés et méthodes de construction d’un modèle pour en extraire le plus d’information quant au comportement que celui-ci adopte. Les réseaux de neurones sont principalement visés par ces méthodes, dont DeepLIFT [9], ou les méthodes à base d’arbres, tel que Tree SHAP [5].

(12)

Niveau de granularit´ e

Lorsque le terme d’interprétabilité est employé, deux niveaux de granularité peuvent être distingués en classes de méthodes.

I Les méthodes diteslocales, où la méthode consiste à expliquer la prédiction d’une observation particulière. Christoph Molnar différencie l’interprétabilité (générale) du modèle et appelle l’explication le fait de pouvoir pleinement expliquer la prédiction pour une observation particulière. DeepLIFT ou Tree SHAP sont des exemples de méthodes locales.

I Les méthodes ditesglobales, qui cherchent plutôt à expliquer les tendances du modèle sur l’ensemble des prédictions, comme par exemple les lois marginales. PDP ou Tree Interpreter sont des exemples de méthodes globales.

(13)

R´ ecapitulatif

Sp´ecifique Agnostique Local Tree SHAP, Saabas LIME, Kernel SHAP Global Information Gain,

Feature Importence

PDP, ALE

Cependant, il ne faut pas oublier que certaines m´ethodes

d’interprétabilité peuvent également induire en erreur : souvent, il s’agit non pas de calculs exacts mais d’approximations pour pouvoir interpréter facilement.Attention à la sur-interprétation!

(14)

Sommaire

Th´eorie des jeux

(15)

Effets marginaux

Lorsque l’on étudie les effets marginaux, on s’intéresse à la loi marginale d’un sous-ensemble de variables explicatives. En théorie des probabilités, pour obtenir la loi marginale d’une variableXj, on intègre la loi jointe

Pj(x) = Z

E1×...Ej−1×Ej+1×···×Ep

dP(x1, . . . , x_j−1, x, xj+1, . . . , xp)

avecE₁×. . . E_j−1×E_j+1× · · · ×E_p le pav´e des valeurs possibles des variablesX₁, . . . , X_j−1, X_j+1, . . . , X_p. Par exemple, pour des valeurs continues dansR, le pav´e prends la formeR^p−1.

Etude globale et effets marginaux´ 15

(16)

Effets marginaux

En choisissant un sous-ensembleI⊆ {1, . . . , p} de variables que l’on souhaite ´etudier et le sous-ensembleJ ={1, . . . , p}\I les autres variables, la loi marginale deI est

PI(x) = Z

j∈J

dP(x, xJ)

(17)

Partial Dependency Plot (PDP)

Les graphes de dépendence partielle permettent de montrer l’effet marginal d’un sous-ensemble defeatures (usuellement1ou2) sur la sortie d’un modèle prédictif. En particulier, les PDP permettent de faire varier, pour une ou deuxfeatures, les valeurs possiblessans modifier les valeurs des autres featurespour chaque individu. Le graphe correspond ensuite à la moyenne des courbes de chaque individu.

(18)

Partial Dependency Plot (PDP)

Supposons que l’on souhaite étudier un sous-ensemble defeatures d’indicesI (avec|I|+|J|=p, oùpétant le nombre de features,J étant l’ensemble d’indice des autres features vérifiantI∩J =∅), alors la fonction de dépendence partielle est

fˆI(x) =EPJ[ ˆf(x, xJ)] = Z

fˆ(x, xJ)dP(x, xJ)

Nous n’avons pas directement connaissance dedP(x, x_J), mais il est n´eanmoins possible d’estimer la valeur par m´ethode de Monte-Carlo :

fˆ_I(x) = 1 n

n

X

i=1

f(x, xˆ ⁱ_J)

où chaquefˆ(x, xⁱ_J)représente un individu et est représentée par une courbe ICE (Individual Conditional Expectation).

(19)

Variable de dur´ ee d’appel

(20)

Variable de revenu moyen

(21)

Interaction crois´ ee entre revenu moyen et dur´ ee d’appel

(22)

Variable agr´ eg´ ee de revenu moyen

(23)

Conclusion

Avantages

I Lecture des graphes intuitives.

I Facilit´e d’impl´ementation et de calcul.

Inconv´enients

I Forte hypoth`ese d’ind´ependance entre les variables.

I Difficulté de représentation à partir de3variables.

I Le calcul d’espérance peut cacher des effets locaux hétérogènes.

(24)

Mod` ele substitut

Les méthodes de substitution sont des méthodes d’interprétabilité qui consiste à entraˆıner un sur-modèleg naturellement interprétable sur un modèle boˆıte noiref. Il est suppos´ˆ e que seuls les observationsxet les prédictions associéesyˆsont disponibles : aucune information directe sur le modèlefˆn’est connue.

Il est important de choisir un sur-modèle naturellement interprétable, puisque c’est sur celui-ci que les interprétations seront réalisées.

Usuellement, les sur-modèles utilisés sont des modèles linéaires ou des arbres de décision.

(25)

Global Surrogate

Un modèleGlobal Surrogateest un modèleprédictif simplequi se substitue à un modèle prédictif complexe que l’on souhaite étudier.

L’objectif est donc de constuire un modèlegˆqui soit naturellement ou facilement interprétable afin qu’il reproduise le comportement du modèle prédictif complexefˆ.

Ainsi, le modèle de substitutiongˆ”imite” le comportement defˆmais aura l’avantage d’être interprétable.

(26)

Global Surrogate

Supposons quefâit été entraˆıné sur une base d’entraˆınement(X, Y). La procédure de construction d’un modèle Global Surrogate est

I S´election d’un datasetX⁰ ⊆X I Calcul des pr´edictions Y⁰= ˆf(X⁰)

I Entraˆınement du mod`ele de substitutiongˆsur(X⁰, Y⁰) I Calcul des pr´edictions ˆg(X⁰)

I Mesure de performanceL(Y⁰,g(Xˆ ⁰))

(27)

Global Surrogate

Il faut bien comprendre que le mod`ele de substitutiontente de reproduireles pr´edictions defˆ, et plusieurs dangers surviennent :

I Si le modèle complexefˆn’est pas performant, il y a très peu de chances pour que le modèle de substitutiongˆle soit aussi.

I Du fait de la nature plus simple du mod`ele de substitution, il se peut que des comportements int´eressants ne soient plus observables par ce dernier.

I Le choix du modèle de substitution peut impacter l’interprétabilité, ce qui crée une dépendance au modèle candidat.

(28)

Sommaire

Th´eorie des jeux

(29)

Additive Feature Attribution (AFA)

Les méthodes AFA (pour Additive Feature Attribution) tentent de décomposer la prédiction d’une observationxcomme étant une somme de contributions (pouvant être positives ou négatives) de chaque variable.

Soitf le modèle (etfˆsa version construite). Les modèles d’interprétabilité utilisent souvent unereprésentation simplifiée

x⁰∈R^d d’une observationxde sorte à pouvoir la reconstruire à partir de x⁰ par l’intermédiaire d’une fonctionh_x i.e.x=h_x(x⁰).

Les méthode locales quant à elles vont construire un modèleg de sorte queg(z⁰)≈f(hx(z⁰))dès lors quez⁰ ≈x⁰.

D´ecomposition additive des attributions 29

(30)

Additive Feature Attribution (AFA)

Le modèlefêst entraˆıné sur(xi)_1≤i≤n alors quegêst entraˆıné sur (z_i⁰)_1≤i≤n.

(31)

Additive Feature Attribution (AFA)

Les méthodes AFA fournissent un modèle d’interprétabilité linéaire en les variables binaires dans l’espace de représentation simplifiée :

g(z⁰) =φ0+

M

X

j=1

φjz⁰_j

avecz⁰ ∈ {0,1}^M un vecteur de l’espace de repr´esentation simplifi´ee et φ_j ∈R.

Aujourd’hui, de nombreuses modèles d’interprétabilité utilisent la méthode AFA pour expliquer les prédictions des observations au niveau local.

(32)

Additive Feature Attribution (AFA)

Dans le plupart des cas, le sur-modèleg est d’une complexité moindre afin d’être plus facilement interprétable. On y retrouve souvent des modèles linéaires, des arbres de décisions ou des falling rule lists[10].

(33)

LIME (Local Surrogate)

LIME(pour Local Interpretable Model-agnostic Explanations) est une méthode de substitution locale qui vise à expliquer les prédictions au niveau local. Cette méthode est particulièrement appliquée pour l’interprétabilité des modèles manipulant du texte et pour les images (SVM et réseaux de neurones). LIME cherche à construire, pour une observationxdonnée, appeléinstance d’intérêt, un sur-modèleg permettant d’expliquer la prédiction pour cet individu. Le terme local fait référence au fait que l’interprétation n’est réalisé sur pour l’instance d’intérêt, et n’a de sens que lorsque l’étude se porte sur une observation en particulier.

(34)

Apprentissage du mod` ele substitut

Pour construire le sur-modèleg, il est nécessaire de définir un voisinage de l’instance d’intérêt, étant donné que l’interprétation, et donc la construction deg s’effectue auniveau local. Une notion de distance, représentée par un noyauπx, permet de quantifier la notion de voisinage autour de l’instance d’intérêt. SoitG la classe de fonctions candidates pour le sur-modèleg, LIME cherche à résoudre le problème d’optimisation

ˆ

g(x) = argmin

g∈G

LLIME( ˆf , g, πx) + Ω(g),

avecLLIME la fonction de pertedu sur-modèleetΩune régularisation définie au préalable.

(35)

R´ egularisation du mod` ele substitut

Contrairement à la plupart des termes de régularisation appliquées aux fonctions de pertes (régularisationl1 et/oul2), le termeΩ(g)a surtout pour objectif de pénaliser un sur-modèle de complexité élevé, puisqu’il aurait ainsi une interprétabilité plus difficile a obtenir. Le termeΩ(g)agit donc comme unemesure de complexité.

Le choix du termeΩ(g)dépend ainsi du sur-modèle sélectionné : I Pour un arbre de décision, Ω(g) =γT avecT la profondeur de

l’arbre etγ un param`etre.

I Pour un modèle linéaire, Ω(g) =|{βj:βj= 0,1≤j≤p}|avecβ les coefficients du modèle linéaire.

(36)

Apprentissage du mod` ele substitut

Le sur-modèleg ayant pour objectif d’être interprétable, les observations de la base d’apprentissage ne sont pas directement les voisinsz de l’instance d’intérêt, mais une représentation binaire simplifiée z⁰∈ {0,1}^p⁰ (avecp⁰ un entier) pour améliorer l’interprétabilité.

NotonsE= (z, z⁰)1≤i≤n l’ensemble des couples d’observations initiales et en représentation binaire simplifiée. Dans le cas d’un problème de régression, la notion est voisinage est intuitive, puisque les pointsà proximitéindiquent fidèlement le comportement du modèle.

(37)

Apprentissage du mod` ele substitut

Avec une fonction de perteL quadratique et sous un noyau gaussien, le problème de minimisation précédent revient à résoudre un problème des moindres carrés pénalisés

LLIME(f, g, πx) = X

(z,z⁰)∈E

πx(z)h

fˆ(z)−ˆg(z⁰)i²

avec πx(z) = exp

−kx−zk² σ²

, σ >0.

Le noyauπx est censé faire tendre vers0 les observationsz qui se retrouventéloignés dex. Cette notion est l’une des principales difficultés de LIME, puisque la notion de proximité dépends du choix du noyau.

(38)

Exemple 1

Considérons un jeu de données à deux dimensions de1000observations générées aléatoirement dans[0,1]².

(39)

Exemple 1

Un Random Forest à50arbres de profondeur maximale4a été entraˆıné dont la frontière de décision est matérialisée en arrière plan par un changement de couleur.

(40)

Exemple 1

(41)

Th´ eorie des jeux

Les valeurs de Shapley puisent leur origine dans la théorie des jeux coopératifs. Ils furent inventés par Lloyd Shapley en 1953.

En théorie des jeux coopératifs, on s’intéresse notamment aux situations où desjoueurspeuvent former descoalitionspour définir une stratégie dans l’optique de maximiser un gain.

Dans le cas où tous les joueurs formentune seule et même coalition, on souhaiterait alors connaˆıtre unerépartition équitable des gains entre chaque joueur en fonction de leur apport dans cette coalition.

Ce sont lesvaleurs de Shapleyqui indiquent les gains ´equitables pour chaque joueur.

(42)

Equitable ´ 6= Identique

Comprenons bienqu’´equitable ne signifie pas identique. Prenons trois joueursA, B etC. Aucun joueur n’apporte de gain tout seul.

I SiAetB jouent ensemble, le gain vaut2.

I SiAetC jouent ensemble, le gain vaut2.

I SiB etC jouent ensemble, le gain vaut3.

I SiA, B etC jouent tous ensemble, le gain vaut4.

On voit bien que la coalition{B, C} est plus forte que toutes les autres coalitions. Ainsi, le gain en coalition totale est plus impact´e par la sous-coalition{B, C}que les autres. Ainsi, on s’attends `a ce que les gains soient plus grands pourB etC que pourA.

(43)

Calcul de la valeur de Shapley

Supposons que dans un jeu, il y apjoueurs. Alors il peut y avoir2^p−1 coalitions non vides possibles. Plus couramment, on appelle ce ”gain” la fonction caractéristiquev qui prends un élément des parties de {1, . . . , p}\{∅} (un sous-ensemble non vide).

On peut supposer que pour deux coalitionsC₁etC₂ disjointes (n’ayant aucun joueur identique) alors la coalition regroup´ee affiche des gains plus

élevés que si chaque coalition jouait indépendamment : v(C1∪C2)≥v(C1) +v(C2)

(44)

Calcul de la valeur de Shapley

Attention

En revanche, rien ne suppose que les gains d’une coalition soient toujours sup´erieurs aux gains individuels

v [

i

{i}

! X

i

v({i})

Dans ce cas de figure, un ou plusieurs joueurs auront unevaleur de Shapley n´egative, car ils contribueront `a faire baisser les gains lors du rassemblement en coalition.

Il s’agit bien d’un événement réaliste (deux entreprises qui coopèrent ensemble peuvent gagner moins que si elles ne coopéraient pas), et nous verrons dans l’application en Machine Learning pourquoi ce cas

particulier est important.

(45)

Calcul de la valeur de Shapley

Pour un jeu `apjoueurs et de fonction caract´eristique

v:P({1, . . . , p})\{∅} →R, la valeur de Shapley du joueuri se calcule exactement par

ϕi= X

Z⊆{1,...,p}:i∈Z

(p− |Z|)!(|Z| −1)!

p! (v(Z)−v(Z\{i}))

o`u|Z|est le nombre de joueurs pour la coalition Z.

Exercice

Montrer que pour un jeu `a deux joueurs, les valeurs de Shapley sont ϕ1= 1

2[v({1,2})+v({1})−v({2})] ϕ2=1

2[v({1,2})+v({2})−v({1})]

Que peut-on dire des valeurs de Shapley si les gains individuels sont identiques ?

(46)

Calcul de la valeur de Shapley

Remarque

Le calcul des valeurs de Shapley implique de connaˆıtre les gains pour toutes les coalitions possibles! En pratique, cela n’est pas toujours possible, notamment lorsque les coalitions ne peuvent pas se reformer après l’évaluation du gain d’une coalition (si deux entreprises coopèrent, leurs gains individuels après coopération peuvent être différents des gains individuels avant coopération).

Autrement dit, on suppose quev est entièrement déterminé et que l’on est capable de déterminerv(C)pour toutC⊆ {1, . . . , p}.

(47)

Exemple d’un jeu coop´ eratif

Considérons un jeu coopératif à3joueurs où les gains individuels sont identiques :

v({1}) =v({2}) =v({3}) = 10

Il y a2³−1 = 7coalitions non vides possibles. On donne les gains pour les4 autres coalitions.

(48)

Coalitions

(49)

Coalitions

On a donc la fonction caract´eristique suivante pour ce jeu : I v({1}) =v({2}) =v({3}) = 10

I v({1,2}) = 30 I v({1,3}) = 35 I v({2,3}) = 40 I v({1,2,3})) = 50

On voit tout de suite que le joueur1est celui qui contribue le moins à la fonction caractéristique parmi les coalitions possibles. De plus, on remarque pour le joueur2, le score est plus élevé lorsqu’il s’associe avec le joueur3. On s’attends donc à avoirϕ1< ϕ2< ϕ3.

Utilisons la formule pour calculer les valeurs de Shapley des joueurs.

(50)

Calcul de ϕ

₁

Z={1} : (3−1)!0!

3! (v({1})−v(∅)) = 2!

3!×(10−0) = 10 3 Z={1,2} : (3−2)!1!

3! (v({1,2})−v({2})) = 1

3!×(30−10) = 10 3 Z={1,3} : (3−2)!1!

3! (v({1,3})−v({3})) = 1

3!×(35−10) = 25 6 Z={2,3} : 0 car1∈ {2,/ 3}

Z={1,2,3} : (3−3)!2!

3! (v({1,2,3})−v({2,3})) = 2!

3!×(50−40) = 10 3

La valeur de Shapley du joueur 1 est : ϕ1= 85

6 ≈14.2

(51)

Calcul de ϕ

₂

Z={2} : (3−1)!0!

3! (v({2})−v(∅)) = 2!

3!×(10−0) = 10 3 Z={1,2} : (3−2)!1!

3! (v({1,2})−v({1})) = 1

3!×(30−10) = 10 3 Z={1,3} : 0 car2∈ {1,/ 3}

Z={2,3} : (3−2)!1!

3! (v({2,3})−v({3})) = 1

3!×(40−10) = 15 3 Z={1,2,3} : (3−3)!2!

3! (v({1,2,3})−v({1,3})) = 2!

3!×(50−35) = 15 3

6 ≈16.7

(52)

Calcul de ϕ

₃

Z={3} : (3−1)!0!

3! (v({3})−v(∅)) = 2!

3!×(10−0) = 10 3 Z={1,2} : 0 car3∈ {1,/ 2}

Z={1,3} : (3−2)!1!

3! (v({1,3})−v({1})) = 1

3!×(35−10) = 25 6 Z={2,3} : (3−2)!1!

3! (v({2,3})−v({2})) = 1

3!×(40−10) = 15 3 Z={1,2,3} : (3−3)!2!

3! (v({1,2,3})−v({1,2})) = 2!

3!×(50−30) = 20 3

6 ≈19.2

(53)

Valeurs de Shapley

Au final, on obtient ϕ1= 85

6 ϕ2=100

6 ϕ3= 115 6

Et on v´erifie bien queϕ1+ϕ2+ϕ3=v({1,2,3}) = 50. Le joueur3est celui qui remportera le plus grand montant compar´e au joueur1 qui empochera le plus petit montant.

(54)

Axiomes

Les valeurs de Shapley doivent v´erifier les axiomes suivants

1. Efficacité: la somme des valeurs de Shapley et égale à la fonction caractéristique de la coalition de tous les joueurs :

X

i∈{1,...,p}

ϕi=v({1, . . . , p})

2. Sym´etrie: si deux joueurs se substituent de toute coalition, alors les valeurs de Shapley sont identiques.

3. Additivité: si un joueur qui participe à deux jeux de fonctions caractéristiquesv etwayant les mêmes joueurs alors la valeur de Shapley est additive en les deux jeux.

4. Joueur nul: si un joueur iest nul (que pour toute coalitionZ on a v(Z∪ {i}) =v(Z)) alors ϕi= 0.

(55)

Application en Machine Learning

Quel peut-être l’intérêt du problème de répartition d’un gain dans une coalition en Machine Learning ?

Imaginez que chaque variable (oufeature) estreprésenté par un joueur. La fonction indicatrice correspondrait au modèlefˆ. L’objectif est donc d’expliquer, pour une variableXj d’un individuxi la valeur de Shapley de cette variable, qui caractériserait l’apport de cette variable sur la prédictionpour l’individu concerné.

(56)

Application en Machine Learning

Le caract`ere individuel des valeurs de Shapley est tr`es important : lesϕj

d´ependent de l’individuxi car il existe desinteractions crois´eesentre les variables.

Par exemple, prenons un mod`ele qui fournit un prix de vente d’un appartement. Supposons disposer des variables suivantes :

I Ascenseur : pr´esence (oui ou non) d’un ascenseur I Etage : numero de l’´etage de l’appartement

Si l’appartement est au RDC, la variableAscenseur ne devrait pas influencer grandement la prédiction : la valeur de Shapley pour cet appartement est donc proche de0. En revanche, si l’appartement se trouve au 7ème étage, la variableAscenseur a un impact beaucoup plus fort, la présence d’un ascenseur pourrait faire varier plus significativement le prix.

(57)

Application en Machine Learning

Ainsi, pour un jeu de donn´ees de nindividus `apvariables, on se retrouve avec une matrice de valeurs de Shapley(ϕij)1≤i≤n,1≤j≤p.

(58)

Valeurs SHAP

En 2017, Scott Lundberg propose SHAP (pour SHapley Additive exPlanations), une approche unifiée pour expliquer les prédictions d’un modèle boˆıte noire. Il utilise alors les valeurs de Shapley de sorte à pouvoir appliquer ce résultat de la théorie des jeux au Machine Learning.

(59)

Valeurs SHAP

Lundberg construisit son modèle dans la lignée des méthodes agnostiques actuelles par composition additive des variables. Plusieurs propriétés sont souhaitées lorsque l’on explique la prédiction d’un modèle dont :

I Performance locale :

f(x) =ϕi0+

p

X

j=1

ϕijxij

I Absence : si xij = 0alorsϕij= 0.

(60)

Valeurs SHAP

Il a démontré que les seules valeurs pouvant satisfaire ces propriétés sont lesvaleurs de Shapley. En particulier :

ϕ_ij =X

z⊆x

|z|!(p− |z| −1)!

p!

fˆ(h_x_i(z))−fˆ(h_x_i(z⁽ⁱ⁾))

où|z| désigne le nombre de variables non nulles dez,h_x une fonction de mappage de l’individux_i etz⁽ⁱ⁾le vecteurzprivé de la i-ème variable (et donc élément deR^p−1).

(61)

Valeurs SHAP

Problème: ce calcul est extrêmement coûteux, et en pratique, il est impossibled’obtenir des résultats en un temps raisonnable.

C’est alors qu’apparaissent les valeurs SHAP, qui sont des estimations des valeurs de Shapley par m´ethode de Monte-Carlo.

Néanmoins, le même auteur à démontré en 2018 [6] que pour les méthodes à base d’arbres, il est possible de calculerexactementles valeurs de Shapley en un temps raisonnable (complexitéO(T Llog(L)²) avecT le nombre d’arbres etL le nombre maximal de feuilles des arbres.

(62)

Exemples

(63)

Exemples

(64)

Exemples

(65)

Conclusion

Avantages

I Bas´e sur une th´eorie et non des suppositions.

I Capable d’´etudier les interactions crois´ees entre les variables.

I Une pr´ecision d’explication `a la maille individuelle.

Inconv´enients

I Gourmand en terme de calculs.

I N´ecessite la base d’entraˆınement.

I Plus grande difficulté d’interprétation par rapport à d’autres méthodes agnostiques.

(66)

R´ ef´ erences I

J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei.

ImageNet : A Large-Scale Hierarchical Image Database.

InCVPR09, 2009.

Jerome H. Friedman.

Greedy function approximation : A gradient boosting machine.

The Annals of Statistics, 29(5) :1189–1232, 2001.

Marti A. Hearst.

Support vector machines.

IEEE Intelligent Systems, 13(4) :18–28, July 1998.

Yann Lecun, L´eon Bottou, Yoshua Bengio, and Patrick Haffner.

Gradient-based learning applied to document recognition.

InProceedings of the IEEE, pages 2278–2324, 1998.

(67)

R´ ef´ erences II

Scott Lundberg and Su-In Lee.

A unified approach to interpreting model predictions.

CoRR, abs/1705.07874, 2017.

Scott M. Lundberg, Gabriel G. Erion, and Su-In Lee.

Consistent individualized feature attribution for tree ensembles.

ArXiv, abs/1802.03888, 2018.

Christoph Molnar.

Interpretable Machine Learning.

2019.

https://christophm.github.io/interpretable-ml-book/.

Marco T´ulio Ribeiro, Sameer Singh, and Carlos Guestrin.

”why should I trust you ?” : Explaining the predictions of any classifier.

CoRR, abs/1602.04938, 2016.

(68)

R´ ef´ erences III

Avanti Shrikumar, Peyton Greenside, and Anshul Kundaje.

Learning important features through propagating activation differences.

CoRR, abs/1704.02685, 2017.

Fulton Wang and Cynthia Rudin.

Falling rule lists.

CoRR, abs/1411.5899, 2014.