Une méthode d’interprétation de scores
Vincent Lemaire∗, Raphaël Féraud∗
∗France Telecom R&D - 2 avenue Pierre Marzin 22300 Lannion [email protected]
Résumé. Cet article présente une méthode permettant d’interpréter la sortie d’un modèle de classification ou de régression. L’interprétation se base sur l’im- portance de la variable et l’importance de la valeur de la variable. Cette approche permet d’interpréter la sortie du modèle pour chaque instance.
1 Introduction
Dans les applications de gestion de la relation clients, les scores permettent d’identifier les clients les plus susceptibles de réagir positivement à une campagne marketing. L’interprétation du score apporte alors une information supplémentaire pour améliorer l’efficacité des cam- pagnes marketing. L’utilisation de la méthode présentée1 ici doit se faire après une étape de sélection de variable qui aura supprimer les variables redondantes pour ne pas risquer de diluer l’interprétation. L’interprétation d’un score est constituée de l’association de l’importance à l’instance (I) d’une variable d’entrée et de l’influence à l’instance d’une variable d’entrée (Iv) présentées ci-dessous.
Notations - SoitVj: la variable explicativej,X: un vecteur de dimensionJ,K: le nombre d’instances,Xn: le vecteur représentant l’instance n,Xnj: la composantejdu vecteurn,F: le modèle,p: la sortiepdu modèle,Fp(X): la valeur de la sortiepdu modèle pour le vecteur X etFjp(Xn;Xk)désigne la sortiepdu modèle étant donné le remplacement de la composante jde l’instanceXnpar celle de l’instanceXk.
2 Importance à l’instance d’une variable d’entrée
Etant donné2le modèleF, l’instance considéréeXn, la variable explicativeVj du modèle et la variable à expliquer pdu modèle, on définit la sensibilité du modèle S(Vj/F, Xn, p) par : la moyenne des variations mesurées en sortie du modèle lorsqu’on perturbe l’instance considéréeXn en fonction de la distribution de probabilité de la variableVj. La variation mesurée, pour l’instanceXn est la différence entre la “vraie sortie” du modèleFj(Xn)et la
“sortie perturbée” du modèleFj(Xn, Xk).
La sensibilité du modèle pour l’exempleXn à la variableVj est alors la moyenne des
||Fj(Xn)−Fj(Xn, Xk)||2 sur la distribution de probabilité (distribution empirique obser- vée surK exemples) de la variableVj. On a alors : S(Vj|F, Xn, p)=K1 PK
k=1||Fj(Xn)−
1Voir le rapport technique associé surperso.rd.francetelecom.fr/lemairepour plus de détails.
2On définit ici les notions "d’importance (I) d’une variable pour une instance" et "d’influence (Iv) d’une variable pour une instance" pour l’une des variablesVjen entrée du modèle sur l’une des variables de sortiepdu modèle.
Ces définitions sont rigoureusement les mêmes pour toutes les variables en entrée et en sortie du modèle. On simplifie donc les notations en remplaçantFjpparFj.
Une méthode d’interprétation de scores
Fj(Xn;Xk)||2. En réalisant cette mesure de sensibilité pour la sortie pmais quelque soit la variable d’entrée3jon possède une distribution des sensibilités.
On définit alors l’importance de la variableVj à l’instanceXn,I(Vj|F, Xn, p), comme étant le rang,o, de la sensibilité du modèleS(Vj|F, Xn, p)parmi l’ensemble des sensibilités S(Vj|F, Xi, p)∀i, j. Cette mesure fournit l’importance d’une variable d’entrée pour l’instance Xnrelativement à toutes les autres instances et toutes les autres variables. Cette mesure relative permet de se concentrer sur les seules informations pertinentes pour chaque instance. Cette mesure a été testée avec succès pour des problèmes de classification dans (Lemaire et Clérot, 2004) elle est notamment reliée aux travaux de (Breiman, 2001; Féraud et Clérot, 2002)
3 Influence à l’instance d’une variable d’entrée
Une variable peut "tirer vers le haut" (valeur forte) ou "tirer vers le bas" (valeur faible) la sortie du modèle. Pour l’exempleXn la valeur “naturelle” de la sortiep‘ du modèle est par définitionF(Xn). La valeur “perturbée” de la sortie du modèle pour l’exemple et en per- turbant la variable d’entréeVj estFj(Xn, Xk). La distribution desFj(Xn, Xk)représente ce qu’aurait pu être la valeur de la sortie du modèle pour l’instanceXn si sa variable Vj avait été différente. La position de sa sortie “naturelle” au sein de cette distribution renseigne sur la nature de la valeur de sa variableVj. On définit alors l’influence de la variableVjà l’instance Xn,Iv(Vj|F, Xn, p), comme étant le rang,r, de la sortie “naturelle” parmi l’ensemble de ses sorties potentielles. Cette mesure fournit l’influence d’une variable d’entrée pour une instance relativement à toutes les autres valeurs “potentielles” de la variable.
4 Exemple d’utilisation pour un problème de classification
Dans le cas d’un problème de classification à deux classes (−1;+1) un rang important de Ivdénotera une influence positive par rapport à la classe+1et négative par rapport à la classe
−1 (et réciproquement pour un très faible rang deIv). On obtiendra alors une interprétation de la forme (l’interprétation sera réalisée variable explicative,j, par variable explicative en entrée du modèle) : “Pour l’instanceXnla variablejqui estIimportante indique qu’elle est Ivfortement de la classe +1”.
Références
Breiman, L. (2001). Random forest. Machine Learning 45(1), 5–32.
Féraud, R. et F. Clérot (2002). A methodology to explain neural network classification. Neural Networks 15(2), 237–246.
Lemaire, V. et F. Clérot (2004). An input variable importance definition based on empirical data probability and its use in variable selection. In International Joint Conference on Neural Networks IJCNN, Volume 2, pp. 1375–1380.
Summary
This paper presents a method allowing to interpret the output of a predictive model of classification or regression. The intepretation is based on the importance of the value of the variable and the importance of the variable. This approach allows to intrepret the output model for every instances.
3L’importance n’est pas intrinsèque à une variable mais relativement à l’ensemble des variables. La distribution est donc établie quelle que soit la variable d’entrée et sur l’ensemble des instances que l’on possède.