Interprétabilité en Machine Learning, revue de littérature et perspectives

(1)

Interprétabilité en Machine Learning, revue de littérature et

perspectives

Jean-Marie John-Mathews, LITEM, Université Paris-Saclay

Les algorithmes d’apprentissage automatique, et particulièrement les réseaux de neurones profonds, connaissent ces dernières années de fortes performances prédictives dans de nombreux domaines tels que la reconnaissance d’images, l’analyse textuelle ou vocale. Néanmoins, ces bons résultats prédictifs s’accompagnent généralement d’une difficulté à interpréter d’une part le processus de génération du modèle et d’autre part le résultat appris. Cet effet « boîte noire » des réseaux de neurones posent pourtant des contraintes dans leur utilisation pour les raisons suivantes :

- Prise en main par un opérateur humain

Les algorithmes d’apprentissage utilisés comme outil d’aide à la décision peuvent nécessiter l’adhésion de l’opérateur humain, en particulier lorsque les domaines d’application sont critiques. La compréhension de l’algorithme automatique peut jouer un rôle fondamental dans la prise en main et la mise en place d’une collaboration homme – machine et limiter la résistance au changement numérique.

- Exigence de certification des modèles

La preuve de la consistance d’un modèle par rapport à un cahier de charge, c’est-à-dire la validation, est un enjeu important pour le développement de systèmes avec apprentissage en termes d’ingénierie mais aussi en termes juridiques étant donné le nouveau cadre légal de la Commission Européenne qui introduit un droit d’explication des algorithmes.

- L’émergence de nouveaux critères de validation des modèles

La seule mesure de performance prédictive n’est, dans certains cas, plus un critère suffisant dans l’apprentissage d’un modèle. D’autres contraintes d’ordre éthique, juridique ou opérationnel peuvent jouer un rôle dans la validation finale du modèle. Il peut par exemple être important de vérifier l’absence de « biais encapsulé » au sein de l’algorithme d’apprentissage afin d’assurer l’équité des algorithmes.

- L’explication comme aide au diagnostic

L’interprétation des modèles peut générer un nouveau point de vue ou une analyse à forte valeur ajoutée pour le décisionnaire. Ainsi, une explication intelligible du mécanisme et du résultat du réseau de neurone peut être un outil de diagnostic et d’analyse pour l’opérateur en charge de la décision.

Une littérature récente, très fructueuse ces dernières années, en Machine Learning tente de proposer des outils et méthodes afin de rendre les algorithmes interprétables. Dans cet exposé, nous proposons une typologie générale de ces outils à partir de quelques dualismes permettant de dessiner le paysage caractéristique de ces méthodes.

I)

Plusieurs dualismes pour une classification

Une typologie des différentes méthodes d’interprétation des algorithmes de Machine Learning peut s’obtenir en partant des dualismes suivants :

(2)

Méthodes intrinsèques vs méthodes post-hoc : les méthodes intrinsèques pour l’interprétabilité produisent un modèle interprétable (ou classifieur) alors que les méthodes post-hoc ne produisent pas nécessairement des classifieurs interprétables, l’interprétabilité étant obtenue par l’application d’une seconde méthode a posteriori en partant du premier classifieur. Ainsi, l’interprétabilité intrinsèque se réfère à des modèles de Machine Learning dont la structure relativement simple permet l’interprétation. Quant aux méthodes post-hoc, elles peuvent être multiples et variée : procédure d’apprentissage, méthodes de permutation des importances, estimation de paramètres ou encore programmes d’optimisation pour générer des prototypes (Olah, Feature Visualization 2017).

Méthodes locales vs globales : Lorsque la méthode d’interprétation explique une prédiction / un résultat selon un input donné, on dira que la méthode est locale. A contrario, lorsque la méthode d’interprétation concerne le fonctionnement global de l’algorithme tous inputs confondus, on dira que la méthode est globale.

Méthode de visualisation d’une partie de l’algorithme vs d’une partie de l’input (carte de saillance) : Dans la littérature proposant l’interprétation des réseaux de neurones profonds, les méthodes de visualisation d’éléments du réseau permettent d’interpréter le fonctionnement d’un ou plusieurs neurones dans la prise de décision par la sélection ou génération d’exemples d’inputs représentatifs de la décision. Les méthodes de visualisation d’une partie de l’input quant à elles, permettent d’expliquer comment les parties d’un input donné modifient le comportement du réseau de neurones. Dans le cas de l’imagerie, cela permet de visualiser les parties de l’image influençant le plus la décision de l’algorithme (carte de saillance). Coupler ce dualisme semble être une méthode intéressante pour proposer une grammaire d’explication des réseaux de neurones (Olah, The Building Blocks of Interpretability 2018).

Modèles d’interprétation agnostique vs spécifique : les modèles d’interprétation agnostique sont des modèles pouvant être utilisés pour n’importe quelles classes de méthodes d’apprentissage. Par opposition, les modèles spécifiques ne peuvent être utilisés que pour interpréter une famille spécifique d’algorithmes, tels que les réseaux convolutionnels par exemple.

II)

Un paysage des outils d’interprétation en Machine Learning

Bien qu’étant corrélés, ces différents dualismes permettent de cartographier les principales méthodes d’interprétation développées dans la discipline de l’apprentissage automatique.

1) Les modèles « white box » : intrinsèque, global ou local

Les « petits » modèles de régression linéaire, d’arbre de décision ou de réseaux bayésiens sont considérés comme interprétables étant donné la complexité faible, la théorie mathématique disponible et la manipulabilité possible de leurs structures et résultats.

2) Interprétation par approximateurs globaux : Méthodes post hoc, globales et agnostiques Un approximateur global est un modèle interprétable entraîné afin d’interpréter les résultats de classification du premier modèle. A l’instar des maquettes ou des simulations utilisées en ingénierie, les approximateurs globaux permettent de tirer des conclusions sur le fonctionnement d’un mécanisme coûteux à explorer en utilisant une version approchée. Généralement, les modèles de régression linéaire sparse ou encore les arbres de décisions (et

(3)

donc des règles de décision) sont utilisés comme approximateurs. On suppose alors que les indicateurs utilisés pour interpréter les approximateurs sont représentatifs des mécanismes supposés complexes du premier modèle. Il existe des approximateurs par arbre de décision de réseaux de neurones (Craven et Shavlik 1996), ou encore des extracteurs de règles à partir de réseaux de neurones (Johansson, Konig et Niklasson 2003) ou bien à partir de SVM (Nunez, Angulo et Catala 2002).

3) Interprétation par approximateurs locaux : Méthodes post-hoc, locale, agnostique ou non

L’algorithme LIME (local interpretable model-agnostic explanations) (Ribeiro, Singh et Guestrin 2016) crée un modèle autour d’une prédiction donnée afin de l’approximer localement. Plus précisément, LIME génère de nouvelles données, à savoir des données proches de la prédiction à expliquer, puis les apprend à l’aide d’un modèle interprétable (régression linéaire ou arbre) et de la classification faite par un modèle black-box quelconque (méthode agnostique). L’inconvénient de la méthode LIME est que celle-ci ne fournit pas une théorie permettant de généraliser l’interprétabilité issue du modèle local à un niveau plus global. D’autres techniques, telles que la méthode Shapley (Shapley 1953), permettent d’expliquer une décision locale tout en proposant, contrairement à LIME, une théorie axiomatique pour fonder l’interprétabilité. La méthode Shapley propose un classement des contributions des features en entrée selon des principes issus de la théorie des jeux. La méthode étant très coûteuse en calcul, une variante SHAP (Lundberg et Kononenko 2016) a été proposée sur les mêmes bases. Les cartes de saillance sont des méthodes spécifiques à l’imagerie ou l’analyse de textes permettant de visuellement mettre en valeur (masque de surlignage) les parties d’images ou du texte ayant significativement participé à la décision de l’algorithme black-box (souvent un réseau de neurones profonds). Le calcul de la carte de saillance étant basé sur l’algorithme d’apprentissage (représentation des gradients), la méthode n’est pas agnostique aux familles d’algorithmes black-box.

4) L’interprétation par l’exemple : méthodes locales, post-hoc, agnostique ou non

Lors de l’interprétation par l’exemple, le résultat d’un algorithme, suite à un input donné, est interprété en générant ou sélectionnant dans la base d’apprentissage un second input. L’idée principale de l’interprétation par l’exemple est l’explication par raisonnement analogique où l’on propose un input généré ou issu de la base d’apprentissage en tant qu’explication par analogie avec l’input de base ayant entraîné la décision. Plusieurs types d’interprétation de l’exemple sont possibles.

L’explication par l’exemple contrefactuel permet de générer un input contrefactuel, c’est-à-dire un input pour lequel le résultat de l’algorithme aurait été différent (Wachter, Mittelstadt et Russell 2017). En produisant l’input contrefactuel le plus proche de l’input original, on fournit alors une explication de la décision de l’algorithme.

L’interprétation par le prototypage consiste à fournir, en tant, que tel un exemple d’input représentatif de l’output retourné par l’algorithme. Cet input peut être issu de la base d’apprentissage mais peut être également entièrement simulé par un programme d’optimisation.

(4)

De même dans le cas des réseaux de neurones profonds, le prototype d’explication peut ne pas concerner le neurone représentant l’output final mais plutôt un ou plusieurs neurones intermédiaires des couches cachée (Olah, Feature Visualization 2017). Dans ce cas, l’algorithme fournit une explication de l’activation des neurones des couches cachées.

Enfin, l’interprétation par l’exemple influant (inflential instances) est l’explication par l’identification des exemples au sein de la base d’apprentissage qui ont été les plus influents dans le résultat d’un algorithme. Il s’agit alors de remonter à la phase d’apprentissage pour identifier les exemples qui sont responsables d’un comportement particulier d’un algorithme (R.Dennis 1977). Ces méthodes sont pratiques dans le cadre de l’interprétation en phase de conception et correction (debugging) de l’algorithme.

5) Calcul d’indicateurs pour l’interprétabilité : méthodes intrinsèques globales ou locales Au lieu de calculer de manière post-hoc des approximateurs locaux ou globaux, une autre méthode consiste à calculer un certain nombre d’indicateurs afin d’interpréter un modèle black-box. En ce sens, plusieurs indicateurs sont disponibles.

On peut tout d’abord donner une liste associant à chaque feature son importance dans le modèle. Cela consiste en une manière très simple d’interpréter le modèle de manière globale ou locale. Cependant lorsque certains features interagissent avec d’autres cette visualisation très linéaire devient rapidement limitée et d’autres méthodes doivent être envisagées.

Les analyses de sensibilité permettent de visualiser l’incertitude de l’output en fonction des incertitudes de l’input. On interprète donc le modèle black-box en visualisant les variations de l’output suites à des petites variations de l’input. Ces méthodes d’interprétation « par test » peuvent être locales ou globales.

Les PPD (partial-dependence plot) est une méthode d’interprétation globale permettant de représenter graphiquement le changement de réponse moyen d’un modèle de Machine Learning suite à une petite variation d’une ou deux feature, il s’agit donc d’une représentation de l’effet marginal (Friedman 2001). Si la variation concerne seulement un feature, on représente la dérivée partielle du classifieur en fonction du feature en entrée. Si la variation concerne deux features, une visualisation par heat-map peut être envisagée pour visualiser l’impact de l’interaction entre les deux features sur la variable en output (dérivée partielle croisée). Les PPD sont également utiles pour montrer le comportement non linéaire ou non monotone de l’output.

Les méthodes ICE (individual conditional expectation) sont l’équivalent des PPD en méthode locale, c’est-à-dire une méthode d’interprétation du résultat d’un input donné. On représente donc visuellement l’effet marginal de l’output en fonction d’un ou deux features, sans moyenner sur l’ensemble des données (PPD) mais simplement en fixant l’input considérer (Goldstein 2015).

III)

Conclusion

Il existe de nombreux outils pour interpréter le Machine Learning allant de méthodes locales, globales, intrinsèques, post-hoc, agnostiques, spécifiques ou des méthodes de visualisation d’une partie d’input à des parties de l’algorithme. La littérature actuelle semble manifester une volonté de mixer les différente méthodes, l’interactivité entre ces méthodes devenant la clé de

(5)

l’interprétation (Olah 2018). De la même manière où il existe une multiplicité de définitions de l’interprétabilité selon le contexte d’utilisation (Doshi-Velez et Kim 2017), il existe également une multiplicité de méthodes et outils pour interpréter les algorithmes dit « boîte noire ». L’utilisation successive de ces méthodes se fera à travers le développement d’interface homme-algorithme ergonomique permettant d’utiliser des méthodes mixtes, de visualisation, exploration et calcul en fonction du contexte d’interprétation.

Bibliographie

Craven, et Shavlik. 1996. «Extracting tree-structured representations oftrained networks.» Advances in neural information processing systems 24-30.

Craven, et Shavlik. 1994. «Using sampling and queries to extract rules fromtrained neural networks.» ICML 37–45.

Doshi-Velez, et Kim. 2017. «Towards a rigorous science of interpretable machine learning.» Friedman. 2001. «Greedy function approximation: A gradient boosting machine.” Annals of

statistics.» 1189-1232.

Goldstein. 2015. «Peeking inside the black box: Visualizing statistical learning with plots of individual conditional expectation.» Journal of Computational and Graphical Statistics 44-65.

Johansson, Konig, et Niklasson. 2003. «Rule extraction from trained neural networks using genetic programming.» 13th International Conference onArtificial Neural Networks 13-16.

Lundberg, et Kononenko. 2016. «An unexpected unity among methods for interpreting model predictions.» arXiv preprint arXiv:1611.07478.

Nunez, Angulo, et Catala. 2002. «Rule extraction from support vector machines.» Esann 107-112.

Olah. 2017. «Feature Visualization.» Distill.

Olah. 2018. «The Building Blocks of Interpretability.» Distill. Olah. 2018. «The Building Blocks of Interpretability.» Distill.

R.Dennis. 1977. «Detection of influential observation in linear regression.» Technometrics 15-18.

Ribeiro, Singh, et Guestrin. 2016. «Nothing else matters: Model-agnostic explanations by identifying prediction invariance.» arXiv preprintarXiv:1611.05817.

Shapley. 1953. «A value for n-person games.» Contributions to the Theory of Games 307-317.

Wachter, Mittelstadt, et Russell. 2017. «Counterfactual explanations without opening the black box: Automated decisions and the GDPR.»