Un aper¸cu des approches standards - Elicitation des pr´ ´ ef´ erences

1.4 Elicitation des pr´ ´ ef´ erences

1.4.1 Un aper¸cu des approches standards

a déterminer. Le décideur nous informe que le premier critère est approximativement deux fois plus important que le second critère. Considérons alors le vecteur de poids ω = (2/3 + ε, 1/3 − ε), où ε est une valeur arbitrairement proche de zéro. Avec ce vecteur de poids, nous obtenons SP(a, ω) = 50/3 − 20ε et SP(b, ω) = 50/3 + 10ε. Les deux alternatives sont donc équivalentes si ε = 0. Cependant, pour tout ε < 0 arbitrairement proche de zéro, la solution a est strictement meilleure que la solution b, tandis que le contraire se produit avec ε > 0 arbitrairement proche de zéro. Ainsi, une petite variation du vecteur de poids ω conduit ici à une décision différente. Par conséquent, dans cette situation décisionnelle, il semble nécessaire de recueillir davantage d’informations sur les préférences du décideur avant de formuler une quelconque recommandation.

Cet exemple illustre le fait que l’élicitation des paramètres d’un modèle décisionnel est une tâche délicate en soi, qui nécessite des méthodes automatiques permettant de produire une modélisation précise, en collectant des informations pertinentes sur les préférences du décideur. L’élicitation des préférences est en réalité une tâche cruciale dans de nombreuses applications comme le marketing personnalisé, le commerce électronique et les systèmes de recommandation (citons par exemple Deezer pour les musiques et Netflix pour les vidéos). Dans cette section, nous commen¸cons par présenter brièvement les approches classiques pour la problématique de l’élicitation des préférences (cf. Section 1.4.1), avant de centrer la présentation sur l’élicitation incrémentale fondée sur le concept de Minimax Regret (cf. Section 1.4.2), cette dernière approche constituant l’angle d’attaque principal de cette thèse.

1.4.1 Un aper¸cu des approches standards

Dans cette sous-section, nous discutons brièvement des avantages et des inconvénients des approches standards pour la problématique de l’élicitation des préférences.

Elicitation totale d’une fonction d’utilit´e

En pratique, l’ensemble des alternatives possibles est souvent doté d’une structure multidimension-nelle, les alternatives étant généralement évaluées selon plusieurs points de vue simultanément. Dans ce cas, chaque alternative est associée à un point dans un espace multi-attributs. L’approche classique en élicitation des préférences vise à déterminer le modèle de préférences du décideur sur tout l’espace multi-attributs, point par point, à l’aide d’une série de questions-réponses (e.g., [Fishburn, 1967,Krantz et al., 1971,Keeney and Raiffa, 1976]). Ce modèle, après avoir été construit par des interactions avec le décideur, peut ensuite être utilisé pour formuler une recommandation personnalisée : l’alternative optimale au sens de ce modèle constitue la meilleure option pour le décideur. Une fois construit, ce modèle peut aussi servir `

a ordonner toutes les alternatives. Cette possibilité est particulièrement intéressante lorsque le décideur souhaite retenir plusieurs options ou bien lorsque celui-ci a besoin de produire un classement complet de

toutes les alternatives. Par ailleurs, le modèle obtenu peut aussi être exploité plus tard, pour résoudre de nouvelles instances du même problème de décision ; à titre d’exemple, on peut penser à l’ajout de nouveaux films dans la base de données d’un système de recommandation de vidéos.

Néanmoins, cette approche est difficile à mettre en œuvre sur domaine combinatoire, car celle-ci devient très rapidement coûteuse en nombre de questions. Par exemple, en décision multicritère, le nombre de solutions croˆıt exponentiellement avec le nombre de critères considérés dans le problème. De ce fait, apprendre la fonction d’utilité du décideur point par point dans le cadre de la décision multicritère ne semble pas être une option envisageable en pratique (sauf peut-être pour des modèles décisionnels décomposables très simples). En effet, dans ces situations, il n’est pas raisonnable de penser que le décideur accepte de passer des journées entières à répondre à un questionnaire lui permettant de prendre une décision finale (à moins que l’enjeu de la décision soit d’une importance critique). Par ailleurs, cette approche n’est généralement pas à l’abri de réponses contradictoires ou biaisées (e.g., [Simon, 1955,

Tversky and Kahneman, 1975,Camerer et al., 2003]), ce qui constitue une autre difficult´e.

Optimisation interactive

L’optimisation interactive est une approche très largement étudiée en décision multicritère, qui permet de diriger l’exploration de l’ensemble des solutions Pareto-optimales en fonction des différentes interac-tions avec le décideur, sans jamais avoir à énumérer toutes ces solutions (e.g., [Zionts and Wallenius, 1976,

Vanderpooten, 1989, Vanderpooten and Vincke, 1997, Miettinen, 1999, Korhonen, 2005, Greco et al., 2016]). Cette approche repose généralement sur l’utilisation d’une fonction d’agrégation paramétrée dont le rôle est de véhiculer les informations que le système a recueillies sur les préférences du décideur. Les fonctions d’agrégation majoritairement utilisées sont la somme pondérée, la norme de Tchebycheff ou encore des fonctions fondées sur un niveau d’aspiration (e.g., [Wierzbicki, 1986]). L’idée générale est d’alterner les deux étapes suivantes :

• Calcul : évaluation des solutions en utilisant une instance possible des paramètres préférentiels. • Dialogue : présentation d’un ensemble de solutions au décideur, choisies soigneusement par le

système, pour que le décideur lui transmette de nouvelles informations sur ses préférences. Le processus d’élicitation s’arrête dès que le décideur rencontre une solution qui lui convient. Les différentes méthodes d’optimisation interactive se distinguent les unes des autres notamment par le type de préférences que le décideur peut exprimer. Par exemple, le décideur peut spécifier la solution qu’il préfère parmi un ensemble (e.g., [Zionts and Wallenius, 1976,Steuer, 1986]) ou encore préciser sur quels critères il est prêt à faire des concessions pour améliorer les performances réalisées sur d’autres critères (e.g., [Benayoun et al., 1971]).

Cette approche relativement générique permet de traiter tout problème d’optimisation combinatoire multicritère pourvu qu’il existe un algorithme de résolution efficace avec paramètres préférentiels précis. En effet, pour les autres problèmes, le temps d’attente entre chaque évaluation risque de conduire le décideur à interrompre les interactions. Par ailleurs, cette approche présente l’avantage de pouvoir s’ac-compagner d’une interface graphique (e.g., [Korhonen and Laakso, 1986,Lewandowski and Granat, 1991,

Klimberg, 1992]), permettant au décideur de visualiser les solutions possibles durant l’exploration et de le conforter (ou pas) dans ses choix. Cependant, les méthodes d’optimisation interactive ne permettent généralement pas de garantir que la solution finale constitue réellement la meilleure alternative possible pour le décideur. En effet, la valeur finale des paramètres ne représente pas nécessairement au mieux les préférences du décideur, ce dernier ayant pu choisir d’interrompre le processus d’élicitation par lassitude après avoir détecté une alternative qu’il estime relativement satisfaisante. Enfin, soulignons le fait que de nouvelles interactions avec le décideur peuvent être requises pour résoudre d’autres instances du même problème (par exemple, suite à l’ajout de nouvelles alternatives dans la base de recommandation).

Apprentissage `a partir d’une base de donn´ees

Dans la littérature, on retrouve aussi des méthodes qui considèrent en entrée une base de données contenant des informations sur les préférences du décideur, et qui visent à déterminer les paramètres du modèle qui permettent d’expliquer au mieux cette base de données. Par exemple, la méthode UTA ap-prend une fonction d’utilité additive par programmation linéaire à partir d’une base de données contenant des informations ordinales (e.g., [Jacquet-Lagrèze and Siskos, 1982, Siskos and Yannacopoulos, 1985]). Ces méthodes peuvent se distinguer les unes des autres par la nature des données exploitées. À titre d’exemple, le décideur peut être amené à exprimer ses préférences sur un petit ensemble d’alternatives (fictives ou non), de préciser si certains critères sont plus importants que d’autres, voire même d’accom-pagner ces informations d’intensités de préférences. Ces données collectées sont ensuite utilisées pour contraindre le modèle décisionnel de sorte à respecter le plus possible ces préférences observées. La plu-part de ces méthodes se présentent alors sous la forme de problèmes d’optimisation sous contraintes. Par exemple, il a été proposé de minimiser des erreurs d’utilité (e.g., [Jacquet-Lagrèze and Siskos, 1982,

Sobrie et al., 2017a]) ou encore de minimiser un critère d’erreur quadratique (e.g., [Murofushi and Mori, 1989,Grabisch et al., 1995,Meyer and Roubens, 2006,2005]) à la manière des méthodes classiques uti-lisées en apprentissage automatique. La fonction à optimiser peut aussi servir à discriminer entre les différents paramètres compatibles avec la base de données. En effet, nous pouvons par exemple chercher `

a maximiser les écarts de performance entre des solutions dont le classement relatif est connu (e.g., [Marichal and Roubens, 2000, Beuthe and Scannella, 2001, Grabisch et al., 2008]), à minimiser la va-riance du modèle pour être le moins spécifique possible (e.g., [Kojadinovic, 2007]) ou encore à minimiser une entropie relative pour tenir compte des erreurs éventuelles dans la base (e.g., [Bous and Pirlot, 2013]). Signalons que certains logiciels d’optimisation mettent actuellement en œuvre ces techniques d’élicitation (e.g., [Marichal et al., 2005,Huédé et al., 2006,Grabisch et al., 2008]).

L’intérêt principal de cette approche est que le processus d’élicitation ne dépend pas des alternatives du problème. Ceci permet notamment de résoudre des problèmes d’optimisation combinatoire après avoir déterminé les paramètres du modèle qu’il convient d’utiliser. Par ailleurs, une fois le modèle de préférence construit, celui-ci peut être exploité pour résoudre de nouvelles instances du même problème de décision, sans nécessiter d’interactions supplémentaires. Il est toutefois important de souligner que l’efficacité de l’approche est fortement impactée par la qualité de la base de données : plus celle-ci est riche, mieux les

préférences sont approchées. Cette observation suggère de construire le modèle de préférence après avoir collecté le plus de données possibles sur les préférences du décideur. Cependant, plus la taille de la base de données augmente, plus le risque de rencontrer des incohérences est élevé. De ce fait, un système de gestion des incohérences est très souvent indispensable en pratique pour pouvoir déterminer au moins une instance des paramètres compatible avec les préférences observées. De manière générale, obtenir une base de données de qualité est une tâche relativement difficile car le nombre d’interactions possibles avec le décideur est généralement limité. Une autre faiblesse de cette approche réside dans le choix de la fonction à optimiser (e.g., erreur quadratique, variance) qui semble parfois relativement arbitraire. Ce dernier fait a d’ailleurs conduit des chercheurs en aide à la décision à travailler avec toutes les instances des paramètres compatibles avec les informations contenues dans la base de données (e.g., [Greco et al., 2010c,Angilella et al., 2010,Greco et al., 2014]). Soulignons toutefois que la prise en compte simultanée de plusieurs instances peut entraˆıner des situations d’indécision, lorsque les recommandations changent en fonction de l’instance considérée.

Approche bay´esienne

Lorsque l’incertitude sur la fonction d’utilité du décideur est quantifiée à l’aide d’une distribution de probabilité a priori, le critère de l’espérance d’utilité peut être utilisé pour évaluer les différentes alternatives du problème. Cette distribution de probabilité peut par exemple avoir été obtenue à partir de données disponibles sur des personnes ayant des goûts relativement similaires à ceux du décideur. Sans aucune autre information sur les préférences du décideur, il semble raisonnable de lui recommander l’alternative qui maximise l’espérance d’utilité a priori. Si en revanche des interactions avec le décideur sont possibles, nous pouvons envisager de lui poser des questions afin de mettre à jour cette distribution de probabilité en fonction de ses propres préférences ; une question est généralement considérée comme informative si, en espérance, la réponse du décideur conduit à une augmentation de l’espérance d’utilité maximale. Une stratégie d’élicitation possible consiste à poser progressivement des questions au décideur de manière à améliorer l’espérance d’utilité maximale jusqu’à satisfaire un certain critère d’arrêt (e.g., [Chajewska et al., 2000,Braziunas and Boutilier, 2006, Viappiani and Boutilier, 2010]). Afin de limiter le nombre d’interactions avec le décideur, il convient bien évidemment de choisir, à chaque itération, la question offrant la meilleure amélioration en espérance. L’évaluation d’une question devrait en théorie être réalisée de manière séquentielle, en considérant toutes les futures questions et réponses possibles (e.g., [Boutilier, 2002]). Cependant, pour réduire les temps de calcul, cette évaluation est souvent effectuée de fa¸con “myope” en pratique, autrement dit en comparant uniquement la valeur de l’espérance d’utilité maximale avant et après avoir posé la question.

Dans de nombreux travaux, il a été observé que l’approche bayésienne permet de formuler une recommandation pertinente et personnalisée en posant relativement peu de questions au décideur en pratique (e.g., [Chajewska et al., 2000,Viappiani and Boutilier, 2010]). Par ailleurs, cette approche peut aussi être utilisée pour résoudre des problèmes d’optimisation combinatoire, à condition de pouvoir calculer efficacement l’espérance d’utilité maximale sur l’espace des solutions. Remarquons toutefois que

ces méthodes nécessitent de connaˆıtre la distribution de probabilité a priori sur les fonctions d’utilité, ce qui n’est pas toujours réalisable en pratique. En particulier, cela semble difficile dans le cadre d’une prise de décision imprévue ou spécifique au décideur. Enfin, une autre faiblesse de cette approche provient des critères de décision utilisés qui sont généralement difficiles à optimiser en soi (e.g., maximiser l’espérance d’utilité, minimiser l’espérance de perte) et qui sont par conséquent très souvent approximés en pratique (e.g., à l’aide de méthodes de Monte-Carlo).

Dans le document Procédures de décision par élicitation incrémentale de préférences en optimisation multicritère, multi-agents et dans l'incertain (Page 51-55)