Strat´ egies d’´ elicitation - Probl` emes d’arbres couvrants multicrit` eres

3.2 Probl` emes d’arbres couvrants multicrit` eres

4.1.3 Strat´ egies d’´ elicitation

a la valeur PMRⁱ(x, y, Ωⁱ) mais nous fournit à la place une borne supérieure de cette dernière. Ces bornes supérieures peuvent être utilisées pour dériver des bornes supérieures sur les valeurs PMR(x, y, Ω) pour finalement obtenir une borne supérieure sur la valeur mMR(X , Ω). En procédant de la sorte, nous ob-tenons une garantie de performance qui est certes moins forte que la valeur mMR(X , Ω) exacte mais beaucoup plus facile à calculer. Par ailleurs, dans la Section 4.1.4 dédiée aux tests numériques, nous verrons que cette borne supérieure est relativement proche de la valeur réelle en pratique.

4.1.3 Strat´egies d’´elicitation

En fonction des ensembles Ωⁱ, i ∈ N , à considérer, il est possible que la garantie de performance quantifiée par la valeur mMR(X , Ω) ne soit pas suffisamment satisfaisante pour les votants. Dans ces situations, il est préférable de réduire l’imprécision sur les jeux de poids ωⁱ, i ∈ N, modélisant les préférences de nos agents afin d’améliorer la qualité de la recommandation. Il s’agit de poser des questions aux différents agents, soigneusement choisies les unes après les autres, de manière à obtenir l’inégalité mMR(X , Ω) ≤ δ en sollicitant les votants le moins possible, où δ est un seuil de tolérance jugé acceptable par ces derniers. Rappelons que, dans le cas où δ = 0, l’alternative qui sera recommandée est par définition est gagnant nécessaire par la méthode de Borda. Pour produire une question informative à une itération donnée, nous proposons de nous concentrer sur une paire d’alternative (x^∗, y^∗) ∈ X² telle que :

x^∗ ∈ arg min

x∈XMR(x, X , Ω) y^∗ ∈ arg max

y∈X PMR(x^∗, y, Ω)

Poser une question permettant de diminuer significativement la valeur PMR(x^∗, y^∗, Ω) peut en effet réduire aussi nettement la valeur mMR(X , Ω) courante, car nous avons mMR(X , Ω) = PMR(x^∗, y^∗, Ω) par définition. Rappelons que cette idée est au cœur de la stratégie d’élicitation CSS (présentée section 1.4.2) qui s’est révélée très efficace en pratique dans le cadre de la problématique de choix mono-agent. Cette dernière stratégie consiste à demander au décideur de comparer directement les alternatives x^∗ et y^∗, la réponse permettant de faire passer soit PMR(x^∗, y^∗, Ω) soit PMR(y^∗, x^∗, Ω) en dessous de la valeur zéro. Dans notre contexte de décision collective avec la méthode de Borda, la valeur PMR(x, y, Ω), pour deux alternatives x, y ∈ X quelconques, ne dépend pas uniquement des préférences de nos agents concernant les alternatives x et y. En particulier, nous avons vu que la donnée x %^{N ec}_i y pour un agent i ∈ N donné ne suffit pas nécessairement à connaˆıtre la contribution PMRⁱ(x, y, Ω) de cet agent. Cette dernière valeur dépend en réalité de la position relative de toutes les alternatives z ∈ X par rapport aux alternatives x et y, dans le classement induit par la relation de préférence %i de l’agent i. Nous proposons ci-après deux stratégies d’élicitation de complexité différente, visant à réduire la valeur PMR(x^∗_Ω, y_Ω^∗, Ω).

Multicritère-CSS0 (M-CSS0). Cette stratégie vise à choisir une paire (agent, question) telle que la question permette de réduire la contribution de l’agent à la valeur PMR(x^∗_Ω, y_Ω^∗, Ω). Plus précisément, nous commen¸cons par sélectionner un agent i ∈ N au hasard puis nous cherchons une question permettant de diminuer la valeur PMRⁱ(x^∗_Ω, y_Ω^∗, Ω) (s’il en existe) en procédant comme décrit ci-dessous :

1) Cas o`u x^∗ %^{N ec}_i y^∗ (cf. figure 4.1a) : rappelons que, dans ce cas, nous avons PMRⁱ(x^∗, y^∗, Ωⁱ) = −|Mx^∗,y^∗|−min_ωi∈Ωi|{z ∈ Z₁∪Z₂∪Z₃∪{y^∗} :Pq

j=1ω_jⁱx^∗_j >Pq

j=1ωⁱ_jzj ≥Pq

j=1ω_jⁱy^∗_j}|. Nous distinguons alors les deux sc´enarios suivants :

• Cas o`u Z1∪ Z₂∪ Z₃ = ∅ : si nous avons ¬(x^∗ N ec

i y^∗), alors nous demandons à l’agent i s’il préfère strictement l’alternative x^∗ à l’alternative y^∗. Si en revanche x^∗ N ec

i y^∗ est vraie, alors la différence de scores entre l’alternative x^∗ et y^∗ pour l’agent i vaut exactement −|M^x^∗^,y^∗| − 1. Dans ce cas, la contribution de l’agent i à la valeur PMR(x^∗, y^∗, Ω) ne peut pas diminuer, et donc il est préférable de ne pas lui poser de question à cette étape. La stratégie M-CSS0 sélectionne alors un autre agent au hasard pour l’interroger.

• Cas où Z1 ∪ Z₂ ∪ Z₃ 6= ∅ : une alternative z^∗ dans Z1∪ Z₂ ∪ Z₃ est choisie au hasard par la procédure. Par définition de ces ensembles, notre connaissance actuelle sur les préférences de l’agent i ne nous permet pas de conclure si x^∗_j _i z^∗ %i y^∗ est vraie ou non. Plus précisément, si z^∗ ∈ Z₁, alors l’inégalité Pq

j=1ωⁱ_jx^∗_j >Pq

j=1ωⁱ_jz^∗_j est v´erifi´ee pour tout ωⁱ ∈ Ωi mais il existe au moins un jeu de poids ωi∈ Ωi tel que Pq

j=1ωi

jz^∗_j <Pq j=1ωi

jy_j^∗. Par conséquent, si z^∗∈ Z₁, alors M-CSS0 demande à l’agent i s’il préfère (faiblement) z^∗ à y^∗ pour pouvoir obtenir l’information manquante. Similairement, si z^∗ ∈ Z₂, alors l’inégalité Pq

j=1ω_jⁱz_j^∗ ≥ Pq

j=1ωⁱ_jy_j^∗ est vraie pour tout ωⁱ ∈ Ωi mais nous avonsPq

j=1ωⁱ_jz_j^∗≥Pq

j=1ωⁱ_jx^∗_j pour au moins un jeu de poids ωⁱ ∈ Ωi. De ce fait, si z^∗ ∈ Z₂, alors la procédure demande à l’agent i s’il préfère strictement x^∗ à z^∗. Dans le cas où z^∗ ∈ Z₃, aucune des deux inégalités n’est vraie pour tous les jeux de poids ωⁱ ∈ Ωi (sinon z^∗ appartiendrait à Z₁ ou à Z₂). Par conséquent, nous avons ici le choix entre deux questions, demander à l’agent i s’il préfère (faiblement) z^∗ à y^∗ ou lui demander s’il préfère strictement x^∗ `

a z^∗ (le choix entre ces deux questions est ici laiss´e au hasard).

2) Cas o`u ¬(x^∗ %^{N ec}i y^∗) ∧ (y^∗ %^{N ec}i x^∗) (cf. figures 4.1b) : commen¸cons par rappeler que dans ce cas PMRⁱ(x^∗, y^∗, Ωⁱ) = |M^y^∗^,x^∗|+max_ωi∈Ωi|{z ∈ Z₁∪Z₂∪Z₃∪{x} :Pq

j=1ω_jⁱy^∗_j >Pq

j=1ω_jⁱz_j ≥Pq

j=1ωⁱ_jx^∗_j}|. Nous distinguons ici aussi les deux sc´enarios suivants :

• Cas o`u Z₁∪Z₂∪Z₃ = ∅ : si ¬(y^∗N ec

i x^∗), alors nous demandons à l’agent i s’il préfère strictement y^∗ à x^∗. Par contre, si y^∗ N ec

i x^∗ à la place, alors la différence de scores entre x^∗ et y^∗ pour cet agent est forcément égale à |M^y^∗^,x^∗| + 1. Dans ce cas, M-CSS0 choisit un autre agent au hasard. • Cas où Z₁∪ Z₂∪ Z₃ 6= ∅ : une alternative z^∗ dans Z₁∪ Z₂ ∪ Z₃ est choisie au hasard et nous cherchons à savoir si y^∗ _i z^∗ %i x^∗ est vraie ou non. Plus précisément, si z^∗ ∈ Z₁, alors nous demandons à l’agent i s’il préfère (faiblement) z^∗ à x^∗. Si z^∗ ∈ Z₂, alors nous lui demandons si y^∗ est strictement meilleure que z^∗. Enfin, si z^∗ ∈ Z₃, alors nous choisissons au hasard une des deux questions précédentes.

3) Cas où ¬(x^∗ %^{N ec}_i y^∗) ∧ ¬(y^∗ %^{N ec}_i x^∗) (cf. figure 4.1c) : dans ce cas, les alternatives x^∗ et y^∗ sont incomparables pour le système, et donc nous demandons à l’agent i de comparer directement ces deux alternatives pour pouvoir se ramener aux cas précédents.

Multicritère-CSS1 (M-CSS1). Cette stratégie est une adaptation de l’heuristique proposée par

Lu and Boutilier [2011b] à notre contexte de décision collective avec évaluation multicritère. L’objectif est de trouver la question avec le plus grand potentiel de réduction de la valeur PMR(x^∗, y^∗, Ω). Plus précisément, au lieu de sélectionner l’agent i ainsi que l’alternative z^∗ ∈ Z₁∪ Z₂∪ Z₃ au hasard (comme dans la stratégie M-CSS0), il s’agit ici d’envisager toutes les paires (agent, question) possibles pour pouvoir déterminer celle qui offre la meilleure réduction de la valeur PMR(x^∗, y^∗, Ω) dans le scénario de réponse le plus favorable. Par conséquent, cette stratégie nécessite de calculer les regrets résultants dans tous les scénarios de réponse possibles et ce pour chaque paire (agent, question) envisageable ; cette méthode incrémentale est donc plus gourmande que la stratégie M-CSS0.

4.1.4 R´esultats exp´erimentaux

Dans cette sous-section, nous évaluons la pertinence des méthodes interactives M-CSS0 et M-CSS1 (cf. Section 4.1.3) que nous avons proposées pour la détermination du vainqueur par la méthode de Borda dans un contexte de vote où les préférences des agents sur les alternatives multicritères sont imprécisément connues. Dans nos expériences, les vecteurs de performances associés aux alternatives du problème ont été engendrés de manière aléatoire dans [0, 1]^q. Chacune de nos simulations commence avec aucune information disponible sur les préférences des agents. À chaque itération, une question est posée `

a un agent i ∈ N particulier et la réponse de celui-ci est simulée à l’aide du jeu de poids ωⁱ que nous avons engendré aléatoirement en début de simulation. Les tests ont été réalisés sur un Intel Core i7 CPU 3.60GHz avec 16GB de mémoire et les optimisations de regrets ont été effectuées par le solveur Gurobi depuis un programme écrit en Java.

Nos premières expériences ont pour objectif d’estimer l’apport d’une représentation compacte des préférences sur domaine multicritère. C’est pourquoi nous avons choisi de comparer ici nos stratégies M-CSS0 et M-CSS1 à la procédure d’élicitation incrémentale proposée dans Lu and Boutilier [2011b] (nommée CSS1 ci-après), qui ne fait aucune hypothèse sur la structure des préférences de nos agents². Dans la figure 4.2, nous reportons les valeurs mMR(X , Ω) observées aux différentes itérations de ces procédures d’élicitation incrémentale. Dans cette figure, les valeurs de regrets sont exprimées sur une échelle normalisée, la valeur 1 correspondant à la valeur mMR initiale (c’est-à-dire celle obtenue sans aucune information sur les préférences des agents). Rappelons que lorsque la valeur mMR vaut 0, la procédure a en réalité identifié un vainqueur nécessaire au sens de Borda.

2. Ainsi, les stratégies CSS1 et M-CSS1 adoptent exactement la même stratégie de sélection de questions mais, contrai-rement à CSS1 qui utilise uniquement les données de préférence explicitement formulées par les agents, la stratégie M-CSS1 exploite la structure multicritère du problème pour identifier les ensembles Z1, Z2, etc., et en déduire les valeurs de regrets.

Figure 4.2 – Comparaison des stratégies d’élicitation (30 alternatives, 5 critères, 10 agents, 30 tests).

Dans la figure 4.2, nous observons que la valeur mMR diminue plus lentement avec la stratégie CSS1 qu’avec sa version multicritère M-CSS1. Par exemple, après 20 questions par agent en moyenne, la valeur mMR est toujours au dessus de 40% du regret initial avec la stratégie CSS1 alors que cette valeur est en dessous des 10% avec la stratégie M-CSS1. Par ailleurs, après environ 30 questions par agent, la valeur mMR est toujours aux alentours des 40% avec la stratégie CSS1 alors que la stratégie M-CSS1 est capable de déterminer un vainqueur nécessaire à ce moment là. Enfin, nous constatons assez étonnamment que l’heuristique utilisée par M-CSS1 n’est finalement pas plus efficace que la stratégie M-CSS0 qui comporte une partie aléatoire. Par conséquent, nous utiliserons exclusivement la stratégie M-CSS0 dans nos expériences suivantes puisque M-CSS1 requiert bien plus de calculs que M-CSS0 sans se révéler plus informative.

Dans la Section 4.1.2, nous avons montré comment les valeurs mMR(X , Ω) pouvaient être calculées de manière exacte en faisant usage de la programmation linéaire en nombres entiers (cf. propositions33

et 34). Rappelons que la relaxation linéaire des programmes en nombre entiers correspondants permet de déduire des bornes supérieures des valeurs mMR(X , Ω) en des temps plus courts. C’est pourquoi les expériences suivantes ont pour objectif de quantifier la perte de précision provoquée par l’utilisation de la relaxation linéaire de ces programmes durant l’élicitation des préférences. Dans la figure 4.3, nous reportons à chaque itération la valeur mMR(X , Ω), la borne supérieure de cette valeur obtenue par relaxation linéaire, et le regret réel en terme de scores de Borda ; Les regrets sont ici aussi normalisés, la valeur 1 correspondant à la borne supérieure initiale de la valeur mMR.

Figure 4.3 – Comparaison entre la valeur mMR, sa borne supérieure obtenue par relaxation linéaire et le regret réel, observés à chaque itération de la stratégie de génération de questions M-CSS0 (30 alternatives, 5 critères, 10 agents, 30 tests).

Dans la figure 4.3, nous observons que les relaxations linéaires fournissent en pratique une borne supérieure relativement proche de la valeur exacte. Cette borne devient par ailleurs de plus en plus précise au fur et à mesure des interactions. De ce fait, il semble que travailler avec cette borne supérieure ne nous fait pas perdre en efficacité d’élicitation. Signalons aussi que la version relaxée permet de réduire significativement les temps de calculs en pratique. À titre d’exemple, sans aucune information sur les préférences des agents, la borne supérieure de la valeur mMR est obtenue en seulement 1 seconde contre 30 secondes en moyenne pour l’obtention de la valeur exacte, dans des problèmes impliquant 30 alternatives, 5 critères et 10 agents. Enfin, nous voyons sur cette même figure que le regret réel (ici associé à la recommandation de l’alternative minimisant la valeur MR approchée) est en pratique relativement faible en comparaison avec la borne supérieure fournie par le mMR.

Les expériences suivantes ont pour objectif d’évaluer le nombre de questions produites par la stratégie M-CSS0 (avec mMR approchées) sur de plus grandes instances. Plus précisément, nous allons faire varier le nombre d’alternatives, le nombre d’agents ainsi que le nombre de critères du problème. Les résultats que nous avons obtenus sont reportés dans la figure4.4. Dans cette figure, nous voyons que, dans tous les situations considérées, la stratégie M-CSS0 est capable de déterminer un gagnant nécessaire au sens de Borda après un nombre relativement raisonnable de questions par agent. Notons toutefois que le nombre de critères semble être la donnée ayant le plus grand impact sur le nombre de questions engendrées. Ce constant s’explique par le fait que ce paramètre contrôle directement le nombre de poids ω_jⁱ à apprendre.

(a) 10 agents, 50 alternatives et 5 crit`eres. (b) 50 agents, 50 alternatives et 5 crit`eres.

Figure 4.4 – Performances de la stratégie M-CSS0 appliquée à la borne supérieure du mMR obtenue par relaxation linéaire (30 tests).

Dans le document Procédures de décision par élicitation incrémentale de préférences en optimisation multicritère, multi-agents et dans l'incertain (Page 184-189)