Des algorithmes interactifs par programmation dynamique pour d´ eterminer une

3.1 Recherche dans un graphe d’´ etats multicrit` ere

3.1.3 Des algorithmes interactifs par programmation dynamique pour d´ eterminer une

une solution optimale avec la somme pond´er´ee

Dans la sous-section précédente, nous avons considéré que l’ensemble Ω des jeux de poids admis-sibles était stable au cours du temps. À présent, nous considérons que de nouvelles informations sur les préférences du décideur sont obtenues à différents pas de temps notés 1, . . . , T , en supposant que notre algorithme commence au temps 0 et se termine au temps T + 1. Ces données induisent de nouvelles contraintes sur les jeux de poids admissibles, réduisant ainsi progressivement la taille de l’ensemble Ω en cours de résolution ; notons Ωt l’ensemble Ω au pas de temps t de la résolution. Par définition, ces derniers forment une séquence d’ensembles emboˆıtés : Ω_t+1 ⊆ Ω_t pour tout t ∈ {0, . . . , T }. De ce fait, nous avons PO_Ω_t+1(X ) ⊆ PO_Ω_t(X ) pour tout t ∈ {0, . . . , T } (cf. définition 46). Par conséquent, toute étiquette supprimée en considérant l’ensemble Ωt devrait aussi être supprimée si on considérait Ω_t0 à la place, avec t⁰ ∈ {t + 1, . . . , T + 1}. Ainsi, si l’ensemble Ω réduit en cours de résolution, alors il n’est pas nécessaire de relancer la procédure car les suppressions antérieures ne sont pas remises en cause, la dernière instruction assurant ensuite que l’algorithme retourne exactement l’ensemble POΩT +1(X ) (cf. ligne 21). Cette observation nous informe qu’il est possible d’interagir avec le décideur durant la recherche pour centrer plus rapidement la recherche sur les chemins préférés.

Idéalement, il faudrait poser des questions de manière à garantir que l’ensemble POΩT +1(X ) contienne un vecteur solution nécessairement optimal, c’est-à-dire un vecteur minimisant f_ω pour tout ω ∈ Ω_{T +1}. En même temps, il convient de limiter le nombre de questions posées au décideur pour minimiser l’effort d’élicitation. Ces deux objectifs concurrentiels nous suggèrent d’utiliser l’approche incrémentale fondée sur le critère Minimax Regret. En Section 1.4.2, cette approche a été présentée et discutée dans le cadre d’une fonction fω à maximiser. Pour obtenir son équivalent en minimisation, il convient d’utiliser les définitions suivantes :

D´efinition 48. Pour tous x, y ∈ X :

PMR(x, y, Ω) = max ω∈Ω{f_ω(x) − f_ω(y)} MR(x, X , Ω) = max y∈X PMR(x, y, Ω) mMR(X , Ω) = min x∈XMR(x, X , Ω)

Rappelons que cette approche d’élicitation est fondée sur le calcul répété de la valeur PMR(x, y, Ω) pour toute paire (x, y) de solutions possibles, tant que le regret mMR(X , Ω) est strictement plus grand

que la valeur δ ≥ 0 représentant un niveau d’erreur que le décideur juge acceptable (avec δ = 0, on obtient à la fin une solution nécessairement optimale). Dans notre contexte, cette approche ne peut pas être mise en œuvre de cette fa¸con car l’ensemble X des vecteurs solutions est de trop grande taille. À la place, nous allons intégrer l’élicitation à la recherche réalisée par l’algorithme 4 pour travailler sur des ensembles de solutions plus réduits tout en garantissant de détecter une solution nécessairement optimale `

a la fin de l’exécution. Plus précisément, nous proposons les stratégies suivantes :

Stratégie S1. Il s’agit de poser des questions uniquement lorsque la valeur mMR({g_` : ` ∈ S}, Ω) devient strictement positive suite à l’insertion d’une nouvelle étiquette dans S. Dans ces situations, S1 interroge le décideur tant que mMR({g_`: ` ∈ S}, Ω) > 0. Pour engendrer des questions, nous pouvons par exemple suivre la stratégie de sélection CSS présentée en Section 1.4.2. Montrons que S1 permet de détecter un vecteur solution nécessairement optimal à la fin de l’algorithme. Rappelons que l’algorithme4 combiné avec la stratégie S1 retourne une étiquette ` ∈ S par vecteur coût de l’ensemble POΩT +1({g` : ` ∈ S}) (cf. ligne 21), celui-ci étant égal à l’ensemble PO_Ω_{T +1}(X ). Par définition, les solutions préférées sont forcément dans cet ensemble. Il s’agit donc de montrer que nous avons une étiquette `⁰ ∈ S telle que fω(g_`0) ≤ fω(g`) pour tout jeu de poids ω ∈ ΩT +1 et toute étiquette ` ∈ S. Comme la stratégie S1 assure que mMR({g_`: ` ∈ S}, Ω_{T +1}) ≤ 0, alors il existe `⁰ ∈ S telle que MR(g_`0, {g_`: ` ∈ S}, Ω_{T +1}) ≤ 0. Par définition de la valeur MR, nous avons donc PMR(`⁰, `, Ω) ≤ 0 pour tout `⁰ ∈ S, ce qui signifie que l’inégalité fω(g`0) ≤ fω(g`) est vraie pour tout ω ∈ ΩT +1; ceci permet de conclure la preuve.

Stratégie S2. Cette stratégie a pour objectif de mieux diriger l’exploration du graphe en sélectionnant plus pertinemment la prochaine étiquette à développer ; autrement dit, la procédure Choisir est ici modifiée pour se concentrer sur les solutions les plus prometteuses. Cette étape de sélection est maintenant réalisée en posant des questions au décideur tant que la valeur mMR(X, Ω) est strictement positive, où X = {g`+ h : ` ∈ O, h ∈ H(n`)}. La sélection des questions peut par exemple être dirigée par la stratégie CSS (cf. Section 1.4.2). La prochaine étiquette à développer est ensuite choisie parmi les étiquettes ` ∈ O telles que le MR(g_` + h, X, Ω) = 0 pour au moins un vecteur heuristique h ∈ H(n_`). Utiliser cette stratégie revient donc à développer uniquement des sous-chemins ayant au moins un vecteur heuristique nécessairement optimal dans X. Par ailleurs, si mMR({g_` : ` ∈ S}, Ω) > 0 à la fin de l’exécution de l’algorithme, alors S2 pose des questions tant que cette inégalité reste vraie. De manière similaire à la stratégie S1, on peut montrer que cette étape finale permet de garantir que l’algorithme retourne une solution nécessairement optimale à la fin de son exécution.

Dans le cadre de ces deux stratégies, le décideur compare uniquement des vecteurs coût associés `

a des chemins solutions, ce qui a du sens. Ces vecteurs représentent des coûts réels dans S1 et des évaluations heuristiques dans S2. Ainsi, pour la stratégies S1, les questions peuvent être accompagnées de la présentation des chemins à comparer pour aider le décideur dans sa prise de décision. En guise d’illustration, nous présentons ci-dessous une exécution de l’algorithme4 combiné avec la stratégie S1 : Exemple 24. Reprenons l’exemple 23en supposant que les préférences du décideur sont représentables par la somme pondérée de jeu de poids ω0 = (0.6, 0.4). Sans aucune information sur ses préférences,

l’ensemble Ω des jeux de poids ω = (ω1, ω2) admissibles est décrit par la contrainte 0 < ω1 < 1, le poids ω2 étant défini de manière implicite par la contrainte de normalisation des poids (i.e. ω2 = 1 − ω1).

Déroulons l’algorithme4combiné avec S1 (utilisant la stratégie CSS). Comme S1 engendre des ques-tions uniquement quand la valeur mMR({g` : ` ∈ S}, Ω) devient strictement positive suite à l’insertion d’une étiquette dans S, alors les quatre premières itérations sont ici identiques à celles de la version non interactive. Reprenons l’exécution à partir de là. Au début de la cinquième itération, nous avons :

• O = {`0

2, `⁰⁰₂, `⁰_γ} o`u `⁰₂ = [n₂, hs, n₃, n₂i, (8, 2)], `00

2 = [n₂, hs, n₁, n₂i, (3, 7)], `0

γ= [γ, hs, n₁, γi, (1, 8)]. • C = {`_s, `1, `3, `γ}, o`u `s = [s, hsi, (0, 0)], `1 = [n1, hs, n1i, (1, 4)], `₃ = [n3, hs, n3i, (3, 1)], `_γ =

[γ, hs, n3, γi, (6, 4)]. Ainsi, nous avons S = {`γ}.

De plus, nous avons F (`⁰₂) = {(8, 2)}, F (`⁰⁰₂) = {(3, 7)} et F (`⁰_γ) = {(1, 8)}. Comme aucun de ces vecteurs n’est Pareto-dominé, alors Choisir(O) peut retourner `⁰₂, `⁰⁰₂ ou `⁰_γ. Supposons que Choisir(O) retourne l’étiquette `⁰_γ. Dans ce cas, `⁰_γ est retirée de l’ensemble O et insérée dans l’ensemble S (cf. ligne 7). Suite `

a cette insertion, nous obtenons mMR({g_` : ` ∈ S}, Ω) > 0. La stratégie S1 demande alors au décideur de comparer les vecteurs coût (6, 4) et (1, 8) associés respectivement aux chemins hs, n3, γi et hs, n1, γi (question engendrée par la stratégie CSS). Comme f_ω₀(6, 4) = 5.2 ≥ f_ω₀(1, 8) = 3.8, alors le décideur nous apprend qu’il préfère le second chemin au premier. Cette information induit la contrainte linéaire fω(6, 4) = 6ω1+ 4(1 − ω1) ≥ fω(1, 8) = ω1+ 8(1 − ω1) sur l’espace des paramètres admissibles, qui est équivalente à la contrainte ω₁ ≥ 4/9. Ainsi, Ω = {(ω₁, 1 − ω₁) ∈ R²+ : 4/9 ≤ ω₁ < 1}. Après cette mise à jour, nous obtenons mMR({g_` : ` ∈ S}, Ω) = MR((1, 8), {g_` : ` ∈ S}, Ω) ≤ 0. Par conséquent, S1 ne produit plus aucune question à cette itération ; le vecteur solution (1, 8) constitue la meilleure option trouvée jusque là. Pour la sixième itération, Choisir(O) peut retourner `⁰₂ ou `⁰⁰₂. Supposons que Choisir(O) retourne `⁰⁰₂. Dans ce cas, `⁰⁰₂ est déplacée de O vers C. Comme Π(n2) = {γ}, alors l’étiquette suivante est engendrée : `⁰⁰_γ = [γ, hs, n₁, n₂, γi, (4, 7)]. L’étiquette `⁰⁰₂ est ensuite insérée dans O puisque ¬(g_`_γ -P g_`00

γ) et ¬(g_`0

γ -P g_`00

γ) (cf. ligne 12). Néanmoins, cette étiquette est ensuite supprimée par la règle R2 car nous avons {g_`_γ, g_`0

γ, g_`00

γ} ≺_Ω g_`00

γ (cf. ligne 13). Ainsi, nous avons O = {`⁰₂} à la fin de cette itération. Par conséquent, l’algorithme développe forcément l’étiquette `⁰₂ durant la septième itération, en commen¸cant par déplacer celle-ci de O vers C. Puis, comme Π(n₂) = {γ}, alors l’étiquette suivante est créée : `⁰⁰⁰_γ = [γ, hs, n3, n2, γi, (9, 2)]. L’étiquette `⁰⁰⁰_γ est ensuite insérée dans O car nous avons ¬(g_`_γ -P g_`000

γ ) et ¬(g_`0

γ -P g_`000

γ) (cf. ligne 12). Cependant, cette étiquette est ensuite éliminée par la règle R2 car {g_`_γ, g_`0

γ, g_`000

γ} ≺_Ω g_`000

γ (cf. ligne 13). Par conséquent, l’ensemble O est vide à la fin de la septième itération. L’algorithme se termine alors en retournant l’ensemble S contenant `γ et `⁰_γ, la première étiquette représentant alors un chemin solution nécessairement optimal.

En pratique, la recherche d’un chemin solution nécessairement optimal peut engendrer un nombre important de questions durant la résolution. Par conséquent, l’approche proposée dans cette sous-section se présente comme une réponse théorique à la problématique de recommandation d’un chemin dans un graphe d’états. Pour la mise en œuvre de cette approche, il convient de baisser nos exigences sur la qualité de la recommandation en nous autorisant un seuil de tolérance δ > 0. L’objectif est alors de déterminer un vecteur solution presque optimal, i.e. un vecteur x ∈ X tel que fω(x) − fω(y) ≤ δ pour tout

ω ∈ Ω_{T +1} et tout y ∈ X . Autrement dit, nous cherchons à identifier un vecteur solution x ∈ X tel que MR(x, X , ΩT +1) ≤ δ. Ceci peut par exemple être réalisé en modifiant les stratégies S1 et S2 de manière `

a poser des questions uniquement lorsque les valeurs mMR sont strictement plus grandes que δ. En effet, cela permet de détecter une étiquette `⁰ ∈ S telle que l’inégalité MR(g_`0, {g_` : ` ∈ S}, ΩT +1) ≤ δ est vraie `

a la fin de la résolution. Par ailleurs, puisque nous nous autorisons à présent une erreur bornée par le seuil δ, nous devons aussi modifier les règles d’élagages R1 et R2 pour ne plus éliminer des étiquettes pouvant conduire à des chemins solutions presque optimaux. Ceci se fait tout simplement en rempla¸cant la relation ≺Ωpar sa version “approchée” ≺^δ_Ωdéfinie par : Z ≺^δ_Ωy ⇔ ∀ω ∈ Ω, ∃z ∈ Z, fω(y) − fω(z) > δ.

3.1.4 R´esultats exp´erimentaux

Dans cette sous-section, nous présentons des résultats expérimentaux permettant d’évaluer les per-formances de nos algorithmes de recherche interactifs. Nous considérons ici des instances de G = (N, A) avec un seul nœud but γ, engendré comme suit : les nœuds dans N sont tirés aléatoirement dans la grille `

a deux dimensions {1, . . . , 1000} × {1, . . . , 1000} de manière uniforme, sauf le nœud γ et le nœud source s qui sont situés en (1000, 500) et (1, 500) respectivement. Puis, chaque nœud engendré est relié à ses cinq plus proches voisins par des arcs dont les évaluations sont tirées uniformément dans {0, . . . , 100}^q. Comme évaluation heuristique, nous considérons uniquement le point idéal I(n) = (I₁(n), . . . , I_q(n)) pour tout n ∈ N , où Ij(n) = min_{x∈{g(p):p∈P (n,γ)}}xj pour tout j ∈ Q. La valeur Ij(n) est obtenue au préalable en appliquant l’algorithme A* au graphe évalué uniquement sur le critère j.

Nous évaluons ici les performances de l’algorithme4, combiné avec les stratégies S1 ou S2, en terme de temps de résolution¹ et nombre de questions engendrées. À titre de comparaison, nous considérons aussi la méthode en deux phases (nommée S0 ci-après) consistant à lancer tout d’abord MOA* puis appliquer la stratégie CSS sur l’ensemble des vecteurs coûts retournés (c’est-à-dire sur les vecteurs coût Pareto-optimaux). Les tests réalisés ont pour objectif d’évaluer l’impact de q le nombre de critères (cf. table 3.1) et celui de |N | le nombre de nœuds du graphe (cf. table 3.2) sur les performances de ces algorithmes de résolution. Les réponses aux questions sont ici simulées par une somme pondérée f_ω dont le jeu de poids ω a été choisi aléatoirement dans Ω = {ω ∈ int(R^q+) :P

j∈Qω_j = 1} où int représente l’intérieur du cône.

Table 3.1 – Impact du nombre crit`eres q sur les temps de r´esolution (|N | = 200, δ = 0.1).

q = 2 q = 3 q = 4 q = 5

temps questions temps questions temps questions temps questions

S0 0.0 3.7 1.3 8.3 131.5 12.5 192.7 23.5

S1 2.9 3.5 25.1 6.8 78.2 10.2 603.2 13.1

S2 0.5 6.3 1.1 12.5 1.5 17.9 2.2 28.1

1. Les temps de calcul sont donnés en minutes, pour des expériences réalisées sur un Intel Core i7 CPU 3.60GHz avec 16GB de mémoire. Les tests de dominance sont effectués par le solveur Gurobi depuis un programme écrit en Java.

Table 3.2 – Impact du nombre de noeuds |N | sur les temps de calcul (q = 3,δ = 0.01).

|N | = 100 |N | = 300 |N | = 400 |N | = 500

temps questions temps questions temps questions temps questions

S0 0.2 7.7 6.0 9.4 15.8 10.4 28.8 11.5

S1 2.4 6.5 158.4 7.7 65.6 9.1 154.4 8.3

S2 0.3 12.3 8.3 13.2 3.8 11.6 5.8 10.6

En comparant les résultats des stratégies S0 et S1, nous voyons tout d’abord que S1 engendre beau-coup moins de questions que S0. Par exemple, la stratégie S1 pose environ 45% de questions en moins que S0 pour q = 5 (cf. table 3.1) et permet une économie d’environ 25% sur les plus grandes instances (cf. table 3.2). Ainsi, intégrer l’élicitation à la résolution permet ici de réduire de manière significative le nombre de questions posées au décideur. Cependant, les temps de calcul sont plus mauvais avec S1, et plus particulièrement sur les petites instances et avec peu de critères (deux ou trois). Comparons maintenant les performances des stratégies S0 et S2. La stratégie S2 est quant à elle meilleure que S0 en terme de temps de résolution à partir de trois critères (cf. table 3.1) ; en particulier, S2 va presque 100 fois plus vite que S0 pour q = 4, 5. Par ailleurs, nous voyons que S2 est aussi plus rapide que S0 sur les grandes instances (cf. table 3.2). Par exemple, S2 prend environ 5 fois moins de temps que S0 pour |N | = 500 (tout en posant environ 10% de questions en moins). De plus, il semblerait que le nombre de questions engendrées par S2 tend à devenir plus petit lorsque q augmente ; en effet, S2 engendre environ 70%, 50%, 40% et 20% de questions de plus que S0 pour q = 2, 3, 4 et 5 respectivement (cf. table3.1).

Finalement, notre algorithme semble être plus performant lorsque celui-ci est combiné avec S2 plutôt que S1. Néanmoins, la stratégie S1 doit être privilégiée dans les situations où le nombre d’interactions possibles avec le décideur est particulièrement limité.

Dans le document Procédures de décision par élicitation incrémentale de préférences en optimisation multicritère, multi-agents et dans l'incertain (Page 137-141)