• Aucun résultat trouvé

Apprentissage des préférences

5.2 Pondération des utilités marginales

5.2.2 Agrégation d'utilités

L'approche présentée dans cette section cherche à augmenter la robustesse de la fonction d'utilité nale, c'est-à-dire à minimiser le risque réel de l'ordonnanceur, en se basant sur un ensemble de fonctions d'utilité que nous appellerons potentielles ou faibles. On se trouve alors face à un nouveau problème de décision multicritère, où les diérents critères sont les évaluations des alternatives sur les utilités faibles.

Cette méthode pose essentiellement deux problèmes :

1. déterminer un ensemble d'utilités potentielles (ou faibles)

2. agréger les résultats des utilités potentielles pour donner le résultat de l'utilité nale (ou forte)

Nous développons ces deux points dans les sections suivantes. Déterminer un ensemble d'utilités potentielles

Nous présentons ici brièvement deux approches : la première est issue du domaine de l'analyse multicritère et la seconde du domaine de l'apprentissage articiel. Analyse post-optimale le terme d'analyse post-optimale [JLS82, JLS01] fait référence à l'utilité optimale, au sens de la fonction de coût précédemment dénie. Sous cette appellation ont été développées plusieurs méthodes permettant d'agréger un ensemble d'utilités potentielles, générées à partir de l'utilité optimale obtenue. Nous donnons dans cette section le principe de la génération des utilités potentielles. Leur agrégation fait l'objet d'une partie de la section suivante.

Soit c le coût de l'utilité optimale et soit k ∈ [0, 1], l'analyse post-optimale consiste dans l'exploration du polytope obtenu en ajoutant au système linéaire la contrainte :

X

(a,b)∈D

ξab ≤ kc

Une fois les coordonnées des sommets du polytope déterminées, on peut calculer les coordonnées d'un vecteur quelconque du polytope par simple combinaison linéaire des vecteurs sommets. Diérentes méthodes peuvent être utilisées an de calculer les coordonnées de ces sommets. Ces méthodes n'ayant pas fait l'objet de notre

étude, nous nous contentons ici de les évoquer. Le lecteur intéressé peut se reporter à [CC57, MN68].

RankBoost Issu du domaine de l'apprentissage articiel, RankBoost [FISS98] est un algorithme d'apprentissage d'ordonnancement basé sur une méthode appelée boosting, introduite dans [FS97]. Appliqué initialement au problème de classi-cation, le principe du boosting est de combiner plusieurs classieurs faibles, de manière pondérée, an d'obtenir un classieur fort, présentant un meilleur taux de classication. L'idée maîtresse est d'entraîner les classieurs faibles, les uns après les autres sur l'ensemble d'apprentissage entier, mais en modiant l'importance des diérents exemples, de sorte à équilibrer les lacunes du classieur précédent. Au-cune hypothèse sur la nature des classieurs faibles n'est posée a priori, ce qui laisse une totale liberté de choix. Avec RankBoost, cette idée est adaptée au problème de l'ordonnancement.

RankBoost opère par tour. Au tour t ∈ {1 . . . T } correspond l'entraînement d'un ordonnanceur sur l'ensemble d'apprentissage. L'apprentissage de cette fonction se fait en minimisant une fonction de coût, pondérée par une distribution d'importance sur les exemples. Dans notre contexte, cela revient à apprendre une fonction d'utilité additive ut : A → [0, 1], optimale pour la fonction de coût pondérée.

La distribution d'importance est mise à jour à chaque tour an que les exemples les moins bien modélisés par l'ordonnanceur précédent deviennent prioritaires pour l'apprentissage du prochain ordonnanceur. L'algorithme s'arrête après un nombre prédéni de tours. L'ensemble des utilités potentielles est donc construit incrémen-talement, guidé par les résultats des fonctions de coût successives.

Agréger les résultats

Diérentes procédures d'agrégation peuvent être envisagées an de combiner les notes des diérentes fonctions d'utilité. Il semble néanmoins que seul un petit nombre d'entre elles l'ont été eectivement dans le domaine de l'aide à la décision multicritère, sous le nom de critères de décision. Nous en présentons ici une liste représentative. La procédure d'agrégation de l'algorithme RankBoost est présentée à la n.

Soit Ub l'ensemble des utilités potentielles obtenues, supposé ni, nous notons u = fUb, l'utilité nale où f est la fonction d'agrégation.

Critères basés sur les extrêmes Le critère Maximin, proposé par [Wal50] et cité par [SH04] pour le cas des utilités incertaines, sélectionne une alternative dont

la plus mauvaise note (évaluée sur l'ensemble des hypothèses admissibles) est la plus haute.

∀a ∈ A u(a) = min

u∈ bU

u (a)

Maximin est un critère qualié de pessimiste . Son pendant optimiste est le critère Maximax :

∀a ∈ A u(a) = max

u∈ bU

u (a)

Le critère de la valeur centrale supporté par [SH01], est un compromis entre les deux, tel que :

∀a ∈ A u(a) = 1

2minu∈ bU u (a) + 1

2maxu∈ bU u (a)

L'index de pessimisme-optimisme, introduit dans [Fre86], généralise les trois ap-proches précédentes, dans le sens où il propose de choisir l'alternative optimisant une somme pondérée de la pire et de la meilleure utilité.

∀a ∈ A u(a) = αmin

u∈ bU

u (a) + (1 − α) max

u∈ bU

u (a)

où le paramètre α représente l'inclinaison du décideur entre pessimisme et opti-misme.

Le regret minimum Le critère de regret minimax, introduit par [Sav51] dans le contexte de la décision dans l'incertain (sur les conséquences des choix), a été ensuite proposé par [BBB01, SH01] pour faire des décisions robustes dans le cadre d'incertitudes sur les fonctions d'utilité. Le regret maximal est déni comme la plus grande diérence entre le score de l'alternative choisie et le score d'une autre alternative, sur l'ensemble des utilités. Ce critère choisit l'alternative dont le regret maximal est minimal. La fonction d'utilité nale est donc :

∀a ∈ A u(a) = 1 − max

u∈ bU

max

a0∈A[u (a0) − u (a)]

Le défaut principal de cette approche est son incapacité à vérier le principe d'indépendance aux alternatives non pertinentes. Cela signie que pour un même ensemble d'utilités potentielles, le regret minimax ne donnera pas forcément les mêmes scores aux éléments communs de deux ensembles d'alternatives diérents. Maximisation de l'espérance Le dernier critère présenté est celui de la maxi-misation de l'espérance. L'absence d'une quelconque information de probabilité sur

les hypothèses admissibles, peut être considérée équivalente à une probabilité equi-répartie sur l'ensemble des hypothèses. Dans ce cadre, une décision rationnelle op-timale maximise l'espérance :

∀a ∈ A u(a) = E u∈Uu (a) = 1 n X u∈ bU u (a)

On peut remarquer que les critères réellement envisagés dans la problématique de l'aide à la décision multicritère, pour décider sous utilité strictement incertaine, présentent peu ou pas de paramètres. En eet, le choix d'un critère particulier peut déjà s'avérer délicat et le réglage de paramètres, tels que les poids dans une somme pondérée, complique encore le problème. En eet, dans le contexte de l'aide à la décision, cela implique davantage d'interactions entre le décideur et l'expert, ce qui est contraignant. En revanche, du point de vue de l'apprentissage articiel, cela l'est moins. Cet avantage est exploité par l'algorithme RankBoost.

RankBoost Nous avons vu au paragraphe 5.2.2, que RankBoost opère incrémen-talement. A chaque nouvelle itération, l'algorithme apprend un nouvel ordonnan-ceur, en optimisant une fonction de coût pondérée, de sorte à apprendre en priorité les exemples les moins bien ordonnés par l'ordonnanceur précédent. A chaque nouvel ordonnanceur u est associé un coecient αu. Celui-ci est calculé de sorte à minimiser une borne supérieure sur le risque empirique de l'ordonnanceur fort.

La fonction d'utilité globale est construite comme la somme des scores des or-donnanceurs faibles, pondérés par leurs coecients.

∀a ∈ A u(a) =X

u∈ bU

αuu (a)

Pour résumer, RankBoost construit incrémentalement, à la fois l'ensemble des utilités potentielles Ub (dont le nombre est un paramètre T ) et la fonction d'agréga-tion, en déterminant les poids αu, u ∈ bU de la somme.