Etape 5 : évaluer les options - Proposition d'un mécanisme de sélection d’actions distribuée

Chapitre III : Proposition d'un modèle décisionnel fondé sur le vote

3. Proposition d'un mécanisme de sélection d’actions distribuée

3.6 Etape 5 : évaluer les options

Les options ne respectant pas les veto ont été éliminées lors de l’étape précédente ; les options valides doivent, à présent, être évaluées par chacun des comportements, pour finalement en choisir une à l’étape 6.

Afin d'améliorer les performances du mécanisme de vote, nous souhaitons utiliser un système par classement. C’est-à-dire que chaque comportement exprime ses préférences sous la forme d’une liste ordonnée d’options. Plus particulièrement, nous avons décidé d'utiliser une des variations de la méthode de Borda qui attribue des points aux options en fonction de ce classement, l’ensemble des listes de préférences et des points étant utilisé ultérieurement pour dégager une préférence commune.

Dans cette même optique, les comportements classeront nécessairement toutes les options. Cela permet de ne pas tomber dans un défaut de la méthode qui est de ne pas classer des options pour défavoriser certaines au profit d'autres. Si un comportement transmet un classement incomplet, le mécanisme de sélection d'actions classera automatiquement dernières ex aequo les options n'ayant pas été classées, (et leur attribuera les points en conséquence.)

Les points affectés aux options en fonction de leur classement sont attribués comme dans l'exemple des points minimaux (cf. tableau III.1), c'est-à-dire comme suit : 0 point pour une première place, 1 point pour une seconde place, 2 points pour une troisième, etc.

Dans ce paragraphe nous montrons selon quels critères un comportement peut classer des propositions et donc comment les points sont répartis par le système de vote. Nous distinguons deux types de critères permettant de réaliser un classement soit en comparant les options entre elles, soit selon que les options vérifient ou non une condition.

3.6.1. Classement des options en fonction de préférences relatives

Un comportement est responsable de la manière dont il établit son classement. Celui-ci varie en fonction de la partie de l'application prise en charge. Pour établir son classement, un comportement doit utiliser un critère pour déterminer si une option doit être préférée à une autre. Nous proposons de donner quelques exemples :

Un comportement « inertie » tel que présenté dans la bibliographie favorise les options proches du choix précédent. Il établira donc son classement des options en fonction de leur distance avec le choix précédent. La distance entre deux options o_i et o_j de dimension n est donnée par la formule suivante :

Chapitre III : Proposition d'un modèle décisionnel fondé sur le vote 85

do_i, o_j=



ⁿ

∑

k=1

∣o_{i , k}−o_{j , k}∣n (formule III.6)

Si vt-1 est le choix de l'agent à l'instant précédent, alors l'option oi est préférée à l'option oj si la distance entre oi et vt-1 est inférieure à la distance entre oj et vt-1. Ce qui peut être résumé par la formule suivante :

do_i, v_t₋₁d o_j, v_t₋₁⇒ o_io_j

avec o_io_j signifiant o_i est préférée à o_j^{(formule III.7)}

Un autre exemple simple et générique : un comportement est responsable de la régulation de l'une des variables de commande. C'est le cas de comportements tels que « maintenir une vitesse idéale » (cf. [Sukthankar, 1997]). Ce type de comportement compare les options selon une seule composante k, en fonction de la proximité de la composante des options avec une valeur objectif obj. L'option oi est donc préférée à oj si et seulement si la composante k de oi est plus proche de obj que la composante k de oj. Ce qui peut être noté :

∣vo_{i , k}−obj∣∣vo_{j , k}−obj∣⇒ o_io_j

avec o_io_j signifiant o_i est préférée à o_j^{(formule III.8)}

De même, dans le cadre de déplacements, il est possible de définir des critères de préférences à partir de critères géométriques quelconques. Dans le cadre général, un comportement peut classer les options selon qu'elles maximisent ou minimisent n'importe quelle fonction dépendante de ses composantes, d'un objectif de l'agent ou d'un objet de l'environnement.

Pour prendre en compte le fait qu'un comportement n'ait aucune préférence entre deux options, nous permettons aux comportements de classer des options ex aequo. Un comportement exprime donc ses préférences sous forme d'un pré-ordre total. Dans ce cas le nombre de points accordés aux options ex aequo diffère de ce que préconise la méthode de Borda.

3.6.2. Cas d'options ex aequo

La répartition des points entre les ex aequo est réalisée de la manière suivante : les options se partagent la somme des points correspondant aux places qu'elles occupent.

Par exemple, si les deux premières options sont ex aequo, elles se partagent les points de la première et seconde place soit 1 point (0+1). Le mécanisme de sélection d'actions leur attribue donc 0,5 point à chacune.

De même si trois options sont 4ème ex aequo, elles se partagent les points de la 4ème, 5ème et 6ème place soit 12 points au total ou 4 pour chacune. Les points attribués aux autres options ne changent pas : la 3ème récolte 2 points et la 7ème, 6 points.

Comme les comportements peuvent exprimer leurs préférences sous forme de pré-ordres, il leur est possible de classer les options selon qu'elles vérifient ou non un critère.

3.6.3. Classement des options en fonction de conditions binaires.

Le fait de pouvoir attribuer des points aux options selon qu'elles vérifient ou non une condition permet de ne pas établir de réel classement. En effet, il ne s'agit plus de classer les solutions entre elles mais simplement par rapport à une condition. Cette possibilité est bien

Chapitre III : Proposition d'un modèle décisionnel fondé sur le vote 86

distincte de l'utilisation de veto. Le but des veto est d'exprimer un refus ; avec cette méthode, le comportement exprime une préférence non plus pour une mais pour un groupe d'options.

Les options doivent malgré tout être classées et des points leur sont distribués. Considérons

n options dont m vérifient la condition. Si une option vérifie la condition, elle est classée

première ex aequo. Si elle ne la vérifie pas elle est classée (m+1)ème ex aequo. Le pré-ordre suivant est donc établi :

o₁~ o₂~⋯~ o_mo_m1~ o_m_2~⋯~ o_n

où o_i~ o_j si ( nono_io_j et nono_jo_i ) ^{(formule III.9)}

Etant donné que les options ex aequo se partagent les points de manière équitable alors, les points sont attribués comme suit :

• Les m options qui vérifient la condition reçoivent ensemble la somme des entiers de 0 à m-1. Soit chacune(m-1) / 2 points22.

• Les n-m options qui ne vérifient pas la condition reçoivent chacune (n+m-1)/2 points. La répartition des points entre des options selon une condition est résumée dans le tableau ci-dessous (avec nécessairement n≥m ).

Tableau III.2 : Répartition des points entre des options selon une condition,

avec : n nombre total d'options à évaluer et m nombre d'options correctes.

Option Classement Points attribués

Options qui satisfont la condition o1 o2 ... om 1ères ex aequo

∑

i=0 m−1 i m =^m⁻¹ 2

Options qui ne satisfont pas la condition om+1 om+2 ... on m+1ème ex aequo

∑

i=m n−1 i n−m⁼ nm−1 2

Dans l'exemple suivant, cinq options sont considérées. Quel que soit le classement, 10 points sont distribués (0+1+2+3+4). La répartition de ces 10 points est uniquement fonction du nombre d'options respectant la condition. Trois options vérifient la condition et se partagent (0 + 1 + 2) soit 3 points. Les deux options qui ne la vérifient pas se partagent 3+4 = 7 points. 22 01m−1 m =^m^{∗ m−1} 2∗m ⁼ m−1 2

Chapitre III : Proposition d'un modèle décisionnel fondé sur le vote 87

Tableau III.3 : exemple de répartition des points

entre des options selon une condition (avec m=3 et n=5).

Option Classement Points attribués

Options qui satisfont la condition o1 o2 o3 1ères ex aequo 3−1 2 =1 point Options qui ne satisfont

pas la condition o4 o5 4ème ex aequo 35−1 2 =3,5 points

Cette étape permet donc aux comportements d'exprimer leurs préférences. Pour illustrer la manière dont les préférences sont établies nous avons expliqué comment nous souhaitons voir les points répartis entre les options. Rappelons que ces points sont attribués par le mécanisme de sélection d'actions (et non par les comportements eux-mêmes). Cela permet d'éviter les erreurs ou les « fraudes ».

L'étape suivante est la 6ème et dernière étape de la sélection d'actions. Elle est assez simple parce que la méthode de Borda a été utilisée.

Chapitre III : Proposition d'un modèle décisionnel fondé sur le vote 88

Dans le document Modèle décisionnel orienté comportement fondé sur le vote : Application à la navigation d'agents autonomes en environnement simulé (Page 97-101)