• Aucun résultat trouvé

Auto-optimisation des réseaux sans fil. Une approche par la théorie des jeux

N/A
N/A
Protected

Academic year: 2021

Partager "Auto-optimisation des réseaux sans fil. Une approche par la théorie des jeux"

Copied!
169
0
0

Texte intégral

(1)

HAL Id: tel-00647296

https://tel.archives-ouvertes.fr/tel-00647296

Submitted on 1 Dec 2011

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires

par la théorie des jeux

Pierre Coucheney

To cite this version:

Pierre Coucheney. Auto-optimisation des réseaux sans fil. Une approche par la théorie des jeux. Autre

[cs.OH]. Université de Grenoble, 2011. Français. �NNT : 2011GRENM031�. �tel-00647296�

(2)

Pour obtenir le grade de

DOCTEUR DE L’UNIVERSIT ´ E DE GRENOBLE

Sp ´ecialit ´e : Informatique

Arr ˆet ´e minist ´erial : 7 ao ˆut 2006

Pr ´esent ´ee par

Pierre Coucheney

Th `ese dirig ´ee par M. Bruno Gaujal et codirig ´ee par Mlle. Corinne Touati

pr ´epar ´ee au sein du Laboratoire d’Informatique de Grenoble

et de l’ ´ Ecole Doctorale Math ´ematiques, Sciences et Technologies de l’Information

Auto-optimisation des r ´eseaux sans fil : une approche par la th ´eorie des jeux

Th `ese soutenue publiquement le 31 Ao ˆ ut 2011, devant le jury compos ´e de :

M. Olivier Bournez

Professeur, Polytechnique, Rapporteur

M. Bruno Tuffin

Charg ´e de recherche, INRIA, Rapporteur

M. M ´erouane Debbah

Professeur, Sup ´elec, Examinatrice

M. Yannick Viossat

Maitre de conf ´erence, Universit ´e Paris Dauphine, Examinateur

M. Denis Trystram

Professeur, Universit ´e de Grenoble, Examinateur

M. Laurent Roullet

Chercheur, Bell Labs, Examinateur

M. Bruno Gaujal

Directeur de recherche, INRIA, Directeur de th `ese

Melle. Corinne Touati

(3)
(4)

L’aboutissement de la th` ese doit beaucoup ` a plusieurs personnes que je tiens ` a remercier, en commen¸cant par mes deux directeurs de th` ese : Bruno Gaujal et Corinne Touati. Je mesure encore plus aujourd’hui la chance que j’ai eu de les rencontrer, et je les remercie sinc` erement pour la confiance qu’ils m’ont accord´ ee en me proposant ce sujet de th` ese.

Leur encadrement a ´ et´ e d’une tr` es grande qualit´ e que ce soit par leur disponibilit´ e que par leur goˆ ut pour la science qu’ils m’ont fait partager. Bien que leurs caract` eres soient diff´ erents, ils partagent une curiosit´ e naturelle dans des domaines tr` es vari´ es. C’est cette curiosit´ e qui a ´ et´ e le moteur de ces trois ann´ ees exceptionnelles.

Je remercie tous les membres du jury, et particuli` erement Bruno Tuffin et Olivier Bournez pour avoir accept´ e de rapporter mon manuscript. Leurs commentaires, ainsi que ceux des autres membres, et notamment Yannick Viossat, ont largement contribu´ e

`

a am´ eliorer la qualit´ e du document.

J’ai effectu´ e plusieurs s´ ejours au sein des Bell Labs ` a Villarceaux. Le travail y a ´ et´ e stimulant, et ´ egalement tr` es agr´ eable au sein de l’´ equipe dirig´ ee par Yacine El Mghazli.

Je remercie les personnes avec qui j’ai collabor´ e pour leur investissement, en particulier Barbara Orlandi qui a permis d’aboutir ` a une mise œuvre des algorithmes. Laurent Roullet m’a ´ egalement beaucoup appris sur les r´ eseaux sans fil.

Merci ` a tous les membres des ´ equipes Mescal et Moais pour l’ambiance de travail et les discussions passionantes que ce soit lors des groupes de travail qu’` a la cafet, lieu central de la vie du bˆ atiment. Merci ` a Nicolas et R´ emi pour m’avoir fait d´ ecouvrir les joies du v´ elo dans la magnifique r´ egion Grenobloise.

Je remercie les chercheurs avec qui j’ai eu le plaisir de travailler durant ces trois ann´ ees, et qui m’ont beaucoup appris. En particulier Emmanuel Hyon, Jean-Marc K´ elif, et Alexan- dre Laugier.

En arrivant ` a Grenoble pour la th` ese, j’ai eu la plaisir d’y rencontrer des personnes formidables qui m’ont beaucoup apport´ e humainement, et soutenu dans les p´ eriodes diffi- ciles. Cette th` ese est, de fait, li´ ee ` a ces amiti´ es.

Quelques mots sont vains afin d’exprimer ma reconnaissance pour ma compagne, Julie,

qui a su ´ eclairer par sa pr´ esence ces ann´ ees ` a Grenoble, et qui m’a constamment soutenu

dans mon travail.

(5)
(6)

Remerciements 3

1 Introduction 9

1.1 Contexte de la th` ese : le laboratoire commun INRIA / Alcatel-Lucent Bell

Labs . . . . 9

1.2 Optimisation des r´ eseaux sans fil . . . . 10

1.2.1 Les r´ eseaux de communication sans fil . . . . 10

1.2.2 Contrˆ ole des r´ eseaux sans fil . . . . 12

1.2.3 Objectifs de la th` ese . . . . 13

1.3 Organisation de la th` ese et contributions . . . . 14

2 M´ ecanismes d’incitation entre plusieurs entit´ es ind´ ependantes 17 2.1 Pr´ esentation g´ en´ erale du probl` eme d’incitation . . . . 18

2.1.1 Mod` ele et notations . . . . 18

2.1.2 Formulation du probl` eme d’incitation . . . . 21

2.1.3 Exemples . . . . 22

2.2 Une approche en strat´ egies dominantes . . . . 24

2.2.1 Description de l’approche . . . . 24

2.2.2 Les ench` eres g´ en´ eralis´ ees . . . . 25

2.2.3 Limite de l’incitation en strat´ egies dominantes . . . . 26

2.3 Une approche par fonction de potentiel . . . . 27

2.3.1 Description de l’approche . . . . 28

2.3.2 Construction d’un m´ ecanisme d’incitation par fonction de potentiel dans les jeux finis . . . . 30

2.3.3 Application ` a des probl` eme d’allocation de ressources . . . . 30

2.4 Un exemple o` u les deux approches ´ echouent : inciter des joueurs ` a participer

`

a une coalition . . . . 32

(7)

2.4.2 M´ ecanisme d’incitation en strat´ egies dominantes . . . . 34

2.4.3 M´ ecanisme d’incitation par fonction de potentiel . . . . 34

3 Jeux de potentiel et mod` eles d’apprentissage 37 3.1 D´ efinitions et r´ esultats g´ en´ eraux sur les jeux . . . . 38

3.1.1 Jeux finis . . . . 38

3.1.2 Jeux continus et extension mixte des jeux finis . . . . 39

3.2 Jeux de potentiel . . . . 47

3.2.1 Fonction de potentiel dans les jeux finis . . . . 47

3.2.2 Fonction de potentiel dans les jeux continus . . . . 49

3.3 L’apprentissage dans les jeux . . . . 55

3.3.1 Quantifier le coˆ ut de l’apprentissage . . . . 57

3.3.2 Robustesse des r´ esultats . . . . 58

3.4 L’algorithme de meilleure r´ eponse . . . . 62

3.5 L’apprentissage par la r` egle du jeu fictif . . . . 69

4 Le mod` ele stochastique de meilleure r´ eponse 73 4.1 Algorithme stochastique de meilleure r´ eponse asynchrone . . . . 74

4.1.1 Interpr´ etations de l’algorithme stochastique de meilleure r´ eponse ` a partir de mod` eles d’apprentissage . . . . 75

4.1.2 Analyse de l’algorithme dans les jeux de potentiel . . . . 76

4.2 Utilisation de l’algorithme stochastique de meilleure r´ eponse pour l’optimi- sation du routage dans les r´ eseaux ad hoc de mobiles . . . . 79

4.2.1 Mod´ elisation du r´ eseau ad hoc . . . . 80

4.2.2 Impl´ ementation de l’algorithme stochastique de meilleure r´ eponse . 83 4.2.3 Etude num´ ´ erique . . . . 85

4.3 Robustesse de la dynamique stochastique de meilleure r´ eponse aux processus de r´ evision des strat´ egies . . . . 87

4.3.1 Caract´ erisation des ´ etats stochastiquement stables pour les processus de r´ evision g´ en´ eraux . . . . 90

4.3.2 Convergence vers les ´ equilibres de Nash . . . . 95

4.3.3 Contre-exemples sur la s´ election des ´ equilibres optimaux dans les jeux de potentiel . . . . 97

5 Extension mixte du mod` ele de meilleure r´ eponse 101 5.1 Dynamique de meilleure r´ eponse dans l’extension mixte des jeux finis . . . 102

5.1.1 Construction d’une m´ etrique qui garantit l’existence de solutions . . 102

5.1.2 Dynamique de meilleure r´ eponse . . . . 105

5.1.3 Propri´ et´ es de la dynamique de meilleure r´ eponse . . . . 109

5.1.4 Convergence dans les jeux de potentiel . . . . 117

5.2 Impl´ ementation de la dynamique de meilleure r´ eponse . . . . 120

5.2.1 R´ esultats g´ en´ eraux sur les approximation stochastiques . . . . 121

(8)

5.2.3 Prise en compte du processus de r´ evision et de l’incertitude sur les gains dans l’approximation stochastique . . . . 129 5.2.4 Convergence de l’approximation stochastique dans les jeux de potentiel130 5.3 Application au probl` eme d’association de mobiles ` a des r´ eseaux h´ et´ erog` enes 138 5.3.1 Pr´ esentation du probl` eme g´ en´ eral . . . . 138 5.3.2 Impl´ ementation de l’algorithme d’association des mobiles aux cellules 140 5.3.3 Simulation de l’algorithme . . . . 144

Conclusion et extensions 155

Bibliographie 161

(9)
(10)

1

INTRODUCTION

1.1 Contexte de la th` ese : le laboratoire commun INRIA / Alcatel-Lucent Bell Labs

La th` ese pr´ esent´ ee dans ce document s’est d´ eroul´ ee dans le cadre d’un laboratoire commun entre l’INRIA et Alcatel Lucent, dont les Bell Labs sont la division de recherche et de d´ eveloppement. Alcatel Lucent est une entreprise dont l’un des cœurs de m´ etier est le d´ eveloppement et la construction d’infrastructures de t´ el´ ecommunication. Dans le domaine des t´ el´ ecommunications, Alcatel Lucent est l’un des principaux constructeurs de r´ eseaux sans fil, et participe activement, ` a travers les organismes de normalisation, ` a leur d´ eveloppement.

Le laboratoire commun entre l’INRIA et Alcatel Lucent est articul´ e autour de trois axes de recherche recouvrant chacun plusieurs sujets de recherche et plusieurs th` eses. Le travail pr´ esent´ e dans ce document s’int` egre dans l’action de recherche “Selfnets” (Self-optimized mobile cellular networks), dont l’objectif premier est de d´ evelopper des m´ ethodes et des algorithmes distribu´ es, c’est-` a-dire qui reposent sur des information et des d´ ecisions locales, dans les r´ eseaux sans fil afin d’optimiser l’utilisation globale de ces r´ eseaux.

Actuellement, les technologies sans fil se complexifient sans cesse, et la gestion des param` etres devient une tache de plus en plus lourde. L’auto-optimisation vise ` a automa- tiser le choix des param` etres en fonction de l’´ evolution de l’environnement. De plus, l’aug- mentation soutenue des volumes de donn´ ees qui passent par les r´ eseaux sans fil tend ` a les saturer. Il est donc n´ ecessaire d’´ etablir des strat´ egies afin de, par exemple, r´ epartir la charge sur les diff´ erents points d’acc` es sans fil. Actuellement, cela est r´ ealis´ e par des politiques statiques dans lesquelles les mobiles se connectent prioritairement via des points d’acc` es Wifi. Cela ne tient compte ni de la qualit´ e de service requise par les mobiles, ni de l’´ etat global, qui change au cours du temps, des autres r´ eseaux auxquels le mobile peut se connecter.

Cette th` ese s’inscrit dans cette probl´ ematique d’´ equilibrage de charge dynamique, et

(11)

automatique des mobiles sur les points d’acc` es sans fil, et de mani` ere plus g´ en´ erale, dans les probl´ ematiques li´ ees au routage dans les r´ eseaux.

1.2 Optimisation des r´ eseaux sans fil

La sp´ ecificit´ e des r´ eseaux sans fil r´ eside non seulement dans le support des communi- cations, les ondes ´ electromagn´ etiques, dont la gestion des ressources est critique pour les performances, mais ´ egalement dans la mobilit´ e des usagers que les communications sans fil rendent possible. Il y a donc plusieurs niveaux d’optimisation.

1.2.1 Les r´ eseaux de communication sans fil

Le terme “r´ eseau sans fil” regroupe l’ensemble des r´ eseaux dont une partie au moins des communications est assur´ ee par des liaisons radio

1

. Les communications sans fil pr´ esentent plusieurs avantages par rapport aux communications filaires. D’une part, elles autorisent la mobilit´ e des utilisateurs, et d’autre part, leur infrastructure est beaucoup plus l´ eg` ere et rapide ` a d´ eployer. Mais leur capacit´ e est g´ en´ eralement inf´ erieure ` a celle des r´ eseaux filaires.

De ce fait, les liaisons sans fil constituent les points critiques du r´ eseau, c’est-` a-dire que ce sont les liaisons qui limitent le d´ ebit des communications. Elles constituent ce qu’on appelle les goulots d’´ etranglement du r´ eseau, et, de leur bonne gestion d´ epend les performances du r´ eseau dans sa globalit´ e.

Le r´ eseau sans fil le plus connu est certainement le r´ eseau de t´ el´ ephonie mobile, ´ ega- lement appel´ e r´ eseau cellulaire. Il regroupe une grande vari´ et´ e de technologies comme GSM, UMTS, LTE. Mais, de plus en plus, les r´ eseaux cellulaires sont utilis´ es pour des applications autrefois r´ eserv´ ees aux communications filaires, parmi lesquelles on peut citer les applications du web, le t´ el´ echargement de fichiers, le streaming vid´ eo. Il en r´ esulte une augmentation croissante des d´ ebits observ´ es sur ces r´ eseaux depuis ces derni` eres ann´ ees.

Dans les r´ eseaux cellulaires, la partie sans fil sert principalement ` a relier les usagers au coeur du r´ eseau, qui est filaire, par l’interm´ ediaire d’une station de base, que nous appelons de fa¸con g´ en´ erique un point d’acc` es

2

.

Les communications sans fil servent ´ egalement ` a l’´ etablissement de r´ eseaux, reposant exclusivement sur des liaisons sans fil, qui n’ont aucune infrastructure pr´ ealable, et qui autorisent la topologie ` a changer au cours du temps. C’est ce que l’on appelle les r´ eseaux ad hoc de mobiles, qui sont utilis´ es dans de nombreuses applications : ils permettent no- tamment de reconstituer rapidement des communications apr` es une catastrophe naturelle.

1. En fait, peu de r´ eseaux de communications sans fil sont constitu´ es exclusivement de liaisons radio.

2. Nous appelons “point d’acc` es” toute antenne, que ce soit pour le Wifi ou les r´ eseaux cellulaires, qui

permet de connecter un mobile au reste du r´ eseau.

(12)

Les communications sans fil

Les ondes ´ electromagn´ etiques sont le support des communications sans fil. Contraire- ment aux liaisons filaires, les ondes ´ electromagn´ etiques se propagent dans toutes les di- rections s’il n’y a pas d’obstacles. En fonction de l’environnement, l’onde subit plusieurs alt´ erations dues principalement aux ph´ enom` enes de diffraction, de r´ eflexion et d’att´ enuation.

Il en r´ esulte une grande variabilit´ e du signal au niveau d’un r´ ecepteur, mˆ eme si ce dernier a une position g´ eographique fixe. Le ph´ enom` ene associ´ e aux variations rapides du signal porte le nom de fading, alors que celui associ´ e aux variations lentes est appel´ e shadowing, chacun r´ esultant d’un ph´ enom` ene physique diff´ erent.

Plusieurs ressources interviennent de fa¸con critique dans les communications sans fil : – Les fr´ equences employ´ ees : en plus de la variabilit´ e du signal re¸cu d’une antenne,

plusieurs antennes peuvent interf´ erer si elles ´ emettent sur des fr´ equences proches. La capacit´ e des r´ eseaux sans fil est donc limit´ e par l’ensemble des fr´ equences utilisables.

– L’´ energie des mobiles : les communications sans fil n´ ecessitent une ´ energie plus im- portante que les communications filaires. Or les mobiles sont g´ en´ eralement de petits appareils dont la batterie a une capacit´ e limit´ ee. Cette ´ energie doit donc ˆ etre utilis´ ee

`

a bon escient.

– Les ressources du point d’acc` es : en fonction de la technologie de multiplexage em- ploy´ ee, les ressources (fr´ equences, temps, ou codes) sont partag´ ees entre les diff´ erents mobiles connect´ es au mˆ eme point d’acc` es. Il faut noter que, contrairement aux liaisons filaires, le partage des ressources d´ egrade les performances globales. Par exemple, le d´ ebit d’un point d’acc` es est une fonction qui est largement sous-additive en fonction du nombre d’utilisateurs.

La mobilit´ e

La possibilit´ e de maintenir une communication tout en se d´ epla¸cant, est l’un des prin- cipaux avantages des communications sans fil. Mais cela repr´ esente ´ egalement une source de difficult´ es pour la gestion des r´ eseaux.

On distingue en fait deux types de mobilit´ e. D’une part, il y a les mobiles qui se d´ eplacent, et d’autre part, ceux qui initient ou terminent une communication. La mobilit´ e est intrins` equement un ph´ enom` ene al´ eatoire qui vient s’ajouter, mais sur une ´ echelle de temps plus large, aux fluctuations al´ eatoires du signal des communications sans fil. La mod´ elisation de la mobilit´ e est en soi-mˆ eme un sujet difficile qui fait partie des axes de recherche du laboratoire commun.

De mani` ere g´ en´ erale, la mod´ elisation fine des communications sans fil est tr` es complexe.

En plus de la mobilit´ e, il est n´ ecessaire de mod´ eliser le syst` eme physique, en particulier la propagation du signal dans un environnement donn´ e, mais ´ egalement les interactions entre les diff´ erentes couches de protocole utilis´ ees pour les communications. ` A cela s’a- joute la mod´ elisation des diff´ erents types d’applications support´ ees par les communications (t´ el´ ephonie, t´ el´ echargement de donn´ ees...).

Dans cette th` ese, nous ´ evaluons la qualit´ e des solutions que nous proposons par des sim-

(13)

ulations sur des mod` eles simples qui nous permettent d’analyser la sensibilit´ e des r´ esultats

`

a certains param` etres. N´ eanmoins, un travail est en cours actuellement pour ´ etendre ces tests sur des prototypes et des syst` emes r´ eels en collaboration avec des chercheurs des Bell Labs. Nous ne pr´ esentons pas le d´ etail de ces impl´ ementations dans ce document, car elles reposent sur des informations confidentielles.

1.2.2 Contrˆ ole des r´ eseaux sans fil

La connexion d’un mobile ` a un point d’acc` es au r´ eseau implique d’une part l’usager qui d´ ecide d’´ etablir une connexion, et d’autre part l’op´ erateur du point d’acc` es qui g` ere ensuite la communication. L’op´ erateur dispose de diff´ erents moyens d’actions pour satisfaire au mieux les requˆ etes des usagers.

Les crit` eres des usagers : la qualit´ e de service

La qualit´ e de service d’un mobile est une notion subjective qui d´ epend en fait de l’usager et de l’application qu’il utilise. Bien souvent, la qualit´ e de service int` egre plusieurs crit` eres.

Pour les communications ayant des contraintes temporelles fortes, comme la t´ el´ ephonie, le d´ elai est un crit` ere pr´ epond´ erant, alors que pour le t´ el´ echargement de fichiers, il s’agit plutˆ ot du d´ ebit.

Les crit` eres des op´ erateurs

L’objectif des op´ erateurs est de satisfaire au mieux la qualit´ e de service de ses clients.

Cela implique de g´ erer les ressources du r´ eseau le plus efficacement possible. Les mesures de performance couramment utilis´ ees sont le temps de s´ ejour moyen des mobiles, la probabilit´ e qu’un mobile ne puisse pas se connecter au r´ eseau (pour cause de saturation), ou encore, la probabilit´ e qu’un mobile en cours de communication voit sa connexion s’interrompre. Il s’agit donc de crit` eres dynamiques qui reposent sur des moyennes temporelles.

Moyens d’action

L’op´ erateur qui g` ere un ensemble de points d’acc` es sans fil agit sur le r´ eseau ` a diff´ erents niveaux

3

:

1. Par la construction et le dimensionnement des infrastructures n´ ecessaires aux com- munications. Cela se fait sur une ´ echelle de temps large, et r´ esulte ` a la fois d’une ´ etude statistique pour anticiper la demande, et de la r´ esolution de probl` emes de combina- toire complexes afin de r´ epartir au mieux les antennes (et ´ egalement les fr´ equences utilis´ ees par les antennes).

2. Par la mise en place d’une tarification et de services diff´ erenti´ es.

3. Les deux derniers points ne sont pas r´ eellement contrˆ ol´ es par l’op´ erateur. Les d´ ecisions sont cod´ ees

dans le mat´ eriel qui est vendu par le constructeur. L’op´ erateur peut n´ eanmoins r´ egler certains param` etres.

(14)

3. Par le choix d’un point d’acc` es pour la communication d’un mobile. Bien souvent, un mobile peut se connecter via plusieurs antennes et ce choix est g´ er´ e de fa¸con automatique par le r´ eseau. Cela permet de r´ epartir la charge sur l’ensemble des antennes, ce qui constitue une forme particuli` ere de routage. La gestion du choix du point d’acc` es se fait ` a chaque communication.

4. Par le partage des ressources d’un point d’acc` es (fr´ equences, puissance...). La gestion des ressources se fait ` a l’´ echelle de temps de l’´ emission d’un paquet.

Notons que les usagers peuvent ´ egalement intervenir dans le choix du point d’acc` es au r´ eseau, notamment par le choix de la technologie. L’op´ erateur doit alors inciter les usagers

`

a agir d’une mani` ere qui est globalement efficace.

1.2.3 Objectifs de la th` ese

Dans cette th` ese on aborde le probl` eme de l’optimisation des pr´ ef´ erences de l’op´ erateur par le contrˆ ole du routage (ou le choix d’un point d’acc` es) des communications des mobiles.

On suppose que les autres moyens d’action (dimensionnement, tarification, gestion des ressources) sont fix´ es.

Optimisation dynamique ou approche gloutonne

L’optimisation des pr´ ef´ erences de l’op´ erateur peut ˆ etre vue comme un probl` eme d’op- timisation dynamique avec plusieurs crit` eres. Durant la th` ese, nous avons travaill´ e sur des m´ ethodes d’optimisation dynamique avec contraintes qui reposent sur les semi-processus de d´ ecision markoviens. Les r´ esultats que nous avons obtenus ont ´ et´ e soumis dans les actes d’une conf´ erence [CHT11].

Le probl` eme de ces m´ ethodes est d’une part que leur complexit´ e est exponentielle en la taille du syst` eme, et, de plus, qu’elles n´ ecessitent une connaissance et un contrˆ ole global du syst` eme (´ etat du syst` eme en chaque instant, statistiques sur la mobilit´ e...). C’est pourquoi nous les avons compar´ ees avec des m´ ethodes gloutonnes [CHTG09], c’est-` a-dire bas´ ees sur l’optimisation d’un crit` ere instantan´ e, qui ne d´ ependent pas d’un contrˆ oleur centralis´ e. En l’occurrence, nous avons montr´ e que, si le syst` eme n’est pas trop charg´ e, alors l’optimisation du d´ ebit global du syst` eme ` a chaque instant (ou au moins ` a chaque ´ ev´ enement) donne des performances quasiment optimales en terme de temps moyen de s´ ejour des mobiles.

Par soucis de coh´ erence du document, ces r´ esultats ne sont pas pr´ esent´ es ici. N´ eanmoins, ils justifient l’approche que nous d´ eveloppons dans la suite, qui repose sur l’optimisation instantan´ ee des performances du syst` eme.

Approche par la th´ eorie des jeux

La th´ eorie des jeux analyse le r´ esultat de situations dans lesquelles plusieurs entit´ es

prennent des d´ ecisions en vue de maximiser leur propre int´ erˆ et. La th´ eorie des jeux est ` a l’in-

terface de nombreuses disciplines, notamment les math´ ematiques, l’´ economie, la biologie,

(15)

et l’informatique. Le r´ esultat th´ eorique d’un jeu d´ epend de la mod´ elisation du comporte- ment des joueurs, et notamment de l’information dont ils disposent. Le comportement des joueurs est mod´ elis´ e par des hypoth` eses sur leur rationalit´ e, et ´ egalement par leur mani` ere de s’adapter ` a la r´ ep´ etition du jeu (qui est appel´ ee “mod` ele d’apprentissage”).

Dans les probl` emes de routage, il est naturel de mod´ eliser les usagers par des joueurs qui cherchent ` a maximiser leur qualit´ e de service. Les performances (instantan´ ees) du syst` eme d´ ependent uniquement du r´ esultat du jeu. Le probl` eme de l’optimisation distribu´ ee des performances se traduit, ici, par la construction d’un jeu, et par l’impl´ ementation d’un mod` ele d’apprentissage de mani` ere ` a ce que le r´ esultat du jeu corresponde ` a des performances optimales du syst` eme.

L’originalit´ e de notre approche r´ eside dans le fait de consid´ erer conjointement la con- struction (que l’on appelle m´ ecanisme d’incitation) et le mod` ele d’apprentissage, alors qu’` a notre connaissance, tous les articles, dans le domaine de l’informatique, qui reposent sur la th´ eorie des jeux, supposent donn´ e, a priori, l’un des deux. L’exemple typique est celui du prix de l’anarchie, dans lequel il est consid´ er´ e comme acquis que le r´ esultat du jeu est un ´ equilibre de Nash.

Nous prenons ´ egalement en consid´ eration, dans les mod` eles d’apprentissage que nous proposons, la possibilit´ e de leur impl´ ementation dans des syst` emes r´ eels. Nous int´ egrons dans nos mod` eles les fluctuations al´ eatoires qui sont inh´ erentes aux r´ eseaux sans fil. De plus, en raison de l’aspect fortement d´ ecentralis´ e des r´ eseaux, il est impossible d’assurer la synchronisation parfaite de la prise des d´ ecisions par les usagers. Nous prenons ´ egalement en compte ce param` etre dans l’analyse de nos mod` eles.

1.3 Organisation de la th` ese et contributions

La th` ese est articul´ ee en quatre chapitres. Les liens entre les travaux de la th` ese et les travaux existants sont introduits au fur et ` a mesure des chapitres. Dans tout le document, les r´ esultats (th´ eor` emes et propositions) existants se distinguent par la r´ ef´ erence bibli- ographique qui les accompagne. Leur d´ emonstration n’est pas donn´ ee, sauf si la technique utilis´ ee est employ´ ee dans d’autres d´ emonstrations.

Nous terminons par une conclusion et des extensions des travaux d´ evelopp´ es dans cette th` ese pouvant donner lieu ` a de futures recherches.

Chapitre 2 : M´ ecanismes d’incitation entre plusieurs entit´ es ind´ ependantes

Ce chapitre porte sur la construction de m´ ecanismes d’incitation. Habituellement, les m´ ecanismes d’incitation reposent sur la construction d’un jeu en strat´ egies dominantes.

Nous montrons, dans ce chapitre, la limite de cette approche, et nous proposons une

autre approche, bas´ ee sur la construction d’un jeu de potentiel, qui permet de r´ esoudre

le probl` eme de l’anonymat des joueurs dans les jeux de routage. De plus, dans certaines

situations, ce m´ ecanisme est compl` etement distribu´ e. Pour finir, nous montrons les limites

de notre approche pour r´ esoudre le probl` eme d’incitation par le contrˆ ole du partage des

(16)

gains dans un jeu de coalition.

Chapitre 3 : Jeux de potentiel et mod` eles d’apprentissage

Le chapitre pr´ ec´ edent repose sur l’hypoth` ese que le r´ esultat d’un jeu de potentiel est connu. ` A partir de ce chapitre nous allons justifier ce point, en proposant des mod` eles d’apprentissage qui aboutissent ` a ce r´ esultat.

Ce chapitre est une introduction aux deux chapitres suivant. Il ne comporte pas de contribution importante. Nous y rappelons les principaux r´ esultats existants sur les jeux en g´ en´ eral et les jeux de potentiel en particulier, dans le cas d’espaces de strat´ egies finis et continus. Ensuite, nous justifions l’usage de mod` eles d’apprentissage, et nous mettons en lumi` ere les contraintes d’impl´ ementation de ces mod` eles. Enfin, nous analysons deux mod` eles d’apprentissage classiques.

Chapitre 4 : Le mod` ele stochastique de meilleure r´ eponse

Le mod` ele stochastique de meilleure r´ eponse est un mod` ele d’apprentissage simple dans lequel les gains des joueurs sont soumis ` a des perturbations al´ eatoires. Un r´ esultat classique affirme que, par l’ajout de bruit, le r´ esultat de l’apprentissage dans un jeu de potentiel est un ´ etat qui maximise le potentiel. Partant de ce r´ esultat, nous proposons un algo- rithme pour optimiser le routage dans les r´ eseaux de mobile ad hoc, et nous d´ etaillons une impl´ ementation possible de cet algorithme. Malheureusement, ce r´ esultat n’est plus valable d` es lors que les joueurs ne modifient pas, dans le mod` ele d’apprentissage, leur strat´ egie de mani` ere asynchrone. Dans la derni` ere section du chapitre, nous caract´ erisons les r´ esultats du jeu en fonction du processus de r´ evision, c’est-` a-dire de la synchronisation des joueurs.

Chapitre 5 : Extension mixte du mod` ele de meilleure r´ eponse

Ce chapitre concentre la plus grande partie des contributions de la th` ese.

Le mod` ele d’apprentissage du chapitre pr´ ec´ edent n’est pas robuste au processus de r´ evision des strat´ egies. Une des raisons est que c’est un algorithme qui ´ evolue dans un espace discret (l’ensemble des strat´ egies d’un jeu fini). En consid´ erant l’extension mixte des jeux, c’est-` a-dire des strat´ egies al´ eatoires, nous proposons un mod` ele d’apprentissage qui ´ evolue dans un espace continu, que nous appelons dynamique de meilleure r´ eponse. La dynamique de meilleure r´ eponse peut prendre diff´ erentes formes en fonction de la m´ etrique employ´ ee. Nous donnons des conditions sur la m´ etrique pour que le mod` ele soit bien d´ efini, et nous montrons que, par un choix particulier de m´ etrique, la dynamique de meilleure r´ eponse correspond ` a la dynamique de r´ eplication. Nous analysons les propri´ et´ es de ces dynamiques, notamment leur convergence. Ensuite, nous en proposons une impl´ ementation reposant sur la th´ eorie des approximations stochastiques dont nous analysons les propri´ et´ es.

Nous montrons que ces r´ esultats sont robustes ` a la fois aux fluctuations al´ eatoires des gains

du jeu, et au processus de r´ evision des strat´ egies. Cette impl´ ementation est enfin illustr´ ee

dans un probl` eme d’association de mobiles ` a des points d’acc` es sans fil.

(17)
(18)

2

M´ ECANISMES D’INCITATION ENTRE PLUSIEURS ENTIT´ ES IND´ EPENDANTES

R´ esum´ e du chapitre

Dans ce chapitre, on s’int´ eresse ` a la construction de m´ ecanismes qui incitent des entit´ es ind´ ependantes les unes des autres (agents ´ economiques, utilisateurs de ressources dans les r´ eseaux de communication...) ` a agir de mani` ere ` a maximiser un crit` ere global. Un tel m´ ecanisme peut ˆ etre mod´ elis´ e par un jeu impliquant ces diff´ erentes entit´ es dans lequel un op´ erateur

1

peut imposer des p´ enalit´ es qui d´ ependent des actions prises par les joueurs.

Cependant, d´ eterminer le r´ esultat d’un jeu est, en g´ en´ eral, un probl` eme difficile qui repose ` a la fois sur la mod´ elisation du comportement des joueurs et sur l’analyse de ce mod` ele. La plupart des m´ ecanismes d’incitation reposent sur la construction d’un jeu ayant des strat´ egies dominantes. Leur utilisation est conditionn´ ee par le fait que les joueurs vont effectivement choisir une telle strat´ egie. N´ eanmoins, ces m´ ecanismes atteignent leur limite lorsque l’on contraint les p´ enalit´ es ` a ˆ etre anonymes. Nous montrons alors que l’on peut, dans certaines situations comme, par exemple, les jeux de routage, imposer des p´ enalit´ es qui tiennent compte de l’anonymat des joueurs, et telles que le jeu ainsi obtenu est un jeu de potentiel.

L’organisation du chapitre est la suivante : nous commen¸cons en d´ etaillant notre mod` ele et ce que l’on entend par “m´ ecanisme d’incitation”. Dans la deuxi` eme section, nous rap- pelons le principal r´ esultat concernant la construction de strat´ egies dominantes, qui est le m´ ecanisme VCG. Nous montrons ´ egalement la limite de l’approche en strat´ egies domi- nantes. Dans la troisi` eme section, nous proposons une deuxi` eme approche qui repose sur les jeux de potentiel. Enfin, dans la derni` ere section, nous montrons que ces deux approches

´

echouent ` a r´ esoudre le probl` eme dans lequel on cherche ` a inciter des joueurs ` a participer ` a une coalition ` a partir du contrˆ ole du partage des gains des coalitions.

1. Aussi appel´ e r´ egulateur ou planificateur. N´ eanmoins, nous optons pour “op´ erateur” afin de garder

la terminologie des r´ eseaux.

(19)

IND´ EPENDANTES

2.1 Pr´ esentation g´ en´ erale du probl` eme d’incitation

Un des objectifs de l’analyse ´ economique est la construction de m´ ecanismes incitant des agents ` a agir selon l’int´ erˆ et d’une organisation. Ces m´ ecanismes se traduisent par des lois au niveau des ´ etats, comme par exemple celles visant ` a r´ eguler les monopoles sur les march´ es, ou, sur une ´ echelle plus petite, par des r` egles au niveau des entreprises.

Les m´ ecanismes d’incitation, c’est-` a-dire les lois ou les r` egles qui sont ´ edict´ ees, visent un but qui a ´ et´ e fix´ e par l’organisation qui les met en place. L’instauration d’un m´ ecanisme d’incitation a un coˆ ut pour l’organisation car il implique des contrˆ oles pour v´ erifier que les r` egles sont bien respect´ ees. Il faut donc pouvoir ´ evaluer le gain d’un tel m´ ecanisme, ce qui suppose de disposer de mod` eles de comportement des agents suffisamment pr´ ecis.

On retrouve en informatique le mˆ eme type de probl´ ematiques en ce qui concerne le partage des ressources, et plus particuli` erement les ressources de calcul et de communica- tion. Dans les r´ eseaux informatiques, il y a d’une part des utilisateurs dont les d´ ecisions reposent sur des crit` eres individuels de qualit´ e de service et une vision tr` es locale du r´ eseau, et d’autre part, un op´ erateur qui doit faire en sorte que le r´ eseau fonctionne globalement de fa¸con efficace. Il est clair que, si chaque utilisateur d´ esire le d´ ebit le plus large possible et qu’aucune restriction n’existe, le r´ eseau deviendra rapidement satur´ e et inutilisable.

Parmi les moyens d’action de l’op´ erateur, il y a d’abord la possibilit´ e de dimensionner le r´ eseau en fonction des besoins des utilisateurs, ce qui implique d’´ evaluer les performances et de renforcer le r´ eseau au niveau des points de congestion. Ensuite, l’op´ erateur peut utiliser des m´ ecanismes d’incitation qui peuvent prendre la forme de tarification ou de contraintes d’utilisation (limitation du t´ el´ echargement par exemple). Mais la plupart des m´ ecanismes de contrˆ ole du r´ eseau sont en fait int´ egr´ es directement dans les terminaux des utilisateurs sous forme de protocole de communication. C’est le cas, par exemple, avec le protocole TCP pour le contrˆ ole de congestion ou le protocole CSMA/CA pour l’acc` es au m´ edia pour les communications en Wifi. En quelque sorte, ces protocoles ont ´ et´ e construits comme des m´ ecanismes visant ` a inciter

2

les terminaux ` a agir localement de mani` ere ` a avoir un usage du r´ eseau globalement efficace.

Dans ce chapitre, nous nous pla¸cons dans un mod` ele plus g´ en´ eral que le cadre informa- tique, mais nous illustrons les r´ esultats avec des applications ` a des probl` emes d’allocation de ressources dans les r´ eseaux.

2.1.1 Mod` ele et notations

Consid´ erons un syst` eme g´ en´ eral qui peut ˆ etre dans plusieurs ´ etats (une fa¸con de partager des ressources de communication entre plusieurs utilisateurs, un routage de diff´ erents flux de communication...). L’´ etat du syst` eme est en partie contrˆ ol´ e par un op´ erateur, et par des entit´ es ind´ ependantes les unes des autres

3

, que nous appelons des joueurs. L’op´ erateur

2. Le terme “inciter” est un peu abusif ici car les terminaux n’ont, contrairement aux utilisateurs, aucun int´ erˆ et dans la communication.

3. Par ind´ ependant, on entend que ces entit´ es n’ont pas de possibilit´ es de communication entre elles,

et donc pas de moyens directs d’entente et de coordination.

(20)

et les joueurs ont des pr´ ef´ erences individuelles sur les ´ etats du syst` eme. En g´ en´ eral, la pr´ ef´ erence de l’op´ erateur est li´ ee ` a celle des joueurs, par exemple si les pr´ ef´ erences des joueurs sont donn´ ees par des valeurs pour chaque ´ etat, et si la pr´ ef´ erence de l’op´ erateur est la somme de ces valeurs. Le probl` eme g´ en´ eral consiste, pour l’op´ erateur, a inciter les joueurs ` a agir de mani` ere ` a maximiser sa pr´ ef´ erence. Cela passe par la construction d’un m´ ecanisme d’incitation.

Les deux principales difficult´ es auxquelles l’op´ erateur peut ˆ etre confront´ e sont, d’une part, qu’il ne connaˆıt pas les pr´ ef´ erences des joueurs, on parle alors de pr´ ef´ erences priv´ ees, et d’autre part, qu’il ne contrˆ ole pas le choix de l’´ etat final (mais peut n´ eanmoins imposer des p´ enalit´ es).

Plus formellement, on note U l’ensemble des joueurs et E l’ensemble des ´ etats du syst` eme. Pour ´ eviter les probl` emes d’impl´ ementation des m´ ecanismes que nous allons pr´ esenter, nous supposons que ces ensembles sont finis.

Pr´ ef´ erences sur l’ensemble des ´ etats

L’op´ erateur et les joueurs ont des pr´ ef´ erences sur l’ensemble E des ´ etats. Ces pr´ ef´ erences peuvent prendre la forme soit d’un ordre total sur les ´ etats, soit (ce qui implique ´ egalement un ordre total) une fonction qui ` a chaque ´ etat associe une valeur. Dans ce deuxi` eme cas, les pr´ ef´ erences sont appel´ ees valuations. On note v

u

la valuation du joueur u, et V la valuation de l’op´ erateur. Les valuations sont donc des fonctions de E dans R . Il se peut que la valuation de l’op´ erateur d´ epende de la valuation des joueurs : par exemple si V = X

u∈U

v

u

. Dans ce cas, le probl` eme du choix de l’´ etat qui maximise V est commun´ ement appel´ e probl` eme du choix social (voir par exemple le chapitre 9 dans [Nis07]).

Les valuations peuvent repr´ esenter une valeur mon´ etaire (ex : le prix d’un bien), mais

´

egalement une grandeur physique (ex : le d´ ebit d’une communication), ou de fa¸con plus abstraite une utilit´ e. On suppose qu’il est coh´ erent d’additionner et de comparer les val- uations des joueurs. Dans le cas de grandeurs physiques, cela signifie que les valeurs sont exprim´ ees dans la mˆ eme unit´ e.

Il existe essentiellement deux situations : l’une pour laquelle les pr´ ef´ erences des joueurs sont publiques, c’est-` a-dire connues par l’op´ erateur, et l’autre o` u les pr´ ef´ erences sont compl` etement priv´ ees

4

.

Construction d’un m´ ecanisme

Nous nous pla¸cons ici dans le cas de pr´ ef´ erences donn´ ees par des valuations.

4. Il est ´ egalement possible que les pr´ ef´ erences des joueurs soient en partie publiques et en partie priv´ ees comme dans [San07]. L’exemple classique est le choix d’une technologie de communication : plus le nombre de personnes utilisant une technologie de communication est grand, plus le nombre de contacts que l’on a, et donc la pr´ ef´ erence ` a choisir cette technologie est grande. Ceci est une pr´ ef´ erence publique.

N´ eanmoins, certains individus, pour des consid´ erations diverses (morales, esth´ etiques...), peuvent person-

nellement pr´ ef´ erer une technologie ` a une autre mˆ eme si elle ne donne pas acc` es au plus grand nombre de

contacts. Il s’agit l` a d’une pr´ ef´ erence priv´ ee.

(21)

IND´ EPENDANTES Le choix de l’´ etat dans l’ensemble E r´ esulte d’une proc´ edure en deux temps. D’abord, l’op´ erateur ´ etablit les r` egles d’un jeu, puis, connaissant les r` egles du jeu, les joueurs agissent en cons´ equence. La donn´ ee des r` egles du jeu d´ efinit un m´ ecanisme qui est incitatif si le r´ esultat du jeu correspond ` a un ´ etat qui maximise la valuation de l’op´ erateur. Nous reviendrons dans le paragraphe suivant sur ce que l’on entend par “r´ esultat du jeu”.

Nous d´ etaillons comment le jeu est d´ efini par l’op´ erateur dans un cadre g´ en´ eral. Il faut toutefois noter que les possibilit´ es de l’op´ erateur sont, selon les situations consid´ er´ ees, sujettes ` a des restrictions. Tout d’abord, il d´ efinit un ensemble d’actions S

u

pour chaque joueur. Cet ensemble ne supporte a priori aucune restriction, il peut par exemple ˆ etre continu. Si l’on note s

u

l’action dans S

u

choisie par le joueur u, un profil d’actions est la donn´ ee d’une action pour chaque joueur et se note s = (s

u

)

u∈U

. Celui-ci appartient ` a l’ensemble des profils d’actions not´ e S

def

= ×

u∈U

S

u

. Ensuite, l’op´ erateur donne une fonction de choix qui, ` a chaque profil d’action, associe un ´ etat. Nous notons f : S → E cette fonction de choix. Enfin, pour chaque joueur, l’op´ erateur d´ efinit une fonction de p´ enalit´ e p

u

: S → R , de telle mani` ere que le gain du joueur u sous le profil d’action s vaut :

c

u

(s)

def

= v

u

(f (s)) − p

u

(s).

Si la p´ enalit´ e est n´ egative, cela revient ` a augmenter le gain par rapport ` a la valuation initiale de l’´ etat qui a ´ et´ e choisi par la fonction de choix. La fonction de p´ enalit´ e peut s’interpr´ eter de diff´ erentes mani` eres selon les applications : il peut s’agir d’un transfert d’argent comme d’une grandeur virtuelle transmise aux joueurs afin qu’il puissent agir en fonction de l’int´ erˆ et g´ en´ eral. Cela sera illustr´ e dans les applications des chapitres suivants.

Nous constatons que la fonction de gain comporte une partie publique qui est la p´ enalit´ e, et une partie qui peut ˆ etre priv´ ee et donc inconnue de l’op´ erateur, qui est v

u

◦ f . De ce fait, l’op´ erateur ne contrˆ ole pas compl` etement les gains des joueurs.

Finalement, le jeu construit par l’op´ erateur est d´ efini par : – l’ensemble des joueurs U ,

– les ensembles d’actions pour chaque joueur S

u

, – les fonctions de gain pour chaque joueur c

u

: S → R .

Il faut bien faire la diff´ erence entre le profil d’action s et l’´ etat correspondant f (s). Du point de vue des joueurs, ce qui importe est leur gain dans le jeu et donc le profil d’action, mais du point de vue de l’op´ erateur il s’agit de l’´ etat. On suppose ici que les p´ enalit´ es inflig´ ees aux joueurs ne sont pas r´ epercut´ ees sur l’op´ erateur, seule sa valuation V compte

5

. R´ esultat du jeu

Le r´ esultat du jeu est un profil d’actions du jeu. Ce profil d’action peut ˆ etre s´ electionn´ e de diff´ erentes mani` eres. Soit le jeu est jou´ e une fois et une seule : la pr´ evision du r´ esultat s’av` ere difficile en g´ en´ eral, sauf dans le cas o` u il existe des strat´ egies dominantes. Cela fait

5. Cela n’est pas r´ ealiste si les p´ enalit´ es sont des sommes d’argent qui sont vers´ ees ou pr´ elev´ ees par

l’op´ erateur.

(22)

l’objet de la section 2.2. Soit le jeu est r´ ep´ et´ e, et dans ce cas, les joueurs adaptent leur action ` a ce qu’ils apprennent des r´ ep´ etitions du jeu. Il y a donc un processus d’apprentis- sage qu’il faut mod´ eliser et analyser (plusieurs mod` eles seront ´ etudi´ es dans les chapitres suivants). Dans ce cas, le r´ esultat du jeu est le profil d’actions qui est asymptotiquement s´ electionn´ e si le processus d’apprentissage converge. Dans tous les cas, le r´ esultat du jeu d´ epend d’hypoth` eses faites a priori sur le comportement des joueurs.

Que le jeu soit jou´ e une fois ou bien r´ ep´ et´ e, de nombreux mod` eles de comportement des joueurs pr´ evoient, sous certaines hypoth` eses, que le r´ esultat sera un ´ equilibre de Nash, c’est-` a-dire un profil d’action dans lequel aucun joueur ne peut gagner ` a modifier son action unilat´ eralement :

D´ efinition 2.1 ( Equilibre de Nash ´ )

Le profil d’action s ∈ S est un ´ equilibre de Nash du jeu (U , S, (c

u

)

u∈U

) si, pour tout joueur u et toute action s

0u

∈ S

u

, on a :

c

u

(s

u

, s

−u

) ≥ c

u

(s

0u

, s

−u

).

La notation classique −u d´ esigne l’ensemble des joueurs sauf u, et par abus de notation, on ´ ecrira s = (s

u

, s

−u

) lorsque l’on veut distinguer l’action du joueur u (il ne s’agit pas du d´ eplacement de s

u

` a la premi` ere position du vecteur).

Notons qu’un ´ equilibre de Nash n’est pas n´ ecessairement stable par d´ eviation de deux joueurs ou plus. Cependant, on suppose que les joueurs ne communiquent pas, et ne peu- vent donc pas s’accorder, ou en d’autres termes former une coalition en vue d’augmenter conjointement leur gain.

Notons enfin que, en g´ en´ eral, il n’y a aucune raison pour que le r´ esultat d’un jeu soit un ´ equilibre de Nash, premi` erement parce qu’il n’en existe pas n´ ecessairement, et deuxi` emement, mˆ eme s’il en existe un et qu’il est unique, les joueurs peuvent gagner plus en choisissant une autre action (cf. le dilemme du prisonnier dans les exemples qui suivent).

2.1.2 Formulation du probl` eme d’incitation

Finalement, le probl` eme d’incitation consiste ` a construire un jeu de la mani` ere d´ ecrite pr´ ec´ edemment de mani` ere ` a ce que le r´ esultat s du jeu (ou tous les r´ esultats possibles), soit tel que l’´ etat correspondant f (s) maximise la valuation V de l’op´ erateur.

Notons que, s’il n’y a aucune contrainte sur la construction du jeu, l’op´ erateur peut

choisir n’importe quel ´ etat e ∈ E en posant f (s) = e pour tout s ∈ S. Mais, d’une part,

l’op´ erateur ne connaˆıt pas forc´ ement l’´ etat optimal, en particulier si celui-ci d´ epend des

valuations priv´ ees des joueurs, ou bien si la complexit´ e rend son calcul impossible. D’autre

part, dans les cas pratiques que nous ´ etudions par la suite, soit l’op´ erateur choisit f mais

les valuations sont priv´ ees, soit l’ensemble des ´ etats et des profils d’actions co¨ıncident,

c’est-` a-dire E = S et la fonction de choix est f (s) = s, ce qui signifie que l’´ etat choisi est

le r´ esultat du jeu.

(23)

IND´ EPENDANTES

2.1.3 Exemples

Citons quelques exemples classiques pour lesquels il est important d’´ etablir des m´ ecanismes d’incitation.

Int´ erˆ et individuel contre int´ erˆ et collectif

Il est assez courant que l’int´ erˆ et individuel n’aboutisse pas au choix d’un ´ etat qui maximise l’int´ erˆ et collectif. Illustrons cela sur deux exemples classiques dans lesquels E = S . Commen¸cons par l’exemple du dilemme du prisonnier. Le sc´ enario est le suivant : deux suspects sont arrˆ et´ es et interrog´ es s´ epar´ ement. Ils peuvent soit d´ enoncer l’autre, soit ne rien avouer. Si aucun n’avoue, alors chaque suspect ´ ecope d’une peine de prison minimale (disons 6 mois). Si les deux avouent, alors ils ´ ecopent d’une peine moyenne (disons 5 ans), et si un seul d´ enonce, alors celui qui a d´ enonc´ e est lib´ er´ e tandis que l’autre ´ ecope d’une peine lourde (disons 10 ans). Dans ce jeu, l’int´ erˆ et collectif des suspects est qu’aucun d’eux n’avoue. Cependant il est tentant, individuellement, de d´ enoncer pour ˆ etre lib´ er´ e imm´ ediatement, d’autant plus qu’il est risqu´ e de se taire si l’autre nous d´ enonce. Ici, le seul ´ equilibre de Nash qui est un r´ esultat possible du jeu (et mˆ eme en strat´ egies dominantes comme nous le verrons) est le profil d’actions o` u les deux suspects d´ enoncent, ce qui ne correspond pas ` a l’int´ erˆ et collectif

6

.

Le deuxi` eme exemple porte sur le probl` eme de routage suivant. N joueurs veulent transmettre un paquet du sommet source s au sommet destination d (voir figure 2.1). Pour cela ils choisissent l’une des deux routes possibles en cherchant ` a minimiser leur coˆ ut, le d´ elai par exemple. L’´ etat du syst` eme est ici la mani` ere dont se r´ epartissent les joueurs sur les deux routes. La route du bas a un d´ elai constant qui vaut N , ce qui est long, mais ind´ ependant de la charge, la charge ´ etant le nombre de joueurs ayant choisi la route. La route du haut a un d´ elai qui est ´ egal ` a la charge `. Donc, plus de paquets passent par cette route, plus le d´ elai de chaque paquet est grand.

On constate ici que les seules situations d’´ equilibre sont les profil d’actions o` u tous les paquets ou tous les paquets sauf un passent par la route du haut, si bien que tous les joueurs ont un coˆ ut qui vaut au moins N − 1, et le coˆ ut social vaut

N

X

i=1

(N − 1) = N(N − 1).

Supposons maintenant que les joueurs se r´ epartissent ` a moiti´ e en bas et en haut (si le nombre de joueur est pair). Alors le coˆ ut social, qui est l’optimum, vaut N/2 × N + N/2 × N/2 = 3/4N

2

et est inf´ erieur strictement au coˆ ut social ` a l’´ equilibre si N est suffisamment grand.

Le probl` eme dans ces deux exemple est de trouver un m´ ecanisme d’incitation afin d’atteindre l’´ etat optimal en terme de coˆ ut social, en p´ enalisant les joueurs en fonction de l’action ou de la route qu’ils ont choisie.

6. Notons que le fait qu’il n’y ait qu’un unique ´ equilibre de Nash ne signifie pas pour autant que les

joueurs humains vont choisir de d´ enoncer, voir ` a ce sujet les r´ esultats exp´ erimentaux dans [AM93]. Cepen-

dant, en l’absence de mod` ele fin du comportement des humains, on se contente du mod` ele de rationalit´ e

classique qui implique que l’´ equilibre de Nash est le r´ esultat du jeu.

(24)

s d

N

`

Figure 2.1 – Routage comp´ etitif entre N joueurs. La route du bas a un d´ elai constant N , et le d´ elai sur la route du haut est ´ egal ` a la charge `.

Mentir sur ses pr´ ef´ erences

Nous proposons maintenant un exemple dans lequel les valuations des joueurs sont priv´ ees, l’op´ erateur cherche ` a maximiser la somme des valuations, et l’action de chaque joueur est l’annonce d’une valuation. L’objectif de l’op´ erateur est d’inciter les joueurs ` a annoncer leur vraie valuation afin de choisir l’´ etat qui maximise la somme des valuations.

L’exemple typique est celui de la mise aux ench` eres d’un bien o` u plusieurs joueurs proposent simultan´ ement une offre afin de l’acqu´ erir. L’ensemble E des ´ etats du syst` eme est l’ensemble des fa¸cons de distribuer le bien parmi l’ensemble des joueurs. On suppose que la valeur attribu´ ee ` a un ´ etat par chaque joueur est positive si le joueur a le bien dans l’´ etat, et nulle sinon. Au final, annoncer une valuation (c’est-` a-dire proposer une enchˆ ere) revient ` a annoncer la valeur que le joueur attribue ` a l’´ etat dans lequel il poss` ede le bien.

L’op´ erateur d´ efinit une fonction de choix qui attribue le bien ` a l’un des joueurs, et instaure des p´ enalit´ es qui d´ ependent des annonces. Supposons ici que la fonction de choix attribue le bien au joueur qui a fait l’offre la plus ´ elev´ ee et que celui-ci paye le montant de son offre (la p´ enalit´ e ´ etant nulle pour les joueurs qui n’ont pas obtenu le bien).

Pour simplifier les notations, supposons qu’il n’y ait que deux joueurs. Chaque joueur

´

evalue le bien respectivement ` a v

et v

+

, avec v

< v

+

. Le joueur le plus int´ eress´ e par le bien est donc le joueur qui a la valuation v

+

. Le joueur le moins int´ eress´ e fait l’offre s

et le plus int´ eress´ e l’offre s

+

. Alors, leur gain dans le jeu vaut respectivement c

= v

− s

1

s>s+

et c

+

= v

+

− s

+

1

s+>s

. Dans le cas o` u les offres sont ´ egales, le gain est nul pour les deux joueurs.

Si les joueurs annoncent leur vraie valuation, ils sont assur´ es d’avoir un gain nul : en effet s’ils obtiennent le bien, la valuation du bien est compens´ ee par le prix qu’ils payent, autrement ils n’obtiennent rien et ne payent rien. Les joueurs gagnent toujours plus ` a annoncer leur valuation plutˆ ot qu’` a faire une offre sup´ erieure. Par cons´ equent, aucun joueur n’a int´ erˆ et ` a proposer une offre strictement sup´ erieure ` a sa valuation.

Si le joueur le plus int´ eress´ e connaˆıt le choix s

de l’autre joueur, alors il a int´ erˆ et ` a

proposer une offre s

+

l´ eg` erement sup´ erieur, l’offre optimale n’existant pas ici (car annoncer

s

+

= s

procure un gain nul). Dans ce cas, le bien revient au joueur le plus int´ eress´ e, mais

(25)

IND´ EPENDANTES celui-ci n’a pas d´ eclar´ e sa vraie valuation. Il r´ esulte du fait de ne pas annoncer sa vraie valuation que l’op´ erateur n’a pas, au final, la garantie que le bien a effectivement ´ et´ e donn´ e au joueur le plus int´ eress´ e.

Consid´ erons maintenant l’exemple du vote dans lequel les pr´ ef´ erences des joueurs ne sont plus donn´ ees par des valuations, mais uniquement par un ordre total sur l’ensemble des candidats. Il est connu par le th´ eor` eme de Gibbard–Satterthwaite [Gib73], que, s’il y a au moins trois candidats, alors la seule fonction de choix qui fasse en sorte que les joueurs n’aient jamais int´ erˆ et ` a ne pas annoncer leur vraie pr´ ef´ erence est le choix dictatorial. Cela signifie qu’il existe un joueur tel que le candidat choisi est le candidat pr´ ef´ er´ e de ce joueur, ind´ ependemment de l’action des autres joueurs.

Nous montrerons que, dans le cas o` u les pr´ ef´ erences sont donn´ ees par des valuations, dont le probl` eme des ench` eres est un cas particulier, il existe un m´ ecanisme d’incitation

7

.

2.2 Une approche en strat´ egies dominantes

Dans cette section, nous pr´ esentons un m´ ecanisme d’incitation qui repose sur la con- struction d’un jeu ayant des strat´ egies dominantes.

2.2.1 Description de l’approche

Le but de l’op´ erateur est de construire un jeu, ` a partir d’une fonction de choix et de l’instauration de p´ enalit´ es, tel que le r´ esultat du jeu corresponde ` a un ´ etat qui maximise sa valuation.

D´ eterminer le r´ esultat d’un jeu est cependant un probl` eme : en effet, comme le gain d’un joueur ne d´ epend pas uniquement de son action mais du profil d’action global, il n’y a, a priori, pas de strat´ egie optimale. Un cas de figure pour lequel l’action d’un joueur peut ˆ

etre anticip´ ee, c’est lorsqu’il existe une strat´ egie dominante, et que celle-ci est unique : D´ efinition 2.2 (Strat´ egie dominante)

L’action s

u

∈ S

u

est une strat´ egie dominante pour le joueur u dans le jeu (U , S, (c

u

)

u∈U

) si pour tout s

0u

∈ S

u

et pour tout s

−u

∈ S

−u

:

c

u

(s

u

, s

−u

) ≥ c

u

(s

0u

, s

−u

).

Une strat´ egie dominante est toujours meilleure que n’importe quelle autre strat´ egie quelles que soient les actions des autres joueurs. Quand une strat´ egie dominante existe, on suppose que le joueur ne choisira pas une strat´ egie qui ne l’est pas : cela constitue notre hypoth` ese de comportement. Notons qu’une telle strat´ egie peut ne pas exister, et si elle existe, ne pas ˆ etre unique.

7. Notons ´ egalement les r´ esultats positifs et n´ egatifs donn´ es dans le probl` eme du mariage [GS62] o` u les

pr´ ef´ erences sont des ordres totaux (voir le th´ eor` eme 6 dans [BR97]). En utilisant une certaine fonction de

choix, on peut faire en sorte que au moins l’une des parties (homme ou femme dans le cas du mariage)

soit incit´ ee ` a annoncer ses vraies pr´ ef´ erences.

(26)

Lorsqu’il existe une strat´ egie dominante pour chaque joueur, le r´ esultat du jeu est n´ ecessairement un profil d’action constitu´ e de strat´ egies dominantes, et c’est alors un

´

equilibre de Nash. On parle alors d’´ equilibre de Nash en strat´ egies dominantes (tous les

´

equilibres de Nash n’´ etant pas constitu´ es de strat´ egies dominantes, mˆ eme si l’´ equilibre est unique).

Finalement, le probl` eme d’incitation en strat´ egies dominantes peut s’´ enoncer de la mani` ere suivante : construire un jeu, c’est-` a-dire donner les ensembles d’action des joueurs, la fonction de choix f : S → E , et les fonctions de p´ enalit´ e de telle mani` ere que, si un profil d’action s ∈ S est un ´ equilibre de Nash en strat´ egies dominantes du jeu ainsi d´ efini, alors f (s) est un ´ etat optimal pour la valuation V de l’op´ erateur.

Ce probl` eme n’a en g´ en´ eral pas de solution. N´ eanmoins, il est r´ esolu dans la classe des probl` emes li´ es ` a la r´ ev´ elation des valuations dans les situations d’ench` ere au sens large.

2.2.2 Les ench` eres g´ en´ eralis´ ees

Ici, on consid` ere une situation dans laquelle les valuations des joueurs sur l’ensemble des

´

etats sont priv´ ees, et la valuation de l’op´ erateur est la somme des valuations des joueurs : V = X

u∈U

v

u

.

L’ensemble d’action des joueurs est donn´ e (il n’est pas choisi par l’op´ erateur) : il s’agit de l’annonce d’une valuation. Formellement, l’action du joueur u est donc une fonction s

u

: E → R . En pratique, cela suppose que l’ensemble d’´ etat E n’est pas trop grand. Le but de l’op´ erateur est d’inciter les joueurs ` a annoncer leur vraie valuation afin de choisir l’´ etat optimal, donc de faire en sorte que s

u

= v

u

soit une strat´ egie dominante dans le jeu.

Notons que ce probl` eme apparaˆıt typiquement dans la situation o` u plusieurs biens sont simultan´ ement mis aux ench` eres et sont ensuite r´ epartis entre des joueurs. L’ensemble des

´

etats du syst` eme est l’ensemble des r´ epartitions des biens parmi les joueurs. La valuation des joueurs ne d´ epend g´ en´ eralement que de l’ensemble des biens qu’ils acqui` erent. La valuation des joueurs ´ etant priv´ ee, ´ etablir des r` egles pour les ench` eres de mani` ere ` a ce que les joueurs soient incit´ es ` a d´ eclarer leur vraie valuation rentre dans le cadre pr´ ec´ edent.

Ce probl` eme est bien connu et r´ esolu par le m´ ecanisme VCG (Vickrey Clarke Groves).

Ce r´ esultat ` a la fois ´ etonnant et puissant a ´ et´ e exploit´ e dans de nombreux probl` emes

´

economiques li´ es au r´ eseau, comme la taxation du routage entre plusieurs domaines

8

. Voici les principes de ce m´ ecanisme.

Le jeu construit par le m´ ecanisme VCG est d´ etermin´ e par le choix particulier de fonc- tions de p´ enalit´ e et d’une fonction de choix f : S → E donn´ ees par :

– l’´ etat choisi est l’un des ´ etats qui maximisent la somme des valuations annonc´ ees, i.e. f (s) ∈ argmax

e∈E

X

u∈U

s

u

(e),

8. Voir ` a ce sujet [MT07] qui pr´ esente plusieurs applications du m´ ecanisme VCG ainsi que ses limita-

tions.

(27)

IND´ EPENDANTES – la p´ enalit´ e du joueur u vaut p

u

(s) = − X

i6=u

s

i

(f (s)) + h

u

(s

−u

), o` u h

u

(s

−u

) est une fonction quelconque qui ne d´ epend pas de s

u

.

On a alors le th´ eor` eme bien connu : Th´ eor` eme 2.3 (Vickrey Clarke Groves)

Le jeu d´ efini par le m´ ecanisme VCG est tel que l’annonce de sa vraie valuation est une strat´ egie dominante pour chaque joueur.

Le th´ eor` eme implique alors que l’´ etat qui est choisi par le m´ ecanisme VCG est celui qui maximise la somme des valuations des joueurs.

La d´ emonstration du th´ eor` eme se fait par v´ erification que si le joueur u annonce s

u

alors son gain est forc´ ement inf´ erieur ` a celui qu’il obtient en annon¸cant v

u

quelle que soit l’annonce s

−u

des autres joueurs. Notons e = f (v

u

, s

−u

) et e

0

= f (s

u

, s

−u

). Il faut donc montrer que v

u

(e) + X

i6=u

s

i

(e) − h

u

(s

−u

) est plus grand que v

u

(e

0

) + X

i6=u

s

i

(e

0

) − h

u

(s

−u

).

Mais le choix de f implique que e maximise v

u

(e

00

) + X

i6=u

s

i

(e

00

), d’o` u le r´ esultat.

Les choix particuliers de la fonction h permettent ensuite d’obtenir des propri´ et´ es suppl´ ementaires sur la fonction de p´ enalit´ e. Par exemple, le choix de h

u

(s) = max

e∈E

X

i6=u

s

u

(e), appel´ e pivot de Clarke, assure que les gains finaux des joueurs sont positifs (donc que les joueurs ne sont jamais perdant quand ils participent au jeu), et en plus que les p´ enalit´ es sont strictement positives, ce qui se traduit par le fait qu’il n’y pas de transfert d’argent vers les joueurs

9

.

Par exemple, s’il n’y a qu’un seul bien mis aux ench` eres, le m´ ecanisme VCG avec le pivot de Clarke revient ` a attribuer le bien au joueur qui a fait l’offre la plus haute, mais au lieu de payer le montant de son offre, ce joueur paye le montant de la deuxi` eme offre la plus ´ elev´ ee.

2.2.3 Limite de l’incitation en strat´ egies dominantes

Reprenons le probl` eme de routage correspondant ` a la figure 2.1, en prenant N = 4. Le routage optimal pour l’op´ erateur, i.e. celui qui minimise le coˆ ut social, est celui pour lequel deux joueurs choisissent la route du bas, et les deux autres la route du haut. Afin d’inciter les joueurs ` a se r´ epartir de cette mani` ere, l’op´ erateur peut inciter individuellement chaque joueur ` a choisir une certaine action. Si les joueurs sont num´ erot´ es, l’op´ erateur peut, par exemple, mettre une p´ enalit´ e tr` es ´ elev´ ee sur la route du haut et une p´ enalit´ e nulle sur la route du bas pour les deux premiers joueurs, et le contraire pour les deux derniers. Ce faisant, la strat´ egie dominante pour les deux premiers joueurs est le choix de la route du bas, et la route du haut pour les autres. Il en r´ esulte que l’´ equilibre de Nash en strat´ egies dominantes correspond effectivement ` a l’´ etat optimal.

9. D’autres propri´ et´ es des m´ ecanismes VCG obtenues par les diff´ erents choix de fonction h ont ´ et´ e

´

etudi´ ees dans [TT10].

(28)

Supposons maintenant que les fonctions de p´ enalit´ e impos´ ees par l’op´ erateur soient contraintes par l’anonymat des joueurs

10

. Par anonymat, on entend que deux joueurs identiques ont les mˆ emes fonctions de p´ enalit´ e. Les joueurs u

1

et u

2

sont identiques si :

– ils ont le mˆ eme ensemble d’actions :

S

u1

= S

u2

, – leurs gains sont les mˆ emes :

∀s ∈ S, c

u1

(s) = c

u2

(s

0

),

o` u s

0

est le profil d’action obtenu ` a partir de s apr` es permutation des actions de u

1

et de u

2

.

– ils ont le mˆ eme impact sur les autres joueurs :

∀u ∈ U \{u

1

, u

2

}, ∀s ∈ S, c

u

(s) = c

u

(s

0

),

o` u s

0

est le profil d’action obtenu ` a partir de s apr` es permutation des actions de u

1

et de u

2

.

En pratique, deux joueurs sont identiques s’ils partagent les mˆ emes caract´ eristiques, ou encore s’ils sont du mˆ eme type. L’anonymat contraint donc les p´ enalit´ es ` a ˆ etre les mˆ emes pour tous les joueurs du mˆ eme type.

Dans le probl` eme de routage de la figure 2.1, tous les joueurs sont identiques. S’il existe une fonction de p´ enalit´ e qui est la mˆ eme pour chaque joueur et qui impl´ emente une strat´ egie dominante, alors cette strat´ egie est la mˆ eme pour chaque joueur. En particulier, elle ne peut pas r´ epartir les joueurs ` a moiti´ e en haut et ` a moiti´ e en bas, ` a moins que les deux actions soient dominantes. Dans ce dernier cas, n’importe quelle r´ epartition des joueurs est un ´ equilibre en strat´ egie dominante, mˆ eme les ´ etats qui ne sont pas optimaux.

On voit donc que, sous la contrainte d’anonymat, il n’existe aucun m´ ecanisme d’incita- tion en strat´ egies dominantes. Ce probl` eme sera r´ esolu par notre deuxi` eme approche, qui repose sur les fonctions de potentiel. Cependant cette approche suppose que le r´ esultat du jeu est le produit d’un processus d’apprentissage quand le jeu est r´ ep´ et´ e (et mˆ eme infini- ment r´ ep´ et´ e), ce qui n’´ etait pas n´ ecessaire pour les m´ ecanismes en strat´ egies dominantes.

2.3 Une approche par fonction de potentiel

L’approche consiste ici ` a construire un jeu qui ne poss` ede pas n´ ecessairement de strat´ egies dominantes, mais tel que, s’il est r´ ep´ et´ e et que les joueurs suivent une certaine r` egle d’ap- prentissage, alors le r´ esultat asymptotique correspond ` a un ´ etat optimal. Cela est le cas si la valuation de l’op´ erateur est une fonction de potentiel du jeu.

10. La contrainte d’anonymat peut aussi ˆ etre vue comme une simplification du calcul des fonctions de

p´ enalit´ es, l’op´ erateur n’ayant pas n´ ecessairement la capacit´ e de d´ eterminer l’´ etat optimal et les p´ enalit´ es

qui vont avec, ce qui est courant dans les probl` emes de routage.

Références

Documents relatifs

Il fit un mouvement pour ramasser son journal, mais sa femme fut plus rapide que lui et le mit hors de sa portée?. Je ne veux pas confier ma fille à une machine, si

Cela orrespond à une augmentation moyenne de 12 , 25% par an sur la période de

PARL'ASSOCIATION CHINOISEcDU BIEN.~TRE on constate de plus en plus qu Il EN FRANÇAIS, ANGLAIS, ESPAGNOL, ARABE ET faut créer un environnement.

C’est un b-module simple, et d’apr`es ce qui pr´ec`ede, tout b-module simple de dimension finie est de cette forme.. Définition 13.6

b°/ Ecrire l’équation chimique de la réaction faisant intervenir les couples acide/base 1 et2, de constante d’équilibre K &gt;1 relatif au sens direct.. Justifier

4°/ L’étude de l’évolution du gain G du filtre en fonction de la fréquence de la tension d’entrée, fournie la courbe du document 2 page 5/5... En déduire la valeur

Er oder sie weiß aber nicht, wann man nach Tunesien kommen soll. Beschreiben Sie ihm oder ihr das Wetter in Tunesien im Sommer und im Winter und sagen Sie ihm oder ihr, was

Transformer la fraction pour lui donner le dénominateur indiqué : a.. Même consigne que