• Aucun résultat trouvé

´etat-action) est d ´efinie par :

Q(x, u) ←− r + γ maxα

u′∈U Q(x, u) (2.2)

o `u : A ←α− B signifie A ← (1 − α)A + αB. Le facteur d’apprentissage 0 ≤ α ≤ 1

influence la vitesse d’apprentissage.

Une fois que Q a converg ´e vers la fonction Q optimale Q, l’action optimale dans

chaque ´etat x peut ˆetre obtenue selon :

h(x) = argmaxu∈UQ(x, u) (2.3)

L’ ´equation (2.2) suppose implicitement qu’une valeur Q peut ˆetre estim ´ee et stock ´ee pour chaque couple ´etat-action. Lorsque l’espace d’ ´etats et d’actions est trop grand, des approximateurs de fonction doivent ˆetre uti-lis ´es [Bus¸oniu et al., 2010], puisque toutes ces valeurs Q ne peuvent plus ˆetre ni stock ´ees ni estim ´ees pr ´ecis ´ement.

2.6.2/ A

PPRENTISSAGE PAR RENFORCEMENT MULTI

-

AGENTS

Dans le cas des syst `emes multi-agents, la t ˆache du syst `eme peut ˆetre mod ´elis ´ee par un MDP M = (X, U, f, ρ, T, γ)[Panait and Luke, 2005] tel que X est l’ensemble

des ´etats que les agents peuvent percevoir. U = (U1,· · · , Un) est, avec n le nombre

d’agents, l’ensemble des actions possibles que peuvent r ´ealiser les agents. f

est la fonction de transition entre les ´etats. ρ = (ρ1,· · · , ρn) est l’ensemble des

fonctions de r ´ecompenses des agents. T ⊆ N est l’espace de temps discret et γ est le facteur de pond ´eration.

Dans le cas des syst `emes multi-agents, la fonction de transition est le r ´esultat

de l’ensemble des actions effectu ´ees par les agents [Bus¸oniu et al., 2008a], uk =

[uT

1,k,· · · , uT

n,k]T, uk ∈ U. La politique de d´ecision du syst`eme h = (h1,· · · , hn) est

maintenant l’ensemble des d ´ecisions de chaque agent. Enfin, la r ´ecompense Ri

et la fonction Qi de chaque agent d ´ependent, dans le cas des syst `emes

multi-agents, de l’ensemble des actions et de la politique de d ´ecision de chaque agent. En reprenant la classification par type d’interactions donn ´ee dans le tableau 2.2, il est possible de d ´etailler les fonctions de r ´ecompense. Dans le cas d’un syst `eme multi-agents enti `erement coop ´eratif, c’est- `a-dire quand tous les agents ont le m ˆeme but, tous les agents poss `edent la m ˆeme fonction de r ´ecompense,

ρ1 = ρ2 = · · · = ρn. Ils ont donc la m ˆeme r ´ecompense, R1 = R2 = · · · = Rn. Si

n = 2 et ρ1 = −ρ2, les 2 agents ont des buts oppos ´es. Dans ce cas le syst `eme

est comp ´etitif. Il est ´egalement possible d’avoir un syst `eme enti `erement comp ´etitif avec plus de deux agents, mais les fonctions de r ´ecompenses sont plus difficiles `a d ´efinir. Enfin, les syst `emes mixtes sont ceux n’ ´etant ni enti `erement coop ´eratifs ni enti `erement comp ´etitifs.

Nous pr ´esenterons plus en d ´etail dans le chapitre 5 (page 73) la technique d’ap-prentissage par renforcement multi-agent que nous avons utilis ´ee pour r ´esoudre un probl `eme de stabilit ´e dans un smart grid.

2.7/ DISCUSSIONS

Dans ce chapitre, nous avons pr ´esent ´e les caract ´eristiques principales des r ´eseaux ´electriques actuels. Ces explications ont mis en exergue la structure statique des r ´eseaux ´electriques. Actuellement, les r ´eseaux sont compos ´es de gros producteurs d’ ´energie devant r ´epondre aux variations des demandes des consommateurs. Avec l’augmentation du nombre de consommateurs et l’aug-mentation de leurs consommations, il ne sera plus possible pour ces gros produc-teurs de satisfaire la consommation. Ces gros producproduc-teurs d’ ´energie sont aussi de gros producteurs de d ´echets (gaz `a effet de serre, d ´echets nucl ´eaires, etc.). Il est donc n ´ecessaire de modifier le r ´eseau en int ´egrant de nouveaux producteurs d’ ´energie afin de cr ´eer un ´equilibre ´energ ´etique. Ces producteurs se doivent de produire une ´energie propre. Enfin, les consommateurs doivent devenir de nou-veaux acteurs du r ´eseau en modifiant leurs consommations en fonction de la production d’ ´energie.

L’introduction de nouveaux r ´eseaux, les smart grids, qui sont maintenant claire-ment d ´efinis offre une r ´eponse `a ces ´evolutions futures. La diversit ´e des produc-teurs dans les nouveaux r ´eseaux, les nouveaux comportements des consomma-teurs ainsi que leurs diversit ´es g ´eographiques posent un probl `eme de contr ˆole de l’ensemble de ces utilisateurs du r ´eseau. Une intelligence localis ´ee pour satisfaire la demande de chaque usager apparaˆıt d `es lors comme une solution int ´eressante pour conserver une stabilit ´e sur le r ´eseau.

Cette d ´ecentralisation permet maintenant de d ´ecomposer un r ´eseau en sous-r ´eseau, les micsous-rogsous-rids, qui peuvent se suffisous-re `a eux-m ˆeme.

Les syst `emes multi-agents sont une solution ad ´equate pour le contr ˆole des utili-sateurs des smart grids, mais aussi des microgrids. Finalement, pour am ´eliorer les interactions entre les diff ´erents utilisateurs et offrir un contr ˆole personnalis ´e, il est int ´eressant d’int ´egrer une partie apprenante dans le syst `eme.

3

UN CADRE POUR LA DEFINITION ET´

L’ ´EVALUATION DES APPROCHES POUR

SMARTGRIDS

3.1/ INTRODUCTION

De nombreux investissements ont ´et ´e faits, particuli `erement par l’Union

Eu-rop ´eenne et aux ´Etats-Unis, pour tester, d ´evelopper et d ´eployer les nouvelles

technologies permettant une gestion intelligente des r ´eseaux. De nouveaux tra-vaux sont en train d’ ´evaluer les co ˆuts, les performances et le b ´en ´efice que va en-gendrer cette nouvelle technologie. Actuellement, aucun standard n’a ´et ´e ´etabli, mais de r ´ecents travaux sont en cours. Nous pouvons citer :

– le second s ´eminaire EU-US sur les ”Smart Grid Assessment Methodologies ” conjointement organis ´e par le Joint Research Centre et le Department of

Energy (DoE), avec l’aide du US-EU Energy Council-Technology Working Group, le 7 novembre 2011 `a Washington, le premier s ´eminaire ayant eu lieu le

6 d ´ecembre 2010 `a Albuquerque. Ces deux s ´eminaires ont amen ´e `a la cr ´eation d’un rapport pour ´evaluer les avantages et les impacts des r ´eseaux intelligents [Giordano and Bossart, 2012].

– un cadre d’ ´evaluation des projets de d ´eploiement de r ´eseaux intelligents [Herter et al., 2011]

– un smart grid scorecard1 qui fournit une liste de pr ´erequis qu’un produit doit

contenir pour pouvoir s’int ´egrer `a un r ´eseau intelligent.

– des initiatives pour d ´eterminer comment mesurer de mani `ere fiable, comment calculer les co ˆuts r ´eels et comment d ´efinir les avantages des projets li ´es aux r ´eseaux intelligents [Bossart and Bean, 2011, Wakefield, 2010].

Ce chapitre s’inscrit dans la m ˆeme ligne que ces travaux en pr ´esentant un cadre d’ ´evaluation pour les approches `a base d’agents pour les smart grids. Il est inspir ´e de l’article [Basso et al., 2013]. Dans les sections suivantes, nous pr ´esentons le cadre d’ ´evaluation. Celui-ci se d ´ecompose en deux ´etapes, la premi `ere a pour but de positionner et d’ ´evaluer l’approche ´etudi ´ee. Cette ´etape se d ´ecompose en

1. http://www.smartgridnews.com/pdf/Smart Grid Scorecard.pdf

deux dimensions :

la dimension structurelle : qui repr ´esente l’infrastructure du r ´eseau ´etudi ´e ;

la dimension du probl `eme : qui d ´efinit les diff ´erentes classes de probl `eme

que doit r ´esoudre un smart grid.

La seconde ´etape permet d’ ´evaluer qualitativement et quantitativement les diff ´erentes approches par l’ ´evaluation des impacts soci ´etaux des smart grids. Ces impacts sont d ´efinis par rapport aux principaux objectifs des smart grids :la r ´eduction des gaz `a effet de serre : qui permet d’ ´evaluer la r ´eduction de

l’empreinte carbone `a travers la chaˆıne de production du r ´eseau. Elle est trait ´ee par la dimension environnementale du cadre d’ ´evaluation ;

la s ´ecurit ´e ´energ ´etique : qui ´evalue la possibilit ´e d’extension du r ´eseau et les

interruptions qui peuvent apparaˆıtre sur celui-ci. Elle est trait ´ee par la dimen-sion structurelle et la dimendimen-sion de la qualit ´e de service du cadre d’ ´evaluation ; – la comp ´etitivit ´e ´economique : qui permet d’ ´evaluer l’investissement n ´ecessaire au d ´eploiement de l’intelligence sur le r ´eseau, mais aussi l’int ´egration de cette intelligence sur le march ´e de l’ ´energie. Elle est trait ´ee par la dimension ´economique du cadre d’ ´evaluation ;

l’int ´egration de l’humain : qui ´evalue l’int ´egration des consommateurs et

leurs participations sur ce nouveau r ´eseau. Elle est trait ´ee par la dimension humaine du cadre d’ ´evaluation.

Pour l’ensemble de ces objectifs, un ensemble d’indicateurs est propos ´e. Tou-tefois, il n’est pas toujours possible de tester l’ensemble des approches avec chaque indicateur, certaines approches ne prenant pas du tout en compte cer-tains objectifs.

La section 3.2 pr ´esente l’aspect structurel et les familles des probl `emes permet-tant le positionnement de l’approche ´etudi ´ee. La section 3.3 pr ´esente l’impact de l’approche `a travers les dimensions soci ´etales et humaines.

3.2/ LA DEFINITION POUR L´ ’ ´EVALUATION ET LE POSI

-TIONNEMENT

3.2.1/ L

A DIMENSION STRUCTURELLE

La dimension structurelle d ´efinit l’infrastructure d’un r ´eseau intelligent. Elle est constitu ´ee de deux syst `emes complexes interconnect ´es : le r ´eseau d’ ´energie physique dans lequel s’ ´echange l’ ´energie fournie au r ´eseau et le march ´e de l’ ´energie o `u s’ ´echangent les valeurs financi `eres de l’ ´energie [Kok et al., 2010]. Ces deux syst `emes et leurs relations sont pr ´ecis ´ement d ´ecrits par une ontolo-gie dans [van Dam, 2009]. Pour cerner l’approche `a ´etudier, certaines questions doivent ˆetre pos ´ees. Ces questions permettent de d ´efinir la complexit ´e du r ´eseau physique, par son nombre d’utilisateurs, leurs vari ´et ´es, leurs interactions. Elles doivent permettre de d ´efinir la topologie du r ´eseau physique ainsi que les liens

Documents relatifs