• Aucun résultat trouvé

Routage et apprentissage par renforcement

N/A
N/A
Protected

Academic year: 2021

Partager "Routage et apprentissage par renforcement"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-02536945

https://hal.archives-ouvertes.fr/hal-02536945

Submitted on 8 Apr 2020

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Routage et apprentissage par renforcement

Alexis Bitaillou, Benoît Parrein, Guillaume Andrieux

To cite this version:

Alexis Bitaillou, Benoît Parrein, Guillaume Andrieux. Routage et apprentissage par renforcement. Journées non thématiques GDR-RSD 2020, Jan 2020, Nantes, France. �hal-02536945�

(2)

Routage et apprentissage par renforcement

Alexis Bitaillou , Benoît Parrein , Guillaume Andrieux

1 1 2

1

Université de Nantes, LS2N (UMR 6004), France

2

Université de Nantes, IETR (UMR 6164), France

Introduction et état de l'art

Q-learning est un algorithme d'apprentissage par renforcement crée par Watkins et

Dayan [4]. Pour prendre une décision, ils définissent la fonction Q qui associe un

état (S), une action (A) et une récompense (R) telle que:

Q-learning + Routage = Q-routing

En 1994, Boyan et Littman [1] intègrent Q-learning à leur algorithme de routage et

adaptent la fonction Q afin de minimiser la latence :

D'après leurs simulations:

À charge faible : Q-routing < plus court chemin (Bellman-Ford)

À charge élevée : Q-routing ≫ plus court chemin (Bellman-Ford)

Conclusions et perspectives

Le dépassement de file est la première cause de perte de paquet (en

moyenne 10 paquets). Il apparait à des débits relativement faibles, le

débit cumulé étant inférieur à la capacité des liens.

⇒ Une importante charge réseau est créée en plus des flux CBR. Les

boucles de routage peuvent expliquer ce phénomène.

Figure 1 : les nouvelles approches du routage dans les années 90.

Routage Routage avec

renforcement Routage bio-inspiré

Q-routing (1994) [1] AdaR [2] ... Colonie de fourmis [3]

Q-routing (2019)

Algorithme Concept Implémentation

6

Paramètres de simulation

- Q-routing vs. Bellman-Ford sur Qualnet 8.2

- Lien filaire 10 Mb/s, délai de propagation fixe

- Flux à débit constant (CBR)

Références :

[1]J. A. Boyan and M. L. Littman, “Packet routing in dynamically changing networks: A reinforcement learning approach,” in Advances in neural information processing systems, 1994, pp. 671–678.

[2]P. Wang and T. Wang, “Adaptive Routing for Sensor Networks using Reinforcement Learning,” in The Sixth IEEE International Conference on Computer and Information Technology (CIT’06), 2006, pp. 219–219, doi: 10.1109/CIT.2006.34.

[3]R. Schooenderwoerd, O. Holland, J. Bruten, and L. Rosenkrantz, “Ants for load balancing in telecommunication networks,” HP Labs, Bristol, Tech. Report 96–35, 1996. [4]C. J. C. H. Watkins and P. Dayan, “Q-learning,” Mach Learn, vol. 8, no. 3, pp. 279–292, May 1992, doi: 10.1007/BF00992698.

Le scénario de test :

1 7 2 8 3 9 4 10 5 11 6 12 13 19 14 20 15 21 16 22 17 23 18 24 25 31 26 32 27 33 28 34 29 35 30 36

Figure 2 : Grille irrégulière de Boyan et Littman [1]

1 7 2 8 3 9 4 10 5 11 6 12 13 19 14 20 15 21 16 22 17 23 18 24 25 31 26 32 27 33 28 34 29 35 30 36

CBR stream during 30 min start to t + 30 min CBR stream during 30 min start to t + 60 min Figure 3 : Placement des flux CBR sur la grille

0 2 4 6 8 10 12 14 Throughput (Mb/s) 0 100 200 300 400 500 600 700 A v e ra g e D e liv e ry Ti m e ( m s)

Q-rout ing Bellm an-Ford

Figure 4 : latence moyenne en fonction du débit

des flux CBR 0 2 4 6 8 10 12 14 Throughput (Mb/s) 50 60 70 80 90 100 P a ck e t D e liv e ry R a ti o ( % )

Q-rout ing Bellm an-Ford

Figure 5 : taux de paquets reçu en fonction

du débit des flux CBR

Résultats

Avec une charge faible en arrière-plan : Q-routing ≈ Bellman-Ford

Avec une charge élevée en arrrière-plan : Q-routing ≪ Bellman-Ford

Problèmes identifiés :

- la stratégie gloutonne de Q-routing montre ses limites lorsque la localisation

et le niveau de charge varient beaucoup;

- la mise à jour fréquente de la latence induit un surcoût en termes de charge

réseau et de calcul.

Néanmoins,

- notre implémentation est entièrement décentralisée et distribuée;

- Q-routing permet le contournement de chemin saturé.

Perspectives :

- implémenter Q-routing sur une base OLSR (au lieu d'une base Bellman-Ford);

- réduire le nombre de mise à jour (compromis entre la fraîcheur de l'information

et la quantité de mise à jour);

- modifier la récompense pour qu'elle prenne en compte d'autres paramètres

que la latence.

Figure 6 : Pertes des paquets en fonction

Références

Documents relatifs

La translation d’adresse de source permet aux hôtes du réseau privé de sortir

Le routeur du client (2) réceptionne tous les paquets et le protocole TCP les remet dans le bon ordre (les paquets ayant pu emprunter des routes différentes, ils sont sûrement

• Route par défaut (S*) : La route par défaut est un type de route statique qui spécifie une passerelle à utiliser lorsque la table de routage ne contient pas de chemin vers le

Cours n°5 : limite de suites géométrique VI) Limite des suites géométriques.

Cours n°5 : limite de suites géométrique VI) Limite des suites géométriques.

- puis la commande configure terminal (pour rentrer dans le mode configuration) - taper la commande interface eth0 (pour l’interface Ethernet 0). - taper la cammande ip

• Configurer les paramètres de base d'un routeur pour assurer le routage entre deux réseaux connectés directement, à l'aide d'une CLI.. • Vérifier la connectivité entre

Les règles de calcul connues pour les exposants entiers s étendent aux exposants réels : Théorème (admis) : La fonction exponentielle de base q transforme les sommes en produits :