Performances des politiques optimales proportionnelles

3.4 Des politiques optimales plus agressives

3.4.2 Performances des politiques optimales proportionnelles

Cette section présente la résolution des politiques optimales proportionnelles et leurs performances obtenues par simulation. Nous avons utilisé les hypermédia décrits dans les figures 3.9 et 3.11, en conjonc- tion avec les deux algorithmes de r´esolution : Value Iteration et Q-learning.

7 8 0 2 3 1 6 5 4 .7 .2 .3 .6 .2 composant (i) di (s) bri (kb/s) bi(kb) 0 30 96 32 1 60 2 70 64 3 10 112 64 4 40 5 60 6 60 7 70 8 20 128 128

Fig. 3.9 – Graphe d’un hypermédia, débits associés (br), durées (d) et amorces à précharger (b).

R´esolution th´eorique. Simulation avec Value Iteration

L’algorithme Value Iteration comporte 3 ´etapes :

1. Génération du modèle. L’algorithme se base sur les probabilités de transition entre les états BS. Pour apprendre ces probabilités, nous avons simulé 100000 navigations aléatoires. Dans le premier exemple de la figure 3.9, il y a n = 9 composants et nous choisissons une granularit´e des amorces BG = 4. Par conséquent, il existe N = n× (BG + 1)n≈ 2 × 106états BS.

Il faut mémoriser les probabilit´es de transition dans un tableau tridimensionnel p de dimension N× N × |A| ≈ 27 × 1014. Chaque él´ement p[σ, σ, a] repr´esente la probabilit´e d’aller vers σ à partir de σ en choisissant l’action a. Heureusement, la matrice est creuse, car le nombre d’´etats visités est assez petit (approximativement 6700). Les cycles dans le graphe initial n’impliquent pas une explosion du nombre d’états visités.

2. Résolution. L’algorithme d’itération de la valeur appliqué au modèle décrit ci-dessus, renvoie la politique optimale pour l’hypermédia considéré. Cette politique détermine l’action de préchargement optimale pour chaque état BS.

3. Validation. Nous validons la politique optimale proportionnelle par comparaison avec d’autres po- litiques : π₀ (sans pr´echargement), π∗_sim (politique simple optimale) et πh

prop (politique heuristique visant à précharger les deux prochains composants les plus probables en partageant la bande passante selon leurs probabilités de transition). Nos politiques proportionnelles optimales obtenues avec l’algorithme Value Iteration seront appelées π_prop∗ (VI) tandis que celles fournies par l’algorithme Q-learning π_prop∗ (QL).

La quantité d’amorce préchargée est influencée par le temps passé dans chaque composant ainsi que par la bande passante disponible. Les modèles d’accès et de ressources que nous avons utilisés dans nos simulations sont les suivants :

Modèle d’accès La durée passée au sein d’un composant est distribuée selon une distribution normale

N (m = di

2, σ = d4i). Seules les dur´ees valides (comprises entre 0 et di) sont prises en compte. Nous avons mesuré cette durée à partir du moment où le composant est présenté. Pendant la période de chargement de l’amorce, l’utilisateur ne peut en effet faire aucun clic et donc l’état courant ne peut pas changer.

Mod`ele de ressources et de performance La bande passante moyenne pendant le composant cou-

rant est simulée avec une distribution uniforme entre une valeur minimale et une valeur maximale. Dans cet exemple, nous avons choisi bw_min= 96 kb/s et bw_max= 108 kb/s mais tout autre modèle de réseau peut être facilement intégré. Par ailleurs nous minimisons la latence cumulée comme précédemment.

Le tableau 3.3 (correspondant à la figure 3.9) présente les résultats pour 1000 chemins de navigation. Les valeurs (latences moyennes et écarts-types) en secondes sont présentés dans trois cas différents (un cas par ligne du tableau) : le graphe original (0), quand s8 requiert une grande amorce (1), et quand il demande une amorce encore plus grande (2).

no. modiﬁcations π0 πsimh πsim∗ πproph πprop∗ (VI) πprop∗ (QL) 0 b8= 128 2.798 2.151 1.645 2.056 1.020 1.035 0.370 0.616 0.770 0.504 0.872 0.854 1 b₈= 360 5.094 4.439 3.356 4.342 1.998 2.044 0.398 0.632 1.631 0.524 1.598 1.531 2 b8= 720 8.645 7.989 6.657 7.890 4.803 4.827 0.475 0.683 2.616 0.585 3.185 3.166

Tab. 3.3 – Comparaison des résultats pour 3 tailles d’amorce pour s₈. Pour chaque situation, cinq politiques de prefetching ont été appliquées pour 1000 chemins aléatoires. Chaque case indique la latence moyenne (au-dessus) et l’écart-type (dessous) des latences observées.

Ces résultats montrent une réduction importante des latences si la politique proportionnelle optimale π_prop∗ (VI) est utilisée. Cette réduction est importante même si politique optimale simple est utilisée. La différence par rapport à l’absence de pr´echargement (politique π0) est encore plus significative.

Pour mieux comprendre les qualités des politiques optimales, considérons par exemple deux chemins simples pour les cas (1) et (2) du tableau 3.3 : 0→ 1 → 4 → 8 et 0 → 3 → 6 → 7 → 8. Les séquences d’actions fournies par les deux politiques optimales (c’est-à-dire simple et proportionnelle) sont illustrées dans le tableau 3.4. Leurs meilleures performances par rapport aux politiques heuristiques s’expliquent par le fait qu’elles ont tendance à pr´echarger le composant lourd de s8 très tôt (à partir du composant 0). Cela met en ´evidence la trop courte vue des politiques πh_simet π_proph .

Une autre qualité liée au caractère optimal de la politique est que, même si l’agent ne prévoit pas correctement le comportement de l’utilisateur, il saura décider à nouveau la meilleure action de préchargement possible malgré cette mauvaise prédiction.

Variation des param`etres de simulation Dans ce paragraphe, nous ´etudions les performances et

les temps de résolution associés aux politiques optimales proportionnelles. Parmi les facteurs qui sont susceptibles d’influencer la convergence, on peut noter : la granularité choisie pour représenter les tampons BG, la granularité pour coder les actions AG et la valeur de γ.

5 4 1 3 2 .6 1 1 1 1 .4 0 ´etat (i) di (s) bri (kb/s) bi (kb) 0 10 64 192 1 40 32 96 2 10 3 10 96 4 10 256 768 5 10 64 192

Fig. 3.10 – L’hypermédia utilisé pour évaluer l’influence des paramètres de simulation

Nous allons utiliser un graphe plus simple (figure 3.10) pour étudier l’influence de chacun de ces facteurs tant sur la performance que sur le temps de convergence requis. La condition de convergence ´

etablie pour l’algorithme Value Iteration est : s∈S

|Vn+1(s)− Vn(s)| ≤

o`u Vn(s) repr´esente la valeur maximale de l’´etat s obtenue après la nieme itération (voir section 2.4.3). La valuer choisie est 10−5. Les simulations ont été effectuées sur une machine Linux dotée d’un processeur Intel Mobile `a 1.6 GHz, une mémoire interne de 1Go et un cache mémoire de 128 Mo.

Dans chaque cas, nous avons fait varier un seul paramètre, les autres restant constants. Les influences de ces trois param`etres - BG, AG et γ - sont illustrées dans les tableaux 3.5 (AG = 3 et γ = 0.95), 3.6 (BG = 3 et γ = 0.95) et 3.7 (BG = 4 et AG = 3).

Il est très difficile de comparer les résultats obtenus par notre approche du préchargement avec d’autres ´

etudes. Au mieux, nous pouvons comparer, en pourcentages, les diminutions de latences observées. Cette comparaison nous est favorable : nous diminuons typiquement les latences de 40% à 60% là où l’état de l’art rapporte plutôt des réductions de l’ordre de 20-30%. Mais restons circonspects : les hypothèses et les conditions expérimentales sont difficilement comparables !

Simulations avec Q-learning

Nos exp´erimentations avec le Q-learning sont comment´ees ci-dessous. Les deux dernières colonnes du tableau 3.3 montrent que les résultats pour 1000 navigations simulées en utilisant la politique optimale π_prop∗ (QL) sont tr`es proches de ceux obtenus par l’algorithme Value Iteration(π∗_prop (VI)). Nous avons choisi Ntot= 100000 pour arrˆeter le Q-learning.

Pour bien comprendre les qualités de la politique optimale nous considérons le graphe de la figure 3.11. Chaque histogramme de la figure 3.12 montre la distribution des latences observées pour 10000 navigations simul´ees. Le premier histogramme (politique π0) met clairement en évidence la présence des deux composants lourds qui ont un effet évident sur les latences en absence de préchergement.

chemin 0 → 1 → 4 → 8 0 → 3 → 6 → 7 → 8

π_sim∗ 8 4 8 8 6 7 8

π_prop∗ 4₄8 (2₄4 2₄8) 4₄8 4₄8 (3₄6 1₄7) (2₄7 2₄8) 4₄8

BG = 2 BG = 3 BG = 4 BG = 5 latence(s) 4.902 4.234 4.128 3.997 temps résolution(s) 0.104 0.761 3.939 14.619 Tab. 3.5 – Influence de BG sur la résolution et la performance de la politique π∗

prop. On observe une forte augmentation à tendance exponentielle du temps de convergence selon le param`etre BG. N´eanmoins, au del`a de BG = 4, augmenter BG n’apporte pas un gain significatif vis-`a-vis de la réduction des latences

AG = 2 AG = 3 AG = 4 AG = 5 AG = 6 latence(s) 4.574 4.231 4.180 4.048 4.045 temps résolution(s) 0.598 0.753 1.009 1.174 1.383 Tab. 3.6 – Influence de AG sur la résolution et la performance de la politique π∗

prop. Le temps de convergence croˆıt doucement (presque lin´eairement) avec la valeur de AG. Cela s’explique par le fait que AG n’influe que sur l’espace des actions, dont le cardinal en d´epend de manière linéaire. Au delà de AG = 4, l’am´elioration est peu significative

γ = 0.80 γ = 0.85 γ = 0.90 γ = 0.95 γ = 0.99

latence 4.130 4.130 4.129 4.128 4.128

temps résolution(s) 3.812 3.817 3.870 3.930 3.989 Tab. 3.7 – Influence de γ sur la résolution et la performance de la politique π∗

prop. Les valeurs obtenues montrent clairement que la valeur de γ∈ [0.8, 1] est, pour nos probl`emes, peu inﬂuente.

2

4

5

6

3

1

.3 .6 .4 .3 .6 .7 .4 .3 .4 ´ etat (i) di (s) bri (kb/s) bi (kb) 1 40 64 64 2 10 3 10 32 32 4 20 96 196 5 5 64 32 6 20 96 196

Fig. 3.11 – Un contenu hyperm´edia avec plusieurs liens

Sur ces histogrammes, tout comme dans le tableau 3.8, nous pouvons observer les améliorations graduelles de performances `a partir de la politique sans préchargement π0, en passant par les politiques heuristiques πh_prop et πh_sim et jusqu’aux politiques optimales π_sim∗ et π_prop∗ . Les bonnes performances des politiques optimales proportionnelles par rapport à leurs homologues simples s’expliquent d’une part par une utilisation plus agressive de la bande passante disponible et d’autre part par le spectre plus large d’actions possibles dans chaque état.

π0 πhprop πhsim π∗sim πprop∗ (VI) π∗prop (QL) 4.147 3.436 2.908 1.681 1.381 1.395 0.876 0.947 1.484 0.892 0.821 0.794

Tab. 3.8 – Latences moyennes et écarts-type observées pour l’hypermédia de la figure 3.11 Un autre élément d’appréciation concerne le temps de résolution associé à un tel graphe plus complexe que les précédents. Cet hypermédia conduit à environ 4000 états à tampons, les simulations prennent alors de l’ordre de quelques secondes et la convergence du Q-learning prend environ quelques dizaines de secondes. L’utilisation d’une librairie de matrices creuses autorise ces performances.

politique sans pr´echargement π₀ 0 1000 2000 3000 4000 5000 6000 0 500 1000 1500 2000 2500 3000 latency count dummy policy

politique heuristique proportionnelle πh prop 0 1000 2000 3000 4000 5000 6000 0 500 1000 1500 2000 2500 3000 latency count

proportional heuristic policy

politique heuristique simple π_simh

0 1000 2000 3000 4000 5000 6000 0 500 1000 1500 2000 2500 3000 latency count

simple heuristic policy

politique optimale simple π_sim∗

0 1000 2000 3000 4000 5000 6000 0 500 1000 1500 2000 2500 3000 latency count

simple optimal policy

politique optimales proportionnelle π_prop∗

0 1000 2000 3000 4000 5000 6000 0 500 1000 1500 2000 2500 3000 latency count

proportional optimal policy

Dans le document Supervision de contenus multimédia : adaptation de contenu, politiques optimales de préchargement et coordination causale de flux (Page 72-77)