Para avaliar o algoritmo proposto, duas simulações com mudanças dinâmicas de taxas foram realizadas. A primeira simulação apresenta um comportamento de mudanças de taxas mais simples e foi realizada para confirmar o funcionamento do algoritmo proposto. A Simulação 1 com a solução proposta é realizada como a seguir:
CAPÍTULO 5. SOLUÇÃO PROPOSTA VIA Q-LEARNING 30
• Simulação com 40 segundos de duração, em que a taxa UDPRate muda na metade da simulação;
• As taxas oferecidas por operador são definidas como totalmente desbalanceadas nas duas metades da simulação. Os usuários LTE-U começam a simulação com U DPRate= 4 Mbps e o usuários Wi-Fi com U DPRate = 500 kbps. Na metade da simulação as taxas são invertidas. Este cenário nada mais é que a junção dos dois últimos cenários de avaliação preliminar que foram expostos no Capítulo 4;
• Os valores de DC usados como ação, apresentados no capítulo anterior, são
A
= {0, 2, 0, 4, 0, 6, 0, 8};• A recompensa é dada por Ttx wi f i+ Ttx lteu média em cada tempo de ABS. Como o tempo de ABS dura 40 ms, ao final, o valor médio da vazão de cada operador é calculado, e o valor Q(s, a) atualizado. Depois da atualização de Q(s, a), e antes do início do próximo tempo de ABS, o novo valor do DC é escolhido pela Equação 5.2. Assim, sempre ao final do tempo de ABS atual o próximo valor DC é escolhido; • O valor de M para a divisão dos intervalos dos estados é definido como
160 Mbps, que é a vazão máxima teórica que o sistema pode atingir (para o caso UDPRate = 4 Mbps);
• Com relação aos parâmetros do Q-Learning, os valores de α e γ são definidos como 0, 3 e 0, 5, respectivamente. Esses valores foram definidos por testes de pré-simulação, em que foi averiguado o melhor par, levando em conta o tempo de convergência.
A Figura 5.2 apresenta os resultados obtidos para esta simulação. Pode-se notar que o Q-Learning oferece um ganho de quase 15 Mbps sobre o melhor DC fixo 0, 5. O QL alcança tal ganho, pois consegue achar e selecionar o melhor valor DC para cada vez que o sistema troca de taxas. Para entender melhor, considerando um DC fixo, por exemplo 0, 8, ele só vai elevar o sistema para sua vazão máxima durante metade da simulação (quando LTE-U tem um demanda muito maior que o Wi-Fi), na outra metade ele vai estar totalmente contrário ao que é demandado, representado perdas em termo de vazão. A situação inversa acontece para um DC de 0, 2. A grande vantagem do Q-Learning é que ele consegue em cada metade da simulação achar o melhor valor DC, assim ele sempre vai atender a demanda do sistema.
Para comprovar a escolha dinâmica do valor DC por parte do Q-Learning, a Figura 5.3 apresenta o histograma dos valores DC selecionados durante a simulação. Pode-se notar que os valores de DC 0, 2, 0, 4 e 0, 8 foram os mais selecionados, com o valor 0, 2 sendo o mais selecionado. Como há apenas 4 valores DC para testar por parte do Q-Learning, não há uma discrepância tão grande na frequência entre eles. Entretanto, se a simulação fosse mais longa, o algoritmo estaria escolhendo o melhor valor por mais tempo. Além disto, os valores 0, 2 e 0, 4 são mais vezes selecionados, em comparação ao 0, 8, devido a um aspecto do simulador. O DC 0, 8 será o melhor quando o LTE-U estiver com a demanda muito maior que a do Wi-Fi, e isso acontece nos primeiros 20 segundos de simulação. Entretanto, o simulador reservar um tempo no começo da simulação para configurar os servidores e as aplicações, assim, o tempo de transmissão útil de dados na primeira metade da simulação é menor que o da metade final. Assim, o Q-Learning vai atuar mais vezes na metade final do que na metade inicial da simulação, o que explica também porque o valor
CAPÍTULO 5. SOLUÇÃO PROPOSTA VIA Q-LEARNING 31
Figura 5.2: Simulação 1: Vazão DC Fixo vs Q-Learning.
Fonte: Próprio autor.
Figura 5.3: Histograma dos valores DC selecionados pelo Q-Learning.
CAPÍTULO 5. SOLUÇÃO PROPOSTA VIA Q-LEARNING 32
0, 4 é selecionado mais vezes que o 0, 8, pois na metade final da simulação o Q-Learning fica testando mais vezes os valores de DC menores.
Como explicado, a simulação 1 é uma simulação mais simples em termos de troca de taxas oferecidas. Ela foi realizada para mostrar que o algoritmo implementado, de fato, funciona e provê ganhos sobre a utilização de DCs fixos.
Para analisar o algoritmo em um cenário mais completo, uma segunda simulação foi realizada. A Simulação 2 é mais completa que a primeira, pois envolve mais UDPRates, além de ser mais longa. Os detalhes da Simulação 2 são apresentados a seguir:
• Simulação com 250 segundos de duração, em que a taxa UDPRate muda em pontos específicos;
• A taxa oferecida em cada ponto de transição é escolhida aleatoriamente, e de forma uniforme, do conjunto U DPRate = {500 kbps, 1 Mbps, 2 Mbps, 4 Mbps}. Essas taxas são as mesmas utilizadas para mostrar os resultados preliminares;
• Os pontos no tempo em que ocorrem as transições de taxa são escolhidos aleatoriamente, e de forma uniforme, do conjunto
TU DPRateChange = {10, 11, 12, 13, 14, 15} s e são somados ao tempo
corrente de simulação até o limite de 250 s. Assim, durante a simulação de 250 s, podem ocorrer no mínimo 250/15 = 16 e no máximo 250/10 = 25 transições; • Os valores de DC usados como ação são
A
= {0, 2, 0, 4, 0, 6, 0, 8};• A recompensa e o valor de M são definidos assim como na Simulação 1;
• Para representar o movimento dos usuários dentro do cenário são realizadas 100 repetições da simulação para diferentes posições dos usuários. Assim, se ganha em confiança estatística e pode-se analisar o comportamento médio do sistema para vários perfis de interferência (um perfil para cada conjunto de posições diferentes); • Com relação aos parâmetros do Q-Learning, os valores de α e γ são definidos como
0.3 e 0.5, respectivamente.
A Figura 5.4 apresenta um gráfico de barras com a vazão do sistema para cada valor fixo de DC, e por operador, em comparação com o resultado usando o Q-Learning. Como esperado, os resultados utilizando o Q-Learning apresentam ganhos sobre os melhores resultados sem o uso do framework. O ganho de vazão agregada é de cerca de 3 Mbps sobre os melhores DCs estáticos, DC = 0, 6 e DC = 0, 7, que corresponde a um ganho de cerca de 5%. A Figura 5.5 apresenta os ganhos relativos do Q-Learning em % com a referência sendo o DC 0, 6. Nota-se que a solução proposta provê ganhos tanto na vazão dos operadores, chegando a 9% de ganho para o Wi-Fi, como na vazão agregada. Comparando este ganho do sistema com a taxa oferecida, o ganho apresentado pode corresponder até 6 vezes mais do que tá sendo oferecido para cada usuário (para 500 kbps). Quando comparado com os ganhos apresentados na simulação 1, vê-se que embora haja ganho, este ganho não é tão expressivo. Esse comportamento se deve ao fato que para a Simulação 2 utiliza-se uma diversidade de taxas oferecidas, e que entre as trocas de taxas, os operadores podem estar com taxas iguais ou muito próximas. Para estes cenários de taxas muito próximas, o DC fixo 0, 5 ou 0, 6 se saem bem porque, na média, eles estão bem próximos da demanda média do sistema durante a simulação. Mesmo assim, o Q-Learning ainda apresenta ganho de desempenho.
CAPÍTULO 5. SOLUÇÃO PROPOSTA VIA Q-LEARNING 33
Figura 5.4: Simulação 2: Vazão DC Fixo vs Q-Learning.
Fonte: Próprio autor.
Figura 5.5: Ganhos em % para o Q-Learning (referência DC=0, 6).
Fonte: Próprio autor.
Considerando cada operador separadamente, ver-se que ambas as vazões apresentam ganho sobre o caso DC = 0, 6, mas que não chegam a ser a maior vazão possível que cada operador pode atingir. Para o Wi-Fi, a sua maior vazão é atingida para DC 0, 2, enquanto que no LTE-U é para o DC 0, 9. Já para o DC 0, 7, a vazão do operador LTE-U
CAPÍTULO 5. SOLUÇÃO PROPOSTA VIA Q-LEARNING 34
é melhor que o caso com Q-Learning, embora a vazão do sistema e a do Wi-Fi ainda sejam melhores que o caso estático. Mas esses resultados são coerentes e já esperados, pois o objetivo do framework é maximizar a taxa agregada do sistema. Os ganhos sobre o DC 0, 6 e 0, 7 são apenas consequência do comportamento médio esperado, pois o Q-Learning escolhe os valores de DC, visando o sistema, e não a maximização de um operador individualmente.
Embora seja modelado sobre a vazão do sistema, o framework também apresenta ganhos indiretos nas vazões por usuário. A Figura 5.6 mostra a CDF (Cumulative Density Function) da vazão por usuário, comparando o Q-Learning com um dos melhores DCs estáticos, o 0, 6.
Figura 5.6: CDF da vazão por usuário (DC = 0.6).
Fonte: Próprio autor.
Nota-se que, o ganho de vazão agregada do Q-Learning apresentado anteriormente é atingido pelo ganho nos usuários do Wi-Fi. Toda a faixa de usuários do Wi-Fi do 0o até o 90opercentil apresenta ganho com o Q-Learning quando comparado com o melhor DC estático. E esse ganho é alcançado sem que os usuários LTE-U venham a perder. Para esses usuários, nota-se pela CDF, que as vazões se mantêm, e até apresentam ganhos pequenos em certas faixas de percentis.
Voltando à Figura 5.4, a vazão agregada do sistema para DC = 0, 7 é também uma das máximas, mudando apenas as vazão das operadores. A Figura 5.7 mostra a CDF comparando a vazão por usuário com relação ao valor do DC igual a 0,7 e com o uso do frameworkproposto.
CAPÍTULO 5. SOLUÇÃO PROPOSTA VIA Q-LEARNING 35
Figura 5.7: CDF da vazão por usuário (DC = 0.7).
Fonte: Próprio autor.
Vê-se que quando comparado com este valor de DC, o Q-Learning apresenta ganhos para usuários Wi-Fi ainda maiores que em comparação ao DC 0, 6. Entretanto, esse ganho é seguido por perdas nas vazões por usuário LTE-U, principalmente os usuários com menores vazões (abaixo do 60o percentil). Assim, vê-se que o aumento na vazão dos usuários Wi-Fi é as custas da vazão dos 60% piores usuários do LTE-U, embora a maximização da vazão do sistema ainda ocorra.
Analisando a vazão agregada do sistema, o ganho de 3 Mbps é distribuído de forma igual entre os usuários do Wi-Fi, e mantendo a vazão por usuário do LTE-U, quando o DC igual a 0, 6. Já para o DC 0, 7, o Wi-Fi continua ganhando de forma (quase) distribuída, mas os usuários LTE-U perdem, e de forma não uniforme, uma vez que são os piores usuários que perdem mais.
Para complementar a análise por usuários, as Figuras 5.8 e 5.9 apresentam o 10o e o 90o percentil da vazão, respectivamente. Para o 10o percentil, nota-se que com o Q-Learning há um ganho para o Wi-Fi com relação a todos os DC maiores que 0, 6. Já para o LTE-U, o 10o percentil só é melhor que os DCs menores que 0, 6. Por sua vez, o 90o percentil apresenta um comportamento um pouco diferente. Para o Wi-Fi, o 90o percentil é melhor que para todos os valores de DC maiores que 0, 4. Para o LTE-U, esse percentil apresenta vazões menores que para os DCs 0, 7, 0, 8 e 0, 9. Porém a diferença é bem pequena, mostrando que o 90o percentil do LTE-U é menos sensível a variação do DC (quando comparado com o mesmo percentil do Wi-Fi).
CAPÍTULO 5. SOLUÇÃO PROPOSTA VIA Q-LEARNING 36
Figura 5.8: Análise do 10opercentil para cada valor de DC.
Fonte: Próprio autor.
Figura 5.9: Análise do 90opercentil para cada valor de DC.
CAPÍTULO 5. SOLUÇÃO PROPOSTA VIA Q-LEARNING 37