O processo de seleção dos estudos foi realizado em duas rodadas sequenciais: primeira rodada e segunda rodada. Ambas as rodadas utilizaram a ferramenta ExtractViewer. Através dela os revisores puderam trabalhar em paralelo em um ambiente distribuído, o que ajudou a acelerar a execução desta etapa.
4.1. EXECUÇÃO DO MAPEAMENTO SISTEMÁTICO 47 Na primeira rodada, como ilusta a Figura 4.1, o título, resumo e palavra-chave de todos os 3.611 estudos candidatos foram lidos e avaliados pelo autor e outro pesquisador experiente. As análises desta rodada foram feitas pelo autor do estudo através da ferramenta ExtractViewer.
Figura 4.1 Esquema de execução da primeira rodada de seleção dos estudos do mapeamento sistemático
Apenas os trabalhos claramente fora do escopo da pesquisa (3.260) e os considerados duplicados (155) foram excluídos. Os estudos duplicados foram identificados automaticamente pela ferramenta através das informações de metadados e apresentou uma efetividade de 97%. Todos os indícios de duplicações foram verificados pelo autor para ratificar a veracidade da informação. Neste momento também foram ratificas todas as informações de metadados dos estudos. Ao final desta rodada restaram 196 estudos. Mais detalhes sobre o resultado do processo de seleção podem ser obtidos na Seção 4.2. O grande quantitativo de estudos excluídos chamou à atenção e resolveu-se analisar em detalhes o motivo que tenha levado à ocorrência deste fato. Através de tal análise chegou-se aos dados da Tabela 4.2 e podemos observar que o grande quantitativo de estudos excluídos estava relacionado ao fato de o estudo não estar relacionado à computação em nuvemou à elasticidade.
Por meio destes dados foi possível perceber um achado que chamou bastante a atenção: o jornal IEEE Transactions on Parallel and Distributed Systems, apresentou uma grande quantidade de estudos excluídos pelo motivo "O Estudo não está relacionado à Computação em Nuvem". Apesar de não existir ainda um jornal específico para a área de pesquisa da computação em nuvem, e tal jornal por ser relacionado à grande área de pesquisa de sistemas distribuídos a qual a computação em nuvem pertence, esperava-se que existisse grande possibilidade de encontrar estudos relevantes para a pesquisa. Entretanto, foi possível perceber que a estratégia de inclusão deste jornal não teve o efeito esperado.
Já as conferências "IEEE International Conference on Cloud Computing Technology and Science"e "IEEE International Conference on Cloud Computing" apresentarem um alto volume de exclusão pelo critério "O Estudo não está relacionado à Elasticidade na Computação em Nuvem". Tal fato pode ser compreensível, visto que estudos sobre avaliação em elasticidade co- meçaram a despontar na literatura em 2009 e o auge de publicações datam de 2012 (COUTINHO et al.,2014).
4.1. EXECUÇÃO DO MAPEAMENTO SISTEMÁTICO 48
Origem dos Dados Busca Motivo Exclusão Recup. Excl. %
Excl. IEEE Transactions on Parallel
and Distributed Systems
Manual O Estudo não está rela- cionado à Computação em Nuvem.
1315 1199 91%
IEEE International Confe- rence on Cloud Computing Te- chnology and Science
Manual O Estudo não está rela- cionado à Elasticidade na Computação em Nu- vem.
517 480 93%
IEEE International Confe- rence on Cloud Computing
Manual O Estudo não está rela- cionado à Elasticidade na Computação em Nu- vem.
454 421 93%
ACM Digital Library Automática O Estudo não está rela- cionado à Elasticidade na Computação em Nu- vem.
490 323 66%
Springer Link Automática O Estudo não está rela- cionado à Elasticidade na Computação em Nu- vem.
251 121 48%
Tabela 4.2: Critérios de exclusão apliados na primeira etapa de seleção dos estudos candidatos A segunda rodada contou com a participação de 18 pesquisadores, configurados em 10 duplas para realizar a análise dos 196 estudos resultantes da primeira rodada. O processo de seleção pode ser visto na Figura 4.2 que contém a mesma semântica da Figura 4.1. Vale destacar que o processo apresentado é repetido para cada uma das duplas participantes. A configuração de duplas foi feita conforme a Tabela F.2 e cada uma delas analisou 10% dos trabalhos, o que resulta em aproximadamente 20 estudos por revisor.
Com o acesso ao sistema, cada integrante das duplas analisou todos os estudos pre- sentes na sua lista, registrando os possíveis critérios aplicados e caso desejasse os respectivos comentários. Ao final das análises a ferramenta identificou todos os conflitos existentes entre os revisores de cada uma das duplas. Todos os conflitos foram resolvidos através de reunião e sem intercorrências e ao final desta etapa foram selecionados 59 estudos. A listagem dos estudos selecionados, juntamente com seu respectivo código, título, ano, origem dos dados e autores é apresentado no Apêndice A.
Para mensurar o grau de confiabilidade da aplicação dos critérios a segunda rodada, foram executados testes de Kappa (VIERA; GARRETT,2005) para aferir a concordância entre os revisores (KITCHENHAM; CHARTERS,2007;EDWARDS et al.,2002). A estatística de Kappa é denotada pela letra "K"e é calculada através de um teste que retorna valores de menos infinito a 1, sendo interpretado conforme a Tabela 4.3. O cálculo desta estatística é acompanhado de um teste de confiabilidade, que ajuda a identificar se o valor de K foi obtido através de mera chance por meio de um p-value (VIERA; GARRETT,2005).
4.1. EXECUÇÃO DO MAPEAMENTO SISTEMÁTICO 49
Figura 4.2 Esquema de execução da segunda rodada de seleção dos estudos do mapeamento sistemático
Kappa Concordância
< 0 Menos que mera chance de concordância 0,0 Nível pobre de concordância
0,01 - 0,20 Nível leve de concordância 0,21 - 0,40 Nível razoável de concordância 0,41 - 0,60 Nível moderado de concordância 0,61 - 0,80 Nível substancial de concordância 0,81 - 0,99 Nível quase perfeito de concordância
Tabela 4.3: Valores de referência para interpretação do teste Kappa
Ao final foi analisado o índice de concordância global e obteve-se um valor K=0,376, que conforme a Tabela 4.3 é considerado um nível de concordância razoável. Para este teste obtivemos um p-value=0,001, que permite rejeitar a hipótese de que o resultado tenha acontecido ao acaso. Tal resultado foi obtido com certa surpresa, uma vez que somadas todas as duplas houveram 139 concordâncias contra 57 discordâncias, configurando um nível de concordância de 71%, que mostra-se aparentemente moderado para ser considerado apenas razoável.
No que diz respeito à análise de concordância entre os integrantes das duplas, foram obtidos os valores apresentados na Tabela 4.4. As estatísticas indicam que as duplas D4, D7 e D8 se enquadram em um nível de concodância substancial, tendo como rejeitada a hipótese nula de concordância por mera chance. As duplas D1, D2, D3, D5, D9 e D10 apresentaram um nível razoável de concordância. Já a dupla D6 apresentou um nível de concordância leve, com p-value mostrando não ser possível rejeitar a hipótese de que esse resultado se deu por mero acaso. Ao analisar, em especial, os conflitos e as respectivas discordâncias foi possível observar que o principal fator de discordância foi na diferenciação dos conceitos de elasticidade. Tal resultado pode ser considerado relativamente natural, visto que a dupla foi composta por um especialista em CN e outro em ESE. Assim sendo, foi considerado que o índice de 71% de concordância
4.1. EXECUÇÃO DO MAPEAMENTO SISTEMÁTICO 50 quanto à inclusão/exclusão dos estudos primários evidencia uma taxa segura de confiabilidade para os critérios utilizados nesta pesquisa.
Dupla Kappa p-value Concordância
D1 0,21 0,36 Nível razoável de concordância D2 0,36 0,04 Nível razoável de concordância D3 0,26 0,16 Nível razoável de concordância D4 0,61 0,003 Nível substancial de concordância D5 0,24 0,21 Nível razoável de concordância D6 0,05 0,83 Nível leve de concordância D7 0,66 0,002 Nível substancial de concordância D8 0,78 0,001 Nível substancial de concordância D9 0,38 0,07 Nível razoável de concordância D10 0,21 0,36 Nível razoável de concordância
Tabela 4.4: Resultado dos testes Kappa
Ao analisar os índices de concordância procurou-se entender e investigar o principal motivo que levou a este grau de discordância entre os revisores e foi observado que os principais motivos de conflito foram dois: (i) atestar que o estudo reportava um experimento e (ii) atestar se o experimento avaliava elasticidade. Entretanto, acreditamos que a discordância do ponto (i) foi causada pelo uso indiscriminado da terminologia dos estudos empíricos. Houveram estudos em que o autor declarava em um trecho do artigo ter realizado um experimento e, logo em outro trecho do mesmo artigo alegar que foi realizado um estudo de caso. Quanto ao ponto (ii) observou-se que a dificuldade ocorreu pela confusão que existe entre os conceitos de elasticidade e escalabilidade.