Neste capítulo, foram apresentados os principais conceitos sobre as redes complexas. A análise de redes complexas é uma das áreas que surgiram recentemente com o intuito de estudar grandes volumes de dados modelados como redes (grafos). Algumas de suas principais medidas de centralidade foram discutidas nesse capítulo, propriedades utilizadas diretamente na abordagem proposta nesta tese.
Uma propriedade relevante em diversas redes complexas é a existência de grupos de nós densamente conectados, denominados comunidades. O estudo de métodos para caracterização desses grupos tem despertados interesses da comunidade científica. Neste capítulo foram descritas as principais abordagens de caracterização de grupos, entre elas a baseada em diferenciação (CGBD), a qual é um dos focos de estudo desse trabalho.
Este estudo bibliográfico foi de grande importância para o embasamento da proposta aqui levantada. Uma vez compreendidos e explorados esses métodos e abordagens, podemos adaptá-los de forma adequada ao problema em questão obtendo assim melhores resultados e ganhos. No Capítulo 3, apresentamos nossa proposta e delineamos cada um dos seus módulos. Como estudo de caso inicial, verificamos a viabilidade da aplicação de técnicas convencionais de rotulagem de agrupamentos em documento textuais ao contexto de caracterização de grupos sociais. Confrontando, posteriormente, os resultados obtidos a uma caracterização baseada em informações relacionais. Por fim ainda avaliamos o pré-processamento dos dados iniciais através da representação de usuários baseada em comunidades. Foram aplicados os métodos: TF-IDF, IDF, WRS, BNS e Qui-Quadrado, os experimentos são descritos em detalhes no Capítulo 4.
3 CARACTERIZAÇÃO DE GRUPOS BASEADA EM INFORMAÇÕES RELACI- ONAIS
Como já visto no Capítulo 2, a ARS é um amplo campo de pesquisa que relaciona técnicas, estratégias e métricas para o estudo das redes. A análise e a extração de conhecimento das redes são largamente empregadas. Dentre essas, a compreensão do comportamento e das tendências das comunidades é uma atividade estratégica Wasserman e Faust (1994). De acordo com (TANG; WANG; LIU, 2011), é desejável que todo método de caracterização de grupos satisfaça as seguintes propriedades: descritivo, robusto e escalável.
As redes sociais online mais populares são enormes, com centenas de milhões de nós. Dessa forma, é necessário um elevado tempo de processamento para recuperação de todas as informações. Obviamente o ideal é que todos os nós autores sejam considerados para a caracterização de grupos durante o processo de rotulagem. Isto incluirá mais conhecimento para ser propagado ao longo da rede. Entretanto, como já apontado, um dos principais pilares de um bom método de caracterização é a escalabilidade.
Normalmente se tem a intenção de reduzir o tamanho do conjunto de dados utilizado ao mínimo possível; seja por dificuldades na coleta (dados ruidosos, duração, entre outros) ou pelo elevado custo computacionais na rotulagem das comunidades. Conforme já visto na seção REF a abordagem CGBDE proposta por (TANG; WANG; LIU, 2011), busca isso com base em uma visão egocêntrica das comunidades. Todavia, essa abordagem apresenta algumas limitações, tais como: perda do contexto/visão global da rede, inaplicabilidade em casos de comunidades isoladas e em situações de “poucos” nós vizinhos, uma vez que algumas comunidades podem apresentar uma visão egocêntrica limitada, com poucos vizinhos ou com nós de baixa representatividade (não relevantes para a caracterização).
É visível a carência por abordagens eficazes na filtragem de nós e conteúdos, reduzindo os dados de entrada e mantendo as informações relevantes para a caracterização das comunidades. Uma abordagem imediata seria realizar uma seleção aleatória entre os nós das comunidades. Se o conjunto resultante representar o todo, a caracterização pode apresentar um bom desempenho. Todavia, a variabilidade dos resultados pode ser grande e dependeríamos totalmente da sorte na obtenção de uma amostra representativa.
Outros aspectos das abordagens atuais de caracterização de grupos sociais são: (1) caracterização baseada apenas nos atributos dos usuários, (2) níveis de relevâncias equi- valentes a todos os usuários e (3) consideração de todos os usuários da comunidade na caracterização. Todavia, em ambientes nos quais haja conexões entre seus usuários (como as redes sociais), uma nova dimensão de informação se apresenta, através da análise dos relacionamentos e afinidades entre os usuários (informação relacional).
As informações relacionais podem promover grandes benefícios ao estudo e compreensão de comunidades em redes sociais, apresentando-se como o grande diferencial em relação às
abordagens de rotulagem de agrupamentos em documentos. De modo geral, independente da abordagem de caracterização de comunidades adotada, agregação, diferenciação global ou egocêntrica, os métodos atuais somente fazem uso de atributos dos usuários para a caracterização das comunidades. Sabendo-se que a rotulagem de comunidades sociais é realizada em um cenário que há informação relacional disponível, abordagens que considerem essa nova dimensão de informação são necessárias.
Ao se analisar uma comunidade, um aspecto importante é identificar quais são os nós ou os links mais importantes (ou centrais), pois esses podem revelar algumas peculiaridades relevantes sobre a comunidade. Normalmente utilizam-se as medidas de centralidade como forma de quantificar essa importância. A noção de centralidade, em várias aplicações, é associada à importância do elemento na estrutura, no problema apresentado, na comunidade. Espera-se, por exemplo, elevados1 índices de centralidade de nó para uma pessoa influente
em um grupo social. Essa informação tende a apresentar relevante atuação na análise dos dados, ou seja, nós centrais podem: generalizar conteúdos, apresentar maior influência na comunidade, ponderar a caracterização, entre outras possibilidades.
Buscando melhorias sobre os três pilares definidos por (TANG; WANG; LIU, 2011) e a
incorporação dos benefícios supracitados com a exploração das informações relacionais, esta tese propõe uma abordagem para caracterização de grupos sociais baseada em informações relacionais. Nas próximas seções são apresentados, em detalhes, a representação do problema e a metodologia proposta.