The Second Puzzle Piece: The Encapsulating Security Payload

3.1.1 “Personalized recommendation via integrated diffusion on user–item–tag tripartite graphs”

No artigo Personalized recommendation via integrated diffusion on user–item–tag tripartite graphs[76] é enfatizado o grande volume de conteúdos (overload de informação) existente prove- niente de várias fontes, o que dificulta a tarefa de encontrar o que o utilizar procura. Apesar da existência de motores de busca que facultam alguma filtragem, ainda é possível não encontrar o item desejado. Isto ocorre devido aos métodos simples de filtragem que estes motores de busca utilizam, como é o caso da filtragem baseada em palavras chaves. Este tipo de motores de busca utilizam filtragens que apresentam o mesmo resultado para diferentes pessoas. A falta de perso- nalização das recomendações, é geralmente derivada da dificuldade em interpretar as necessidade e gostos de cada utilizador, optando-se pela recomendação baseada apenas em palavras chaves. Uma possível solução que supera os problemas devido ao overload de informação disponível, seria a aplicação de sistemas de recomendação.

É também referido o grande desafio que é atingir uma boa precisão nas recomendações e adicionalmente garantir a diversidade e novidade nos conteúdos. Este desafio provém da grande esparsidade do dataset utilizado, no qual se constata existir falta de informação adicional, nome- adamente, sobre o perfil do utilizador, atributos dos itens e classificações explícitas. Usualmente, o perfil de utilizador contém atributos pessoais, tais como idade, género, nacionalidade, trabalho, etc, e estes atributos podem ser utilizados para a criação de subgrupos que auxiliam a filtragem. No entanto, as plataformas que contêm estes dados, não os podem divulgar devido a limitações impostas pela lei de privacidade dos dados.

Uma das técnicas mais utilizadas e com maior taxa de sucesso na implementação de sistemas de recomendação é a técnica de filtragem colaborativa, onde um utilizador recebe recomendações

de itens, que outro utilizador com gostos similares já consumiu. Muitos destes sistemas utilizam tagscolaborativas que contêm bastante informação sobre preferências personalizadas e conteúdos dos itens, e são uma mais valia para atingir melhores recomendações.

O desempenho dos sistemas baseado em filtragem colaborativa está limitado quer pela esparsidade nos dados, consequência do grande volume de dados de itens que impossibilita os utilizadores de classificar grande parte dos itens, como também pela indisponibilidade dos utilizadores em fornecer feedback. Como solução para este problema, é sugerida a exploração de grafos bipartidos utilizador-Item.

Os sistemas de recomendação são capazes de fornecer recomendações personalizadas automa- ticamente, com base no histórico de atividade do utilizador. Estas atividades podem ser extraídas de grafos bipartidos utilizador-item, como exemplificado na figura3.1

Figura 3.1: Grafo bipartido utilizador-item [76]

Zhang et al propõem um algoritmo de recomendação com base na difusão integrada no grafo tripartido utilizador-item-tag. Com os resultados experimentais obtidos, concluíram que as tags podem produzir melhorias na precisão, diversidade e novidade nos conteúdos recomendados [76].

3.1.2 “TCARS: Time-and Community-aware Recommendation System”

Rezaeimehr et al. desenvolvem em "TCARS: Time-and Community-aware Recommendation System"[77] um sistema de recomendação suportado em técnicas de filtragem colaborativa (user- Items), similaridade entre utilizadores e itens, e redes com estrutura de comunidade. Este trabalho utiliza dois benchmark dataset para o estudo, os quais são compostos por utilizadores e itens, com avaliações dos utilizadores. Um dos principais objetivos deste trabalho é modelar a mudança, ao longo do tempo, das preferências dos utilizadores, o que, consequentemente, vai afetar a similaridade entre utilizadores. Um outro objetivo é a redução dos efeitos negativos da esparsidade das redes user-item. Para atingir os objetivos anteriormente referidos, os autores propõem o algoritmo Novel Time-aware Recommendationpara identificar comunidades sobrepostas, que consideram as

dinâmicas temporais quer no histórico de avaliações, quer na similaridade entre outros utilizadores.

O desenvolvimento deste sistema foi dividido em seis passos:

1◦ A partir de uma matriz de users-itens com as validações existentes, obter uma estimativa inicial das avaliações sobre os itens que o utilizador ainda não avaliou;

2◦ Filtrar as estimativas para imputação da matriz users-itens, com uma nova métrica de fia- bilidade, e eliminar as estimativas de baixa qualidade;

3◦ Criar a rede de utilizadores;

4◦ Detetar comunidades com sobreposição; 5◦ Extrair regras, Rule Mining;

6◦ Selecionar top-N recomendações.

Nos passos 1◦ e 2◦ são eliminados os problemas relacionado com cold start e causados pela esparsidade inicial dos vetores de avaliação de itens de cada utilizador. Na elaboração da reco- mendações é usada a rede de utilizadores com comunidades previamente identificadas, de modo a ser possível aplicar algoritmos de rules mining que sugerem itens para cada utilizador. A seleção final é efetuada aplicando uma regra de ordenação das top-N recomendações anteriores.

A validação dos resultados é efetuada usando as métrica de precisão e taxa de acerto (accuracy) [77].

3.1.3 “Advances in collaborative filtering”

No artigo "Advances in collaborative filtering" [78] são exploradas distintas abordagens de re- comendação, assim como um conjunto de problemas atuais que podem surgir em qualquer sistema de recomendação após ser colocado em produção. Destes problemas, o mais complexo surge com a necessidade de acompanhar a dinâmica das preferências do utilizador, que se alteram ao longo do tempo. Tradicionalmente, os sistemas de recomendação baseiam-se em dados provenientes de ações explícitas na classificação de itens por parte do utilizador (explicit feedback).

No entanto, nem sempre é possível, ou desejável, colocar nas mãos do utilizar a responsabi- lidade de classificar os itens da sua preferência. Tal como realizado nesta tese, é possível obter informações acerca das preferências e gostos do utilizador de um modo implícito através dos seus padrões de consumo (visualização de conteúdo, compra de livro, etc). Este artigo também explora abordagens que combinam esta extração de padrões implícitos (implicit feedback) com a forma mais tradicional, referida anteriormente, de modo a fazer uso da maior quantidade possível de informação sobre as preferências do utilizador. Neste trabalho, são exploradas duas metodologias base. Por um lado, existem os modelos baseados em vizinhança, em que o foco está na análise das relações entre os utilizadores e os itens que consomem (livros, filmes, páginas web, etc). Por outro lado, existe a alternativa de utilizar modelos que efetuam a extração de fatores latentes dos

dados, isto permite a caraterização dos gostos ou consumos dos utilizadores com base em fatores que procuram encontrar padrões subjacentes que os explicam.

Modelos Baseados em Vizinhança

Os modelos baseados em vizinhança, como referido na subsecção2.7.3, podem ser de dois tipos: baseado em utilizador e baseado em itens. Uma abordagem item-item modela a preferên- cia de um utilizador para um item com base nas classificações, atribuída pelo utilizador, a itens semelhantes. Já uma abordagem user-user analisa os utilizadores mais similares e tenta prever classificações de itens com base nas classificações atribuídas pelos utilizadores similares. Esta similaridade pode ser calculada de diversas formas, sendo exemplos a similaridade do cosseno ou índice de Jaccard, ou métricas de distância entre vetores, como distância euclidiana ou distância Manhattan.

Modelos de Fatores Latentes

Este tipo de modelos incluem a representação dos consumos dos utilizadores através de vetores utilizador e item. Estes vetores quantificam a preferência do utilizador, seja de forma expressa ou implícita. Utilizando a matriz resultante desta representação, são aplicados métodos que procuram encontrar padrões latentes nos dados, através da fatorização das matrizes. Esta fatorização cons- trói uma nova representação dos dados, em que os utilizadores passam a estar caraterizados num espaço de fatores que representam correlações no consumo de itens entre os vários utilizadores. Esta representação é depois utilizada para efetuar a filtragem colaborativa.

Estes modelos possuem como vantagem sobre as abordagens baseadas em vizinhança, a pos- sibilidade de utilizar técnicas otimizadas de fatorização, baseadas em gradientes, que são simul- taneamente mais eficientes em termos de computação e compactas na utilização de memória. A representação das preferências com fatores também facilita a integração de múltiplos tipos de dados provenientes, não só diretamente das preferências expressas do utilizador, mas também de outras ações do utilizador, por exemplo web browsing e compras. Uma abordagem que explora este conceito é o SVD++, vencedor do Netflix prize, que adiciona fatores que exploram a dinâ- mica temporal dos gostos do utilizador. É também demonstrada que a inclusão deste fator temporal melhora significativamente a qualidade das previsões.

3.1.4 “Rank and Relevance in Novelty and Diversity Metrics for Recommender

Systems”

Herlocker [79] refere que as comunidades de sistemas de recomendação estão cada vez mais interessadas na exploração dos fatores novidade e diversidade, com vista à obtenção de uma me- lhor precisão nas recomendações em cenários reais. Também cita [80], [81] para afirmar que quanto mais pesquisas sobre Sistemas de Recomendação há, a aplicar o seu esforço na precisão dos resultados, maior é a convicção da comunidade sobre a temática que a precisão por si só não é suficiente. E que a introdução de novidade e diversidade revela-se uma mais valia em sistemas

de recomendação aplicados em cenários reais. No entanto, a literatura não apresenta a relação, diferença ou equivalências entre as métricas a usar. Deste modo, os autores deste artigo tentaram identificar as conexões entre as métricas, como também tentaram unificá-las para medir os fatores de novidade e diversidade.

Este trabalho propõe uma framwork de métricas, que pretende unificar a medição de novidade e diversidade. É proposto um esquema que considera as classificações e relevância dos itens. Estas propriedades são obtidas através da análise da interação do utilizador com o sistema, onde os itens com maior classificação são considerados mais relevantes e aqueles que o utilizador não gosta são de pouca relevância. Esta framework foi construida com base na identificação de três conceitos fundamentais na relação entre utilizador e item:

• Descoberta - O utilizador encontra o item

• Escolha - O item é utilizado, selecionado, consumido, comprado, etc, pelo utilizador

• Relevância - O utilizador atribui uma classificação ao item, o utilizador considera o item útil, etc

Este esquema métrico é constituído por um modelo de novidade do item, que se baseia em descoberta ou distância, e pela classificação e relevância que são introduzidas por um modelo de navegação. O modelo de navegação permite modelar o comportamento do utilizador nas suas interações com uma lista de itens recomendados. Há muitas maneiras de modelar esse comportamento, mas esta abordagem inspira-se em trabalhos relacionados que utilizam modelos de cliques do utilizador em sistemas de recuperação de informação.

Dans le document Demystifying the IPsec Puzzle (Page 61-79)