• Aucun résultat trouvé

The First Puzzle Piece: The Authentication Header

Dans le document Demystifying the IPsec Puzzle (Page 35-61)

Ao analisar a enorme quantidade de informação que cada domínio de negócio pode conter, confirma-se a dificuldade em identificar os itens em que um utilizador poderá ter particular inte- resse. Para minimizar a quantidade de informação, é útil criar perfis, tanto de itens, Item Profiling, como de utilizadores, User Profiling ou User Model, reduzindo desta forma a complexidade e quantidade dos dados. Existem várias ferramentas analíticas que podem ajudar na análise de da- dos e possuem múltiplos algoritmos neste domínio, nomeadamente SAS Miner [55], SPSS Modeler [56], Rapid Miner [57], KNIME [58], R [59], Weka [60], entre outros [61].

Nos atuais sistemas de recomendação, os perfis de utilizadores são geralmente gerados com base em dados com relevância limitada, sendo estes demasiado simplistas para produzir recomen- dações de qualidade [62]. Ao utilizar uma matriz de utilidades, torna-se possível relacionar os utilizadores com os itens [19, Capítulo 9 ]. A criação de perfis, quer de utilizadores, quer de itens, é discutida nas secções seguintes.

Item Profiling

Item Profiling, é um processo de seleção das características referentes aos itens em análise. Este processo nem sempre é fácil de entender, mas o contexto de recomendação de filmes seguinte serve para exemplificar. Sendo o público alvo utilizadores que pretendem receber recomendações sobre filmes, devem ser consideradas as suas preferências. Se os utilizadores relevam preferências sobre os atores, diretores, ano do filme ou género, serão essas características as usadas na criação do perfil dos itens (filmes, neste exemplo). [19, Capítulo 9 ].

User Profiling

User Profileé o processo de aquisição, extração e representação das características dos utiliza- dores. Este procedimento tem uma enorme relevância nos resultados do sistema de recomendação, pelo que é fundamental a sua boa execução. A informação dos utilizadores pode ser extraída de duas formas: introduzida diretamente pelos utilizadores de forma explícita, ou obtida implicita- mente por monitorização das ações dos utilizadores [63].

A figura2.19apresenta um exemplo simples de user profile, cujos dados foram extraídos de contas em redes sociais.

Figura 2.19: User profile [61]

Na aquisição de dados de forma explícita, é solicitada a avaliação ou seleção de itens ao utilizador. Este tipo de aquisição de dados é mais precisa por ser obtida diretamente do utilizador. Já a aquisição de dados de forma implícita é realizada com base na observação das interações do utilizador com o sistema, e consequentemente os interesses são inferidos. Exemplos de aquisição de dados de forma implícita são enumerados na figura2.20.

Figura 2.20: Dados atingíveis pela aquisição implícita [63]

A extração de dados de forma implícita usa informação obtida através do sistema para inferir gostos ou preferências dos utilizadores. Este tipo de extração de dados é menos precisa que a explícita, uma vez que tem de assumir que existem ligações com base nos comportamentos infe- ridos, enquanto na extração de dados de forma explícita essas ligações são expressas pelo próprio utilizador. Na figura 2.21estão identificados exemplos de dados possíveis de ser capturados por cada uma destas abordagens.

Figura 2.21: Comparação entre extração de dados explicita e implícita [63]

A aquisição de dados é a fase mais importante de um sistema de recomendação, pois mesmo o melhor sistema de recomendação não consegue obter bons resultados se não tiver dados suficientes sobre os seus utilizadores. Outras razões para o fracasso da recomendação ocorrem quando surgem os problemas de Cold Start14, Sparseness15, Malicious Rating16[50].

• Cold Start - Reflete a falta de dados sobre um utilizador que inícia a sua atividade na pla- taforma há relativamente pouco tempo. Nesta situação, os sistemas possuem ainda pouca informação sobre o utilizador, devido à ausência de um histórico de atividade.

• Sparseness - Este problema surge quando os utilizadores pouco ou nada interagem com o sistema. O problema de Cold Start é um subtipo deste problema.

• Malicious Rating - Este problema surge na consequência da criação de utilizadores com a única finalidade de atribuir classificação aos itens. Estas classificações não correspondem aos gostos reais de nenhum utilizador, sendo classificações tendenciosas. Estas classifica- ções, ao serem extraídas e utilizadas em futuras recomendações, propagam, erroneamente, as preferências dos utilizadores, comprometendo desta forma o resultados do modelo. Es- tes valores podem provocar o enviesamento dos dados e comprometem os resultados da recomendação.

14Cold Start - Consequência do registo de novo utilizadores, o que proporciona um histórico de interações insufici-

ente.

15Sparseness - Existência de espaços em brancos na matriz.

Matriz Utilidades

A matriz utilidades é uma matriz bidimensional, ou, em alguns casos, de dimensão n, que permite relacionar duas entidades (utilizadores e itens) num sistemas de recomendação. A relação entre o utilizador e o item é a classificação do item atribuída pelo utilizador, classificação esta que geralmente assume um valor numérico, onde valores mais elevados correspondem a classificações mais altas. Dada a dificuldade de relacionar todos os itens com todos os utilizadores, a matriz apresenta-se muitas vezes como esparsa, onde as células vazias significam que não há informação suficiente sobre a preferência do utilizador para com o item [19, Capítulo 9 ]. Na figura 2.22 apresenta-se como exemplo uma matriz de utilidades, onde as colunas correspondem aos itens, neste caso filmes, e as linhas são os utilizadores. A classificação dos filmes é um valor numérico entre 1 e 5.

Figura 2.22: Matriz utilidades de avaliações em filmes [19, Capítulo 9 ]

• HP1, HP2 e HP3 : Harry Potter I, II e III ; TW : Twilight; SW1, SW2 e SW3 : Star Wars episódio I, II, III;

• A, B, C, D : Utilizadores;

O objetivo do sistema de recomendações é prever os "espaços em branco"na matriz. Um exemplo seria tentar prever a avaliação do filme SW2 dada pelo utilizador A. Ao analisar as propriedade do filme SW2, tais como título, autores, diretor e género, encontram-se similaridades entre SW1, SW2 e SW3, e pela baixa avaliação que o utilizador A deu a SW1 podemos deduzir que não gostou e que provavelmente não irá também gostar do filme SW2. Continuando a análise, nota-se que quem classificou SW1 e SW2 deu valores próximos, e assim pode-se concluir que o utilizador A avaliará o filme SW2 com uma classificação baixa. O sistema não precisa prever todos os espaços em branco, o que é importante é prever aqueles que são mais prováveis de obter uma classificação alta [19, Capítulo 9].

Sem a matriz utilidades, é quase impossível que um sistemas de recomendação consiga efetuar boas previsões. No entanto, extrair dados úteis para a criação da matriz utilidades, pode ser uma tarefa difícil. Como já foi referida, esta extração pode ser efetuada de duas formas: [19, Capítulo 9 ]

• Extração explícita: Solicitar aos utilizadores para avaliar itens. Esta abordagem é limitada, uma vez que os utilizadores nem sempre realizam a avaliação.

• Extração implícita: Com base no comportamento do utilizador, os seus consumos numa plataforma, encontrar um proxy17para ordenar conteúdos por preferência.

Dans le document Demystifying the IPsec Puzzle (Page 35-61)