CHAPTER III: Issues from the subsidiary bodies of the Commission, including the
C. Meetings held during the period under review
O primeiro sistema de recomendac¸˜ao proposto foi o Tapestry (RESNICK; VARIAN, 1997), seus idealizadores criaram a express˜ao “filtragem colaborativa”, termo que usaram para refe- renciar um sistema espec´ıfico capaz de filtrar conte´udos se utilizando de aux´ılio humano, ou seja, colaborac¸˜ao entre grupos de interessados.
Filtragem Colaborativa utiliza o feedback de um conjunto de indiv´ıduos sobre um conjunto de items para realizar as recomendac¸˜oes, e ignoram o conte´udo dos items (MONTANER, 2003) e dos perfis dos usu´arios.
A grande vantagem deste m´etodo ´e justamente n˜ao depender do conte´udo das descric¸˜oes dos items e dos conte´udos dos perfis de usu´arios, superando o problema dos conte´udos incompletos, imprecisos ou inexistentes.
Segundo Herlocker (HERLOCKER, 2000), os primeiros sistemas de filtragem colaborativa requeriam usu´arios para especificar o relacionamento de predic¸˜ao entre suas opini˜oes, ou de modo expl´ıcito indicar os itens de interesse. Por´em, em seguida estes sistemas automatizaram todo o procedimento atrav´es da colec¸˜ao das pontuac¸˜oes dos itens pelos usu´arios.
Um usu´ario de um sistema de filtragem colaborativa deve portanto pontuar cada item ex- perimentado, indicando o quanto este item casa com sua necessidade de informac¸˜ao. Alguns sistemas, no entanto, permitem apenas que o usu´ario manifeste-se favor´avel a um item, ou n˜ao manifeste-se favor´avel, denotando indiferenc¸a, sem a possibilidade de um meio termo.
Sistemas de filtragem colaborativa simples apresentam para o usu´ario uma m´edia de pontuac¸˜oes para cada item com potencial de interesse. Esta pontuac¸˜ao permite ao usu´ario descobrir itens que s˜ao considerados de interesse pelo grupo e evitar os itens que s˜ao considerados de pouco interesse. Sistemas mais avanc¸ados descobrem de maneira autom´atica relac¸˜oes entre usu´arios (vizinhos mais pr´oximos), baseado na descoberta de padr˜oes comuns de comportamento (RE- ATEGUI; CAZELLA, 2005).
Uma quest˜ao importante em sistemas de filtragem colaborativa refere-se `a coleta de informac¸˜oes dos usu´arios, que pode apresentar alguns problemas(REATEGUI; CAZELLA, 2005):
• Problema do primeiro avaliador: quando um novo item aparece no banco de dados
n˜ao existe maneira deste ser recomendado para o usu´ario at´e que mais informac¸˜oes sejam obtidas atrav´es de outro usu´ario.
• Problema de pontuac¸˜oes esparsas: o objetivo dos sistemas de filtragem colaborativa
´e ajudar pessoas, focando em documentos lidos ou itens adquiridos. Caso o n´umero de usu´arios seja pequeno em relac¸˜ao ao volume de informac¸˜oes no sistema existe um grande risco das pontuac¸˜oes tornarem-se muito esparsas.
• Similaridade: Caso um usu´ario tenha gostos que variam do normal, este ter´a dificuldades
para encontrar outros usu´arios com gostos similares, sendo assim suas recomendac¸˜oes podem se tornar pobres.
Tabela 3.1: Avaliac¸˜oes de usu´arios, sobre filmes.
Usu´ario / Filme Gladiador 300 Casanova Don Juan O Vidente Corac¸˜ao Valente
Marcos 4,0 3,0 3,0 - - 2,0
Let´ıcia - 3,0 4,5 4,5 - 0,5
Felipe - - 4,0 - - -
Marcelo 4,5 4,0 2,0 - - -
Ana 4,0 4,5 4,5 5,0 - 4,5
Analisando a tabela 3.1, percebe-se que Let´ıcia e Ana possuem gostos semelhantes, uma vez que suas notas para os filmes foram similares. Neste caso, uma recomendac¸˜ao pertinente a Let´ıcia seria o filme Gladiador, considerando tamb´em que ele recebeu notas altas de outros usu´arios, de gostos n˜ao semelhantes ao dela. Marcelo e Ana atribu´ıram notas semelhantes aos filmes de ac¸˜ao, por´em notas muito diferentes ao filme Casanova(romance). Portanto, apesar do grau de proximidade em relac¸˜ao aos filmes de ac¸˜ao, o Movielens n˜ao recomendaria a Marcelo o filme Don Juan. Felipe atribuiu nota apenas ao filme Casanova. Este fato ilustra a dificuldade dos sistemas de filtragem em encontrar o grau de correlac¸˜ao entre os usu´arios quando sua base de dados ´e pobre. Outra dificuldade que os sistemas enfrentam ´e o caso do filme O Vidente. Como ´e um filme novo, ainda n˜ao foi avaliado por nenhum usu´ario, o que dificulta sua sugest˜ao para outros usu´arios. H´a ainda o caso do filme Corac¸˜ao Valente, cuja pontuac¸˜ao ´e esparsa, o que dificulta ao sistema classific´a-lo como item de qualidade ou n˜ao.
3.2 Explorac¸ ˜ao de Perfil de Usu´ario 45
Como mecanismo de recomendac¸˜ao, a filtragem colaborativa pode ser dividada em trˆes passos (SOBOROFF; NICHOLAS, 2000): Encontrar usu´arios similares (vizinhos); Criar a vizinhanc¸a; Processar um progn´ostico baseado nos vizinhos selecionados. Tais passos s˜ao des- critos a seguir.
Encontrar usu´arios similares (vizinhos)
Existem padr˜oes de avaliac¸˜ao de similaridade usados para calcular o grau de similaridade entre o perfil de um determinado usu´ario em relac¸˜ao a um grupo de usu´arios. As t´ecnicas mais comums utilizadas para esse fim s˜ao nearest neighbor, clustering e classificadores (MONTA- NER, 2003).
Duas abordagens podem ser utilizadas pelo algoritmo do vizinho mais pr´oximo: Simi- laridade do cosseno ou correlac¸˜ao. Em similaridade do cosseno, os perfis dos usu´arios s˜ao representados em forma de vetores, em um espac¸o n-dimensional, onde n ´e o n´umero de itens que os usu´arios, dois a dois, qualificaram. Ao se calcular o co-seno entre dois vetores num determinado plano, calcula-se, na verdade, o grau de similaridade da forma com que os dois usu´ario avaliaram items no sistema(NASCIMENTO, 2003). Esse co-seno ´e calculado segundo a seguinte equac¸˜ao: similaridade(a, b) = ∑ n i=0(ai× bi) q ∑n i=0(a2i) × q ∑n i=0(b2i) (3.1)
Onde: a ´e um usu´ario; b ´e outro usu´ario; aiavaliac¸˜ao de usu´ario a sobre o i-´esimo item de
recomendac¸˜ao; biavaliac¸˜ao de usu´ario b sobre o i-´esimo item de recomendac¸˜ao;
A outra abordagem consiste em utilizar o coeficiente de Pearson, que varia no intervalo de -1.0 a 1.0, onde quanto mais pr´oximo de -1.0 maior o grau de dissimilaridade e quanto mais pr´oximo de 1.0, maior o grau de similaridade entre as vari´aveis. Seu valor ´e calculado de acordo com a equac¸˜ao a seguir:
simililaridade(a, b) = ∑ n i=1(ai− ¯a) × (bi− ¯b) q ∑n i=1(ai− ¯a)2× (bi− ¯b)2 (3.2)
Onde: a ´e um usu´ario; b ´e outro usu´ario; aiavaliac¸˜ao de usu´ario a sobre o i-´esimo item de
recomendac¸˜ao; biavaliac¸˜ao de usu´ario b sobre o i-´esimo item de recomendac¸˜ao; e ¯a e ¯b s˜ao as
m´edias das avaliac¸˜oes sobre os items por a e b, respectivamente.
Criar a vizinhanc¸a
O segundo passo, chamado de criar vizinhanc¸a, consiste em determinar quantos vizinhos ser˜ao selecionados para o terceiro passo. Em geral, duas t´ecnicas tem sido utilizadas para tal: a t´ecnica do limiar de correlac¸˜ao (correlation-thresholding); e t´ecnica do the best n-neighbors (MONTANER, 2003).
Na t´ecnica do limiar de correlac¸˜ao, determina-se um limiar de correlac¸˜ao absoluto, onde to- dos os vizinhos com um limiar de correlac¸˜ao maior s˜ao selecionados. Ao configurar um limiar de correlac¸˜ao alto, restringe-se a vizinhanc¸a a apenas vizinhos muito pr´oximos, mas muitos usu´arios podem possuir muito poucos vizinhos muito pr´oximos, ou mesmo n˜ao possuir vizi- nhos muito pr´oximos, resultando numa vizinhanc¸a vazia, ou muito escassa, e por consequˆencia, incapaz de prover predic¸˜oes para muitos items.
A t´ecnica do best n-neighbors consiste em pegar um n´umero fixo de vizinhos para a vizinhanc¸a. Esta t´ecnica funciona razoavelmente bem, por n˜ao restringir a cobertura de predic¸˜ao. Por´em, ao pegar um n´umero grande de usu´arios resultar´a em uma vizinhanc¸a grande, e os vi- zinhos mais distantes poder˜ao atrapalhar as predic¸˜oes cobertas pelos vizinhos mais pr´oximos. Em contrapartida, um pequeno n´umero pode causar predic¸˜oes pobres para aqueles que n˜ao tem vizinhos muito pr´oximos (MONTANER, 2003).
Processar um predic¸ ˜oes baseado nos vizinhos selecionados
O ´ultimo passo consiste em computar as predic¸˜oes ponderando as avaliac¸˜oes dos vizinhos selecionados o passo anterior. Diferentes t´ecnicas s˜ao usadas para contemplar este passo (MON- TANER, 2003). Neste trabalho, descreveremos trˆes: o item de recomendac¸˜ao mais frequente; recomendac¸˜ao baseado em regras de associac¸˜ao; e m´edia ponderada de avaliac¸˜oes.
O item mais frequente de recomendac¸˜ao pega a vizinhanc¸a e varre os interesses dos usu´arios extraindo os items mais frequentemente selecionados. Depois de todos vizinhos da vizinhanc¸a serem processados, o sistema ordena os items de acordo com a frequencia e simplesmente
3.3 Aspectos Sociais 47
retorna os n mais frequente items n˜ao ainda selecionados pelo usu´ario considerado para receber as recomendac¸˜oes (MONTANER, 2003).
Para descrever a recomendac¸˜ao baseado em regras de associac¸˜ao ´e necess´ario utilizar uma linguagem mais formal, como segue: assumindo que existem n items, I= {i1, i2, i3}, em uma
matriz R que registra as avaliac¸˜oes dos usu´arios em relac¸˜ao aos items. Uma transac¸˜ao T ⊆ I
´e definida como um conjunto de items que s˜ao avaliados por um usu´ario, ou, em sistemas de e-commerce, o conjunto de items que s˜ao comprados juntos. Uma regra de associac¸˜ao entre dois conjuntos de items IX e IY tal que IX, IY ⊆ I e IX∩ IY = /0, diz que se h´a items do conjunto
IX na transac¸˜ao T , ent˜ao h´a uma grande possibilidade de items do conjunto IY tamb´em esta-
rem presentes em T (VOZALIS, 2003). De acordo com a premissa apontada pelas regras de associac¸˜ao, as recomendac¸˜oes s˜ao realizadas.
A outra forma de combinar as avaliac¸˜oes dos vizinhos para realizar predic¸˜oes ´e computador a m´edia ponderada das avaliac¸˜oes utilizando o coeficiente de correlac¸˜ao como peso (MONTA- NER, 2003). Desta forma, as avaliac¸˜oes de usu´arios mais similares obter˜ao maior peso, e ter˜ao uma maior chance de serem recomendados.