SUR L’OBLIGATION DE PUBLICATION - Décision 16-D-17 du 21 juillet 2016

Em MONTES-GARCÍA et al. (2013), é apresentado um sistema de recomendaç ão sens´ıvel ao contexto, voltado para a área de Jornalismo. O sistema denominado We- somender, é capaz de recomendar not´ıcias a partir da identificaç ão de t ópicos semelhantes em diferentes fontes de not´ıcias. Para tanto, utiliza a avaliaç ão de especialistas e considera caracter´ısticas contextuais relacionadas às not´ıcias, como: tempo, inte- resses dos utilizadores, local ou tend ências existentes. Esses dados s ão combinados com as t écnicas tradicionais de recomendaç ão para obtenç ão de uma estrutura adap- tativa, capaz de lidar com dados heterog êneos. Essa estrutura, segundo os autores, pode ser caracterizada como um sistema de filtragem colaborativa reforçada.

Wesomender é composto por dois m ódulos principais: um m ódulo de filtragem baseada em conte údo e um m ódulo de filtragem colaborativa. Cada m ódulo produz recomendaç ões de forma independente, tomando por base a an álise de not´ıcias que o usu ário n ão tenha visto ou avaliado. Como resultado, para cada not´ıcia ana- lisada, o sistema retorna duas vari áveis com valores entre 0 e 1, denominadas CF (collaborative-filtering) e CB (content-based), onde valores mais pr óximos a 1 signi- ficam que a not´ıcia poder á interessar ao usu ário. A an álise de not´ıcias é realizada da seguinte forma: segundo os autores, existe uma regra n ão escrita no mundo do jornalismo, chamada de The Five W (os cinco Ws), que determina a import ância de uma not´ıcia atrav és de cinco perguntas b ásicas que devem ser respondidas: who? (quem?), what? (o qu ê?), why? (porqu ê?), when? (quando?) e where? (onde?). Considerando essas quest ões, o valor da vari ável CB, resultante da recomendaç ão baseada em conte údo, é obtido tomando-se por base os seguintes par âmetros:

1. Uma not´ıcia ´e mais interessante se o que est ´a sendo informado acaba de acon- tecer;

2. Uma not´ıcia sobre algo que acontece pr óximo de um usu ário, é mais relevante para ele;

3. Se um usu ário l ê uma not´ıcia, envolvendo determinadas entidades ou cobrindo t ópicos espec´ıficos, ele est á interessado nessas entidades ou t ópicos neste momento. Esta hip ótese considera not´ıcias antigas tamb ém, visto que o usu ário pode estar à procura de refer ências.

Al ém dos par âmetros acima descritos, o sistema considera a confiabilidade da fonte de dados associada à not´ıcia. Esse par âmetro prev ê que, ao analisar um artigo, por exemplo, uma refer ência a outro autor pode ser considerada mais confi ável do que a refer ência a um blog. Assim, atrav és da utilizaç ão dos par âmetros: tempo,

localizaç ão, conte údo e confiabilidade, o valor de CB é obtido atrav és da seguinte f órmula:

CB = α.ER + β.T + γ.P + δ.R (11)

Onde:

ER- refere-se às entidades relacionadas com a not´ıcia. Isto é, as últimas not´ıcias que o usu ário tenha demonstrado interesse e que devem ser verificadas. Para cada entidade associada à recomendaç ão em curso, o percentual correspondente é adicio- nado à vari ável ER;

R - refere-se à rec ência. É calculada com base no tempo atual e o momento da publicaç ão, retornando valores entre 0 e 1;

P - refere-se à proximidade. Calculada com base na dist ância m áxima entre dois pontos, nesse caso o usu ário e a not´ıcia, retornando valores entre 0 e 1;

T - refere-se à confiabilidade. O valor de T é obtido a partir da avaliaç ão realizada por uma equipe de jornalistas para cada m´ıdia.

A import ância de cada vari ável é um percentual determinado por uma equipe de jornalista profissionais, onde:

• R é o fator mais importante, sendo α = 0.5; • P é o segundo em import ância, com γ = 0.2;

• T e ER s ˜ao igualmente relevantes, sendo α = β = 0.15;

Com o objetivo de projetar um SR adaptativo e h´ıbrido, Wesomender conta com um componente que avalia o conjunto de dados existente e escolhe o melhor algoritmo de filtragem colaborativa. Este componente é aplicado sobre os algoritmos do Apache Mahout, escolhido por implementar um conjunto consider ável de t écnicas que podem ser facilmente avaliadas por meio de uma API para testar a precis ão dos algoritmos.

Os algoritmos utilizados nos testes realizados pelo Wisomender foram:

• Generic User Based Recommender - Produz recomendac¸ ˜oes considerando

itens relacionados à usu ários com gostos semelhantes. Existem v árias

implementaç ões em Mahout para avaliar a correlaç ão de similaridade. Em Weso- mender foram implementadas as seguintes medidas: Coeficiente de Correlaç ão de Pearson, Dist ância Euclidiana, Coeficiente de Similaridade do Cosseno, Dist ância de Manhattan, Log-Likelihood, Coeficiente de Correlaç ão de Spear- man e Coeficiente de Tanimoto;

• Item Based Recommender - Semelhante ao Generic User Based Recommender, essa t écnica tamb ém utiliza o conceito similaridade, por ém aplicados aos itens, ao inv és de usu ários;

• Tree Clustering Recommender - Constr ói recomendaç ões tomando por base grupos de usu ários com gostos semelhantes;

• SVD Recommender - Trata-se de uma das formas de fatorac¸ ˜ao de matrizes usa- das em filtragem colaborativa;

• Slope One Recommender - Produz recomendaç ões baseado na previs ão de classificaç ão que um determinado usu ário daria a um item.

Assim que o melhor algoritmo é selecionado, o valor de CF pode ser calculado e aplicado na f órmula 12, para realizar a recomendaç ão final:

r = w.CB + (1 − w).CF (12)

Onde w é a ponderaç ão utilizada para avaliaç ões baseadas em conte údo, sendo 0 ≤ w ≤ 1.

Wesomender, difere-se da abordagem apresentada por este trabalho, n ão s ó pelo contexto de aplicaç ão, mas pelo fato de utilizar classificaç ões adquiridas de forma expl´ıcita e combinar recomendaç ões, obtidas a partir de SR individuais, para realizar a recomendaç ão final. Apesar de ser um sistema h´ıbrido, pode-se perceber que é atribu´ıda maior import ância às caracter´ısticas contextuais relacionadas aos itens dispon´ıveis para recomendaç ão. Dessa forma, d á-se maior ênfase à recomendaç ão baseada em conte údo.

Em ZHOU et al. (2008) é abordado o uso de propagaç ão de r ótulos para

recomendaç ão de documentos em uma biblioteca digital. A propagaç ão de

r ótulos é um tipo de aprendizado transdutivo 1 da categoria de aprendizado semi- supervisionado. Sua utilizaç ão objetiva estimar os r ótulos de dados n ão-rotulados utilizando outros dados rotulados ou parcialmente rotulados e suas similaridades.

Na proposta apresentada pelos autores o cen ário é representado por uma rede de documentos interligados atrav és de citaç ões e associados a outras entidades por v árias relaç ões, como autores, local de publicaç ão e referencial bibliogr áfico.

O trabalho tem como foco principal a aplicaç ão de filtragem colaborativa para itens ligados em rede, combinando v ários grafos para calcular a similaridade entre itens. Os itens podem ser representados pelo conjunto completo de v értices de um grafo ou por um subconjunto de v értices desse grafo.

1_{O aprendizado transdutivo objetiva rotular dados n ˜ao-rotulados conhecidos sem expandir o modelo}

para um novo conjunto de dados desconhecido. Dessa forma, todos os exemplos dos quais o r ´otulo pode ser predito s ˜ao conhecidos (ZHU; GOLDBERG, 2009)

Figura 7: Exemplo de um grafo de citac¸ ˜oes Fonte: ZHOU et al. (2008)

Conforme ilustrado na Figura 7, os documentos podem ser representados como v értices de um grafo direcionado onde as arestas indicam as respectivas citaç ões. A similaridade entre os documentos pode ser medida em termos de co-citaç ões2 (co- citando os mesmos documentos ou sendo co-citado por outros). No exemplo apresentado na figura 7, os documentos B e C podem ser considerados semelhantes, pois s ão co-citados por E.

Al ém da propagaç ão de r ótulos s ão utilizados m étodos de aprendizagem para combinar os v ários grafos e medir a similaridade entre itens. Nesse contexto, a aprendizagem de tr ês tipos de grafos s ão formuladas como tr ês sub-problemas, cada um usando uma estrat égia de fatoraç ão de acordo com as caracter´ısticas de cada tipo de grafo. Os tr ês sub-problemas abordados consideram as citaç ões, local de publicaç ão e autores dos documentos. A partir do resultado obtido, um novo quadro de recomendaç ão é desenvolvido atrav és da aplicaç ão do aprendizado semi-supervisionado em grafos.

Apesar de explorar a relaç ão existente entre os itens a serem recomendados, o trabalho de ZHOU et al. (2008) difere-se da proposta aqui apresentada por n ão basear- se na interaç ão do usu ário com o ambiente para realizar recomendaç ões. Percebe-se ainda que, apesar de enfatizar o uso da filtragem colaborativa (por meio das citaç ões e co-citaç ões realizadas), o trabalho possui caracter´ısticas mais pr óximas a um sistema baseado em conte údo. Pois, al ém de n ão utilizar avaliaç ões realizadas pelos usu ários, infere relaç ões entre itens utilizando informaç ões relacionadas aos autores e local de publicaç ão dos documentos a serem recomendados.

Em PRABHA; RATHIPRIYA (2013) é apresentado um sistema de recomendaç ão com base em um modelo de navegaç ão. O trabalho aborda a construç ão de perfis de usu ários obtidos a partir da an álise de dados de navegaç ão. O perfil é obtido por uma funç ão: perf il(A, J ), onde A representa o usu ário e J o item acessado pelo usu ário A. A recomendaç ão se d á atrav és da identificaç ão de um conjunto de perfis

2_{A an álise de co-citaç ão é uma das principais t écnicas quantitativas em estudos cient´ıficos para}

mapear a estrutura e din âmica da pesquisa cient´ıfica. Esta t écnica pode ser utilizada para identificar focos de pesquisa e suas relaç ões, em particular o n´ıvel de especializaç ão da pesquisa (BRAAM; MOED; VAN RAAN, 1991)

similares para um dado usu ário, utilizando para tanto um m étodo baseado em intelig ência de enxames. Trata-se de uma funç ão de avaliaç ão para identificaç ão de um conjunto de usu ários, denominados de vizinhos mais pr óximos. Atrav és dessa funç ão a semelhança entre os perfis de usu ários é calculada e o perfil mais pr óximo é escolhido. O sistema ent ão seleciona os usu ários cuja dist ância euclidiana est á acima de um determinado valor limite. O conjunto de dados obtidos a partir dessa seleç ão é ent ão aplicado a um m étodo baseado em Intelig ência de Enxames. O estudo aponta que o modelo proposto pode ser aplicado atrav és da utilizaç ão de diferentes t écnicas, tais como: Otimizaç ão por Col ônia de Formigas (Ant Colony Optimization), Bat Al- gorithm, Cuckoo Search, Firefly Algorithm e Otimizaç ão por Enxame de Part´ıculas (Particle swarm optimization).

Diferente da proposta deste trabalho o sistema n ão prev ê uma relaç ão entre os

itens a serem recomendados. ´E utilizada uma abordagem puramente colaborativa,

onde a recomendaç ão se d á com base na an álise do perfil de acesso dos usu ários, obtido de forma impl´ıcita.

Em WANG et al. (2012) é apresentada uma proposta de algoritmo de recomendaç ão com o objetivo de ser escal ável e capaz de lidar com dados de treina- mento escassos e que mudam ao longo do tempo. A abordagem apresentada prev ê a utilizaç ão de um novo tipo de esquema de filtragem colaborativa baseada no com- portamento das formigas e se d á atrav és da aplicaç ão do Algoritmo de Otimizaç ão por Col ônia de Formigas. Atrav és de um mecanismo de transmiss ão de ferom ônio o modelo proposto é capaz de identificar a similaridade entre usu ários e objetos, mesmo frente ao problema da dispers ão. O processo de transmiss ão de ferom ônio ocorre da seguinte forma: dado um ´ındice de ferom ônio representando um usu ário ou um grupo de usu ários, o item compartilha ferom ônio do usu ário ao receber uma classificaç ão. Da mesma forma, o item transfere o ferom ônio nele existente para o usu ário que rea- lizou a classificaç ão. Depois de algum tempo, itens semelhantes recebem uma quantidade semelhante de ferom ônio e, em seguida, os usu ários com gostos semelhantes se tornam iguais no que diz respeito à quantidade de ferom ônio à eles associada. O sistema utiliza a evaporaç ão do ferom ônio existente para identificar a evoluç ão de prefer ências dos usu ários ao longo do tempo. Atrav és do ´ındice de ferom ônio a abordagem utilizada permite calcular 3 formas de similaridade: similaridade entre itens, similaridade entre usu ários e similaridade entre usu ários e itens. Com o objetivo de melhorar o desempenho e a qualidade das recomendaç ões realizadas, a soluç ão utiliza ainda uma t écnica para o agrupamento de usu ários de acordo com o ´ındice de ferom ônio associado a cada um deles.

Diferente da proposta do presente trabalho, na abordagem de WANG et al. (2012) o ´ındice de ferom ônio utilizado na tarefa de recomendaç ão pode estar associado aos usu ários, aos itens ou à ambos, podendo ser transmitido de forma simult ânea a cada

interaç ão do usu ário. O sistema prev ê a atualizaç ão do ´ındice de ferom ônio associado aos itens e aos usu ários, como forma de comparar o valor associado para realizar recomendaç ões. Por ém, n ão considera a criaç ão de conex ões entre os itens a serem recomendados.

Em SOBECKI; TOMCZAK (2010) ´e abordado o desenvolvimento de um sis-

tema para recomendaç ão de cursos para estudantes universit ários. A tarefa de

recomendaç ão se d á atrav és de filtragem de informaç ões integrada a uma abordagem colaborativa, baseada em ACO. O sistema utiliza tr ês tipos b ásicos de filtragem: Filtragem demogr áfica, filtragem baseada em conte údo e filtragem colaborativa. Os filtros s ão aplicados a uma s érie de informaç ões associadas aos alunos, como n úmero de identificaç ão do aluno, curso, tipo de curso, semestre de refer ência, entre outras. A partir desses dados, s ão calculados valores m édios para cada tipo de curso a para o conjunto de informaç ões associados a cada estudante. A etapa seguinte consiste na escolha de uma das medidas obtidas para aplicaç ão do Algoritmo de Otimizaç ão de Col ônia de Formigas. A ideia principal consiste em recomendar para cada estudante uma previs ão de qualidade para todos os cursos, para os quais ele tem a oportunidade de se inscrever. Os experimentos utilizaram tr ês modelos de algoritmos baseados em ACO, constituindo tr ês m étodos de aplicaç ão e seleç ão: i) Escolha da probabilidade m áxima; ii) Com uma formiga e caminhada aleat ória, considerando a probabilidade das arestas; iii) Com k formigas e caminhada aleat ória, utilizando a probabilidade das arestas. Os resultados obtidos a partir da aplicaç ão desses tr ês algoritmos s ão ent ão comparados com cinco m étodos de filtragem. Para o processo de avaliaç ão de desempenho s ão utilizadas v árias medidas de comparaç ão como: Mean Absolute Er- ror (MAE), Normalized Mean Absolute Error (NMAE), Prediction Accuracy (PA), Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Standard Error Variance (SEV) e Classification Accuracy (CA).

A proposta apresentada por SOBECKI; TOMCZAK (2010) difere-se da abordagem utilizada neste trabalho, n ão s ó pelo contexto de aplicaç ão, mas tamb ém por utilizar dados referentes aos cursos e aos usu ários obtidos de forma expl´ıcita. O sistema faz recomendaç ões com base nos resultados obtidos a partir da aplicaç ão de filtros sobre o conjunto de dados dispon´ıveis para avaliaç ão.

No trabalho apresentado por BEDI; SHARMA (2012) s ˜ao produzidas

recomendaç ões a partir da incorporaç ão de uma medida de confiança entre os usu ários. Com base nos valores obtidos s ão criados grupos baseados na met áfora

biol ´ogica de col ˆonias de formigas. Esses grupos, por sua vez, representam as

melhores opç ões de recomendaç ão para o usu ário ativo. O sistema funciona em duas etapas: a primeira etapa consiste na obtenç ão do gr áfico de confiança dirigido para cada usu ário. Sua criaç ão se d á atrav és da matriz de classificaç ão usu ário-item e informaç ões de confiança sobre os usu ários. As informaç ões de confiança s ão obtidas

a partir do grau de similaridade entre os perfis de parceiros. O valor obtido é utilizado para determinar o ´ındice de ferom ônio, que representa a força de conex ão ou seja, a intensidade de confiança entre os dois parceiros de recomendaç ão (recomendador

e usu ário ativo) no tempo t. A segunda etapa é o processo de recomendaç ão.

Nesta etapa é escolhido o melhor grupo de usu ários e aplicada a soluç ão proposta para o problema do novo usu ário. Nesse contexto, a soluç ão apresentada sugere a criaç ão de uma lista de recomendadores mais ”populares”, com base no alto valor de ferom ônio associado (n´ıvel de confiança global).

O trabalho de BELLAACHIA; ALATHEL (2016) prop õe a aplicaç ão do Algoritmo de Otimizaç ão por Col ônia de Formigas, em um sistema de recomendaç ão baseado em redes de confiança, objetivando resolver o problema de previs ão de avaliaç ões para itens que possuem poucas classificaç ões por parte dos usu ários. Como usu ários novos possuem poucas ou nenhuma classificaç ão relacionada aos itens, o algoritmo utiliza a confiança estabelecida entre os usu ários para gui á-los em sua exploraç ão no espaço de soluç ões. Nesse sistema, o usu ário ativo representa o ninho e os usu ários com uma classificaç ão para o item alvo s ão considerados fontes de alimento. Repre- sentando o problema atrav és de um grafo, a soluç ão se d á atrav és da atribuiç ão de um n´ıvel de ferom ônio inicial para cada aresta que representa uma poss´ıvel soluç ão. Esse n´ıvel de ferom ônio reflete a import ância associada à aresta (confiança). As boas soluç ões, neste caso, s ão os n ós que representam os usu ários com uma classificaç ão para o item alvo. A cada iteraç ão uma formiga k localizada no ponto x calcula a probabilidade de cruzar as bordas de ligaç ão a um usu ário y de acordo com o n´ıvel de confiança associado. Em seguida, eventualmente, cruza a borda que produziu a maior probabilidade. Nesta etapa ocorre a atualizaç ão local do ´ındice de ferom ônio (atualizaç ão local). O sistema utiliza um modelo de atualizaç ão de ferom ônio de dois n´ıveis: atualizaç ão local e atualizaç ão global. A atualizaç ão global é realizada ap ós todas as formigas terminarem a construç ão de suas soluç ões.

Diferente da abordagem utilizada por este trabalho, em BEDI; SHARMA (2012) e BELLAACHIA; ALATHEL (2016), as recomendaç ões s ão realizadas com base na ligaç ão existente entre os usu ários (confiança) e n ão entre os itens a serem reco-

mendados. Al ém disso, abordagens baseadas em confiança sugerem avaliaç ões

expl´ıcitas por parte dos usu ários como forma de identificar a confiança entre eles. Tal caracter´ıstica tem por objetivo a criaç ão de uma lista de ”amigos” (de confiança) de cada usu ário, juntamente com os seus n´ıveis de confiança associados, para posterior utilizaç ão no processo de recomendaç ão.

APRENDIZAGEM DE L´INGUAS

Este cap´ıtulo descreve o Sistema de Recomendaç ão de Objetos de Aprendizagem de L´ınguas aqui proposto. A abordagem utilizada para desenvolvimento do sistema é apresentada na primeira seç ão do cap´ıtulo. S ão definidos os dados de entrada a serem utilizados, as t écnicas e o tipo de filtragem adotados, os algoritmos implemen- tados e a forma como os dados de entrada e os dados armazenados s ão combinados pelos algoritmos no processo de recomendaç ão, resultando na sa´ıda do sistema.

Dans le document Décision 16-D-17 du 21 juillet 2016 (Page 51-54)