Sobre a Extração de fronteiras culturais considerando hábitos alimentares observados na web social

(1)

Sobre a Extração de Fronteiras Culturais Considerando Hábitos Alimentares Observados na Web Social

Thiago H Silva Universidade Tecnológica

Federal do Paraná Departamento Acadêmico de

Informática Curitiba, Brasil thiagoh@utfpr.edu.br

Jussara M Almeida Universidade Federal de Minas

Gerais

Departamento de Ciência da Computação

Belo Horizonte, Brasil jussara@dcc.ufmg.br

Antonio A F Loureiro Universidade Federal de Minas

Gerais

Departamento de Ciência da Computação

Belo Horizonte, Brasil loureiro@dcc.ufmg.br

ABSTRACT

New approahes to study urban soial behavior use

Foursquarehek-insto representuser'spreferenes. In

this diretion, reently, researhers have proposed a

method for identifying ultural boundaries. Our study

is based on that methodology, aiming to validate the

results and to study some variations. We use a newer

datasettoevaluatethe resultsobtainedpreviously. We

found that the ultural separation results using our

datasetagree withthose presented previously. Further-

more, we evaluated the impat ofthe data observation

window size in the results. Finally, we study twoaddi-

tional variations in the studied methodology. The ul-

turalseparationquality obtainedusing these variations

is lower ompared withthe resultsobtainedby the ori-

ginalapproah. Theresults reinfore that, in fat, the

methodologyoriginallyproposedmightbeusefultoom-

plementlarge-salestudiesonulturaldierenes. Auto-

matiidentiation of ultural dierenes is avaluable

informationthat an enablethereationofnewubiqui-

tousappliations.

Author Keywords

SoialWeb; Foursquare;Culture;Food andDrink;

Evaluation

ACM Classification Keywords

J.4 Computer Appliations: Soial and Behavioral Si-

enes; H.4 Information Systems Appliations: Misella-

neous

INTRODUÇÃO

As formas tradiionais para estudar o omportamento

soial urbano, por exemplo questionários, podem ser

umproblema para arealização de estudos em largaes-

ala. Reentes estudos, dentre eles [3,4,10,11,14,16℄,

revelaram uma nova forma de obtenção de dados on-

siderandoa Web Soial, partiularmente atravésde re-

dessoiais baseadasem loalização(LBSNs), que pode

revoluionaroestudodoomportamentosoialurbano.

Espeiamente em [16℄ os autores propuseram a uti-

lizaçãode dadospúblios disponíveisapartirdaLBSN

Foursquare para mapear aspreferênias individuais de

usuários. Isto é interessante porque um hek-in 1

em

uma LBSN expressa a preferênia de um usuário por

um determinado tipo de lugar. Além disso, LBSNs

sãoaessíveisemquase todososlugares eporqualquer

pessoa,amenizando oproblemadeesalabilidade eper-

mitindoquedadosemdiversasregiõesdomundosejam

oletados.

Oestudodainuêniadediferençasulturaisnoompor-

tamentohumanoéumtemapartiularmentedesaador.

Culturaéum oneito tãoomplexo einteressante que

nenhuma denição simples pode apturá-lo. Entre os

váriosaspetosquedenemaulturadeumasoiedade

inluemsuasartes,rençasreligiosaseostumes.

Sabemosqueoshábitosalimentaresedebebidassãoa-

pazesdedesreverfortes diferençasentre aspessoas[1℄.

Combasenisso,oobjetivodeSilvaetal.[16℄foipropor

umanovametodologiaparaaidentiaçãodefronteiras

ulturais esemelhanças entre soiedades, onsiderando

hábitosalimentaresedebebida. Paraisso,foramusados

hek-insdoFoursquarepararepresentaraspreferênias

dousuárioemrelaçãoaoqueseomeebebeloalmente,

por exemplo,em uma determinadaidade. Os autores

estudaram omo essas preferênias mudam de aordo

oma hora do dia e loalizaçõesgeográas. A partir

dissoriaram uma metodologiapara aidentiação de

ulturassemelhantes,quepodeserapliadaaregiõesde

tamanhosvariados, omopaíses, idadesouatémesmo

bairros.

Comisso,estepresentetrabalhovisaavaliarametodolo-

giaparaoestudodediferençasulturaispropostaem[16℄.

1

Atodedisponibilizaroloalondevoêseenontraparaseusamigos.

WAIHCWS’16

purposes.

academic and private for granted is

use or hard copies of all or part of this work for personal or classroom digital 2016 © for this paper by its authors. Permission to make Copyright

Brazil.

Paulo/SP, São

2016, 04, October (SBC).

Society

Computing was held as part of IHC’16, organized by the Brazilian

72

(2)

Nósexeutamosumaavaliaçãonametodologiaestudada

em vários aspetos. Usamos um dataset mais reente,

ainda não utilizado, para avaliar os resultados obtidos

anteriormente seguindoamesmametodologiaproposta.

Veriamos queos resultadosde separaçãoultural uti-

lizando o nosso dataset onorda om os apresentados

anteriormente. Além disso, avaliamos o impato do

tamanho da janela de observação dos dados nos resul-

tados. Esta análise forneeu indiações de que a iden-

tiação das fronteiras ulturais usando um tamanho

de janela maior do que uma semana não se altera sig-

niativamente. Finalmente, avaliamos duas variações

adiionaisnametodologiaestudada.

A orreta identiaçãode fronteirasulturais éútil em

muitasáreas eapliações,inluindo apliaçõesubíquas.

Por exemplo, uma apliação que pode utilizar a infor-

maçãoulturaléumsistemadereomendaçãodeloais,

oqueéútilparaosvisitantesemoradoresdeumaidade.

Combasenessainformação,sistemasomooFoursquare

eoutrosbusadoresbaseadosemloalização,omoopro-

posto em[13℄, poderiamsebeneiaromaintrodução

denovosritériosemeanismosemseussistemasde re-

omendação onsiderando as diferenças ulturais entre

as áreas. Por exemplo, uma pessoa que gosta de uma

área espeía de Manhattan poderia reeber uma re-

omendaçãodeumaáreasimilaraovisitarLondres.

Oresto dotrabalho está organizadoda seguinte forma.

A Seção2 apresenta alguns dos trabalhosrelaionados.

A Seção 3apresenta os datasets utilizados. A Seção4

desreve a metodologia de agrupamento de regiões de

aordoom a informação ultural. A Seção 5avalia o

impatonosresultadosparadatasetsobrindodiferentes

períodos. A Seção6propõee avalia duas variações na

metodologia original. Por m, a Seção 7 apresenta as

onlusõesdotrabalho.

TRABALHOS RELACIONADOS

A utilização de dados da Web Soialpara oestudo do

omportamento soial urbano é um tema reente de

pesquisa. Essa fonte de dadosé interessante,pois per-

mite arealização deestudos em largaesala. Nessa di-

reção, vários estudos onentraram em estudar as pro-

priedades espaiais de dados ompartilhados em redes

soiais baseadas em loalização, omo o Foursquare

[2,9,12℄. Noentanto,taisesforçosvisamprinipalmente

ainvestigação de padrõesde mobilidade dousuário ou

propriedadesderedes soiais esuasimpliações. Salles

et al. [11℄ estudaram ouso do Foursquare nas maiores

idades do Brasil, levando em onsideração fatores so-

ioeonmios destasidades. Cranshaw et al. [3℄ tam-

bém onsideraram dados do Foursquare para delimi-

tar áreas da idade em relação ao omportamento dos

usuáriosdaredesoialestudada.

Além disso, estudos tambémmostraram omoouso de

sistemasdaWebsoialpodevariarentreos países. Por

exemplo,Hohmanetal.[5℄investigaramaspreferênias

de or em fotos ompartilhadas através do Instagram,

mostrando diferençasonsideráveisnas preferênias en-

tre os países om ulturas distintas. Garia-Gavilanes

et al. [4℄ estudaram variações de uso do Twitter entre

ospaíses,mostrandoqueasdiferençasulturaisnãosão

apenasvisíveisnomundoreal, mastambémobservadas

noTwitter.

Nessa direção, Silva et al. [16℄ propuseram uma nova

metodologia para aidentiação defronteiras ulturais

esemelhançasentrepopulações,onsiderandohábitosde

omidaebebida. Noentanto,osautoresavaliaramessa

metodologiaonsiderandoumdatasetqueabrangeuma

semanade dados. Apesar dosresultados serempromis-

sores, uma melhoravaliação dessa metodologiaainda é

neessária. Opresente estudobaseia-senotrabalho[16℄

e visa avaliar a metodologia proposta de diversas for-

mas. UmestudopreliminarrealizadotambémporSilva

et al. [15℄ forneeumais indíios de que a metodologia

apresentadaem [16℄épromissora. Este presente estudo

omplementaessestrabalhostrazendoumaanálisemais

robusta,provendoindíiosmaisfortesdequeametodolo-

giaapresentadaem[16℄éumaopçãointeressanteparaa

extraçãodefronteirasulturais.

Estudosinterulturais(istoé,oestudodasdiferençasul-

turais) nãoonstituem uma novaáreade pesquisa. Na

verdade,eles jávemsendorealizadosporpesquisadores

quetrabalham nasiênias soiais,partiularmente em

antropologiaultural epsiologia[8℄. No entanto, iden-

tiar deforma automátia essas diferençasulturais é

uma informação valiosa que pode habilitar novas apli-

açõesubíquas.

DESCRIÇÃO DOS DADOS

Analisamosum datasetdoFoursquare, que éuma rede

soialbaseada em loalização bastante popular. Nesse

sistemaosusuáriospodem disponibilizarparaseusami-

gososseus loais visitados, oshamadoshek-ins. Os

dados do Foursquare foram oletados através do Twit-

ter 2

, que é um serviço de miroblogging, ou seja, ele

permite que os seus usuários enviem e reebam atuali-

zaçõespessoaisdeoutrosontatosem textosdeaté140

arateres,onheidosomotweets. Alémdetweetsde

textosimples,osusuáriostambémpodem ompartilhar

loalizações (ou hek-ins) a partir de uma integração

omoFoursquare. Neste aso,hek-insdoFoursquare

anuniadosnoTwitterpassamaardisponíveispublia-

mente,oqueporpadrãonãoaonteequandoohek-in

épubliadouniamente nosistemado Foursquare. Nós

onsideramosdois datasets que representamdois perío-

dosdetempodistintos: dataset1(D1)edataset2(D2).

Odataset(D1) foiomesmoutilizadoem[16℄,omisso

temos aesso aos mesmos dados usados na riação da

metodologia queestamosestudando. Essedatasetére-

ferente a uma semana de dados de maio de 2012. O

dataset(D2) foi oletado por nós, não sendo utilizado

previamente.

2

http://www.twitter.om.

(3)

Em nossos datasets, ada hek-in onsiste da latitude

e longitude, do identiador do usuário, da ategoria

doloal, bem omodo momento em queo hek-in foi

feito. Loais doFoursquare sãoagrupados emoito at-

egorias: Arts & Entertainment; College & University;

Professional & Other Plaes; Residenes; Great Out-

doors; Shops &Servies; Nightlife Spots; e Food. Cada

ategoria,porsuavez, temsubategorias. Porexemplo,

RokClub eConert Hall sãosubategoriasdeNightlife

Spots.

Comoestamosinteressadosprinipalmentenoqueaspes-

soasomem oubebem, nósagrupadosmanualmente as

subategoriasde loais, disponíveis emnossos datasets,

relaionadasomtrêslasses: Bebida,FastFoodeSlow

Food. Após essa separação, a lasse Bebida resultou

21 subategorias (porexemplo, sake plae, karaoke bar

e pub), ao passo que a lasse Fast Food resultou em

27 subategorias (por exemplo, bakery, burger joint e

wings joint) ea lasse Slow Food em 53 subategorias,

inluindoChineserestaurant,steakhouse eGreekrestau-

rant.

Table 1. Correlação(Spearman)donúmerodehek-ins

dadosemadasubategoriadosdatasetsD1,D2eD3.

ClasseBebida

Datasetsusados

ρ

^(p-value)

D2,D3 0.99(0)

D3,D1 0.94(5.4e-07)

ClasseFastFood

Datasetsusados

ρ

^(p-value)

D2,D3 0.99(0)

D3,D1 0.8(1.2e-05)

ClasseSlowFood

Datasetsusados

ρ

^(p-value)

D2,D3 0.99(0)

D3,D1 0.96(0)

D1abrangeumaúniasemanadeAbrilde2012. Ooutro

dataset,D2, abrange umperíodomaiore maisreente:

de24deabrilde2014a18dejunhode2014. Teraessoa

datasetmaiorépartiularmenteinteressanteporquenos

permite estudarametodologiapara apturarfronteiras

ulturaisemdiferentesjanelasdeobservação. Nossao-

letadedadosenfrentoualgunsproblemas,possivelmente,

nãoapturandotodososdadosompartilhadosnosdias

emqueoorreramproblemas. Porestarazão,deidimos

riar um novo dataset, dataset D3, que é um subon-

juntodeD2 ontendoapenasalgumassemanas,semdias

omproblemasdeoleta, ontendoassemanas 3,7e8.

Tambéméinteressanteteressedatasetporqueobrepar-

ialmenteumeventomundial: CopadomundodaFIFA

de2014(semana8).

A mdeestudarasemelhançadosnossostrêsdatasets,

nós orrelaionamos o número de hek-ins dados em

ada uma das subategorias de loais (para as lasses

Bebida,FastFoodeSlowFood),utilizandoaorrelação

deSpearman. A Tabela 1resumeosresultados. Como

podemos ver, os datasets D2 eD3 possuem alta orre-

laçãopositiva. AorrelaçãodeD2eD3omD1também

éelevada. ApesardasugestãodequeD2reeteorreta-

menteoomportamentodosusuários,norestododou-

mentodesonsideramosD2namaioriadasanálises,am

deevitarqualquerenviesamentonosresultados. Usamos

D2somenteemumaanáliseespeíarelaionadaomo

tamanho dasjanelasde observação de dados,disutida

na Seção 5, onde a inompletude deste dataset é uma

araterístiainteressantenaavaliação.

Neste estudo onsideramos as mesmas regiões, idades

e países estudadas em [16℄. Ao todo analisamos 16

paísesemváriasregiõesdomundo(Argentina,Austrália,

Brasil, Chile, Inglaterra, França, Indonésia, Japão,Co-

reia do Sul, Malásia, Méxio, Rússia, Singapura, Es-

panha, Turquia e Estados Unidos), 27 idades (Natal,

Reife,BeloHorizonte,RiodeJaneiro,SãoPaulo,Man-

aus,Miami, Nova Iorque,Chiago,Dallas, Denver,Las

Vegas,SãoFraniso,Paris,Londres,Istambul,Mosou,

Bangueoque,Kuala Lumpur,Singapura,Jaarta,Ban-

dung, Surabaia, Manila, Osaa e Tóquio), bem omo

regiões populares de Londres (8 regiões), Nova Iorque

(8regiões)eTóquio(9 regiões). Pararealizaressasepa-

raçãodedadosnósutilizamosasoordenadasgeográas

dohek-ineumsistema deinformaçãogeográa.

METODOLOGIA PARA O AGRUPAMENTO DE ÁREAS

Paraoagrupamentoderegiõesomhábitosalimentares

ede bebida similares, utilizamosamesma metodologia

proposta em [16℄. Primeiramente, ada área

a

^é ^repre-

sentada por um vetor de preferênia omposto de 808

araterístias(features),ouseja,onúmeronormalizado

dehek-insemadaumadas101subategoriasonside-

radas emquatro períodos distintos dodia (madrugada,

manhã, tarde e noite), durante a semana e nos nsde

semana. Em seguida, apliamos uma Análise de Com-

ponentes Prinipais (PCA) [7℄. Finalmente, usamos o

algoritmo

k

^-means,^uma^ténia^deagrupamentoampla- mente utilizada, para agruparáreas noespaço denido

pelosomponentesprinipais enontrados.

Também seguindo a metodologia de [16℄, ao analisar

países,denimos

k

⁼

7

^(mesmo^número^de^grupos,^lus-

ters, utilizados por Inglehart e Welzel [6℄, estudo que

utilizoudadosoletadosdeformatradiionaleagrupou

países de aordo om aspetos ulturais). Seguindo a

mesma lógia, onsideramos

k = 4

^para ^as ^idades,

uma vez que a ideia também é estudar idades de 4

diferentes ontinentes e

k

⁼

3

^para ^regiões ^dentro ^de

umaidade,porqueonsideramos3idadesnessaanálise.

Além desses valores de

k

^omputamos ^os ^grupos ^para

k = 2

^e

k = 10

^para ^todas ^as^áreasonsideradas, am deavaliar oresultado deagrupamento. Osparâmetros

k = 2

^e

k = 10

^são ^usados ^para ^estudar ^grupos ^re-

laxadoseompatos,respetivamente.Essaavaliação

de grupos relaxadose ompatos não foi feita por [16℄

e é interessante para entender a variabilidade dos gru-

pos. Utilizamosasimilaridadede ossenopara alular

asemelhançaentreosloais.

Paraajudarnaanálisedessesresultados,propomosneste

trabalho um Índie de Similaridade de Grupo

c i,j

^que

(4)

representa a semelhança entre um onjunto de grupos

(lusters) (

i

⁾ ôm ôutro ônjunto ^de ^grupos ⁽

j

^). ^Este

índiepodeserusado,porexemplo,paraavaliaroquão

boa é a orrespondênia entre os grupos obtidos uti-

lizando o nosso novo dataset om o antigo. O Algo-

ritmo 1 mostra os passos para alular

c

^. ^Este ^algo-

ritmo analisa todos os pares de grupos que se deseja

omparar. Para ada par ele alula o número de ele-

mentos semelhantes (hit) entre os grupos, bem omo o

númerodeelementosdiferentes(miss). Oalgoritmousa

esses valores para alular um fator de desonto. O

fator de desonto é usado para penalizar um agrupa-

mento ruim, ou seja, grupos om valor baixo de hit

e valor alto de miss. Oresultado de

c

^tem ^um ^valor

máximo de

1

^. ^Quanto ^mais ^perto ^de

1

^mais ^semelhan-

tes são os grupos omparados. O exemplo a seguir

onsidera dois onjuntos hipotétios de grupos, Clus-

ters1 e Clusters2, para nos ajudar a entender o algo-

ritmo. Clusters1:

(x, y, z), (a, b, c, d), (e, f )

^. ^Clusters2:

(x, y, d), (a, b, c, z), (e, f )

^. ^Resultado:

c ¹ , 2 = 0, 68

^. ^Expli-

ação:

(2 − 1/2) + (3 −1/3) + (2 −0)

^(soma^da^interseção

máximaom seurespetivofator dedesonto) dividido

por

9

^(número^de^elementos^no^total).

Algoritmo 1:Passosparaalularoíndie desimilari-

dadedegrupo

c

^.

listMaxs=[℄

paraada

c ₁

^em^lusterSet1 ^fazer

max=0

desonto=0

paraada

c 2

^em^lusterSet2 ^fazer

hit=

c ₁ ∩ c ₂

sehit==0 então

ontinuar

m

miss=tamanho(

c 2

⁾

−

^hit

semiss

6=

⁰ ^então

desonto=miss

/

^hit

m

al=hit

−

^desonto

seal

>

^max ^então

max=al

m

listMaxs.append(max)

m

c

⁼soma(listMaxs)/numTotalElementosClusters

IMPACTO DO TAMANHO DA JANELA DE OBSERVAÇÃO

Ao reproduzir os resultados utilizando a metodologia

menionada aima, observamos que os resultados obti-

dos para oD1 eD3 são muito semelhantes. Com isso,

uma pergunta naturalé: qualé oimpato dotamanho

dajaneladeobservaçãonosresultados?

Lembre-sedequeD1temumasemanaompleta,D3tem

três semanas ompletas, queestão ontidasem D2 que

temoitosemanas,masalgumasdelasprovavelmentenão

representamtodososdadosquepoderiamseroletados.

A m de respondera questãooloada, investigamoso

impatonosresultadosonsiderandoadasemanadeD2

individualmente. Essetamanhodajanelaem partiular

foiesolhidoparairdeaordoomotamanhododataset

D1. AFigura1mostraoíndiedesimilaridadedegrupo

para grupos obtidosutilizando ada semana individual

dodataset D2 (1-8)om gruposobtidos utilizandoD3,

paraospaíses(Figura1a),idades(Figura1b)eregiões

(Figura1). Osresultadosreferem-seatodososvalores

de

k

onsideradosnestetrabalho.

Enontramos

c = 1

^, êm ^todas âs ^guras, ^para â ^maio-

riados gruposidentiados para todosos valoresde

k

^,

exeto

k = 10

^. Ôutra^ponto êmômumêm^todosôs^re-

sultadoséovalormuitobaixode

c

^para^a^semana^6. ^Isso

éesperadoporqueestasemanaempartiularnãopossui

quasenenhumdado(

6

^dias^sem^dados,^o^que^representa

umajaneladeobservaçãomuitourta).

Considerando

k = 4

^no^resultado^de^idades^(Figura^1b),

temosdoisasosdeidadesque

c 6= 1

^(além^da^semana

6): utilizando a semana 1 e7. Para ambos osasos o

valor de

c

^é

c = 0, 7

ê ôs^grupos^são îguais âos ^grupos

queforamenontradosutilizandoD1. Issosugerequeas

diferençasulturaisobservados usandoD1sãorepresen-

tativas. Comoestaéumajaneladeobservaçãopequena,

asvariaçõesnoomportamentodaspessoasemqualquer

situação atípia, por exemplo, más ondições meteoro-

lógias,sãomais susetíveisdeserem apturadas. Este

pode ser o aso de todas essas semanas menionadas.

Para asregiõesonsiderando

k = 3

^o^índie^de^similari-

dadedegrupoéde

c = 1

^para^todas^as^semanas,^exeto

asemana 6(esperada) e nasemana 7, mas que possui

umvalorde

c

^muito^alto:

c = 0, 95

^.

Analisando os resultados para

k = 10

^para ^países ^e

idades, observamos que a maioria dos grupospara to-

dasassemanas são semelhantes entre si, expliando os

valores similares de

c

^, ^era ^de

0, 7

^(para ^países) ^e

0, 9

(para idades). Estes valores são onsideravelmente al-

tos,indiandoquetodososgrupossãosemelhantesom

osgruposenontradosusandoD3.

Voltandonossaatençãoparaosgruposenontradospara

regiõesonsiderando

k = 10

^, ^índies^de similaridadede grupobaixostambémforamobservados,noentanto,om

uma variação maior do que a observada para países e

idades. Este resultado pode serexpliadopelofato de

que asregiões, devido ao seu tamanho menor, tendem

asermaissusetíveisàvariaçãonoomportamento das

pessoas que vieram visitá-las, fato que talvez pode ser

atenuadoatravésdeumdatasetqueabrangeumajanela

detempomaior.

Todosestes resultadossugerem que oslimites ulturais

identiadosutilizandouma janeladeobservaçãomaior

doqueumasemananãosealteraramsigniativamente,

apesar da sugestão de que é possível obter resultados

mais preisos quando onsiderando grupos mais om-

patos, ou seja, esolhendo um número grande de gru-

pospara serenontrado (

K = 10

^em ^nossos ^exemplos).

Issoéespeialmente válidoem esalamenor,tais omo

anívelde regiões. No entanto, usando umdataset que

abrangeonsideravelmente menos do que uma semana,

(5)

Semana

0 2 4 6 8

Similaridade

0 0.2 0.4 0.6 0.8 1

k=7 k=2 k=10

(a)Países

Semana

0 2 4 6 8

Similaridade

0 0.2 0.4 0.6 0.8 1

k=4 k=2 k=10

Mesmos clusters que

usando D1

(b)Cidades

Semana

0 2 4 6 8

Similaridade

0 0.2 0.4 0.6 0.8 1

k=3 k=2 k=10

()Regiões

Figure 1. Índie de similaridade de grupo dos grupos

obtidosparaada semana individualde D2(1 a 8)om

osgruposparaD3.

istoé,umajanelapequena deobservaçãoparaapturar

arotinadeusuários,talomoasemana6,osresultados

tendemaseronsideravelmentepiores.

ANÁLISES ADICIONAIS

Nesta seção, o nosso objetivo é avaliar se a metodolo-

giadeagrupamentoqueestamosseguindoésatisfatória.

Para isso,analisamosduas variaçõesnaabordagemori-

ginal, o que poderia simpliar a abordagem original,

melhorando o desempenho de proessamento para um

volumemaiordedados.

Descrição das Análises

Nestaseção,nósignoramosadimensãotemponanossa

avaliaçãoparaproporduasanálisesadiionais(AA)para

aidentiaçãodasfronteirasulturais.

•

ÂA1:^nestaânáliseô^vetor^depreferêniasdosusuários onsideraapenas ostiposdeloais (subategoriasde

lugares)apresentadosemadaidade. Nãoonsidera-

mosonúmerodehek-insrealizadosemadaloal;

•

ÂA2: ^nesta ânálise ô ^vetor ^de preferênias onsidera ostiposdeloais,bemomoasuapopularidade,istoé,

queonsideramosonúmeronormalizadodehek-ins

realizadosemadaumadas101subategorias.

Com AA1 tentamos responder a pergunta: será que a

existêniade ertos tipos de loais em uma área

a

^são

suientes para expliar as diferenças ulturais? AA2

nosajudaaomplementar aprimeira questão, visando

responder: a popularidade dessesloais é útil/essenial

nessatarefa?

Orestodametodologiaontinuadamesmaformaomo

apresentadonaSeção4. Emsuma,agorarepresentamos

adaárea

a

^por^um ^vetor ^de ^preferênia ^omo^desrito

em AA1e AA2, desonsiderando adimensãotemporal.

Em seguida, apliamos a ténia PCA a esses vetores

paraobter osseusomponentes prinipais. Finalmente,

usamoso algoritmo

k

^-means ^para ^agrupar ^áreas^no ^es-

paçodenidopelosomponentesprinipaisidentiados.

Nósrealizamosessaanálise paraáreasquerepresentam

países,idadeseregiões.Paraestaanáliseonsideramos

apenasodatasetD3.

Avaliando AA1

Ronald Inglehart e Christian Welzel propuseram um

mapaulturaldomundo ombasenosdadosdoWorld

Values Surveys (WVS) 2005-2008[6℄. Além disso, ofe-

reeramuma divisãodomundo em grupos,semelhante

omoquefazemos nestetrabalho. Primeiroestudamos

os resultados obtidos para AA1. Os grupos enontra-

dos para países onsiderando

k = 7

^,

k = 2

^e

k = 10

nãovão deaordoomosdadosdo WVSenem omo

sensoomum. Hásempre umgrupoomonúmeromá-

ximo possível de aordoom o

k

^. ^Em^outras ^palavras,

uma vez que temos 16 países, quando denimos

k = 7

nós temos um grupo om 10 países e outros 6 grupos

(6)

Table2. Índiedesimilaridadedegrupo entreosgrupos

enontradosusandoametodologiaoriginal(onsiderando

odatasetD3)eusandoAA1. Oíndieégeradoparatodos

ostiposdeárease

k

valoresonsiderados.

Países

Númerodegrupos(

k

⁾

c aa 1 ,D 3

k = 7

^0,18

k = 2

^0,5

k = 10

^0,31

Cidades

Númerodegrupos(

k

⁾

c aa 1 ,D 3

k = 4

^0,39

k = 2

^0,57

k = 10

^0,32

Regiões

Númerodegrupos(

k

⁾

c aa 1 ,D 3

k = 3

^0,39

k = 2

^0,56

k = 10

^0,34

ontendoum país ada. Esses agrupamentos sãoprati-

amente seleionados aleatoriamente apenas para satis-

fazer o

k

^esolhido, ^resultando ^em ^grupos ^muito ^dife-

rentes dos observadosonsiderando o WVS.De fato, o

índiedesimilaridadedegrupoenontradoonsiderando

os grupos para

k = 7

ê ôs ^grupos ênontrados ^para ô

WVSé:

c aa 1 ,wvs = 0, 18

^.

Como nós tendemos a ter muitos dadosrepresentando

umpaís,oresultadoinsatisfatórioparaestaabordagemé

esperado,poiséprovávelqueenontremostodosostipos

delugares(emnossovetordepreferênia)paratodosos

países. Por esta razão, as distânias de ada vetor de

preferêniastendemaserzero,tornandoaqualidadedo

agrupamentomuitobaixa.

Nós também alulamos o índie de similaridade de

grupo entre todos os resultados obtidos onsiderando

AA1 om ametodologia original usando o dataset D3,

gerandoentão

c aa 1 ,D 3

^,ômo^mostraâ^Tâbela^2. Ô^índie

é obtido para todos os tipos de áreas e valores de

k

onsiderados. Como podemos ver, os resultados para

países,onsiderandotodososvaloresde

k

^,^obtidos^om

AA1 tambémsão muitodistintos daqueles obtidosom

ametodologiaoriginal.

Avaliando AA2

Voltamosnossaatençãoagoraparaosresultadosobtidos

paraAA2. Estudandoosresultadosparapaíses,observa-

mosqueelesvãoonsideravelmentemaisdeaordoom

osenontradosporRonaldIngleharteChristianWelzel

usandodadosdoWVSdoqueaquelesobtidosutilizando

AA1. Noentanto, eles sãomenospreisosdo queosre-

sultados obtidos usando ametodologia original de [16℄.

Porexemplo,ogrupoompostoporTurquiaeAustrália

identiado utilizando a abordagem AA2 não é identi-

ado utilizandoametodologiaoriginal de Silva enem

porInglehart. ParaestudaresteasoaTabela3mostra

os valores de

c

êntre ôs ^grupos ênontrados ûsando â

1º Principal Componente

-0.5 0 0.5

2º Principal Componente

-0.4 -0.2 0 0.2 0.4 0.6

San Francisco Paris Dallas

Miami Denver Las Vegas

Chicago New York London

Manila Moscow

Osaka Bangkok

Tokyo Cidades brasileiras

Istanbul Singapore Kuala Lumpur

Jakarta Bandung Surabaya

Figure 2. Resultados de agrupamento para idades

usandoAA2para

k = 4

eonsiderandoD3.

metodologia original eaabordagem AA2. Como pode-

mosver,osresultadosparapaísesnãoonordamonsi-

deravelmente om ametodologia originalpara

k = 7

^e

k = 10

^.

Estenãoéoasoparaidadeseregiões,asosemqueos

resultadosom AA2são maissemelhantes omaqueles

obtidosutilizandoametodologiaoriginal. Apesar disso,

asimilaridadeelevada nãoésempreobtida. Além disso,

utilizandoametodologiade[16℄somosmaispropensosa

obterresultadosquesãoesperadosdeaordoomosenso

omum. Porexemplo, usandoAA2 para

k = 4

^, ^Figura

2, Londresfoi agrupadaomBangkok,Tóquio, Manila,

Mosou e Osaa, fato que não é observado usando a

metodologia original. Além disso, a metodologia origi-

naltendeaagruparregiõesdentrodamesmaidademe-

lhordoqueomAA2. Esta éoutraindiaçãodequeos

resultadosobtidosom ametodologiaoriginal separam

melhoráreasdistintasulturalmente.

Table3. Índiedesimilaridadedegrupoentreosgrupos

enontradosusandoametodologiaoriginal(onsiderando

odatasetD3)eusandoAA2. Oíndieégeradoparatodos

ostiposdeárease

k

valoresonsiderados.

Países

Númerodegrupos(

k

⁾

c aa 2 ,D 3

k = 7

^0.4

k = 2

^0.92

k = 10

^0.59

Cidades

Númerodegrupos(

k

⁾

c aa 2 ,D 3

k = 4

^0.95

k = 2

^0.96

k = 10

¹

Regiões

Númerodegrupos(

k

⁾

c aa2,D3

k = 3

¹

k = 2

¹

k = 10

^0.88

(7)

−0.5 0 0.5 1

−0.6

−0.4

−0.2 0 0.2 0.4

1º Principal Componente

2º Principal Componente

TKO3 TKO5

TKO7 TKO1

TKO2 NY1 NY4

NY2 NY5

LND4 NY3

NY6

NY8

LND1

LND5

LND3 LND2

LND6

NY7 TKO9

TKO6 TKO8

TKO4

Figure3.Resultadosdeagrupamentopararegiõesusando

a metodologiaoriginalpara o dataset D1 (

k = 3

) e on- siderandosomentealasseBebida.

Discussão

Éimportanteressaltarqueaomparaçãorealizadaaqui

omametodologiaoriginaleasabordagensAA1eAA2

foi em relação àidentiação doslimites ulturais. No

entanto, temos que ter em mente que a redução da di-

mensão,namesmadireçãousadanasabordagensAA1e

AA2,podeserútilparaobteroutrostiposdeinformações

sobreasáreasonsideradas. Amdedeixarmaislara

autilidade dereduçãodedimensão,quandoanalisamos

umsubonjuntodearaterístias,porexemplo,hábitos

debebidaduranteosnsdesemanaemtodasasregiões

de Londres, NovaIorque eTóquio, resultado mostrado

na Figura 3, nós desobrimos que algumas regiões de

Londres e Nova Iorque são agrupadas. Isto é orrobo-

rado pelos resultados apresentados em [16℄: para er-

tasategorias,existemregiõesdediferentesidadesque

são muitosemelhantes e, porisso, são agrupadas. Isto

podeserútilemumapliativo,porexemplo,parasugerir

áreasparaonsumirbebidasomos amigos.

CONCLUSÕES

ConsiderandodatasetsdoFoursquareomdiferentesvo-

lumes de dados e tamanhos de janela de observação,

avaliamosumametodologiaparaaidentiaçãodefron-

teiras ulturais em diferentes aspetos. Os resultados

reforçamasugestãodequeametodologiaestudada,que

usa de dados da Web soial, partiularmente sobre a

preferênia dosusuáriosporestabeleimentos alimenta-

res, pode ser uma alternativa viável a métodos tradi-

ionais para a extração de fronteiras ulturais. Uma

formaautomátiadeidentiaçãodefronteirasulturais

podehabilitaraonstruçãonovasapliaçõesdaWebso-

ial. Existemvários trabalhosfuturos paraeste estudo,

por exemplo, um estudo teório do impato da janela

deobservaçãodedadosnosresultados,bemomoaava-

liaçãodoimpatodaqualidadedosdadosutilizadosnos

resultados.

Agradecimentos

Este trabalho foi parialmente naniado pelo projeto

FAPEMIG-PRONEX-MASWeb, Modelos, Algoritmos eSis-

temasparaWeb,proessonúmeroAPQ-01400-14,bemomo

pelo Instituto Naional de Ciênia e Tenologia para Web

(INWEB),FAPEMIG, FundaçãoArauáriaeCNPq.

REFERENCES

1. Carole,C.FoodAndCulture: A Reader,2nded.

Routledge,De.1997.

2. Cho,E.,Myers,S.A.,andLeskove,J.Friendshipand

mobility: usermovementinloation-basedsoial

networks.InProeedingsofKDD'11,ACM(SanDiego,

California,USA,2011),10821090.

3. Cranshaw,J.,Shwartz,R.,Hong,J.I.,andSadeh,N.

TheLivehoodsProjet: UtilizingSoialMediato

UnderstandtheDynamisofaCity.InProeedings of

ICWSM'12(Dublin,Ireland,2012).

4. Garia-Gavilanes,R.,Queria,D.,andJaimes,A.

Culturaldimensionsintwitter: Time,individualismand

power.InProeedingsofICWSM'13(Boston,USA,

2013).

5. Hohman,N.,andShwartz,R.Visualizinginstagram:

Traingulturalvisualrhythms.InProeedingsof

WorkshoponSoialMedia Vis.,AAAI(Dublin,Ireland,

2012),69.

6. Inglehart,R.,andWelzel,C.ChangingMassPriorities:

TheLinkbetweenModernizationandDemoray.

Perspetives onPolitis8,02(2010),551567.

7. Jollie,I.T.PrinipalComponent Analysis,seonded.

Springer,2002.

8. Murdok,G.SoialStruture. Mamillan,1949.

9. Noulas,A.,Sellato, S.,Masolo,C.,andPontil,M.An

EmpirialStudyofGeographiUserAtivityPatterns

inFoursquare.InProeedingsof ICWSM'11(Barelona,

Spain,2011).

10. Noulas,A.,Sellato, S.,Masolo,C.,andPontil,M.

ExploitingSemantiAnnotationsforClustering

GeographiAreasandUsersinLoation-basedSoial

Networks.InProeedings ofICWSM'11,AAAI

(Barelona,Spain,2011).

11. Sales,A.,Alves,L.,Araújo,M.,Menezes,A.,Morais,

A.,andAndrade,N.Ousodeumaredegeossoialnas

idadesbrasileiras esuarelaçãoomfatores

soioeonmios.InProeedingsofIHC'13(Manaus,

Brasil,2013),142147.

12. Sellato,S.,Noulas,A.,Lambiotte,R.,andMasolo, C.

Soio-spatialPropertiesofOnlineLoation-basedSoial

Networks.InProeedings ofICWSM'11(Barelona,

Spain,2011).

13. Shankar,P.,Huang,Y.-W.,Castro,P.,Nath,B.,and

Iftode,L.Crowdsreplaeexperts: Buildingbetter

loation-basedserviesusingmobilesoialnetwork

interations.InInt.Conf.onPerv.Comp.andComm.

(Perom'12)(Lugano,Switzerland,2012),2029.

14. Silva,T.,VazDeMelo,P.,Almeida,J.,andLoureiro,A.

Large-salestudyofitydynamisandurbansoial

behaviorusingpartiipatorysensing.Wireless

Communiations,IEEE21,1(Feb2014),4251.

15. Silva,T.H.,deMelo,P.O.S.V.,Almeida,J.M.,and

Loureiro,A.A.F.Estudo dehábitosalimentaresede

bebidausandomídiasoial.InProeedingsofIHC'14,

SoiedadeBrasileiradeComputação(PortoAlegre,

Brazil,Brazil, 2014),337340.

16. Silva,T.H.,VazdeMelo,P.O.S.,Almeida,J.M.,

Musolesi,M.,andLoureiro,A.A.F.YouareWhatyou

Eat(andDrink): IdentifyingCulturalBoundariesby

AnalyzingFood&DrinkHabitsinFoursquare.In

ProeedingsofICWSM'14(AnnArbor,MI,USA,2014).

Sobre a Extração de fronteiras culturais considerando hábitos alimentares observados na web social