Sobre a Extração de Fronteiras Culturais Considerando Hábitos Alimentares Observados na Web Social
Thiago H Silva Universidade Tecnológica
Federal do Paraná Departamento Acadêmico de
Informática Curitiba, Brasil thiagoh@utfpr.edu.br
Jussara M Almeida Universidade Federal de Minas
Gerais
Departamento de Ciência da Computação
Belo Horizonte, Brasil jussara@dcc.ufmg.br
Antonio A F Loureiro Universidade Federal de Minas
Gerais
Departamento de Ciência da Computação
Belo Horizonte, Brasil loureiro@dcc.ufmg.br
ABSTRACT
New approahes to study urban soial behavior use
Foursquarehek-insto representuser'spreferenes. In
this diretion, reently, researhers have proposed a
method for identifying ultural boundaries. Our study
is based on that methodology, aiming to validate the
results and to study some variations. We use a newer
datasettoevaluatethe resultsobtainedpreviously. We
found that the ultural separation results using our
datasetagree withthose presented previously. Further-
more, we evaluated the impat ofthe data observation
window size in the results. Finally, we study twoaddi-
tional variations in the studied methodology. The ul-
turalseparationquality obtainedusing these variations
is lower ompared withthe resultsobtainedby the ori-
ginalapproah. Theresults reinfore that, in fat, the
methodologyoriginallyproposedmightbeusefultoom-
plementlarge-salestudiesonulturaldierenes. Auto-
matiidentiation of ultural dierenes is avaluable
informationthat an enablethereationofnewubiqui-
tousappliations.
Author Keywords
SoialWeb; Foursquare;Culture;Food andDrink;
Evaluation
ACM Classification Keywords
J.4 Computer Appliations: Soial and Behavioral Si-
enes; H.4 Information Systems Appliations: Misella-
neous
INTRODUÇÃO
As formas tradiionais para estudar o omportamento
soial urbano, por exemplo questionários, podem ser
umproblema para arealização de estudos em largaes-
ala. Reentes estudos, dentre eles [3,4,10,11,14,16℄,
revelaram uma nova forma de obtenção de dados on-
siderandoa Web Soial, partiularmente atravésde re-
dessoiais baseadasem loalização(LBSNs), que pode
revoluionaroestudodoomportamentosoialurbano.
Espeiamente em [16℄ os autores propuseram a uti-
lizaçãode dadospúblios disponíveisapartirdaLBSN
Foursquare para mapear aspreferênias individuais de
usuários. Isto é interessante porque um hek-in 1
em
uma LBSN expressa a preferênia de um usuário por
um determinado tipo de lugar. Além disso, LBSNs
sãoaessíveisemquase todososlugares eporqualquer
pessoa,amenizando oproblemadeesalabilidade eper-
mitindoquedadosemdiversasregiõesdomundosejam
oletados.
Oestudodainuêniadediferençasulturaisnoompor-
tamentohumanoéumtemapartiularmentedesaador.
Culturaéum oneito tãoomplexo einteressante que
nenhuma denição simples pode apturá-lo. Entre os
váriosaspetosquedenemaulturadeumasoiedade
inluemsuasartes,rençasreligiosaseostumes.
Sabemosqueoshábitosalimentaresedebebidassãoa-
pazesdedesreverfortes diferençasentre aspessoas[1℄.
Combasenisso,oobjetivodeSilvaetal.[16℄foipropor
umanovametodologiaparaaidentiaçãodefronteiras
ulturais esemelhanças entre soiedades, onsiderando
hábitosalimentaresedebebida. Paraisso,foramusados
hek-insdoFoursquarepararepresentaraspreferênias
dousuárioemrelaçãoaoqueseomeebebeloalmente,
por exemplo,em uma determinadaidade. Os autores
estudaram omo essas preferênias mudam de aordo
oma hora do dia e loalizaçõesgeográas. A partir
dissoriaram uma metodologiapara aidentiação de
ulturassemelhantes,quepodeserapliadaaregiõesde
tamanhosvariados, omopaíses, idadesouatémesmo
bairros.
Comisso,estepresentetrabalhovisaavaliarametodolo-
giaparaoestudodediferençasulturaispropostaem[16℄.
1
Atodedisponibilizaroloalondevoêseenontraparaseusamigos.
WAIHCWS’16
purposes.
academic and private for granted is
use or hard copies of all or part of this work for personal or classroom digital 2016 © for this paper by its authors. Permission to make Copyright
Brazil.
Paulo/SP, São
2016, 04, October (SBC).
Society
Computing was held as part of IHC’16, organized by the Brazilian
72
Nósexeutamosumaavaliaçãonametodologiaestudada
em vários aspetos. Usamos um dataset mais reente,
ainda não utilizado, para avaliar os resultados obtidos
anteriormente seguindoamesmametodologiaproposta.
Veriamos queos resultadosde separaçãoultural uti-
lizando o nosso dataset onorda om os apresentados
anteriormente. Além disso, avaliamos o impato do
tamanho da janela de observação dos dados nos resul-
tados. Esta análise forneeu indiações de que a iden-
tiação das fronteiras ulturais usando um tamanho
de janela maior do que uma semana não se altera sig-
niativamente. Finalmente, avaliamos duas variações
adiionaisnametodologiaestudada.
A orreta identiaçãode fronteirasulturais éútil em
muitasáreas eapliações,inluindo apliaçõesubíquas.
Por exemplo, uma apliação que pode utilizar a infor-
maçãoulturaléumsistemadereomendaçãodeloais,
oqueéútilparaosvisitantesemoradoresdeumaidade.
Combasenessainformação,sistemasomooFoursquare
eoutrosbusadoresbaseadosemloalização,omoopro-
posto em[13℄, poderiamsebeneiaromaintrodução
denovosritériosemeanismosemseussistemasde re-
omendação onsiderando as diferenças ulturais entre
as áreas. Por exemplo, uma pessoa que gosta de uma
área espeía de Manhattan poderia reeber uma re-
omendaçãodeumaáreasimilaraovisitarLondres.
Oresto dotrabalho está organizadoda seguinte forma.
A Seção2 apresenta alguns dos trabalhosrelaionados.
A Seção 3apresenta os datasets utilizados. A Seção4
desreve a metodologia de agrupamento de regiões de
aordoom a informação ultural. A Seção 5avalia o
impatonosresultadosparadatasetsobrindodiferentes
períodos. A Seção6propõee avalia duas variações na
metodologia original. Por m, a Seção 7 apresenta as
onlusõesdotrabalho.
TRABALHOS RELACIONADOS
A utilização de dados da Web Soialpara oestudo do
omportamento soial urbano é um tema reente de
pesquisa. Essa fonte de dadosé interessante,pois per-
mite arealização deestudos em largaesala. Nessa di-
reção, vários estudos onentraram em estudar as pro-
priedades espaiais de dados ompartilhados em redes
soiais baseadas em loalização, omo o Foursquare
[2,9,12℄. Noentanto,taisesforçosvisamprinipalmente
ainvestigação de padrõesde mobilidade dousuário ou
propriedadesderedes soiais esuasimpliações. Salles
et al. [11℄ estudaram ouso do Foursquare nas maiores
idades do Brasil, levando em onsideração fatores so-
ioeonmios destasidades. Cranshaw et al. [3℄ tam-
bém onsideraram dados do Foursquare para delimi-
tar áreas da idade em relação ao omportamento dos
usuáriosdaredesoialestudada.
Além disso, estudos tambémmostraram omoouso de
sistemasdaWebsoialpodevariarentreos países. Por
exemplo,Hohmanetal.[5℄investigaramaspreferênias
de or em fotos ompartilhadas através do Instagram,
mostrando diferençasonsideráveisnas preferênias en-
tre os países om ulturas distintas. Garia-Gavilanes
et al. [4℄ estudaram variações de uso do Twitter entre
ospaíses,mostrandoqueasdiferençasulturaisnãosão
apenasvisíveisnomundoreal, mastambémobservadas
noTwitter.
Nessa direção, Silva et al. [16℄ propuseram uma nova
metodologia para aidentiação defronteiras ulturais
esemelhançasentrepopulações,onsiderandohábitosde
omidaebebida. Noentanto,osautoresavaliaramessa
metodologiaonsiderandoumdatasetqueabrangeuma
semanade dados. Apesar dosresultados serempromis-
sores, uma melhoravaliação dessa metodologiaainda é
neessária. Opresente estudobaseia-senotrabalho[16℄
e visa avaliar a metodologia proposta de diversas for-
mas. UmestudopreliminarrealizadotambémporSilva
et al. [15℄ forneeumais indíios de que a metodologia
apresentadaem [16℄épromissora. Este presente estudo
omplementaessestrabalhostrazendoumaanálisemais
robusta,provendoindíiosmaisfortesdequeametodolo-
giaapresentadaem[16℄éumaopçãointeressanteparaa
extraçãodefronteirasulturais.
Estudosinterulturais(istoé,oestudodasdiferençasul-
turais) nãoonstituem uma novaáreade pesquisa. Na
verdade,eles jávemsendorealizadosporpesquisadores
quetrabalham nasiênias soiais,partiularmente em
antropologiaultural epsiologia[8℄. No entanto, iden-
tiar deforma automátia essas diferençasulturais é
uma informação valiosa que pode habilitar novas apli-
açõesubíquas.
DESCRIÇÃO DOS DADOS
Analisamosum datasetdoFoursquare, que éuma rede
soialbaseada em loalização bastante popular. Nesse
sistemaosusuáriospodem disponibilizarparaseusami-
gososseus loais visitados, oshamadoshek-ins. Os
dados do Foursquare foram oletados através do Twit-
ter 2
, que é um serviço de miroblogging, ou seja, ele
permite que os seus usuários enviem e reebam atuali-
zaçõespessoaisdeoutrosontatosem textosdeaté140
arateres,onheidosomotweets. Alémdetweetsde
textosimples,osusuáriostambémpodem ompartilhar
loalizações (ou hek-ins) a partir de uma integração
omoFoursquare. Neste aso,hek-insdoFoursquare
anuniadosnoTwitterpassamaardisponíveispublia-
mente,oqueporpadrãonãoaonteequandoohek-in
épubliadouniamente nosistemado Foursquare. Nós
onsideramosdois datasets que representamdois perío-
dosdetempodistintos: dataset1(D1)edataset2(D2).
Odataset(D1) foiomesmoutilizadoem[16℄,omisso
temos aesso aos mesmos dados usados na riação da
metodologia queestamosestudando. Essedatasetére-
ferente a uma semana de dados de maio de 2012. O
dataset(D2) foi oletado por nós, não sendo utilizado
previamente.
2
http://www.twitter.om.
Em nossos datasets, ada hek-in onsiste da latitude
e longitude, do identiador do usuário, da ategoria
doloal, bem omodo momento em queo hek-in foi
feito. Loais doFoursquare sãoagrupados emoito at-
egorias: Arts & Entertainment; College & University;
Professional & Other Plaes; Residenes; Great Out-
doors; Shops &Servies; Nightlife Spots; e Food. Cada
ategoria,porsuavez, temsubategorias. Porexemplo,
RokClub eConert Hall sãosubategoriasdeNightlife
Spots.
Comoestamosinteressadosprinipalmentenoqueaspes-
soasomem oubebem, nósagrupadosmanualmente as
subategoriasde loais, disponíveis emnossos datasets,
relaionadasomtrêslasses: Bebida,FastFoodeSlow
Food. Após essa separação, a lasse Bebida resultou
21 subategorias (porexemplo, sake plae, karaoke bar
e pub), ao passo que a lasse Fast Food resultou em
27 subategorias (por exemplo, bakery, burger joint e
wings joint) ea lasse Slow Food em 53 subategorias,
inluindoChineserestaurant,steakhouse eGreekrestau-
rant.
Table 1. Correlação(Spearman)donúmerodehek-ins
dadosemadasubategoriadosdatasetsD1,D2eD3.
ClasseBebida
Datasetsusados
ρ
(p-value)D2,D3 0.99(0)
D3,D1 0.94(5.4e-07)
ClasseFastFood
Datasetsusados
ρ
(p-value)D2,D3 0.99(0)
D3,D1 0.8(1.2e-05)
ClasseSlowFood
Datasetsusados
ρ
(p-value)D2,D3 0.99(0)
D3,D1 0.96(0)
D1abrangeumaúniasemanadeAbrilde2012. Ooutro
dataset,D2, abrange umperíodomaiore maisreente:
de24deabrilde2014a18dejunhode2014. Teraessoa
datasetmaiorépartiularmenteinteressanteporquenos
permite estudarametodologiapara apturarfronteiras
ulturaisemdiferentesjanelasdeobservação. Nossao-
letadedadosenfrentoualgunsproblemas,possivelmente,
nãoapturandotodososdadosompartilhadosnosdias
emqueoorreramproblemas. Porestarazão,deidimos
riar um novo dataset, dataset D3, que é um subon-
juntodeD2 ontendoapenasalgumassemanas,semdias
omproblemasdeoleta, ontendoassemanas 3,7e8.
Tambéméinteressanteteressedatasetporqueobrepar-
ialmenteumeventomundial: CopadomundodaFIFA
de2014(semana8).
A mdeestudarasemelhançadosnossostrêsdatasets,
nós orrelaionamos o número de hek-ins dados em
ada uma das subategorias de loais (para as lasses
Bebida,FastFoodeSlowFood),utilizandoaorrelação
deSpearman. A Tabela 1resumeosresultados. Como
podemos ver, os datasets D2 eD3 possuem alta orre-
laçãopositiva. AorrelaçãodeD2eD3omD1também
éelevada. ApesardasugestãodequeD2reeteorreta-
menteoomportamentodosusuários,norestododou-
mentodesonsideramosD2namaioriadasanálises,am
deevitarqualquerenviesamentonosresultados. Usamos
D2somenteemumaanáliseespeíarelaionadaomo
tamanho dasjanelasde observação de dados,disutida
na Seção 5, onde a inompletude deste dataset é uma
araterístiainteressantenaavaliação.
Neste estudo onsideramos as mesmas regiões, idades
e países estudadas em [16℄. Ao todo analisamos 16
paísesemváriasregiõesdomundo(Argentina,Austrália,
Brasil, Chile, Inglaterra, França, Indonésia, Japão,Co-
reia do Sul, Malásia, Méxio, Rússia, Singapura, Es-
panha, Turquia e Estados Unidos), 27 idades (Natal,
Reife,BeloHorizonte,RiodeJaneiro,SãoPaulo,Man-
aus,Miami, Nova Iorque,Chiago,Dallas, Denver,Las
Vegas,SãoFraniso,Paris,Londres,Istambul,Mosou,
Bangueoque,Kuala Lumpur,Singapura,Jaarta,Ban-
dung, Surabaia, Manila, Osaa e Tóquio), bem omo
regiões populares de Londres (8 regiões), Nova Iorque
(8regiões)eTóquio(9 regiões). Pararealizaressasepa-
raçãodedadosnósutilizamosasoordenadasgeográas
dohek-ineumsistema deinformaçãogeográa.
METODOLOGIA PARA O AGRUPAMENTO DE ÁREAS
Paraoagrupamentoderegiõesomhábitosalimentares
ede bebida similares, utilizamosamesma metodologia
proposta em [16℄. Primeiramente, ada área
a
é repre-sentada por um vetor de preferênia omposto de 808
araterístias(features),ouseja,onúmeronormalizado
dehek-insemadaumadas101subategoriasonside-
radas emquatro períodos distintos dodia (madrugada,
manhã, tarde e noite), durante a semana e nos nsde
semana. Em seguida, apliamos uma Análise de Com-
ponentes Prinipais (PCA) [7℄. Finalmente, usamos o
algoritmo
k
-means,umaténiadeagrupamentoampla- mente utilizada, para agruparáreas noespaço denidopelosomponentesprinipais enontrados.
Também seguindo a metodologia de [16℄, ao analisar
países,denimos
k
=7
(mesmonúmerodegrupos,lus-ters, utilizados por Inglehart e Welzel [6℄, estudo que
utilizoudadosoletadosdeformatradiionaleagrupou
países de aordo om aspetos ulturais). Seguindo a
mesma lógia, onsideramos
k = 4
para as idades,uma vez que a ideia também é estudar idades de 4
diferentes ontinentes e
k
=3
para regiões dentro deumaidade,porqueonsideramos3idadesnessaanálise.
Além desses valores de
k
omputamos os grupos parak = 2
ek = 10
para todas asáreasonsideradas, am deavaliar oresultado deagrupamento. Osparâmetrosk = 2
ek = 10
são usados para estudar grupos re-laxadoseompatos,respetivamente.Essaavaliação
de grupos relaxadose ompatos não foi feita por [16℄
e é interessante para entender a variabilidade dos gru-
pos. Utilizamosasimilaridadede ossenopara alular
asemelhançaentreosloais.
Paraajudarnaanálisedessesresultados,propomosneste
trabalho um Índie de Similaridade de Grupo
c i,j
querepresenta a semelhança entre um onjunto de grupos
(lusters) (
i
) om outro onjunto de grupos (j
). Esteíndiepodeserusado,porexemplo,paraavaliaroquão
boa é a orrespondênia entre os grupos obtidos uti-
lizando o nosso novo dataset om o antigo. O Algo-
ritmo 1 mostra os passos para alular
c
. Este algo-ritmo analisa todos os pares de grupos que se deseja
omparar. Para ada par ele alula o número de ele-
mentos semelhantes (hit) entre os grupos, bem omo o
númerodeelementosdiferentes(miss). Oalgoritmousa
esses valores para alular um fator de desonto. O
fator de desonto é usado para penalizar um agrupa-
mento ruim, ou seja, grupos om valor baixo de hit
e valor alto de miss. Oresultado de
c
tem um valormáximo de
1
. Quanto mais perto de1
mais semelhan-tes são os grupos omparados. O exemplo a seguir
onsidera dois onjuntos hipotétios de grupos, Clus-
ters1 e Clusters2, para nos ajudar a entender o algo-
ritmo. Clusters1:
(x, y, z), (a, b, c, d), (e, f )
. Clusters2:(x, y, d), (a, b, c, z), (e, f )
. Resultado:c 1 , 2 = 0, 68
. Expli-ação:
(2 − 1/2) + (3 −1/3) + (2 −0)
(somadainterseçãomáximaom seurespetivofator dedesonto) dividido
por
9
(númerodeelementosnototal).Algoritmo 1:Passosparaalularoíndie desimilari-
dadedegrupo
c
.listMaxs=[℄
paraada
c 1
emlusterSet1 fazermax=0
desonto=0
paraada
c 2
emlusterSet2 fazerhit=
c 1 ∩ c 2
sehit==0 então
ontinuar
m
miss=tamanho(
c 2
)−
hitsemiss
6=
0 entãodesonto=miss
/
hitm
al=hit
−
desontoseal
>
max entãomax=al
m
m
listMaxs.append(max)
m
c
=soma(listMaxs)/numTotalElementosClustersIMPACTO DO TAMANHO DA JANELA DE OBSERVAÇÃO
Ao reproduzir os resultados utilizando a metodologia
menionada aima, observamos que os resultados obti-
dos para oD1 eD3 são muito semelhantes. Com isso,
uma pergunta naturalé: qualé oimpato dotamanho
dajaneladeobservaçãonosresultados?
Lembre-sedequeD1temumasemanaompleta,D3tem
três semanas ompletas, queestão ontidasem D2 que
temoitosemanas,masalgumasdelasprovavelmentenão
representamtodososdadosquepoderiamseroletados.
A m de respondera questãooloada, investigamoso
impatonosresultadosonsiderandoadasemanadeD2
individualmente. Essetamanhodajanelaem partiular
foiesolhidoparairdeaordoomotamanhododataset
D1. AFigura1mostraoíndiedesimilaridadedegrupo
para grupos obtidosutilizando ada semana individual
dodataset D2 (1-8)om gruposobtidos utilizandoD3,
paraospaíses(Figura1a),idades(Figura1b)eregiões
(Figura1). Osresultadosreferem-seatodososvalores
de
k
onsideradosnestetrabalho.Enontramos
c = 1
, em todas as guras, para a maio-riados gruposidentiados para todosos valoresde
k
,exeto
k = 10
. Outraponto emomumemtodososre-sultadoséovalormuitobaixode
c
paraasemana6. Issoéesperadoporqueestasemanaempartiularnãopossui
quasenenhumdado(
6
diassemdados,oquerepresentaumajaneladeobservaçãomuitourta).
Considerando
k = 4
noresultadodeidades(Figura1b),temosdoisasosdeidadesque
c 6= 1
(alémdasemana6): utilizando a semana 1 e7. Para ambos osasos o
valor de
c
éc = 0, 7
e osgrupossão iguais aos gruposqueforamenontradosutilizandoD1. Issosugerequeas
diferençasulturaisobservados usandoD1sãorepresen-
tativas. Comoestaéumajaneladeobservaçãopequena,
asvariaçõesnoomportamentodaspessoasemqualquer
situação atípia, por exemplo, más ondições meteoro-
lógias,sãomais susetíveisdeserem apturadas. Este
pode ser o aso de todas essas semanas menionadas.
Para asregiõesonsiderando
k = 3
oíndiedesimilari-dadedegrupoéde
c = 1
paratodasassemanas,exetoasemana 6(esperada) e nasemana 7, mas que possui
umvalorde
c
muitoalto:c = 0, 95
.Analisando os resultados para
k = 10
para países eidades, observamos que a maioria dos grupospara to-
dasassemanas são semelhantes entre si, expliando os
valores similares de
c
, era de0, 7
(para países) e0, 9
(para idades). Estes valores são onsideravelmente al-
tos,indiandoquetodososgrupossãosemelhantesom
osgruposenontradosusandoD3.
Voltandonossaatençãoparaosgruposenontradospara
regiõesonsiderando
k = 10
, índiesde similaridadede grupobaixostambémforamobservados,noentanto,omuma variação maior do que a observada para países e
idades. Este resultado pode serexpliadopelofato de
que asregiões, devido ao seu tamanho menor, tendem
asermaissusetíveisàvariaçãonoomportamento das
pessoas que vieram visitá-las, fato que talvez pode ser
atenuadoatravésdeumdatasetqueabrangeumajanela
detempomaior.
Todosestes resultadossugerem que oslimites ulturais
identiadosutilizandouma janeladeobservaçãomaior
doqueumasemananãosealteraramsigniativamente,
apesar da sugestão de que é possível obter resultados
mais preisos quando onsiderando grupos mais om-
patos, ou seja, esolhendo um número grande de gru-
pospara serenontrado (
K = 10
em nossos exemplos).Issoéespeialmente válidoem esalamenor,tais omo
anívelde regiões. No entanto, usando umdataset que
abrangeonsideravelmente menos do que uma semana,
Semana
0 2 4 6 8
Similaridade
0 0.2 0.4 0.6 0.8 1
k=7 k=2 k=10
(a)Países
Semana
0 2 4 6 8
Similaridade
0 0.2 0.4 0.6 0.8 1
k=4 k=2 k=10
Mesmos clusters que
usando D1
(b)Cidades
Semana
0 2 4 6 8
Similaridade
0 0.2 0.4 0.6 0.8 1
k=3 k=2 k=10
()Regiões
Figure 1. Índie de similaridade de grupo dos grupos
obtidosparaada semana individualde D2(1 a 8)om
osgruposparaD3.
istoé,umajanelapequena deobservaçãoparaapturar
arotinadeusuários,talomoasemana6,osresultados
tendemaseronsideravelmentepiores.
ANÁLISES ADICIONAIS
Nesta seção, o nosso objetivo é avaliar se a metodolo-
giadeagrupamentoqueestamosseguindoésatisfatória.
Para isso,analisamosduas variaçõesnaabordagemori-
ginal, o que poderia simpliar a abordagem original,
melhorando o desempenho de proessamento para um
volumemaiordedados.
Descrição das Análises
Nestaseção,nósignoramosadimensãotemponanossa
avaliaçãoparaproporduasanálisesadiionais(AA)para
aidentiaçãodasfronteirasulturais.
•
AA1:nestaanáliseovetordepreferêniasdosusuários onsideraapenas ostiposdeloais (subategoriasdelugares)apresentadosemadaidade. Nãoonsidera-
mosonúmerodehek-insrealizadosemadaloal;
•
AA2: nesta análise o vetor de preferênias onsidera ostiposdeloais,bemomoasuapopularidade,istoé,queonsideramosonúmeronormalizadodehek-ins
realizadosemadaumadas101subategorias.
Com AA1 tentamos responder a pergunta: será que a
existêniade ertos tipos de loais em uma área
a
sãosuientes para expliar as diferenças ulturais? AA2
nosajudaaomplementar aprimeira questão, visando
responder: a popularidade dessesloais é útil/essenial
nessatarefa?
Orestodametodologiaontinuadamesmaformaomo
apresentadonaSeção4. Emsuma,agorarepresentamos
adaárea
a
porum vetor de preferênia omodesritoem AA1e AA2, desonsiderando adimensãotemporal.
Em seguida, apliamos a ténia PCA a esses vetores
paraobter osseusomponentes prinipais. Finalmente,
usamoso algoritmo
k
-means para agrupar áreasno es-paçodenidopelosomponentesprinipaisidentiados.
Nósrealizamosessaanálise paraáreasquerepresentam
países,idadeseregiões.Paraestaanáliseonsideramos
apenasodatasetD3.
Avaliando AA1
Ronald Inglehart e Christian Welzel propuseram um
mapaulturaldomundo ombasenosdadosdoWorld
Values Surveys (WVS) 2005-2008[6℄. Além disso, ofe-
reeramuma divisãodomundo em grupos,semelhante
omoquefazemos nestetrabalho. Primeiroestudamos
os resultados obtidos para AA1. Os grupos enontra-
dos para países onsiderando
k = 7
,k = 2
ek = 10
nãovão deaordoomosdadosdo WVSenem omo
sensoomum. Hásempre umgrupoomonúmeromá-
ximo possível de aordoom o
k
. Emoutras palavras,uma vez que temos 16 países, quando denimos
k = 7
nós temos um grupo om 10 países e outros 6 grupos
Table2. Índiedesimilaridadedegrupo entreosgrupos
enontradosusandoametodologiaoriginal(onsiderando
odatasetD3)eusandoAA1. Oíndieégeradoparatodos
ostiposdeárease
k
valoresonsiderados.Países
Númerodegrupos(
k
)c aa 1 ,D 3
k = 7
0,18k = 2
0,5k = 10
0,31Cidades
Númerodegrupos(
k
)c aa 1 ,D 3
k = 4
0,39k = 2
0,57k = 10
0,32Regiões
Númerodegrupos(
k
)c aa 1 ,D 3
k = 3
0,39k = 2
0,56k = 10
0,34ontendoum país ada. Esses agrupamentos sãoprati-
amente seleionados aleatoriamente apenas para satis-
fazer o
k
esolhido, resultando em grupos muito dife-rentes dos observadosonsiderando o WVS.De fato, o
índiedesimilaridadedegrupoenontradoonsiderando
os grupos para
k = 7
e os grupos enontrados para oWVSé:
c aa 1 ,wvs = 0, 18
.Como nós tendemos a ter muitos dadosrepresentando
umpaís,oresultadoinsatisfatórioparaestaabordagemé
esperado,poiséprovávelqueenontremostodosostipos
delugares(emnossovetordepreferênia)paratodosos
países. Por esta razão, as distânias de ada vetor de
preferêniastendemaserzero,tornandoaqualidadedo
agrupamentomuitobaixa.
Nós também alulamos o índie de similaridade de
grupo entre todos os resultados obtidos onsiderando
AA1 om ametodologia original usando o dataset D3,
gerandoentão
c aa 1 ,D 3
,omomostraaTabela2. Oíndieé obtido para todos os tipos de áreas e valores de
k
onsiderados. Como podemos ver, os resultados para
países,onsiderandotodososvaloresde
k
,obtidosomAA1 tambémsão muitodistintos daqueles obtidosom
ametodologiaoriginal.
Avaliando AA2
Voltamosnossaatençãoagoraparaosresultadosobtidos
paraAA2. Estudandoosresultadosparapaíses,observa-
mosqueelesvãoonsideravelmentemaisdeaordoom
osenontradosporRonaldIngleharteChristianWelzel
usandodadosdoWVSdoqueaquelesobtidosutilizando
AA1. Noentanto, eles sãomenospreisosdo queosre-
sultados obtidos usando ametodologia original de [16℄.
Porexemplo,ogrupoompostoporTurquiaeAustrália
identiado utilizando a abordagem AA2 não é identi-
ado utilizandoametodologiaoriginal de Silva enem
porInglehart. ParaestudaresteasoaTabela3mostra
os valores de
c
entre os grupos enontrados usando a1º Principal Componente
-0.5 0 0.5
2º Principal Componente
-0.4 -0.2 0 0.2 0.4 0.6
San Francisco Paris Dallas
Miami Denver Las Vegas
Chicago New York London
Manila Moscow
Osaka Bangkok
Tokyo Cidades brasileiras
Istanbul Singapore Kuala Lumpur
Jakarta Bandung Surabaya
Figure 2. Resultados de agrupamento para idades
usandoAA2para
k = 4
eonsiderandoD3.metodologia original eaabordagem AA2. Como pode-
mosver,osresultadosparapaísesnãoonordamonsi-
deravelmente om ametodologia originalpara
k = 7
ek = 10
.Estenãoéoasoparaidadeseregiões,asosemqueos
resultadosom AA2são maissemelhantes omaqueles
obtidosutilizandoametodologiaoriginal. Apesar disso,
asimilaridadeelevada nãoésempreobtida. Além disso,
utilizandoametodologiade[16℄somosmaispropensosa
obterresultadosquesãoesperadosdeaordoomosenso
omum. Porexemplo, usandoAA2 para
k = 4
, Figura2, Londresfoi agrupadaomBangkok,Tóquio, Manila,
Mosou e Osaa, fato que não é observado usando a
metodologia original. Além disso, a metodologia origi-
naltendeaagruparregiõesdentrodamesmaidademe-
lhordoqueomAA2. Esta éoutraindiaçãodequeos
resultadosobtidosom ametodologiaoriginal separam
melhoráreasdistintasulturalmente.
Table3. Índiedesimilaridadedegrupoentreosgrupos
enontradosusandoametodologiaoriginal(onsiderando
odatasetD3)eusandoAA2. Oíndieégeradoparatodos
ostiposdeárease
k
valoresonsiderados.Países
Númerodegrupos(
k
)c aa 2 ,D 3
k = 7
0.4k = 2
0.92k = 10
0.59Cidades
Númerodegrupos(
k
)c aa 2 ,D 3
k = 4
0.95k = 2
0.96k = 10
1Regiões
Númerodegrupos(
k
)c aa2,D3
k = 3
1k = 2
1k = 10
0.88−0.5 0 0.5 1
−0.6
−0.4
−0.2 0 0.2 0.4
1º Principal Componente
2º Principal Componente
TKO3 TKO5
TKO7 TKO1
TKO2 NY1 NY4
NY2 NY5
LND4 NY3
NY6
NY8
LND1
LND5
LND3 LND2
LND6
NY7 TKO9
TKO6 TKO8
TKO4
Figure3.Resultadosdeagrupamentopararegiõesusando
a metodologiaoriginalpara o dataset D1 (
k = 3
) e on- siderandosomentealasseBebida.Discussão
Éimportanteressaltarqueaomparaçãorealizadaaqui
omametodologiaoriginaleasabordagensAA1eAA2
foi em relação àidentiação doslimites ulturais. No
entanto, temos que ter em mente que a redução da di-
mensão,namesmadireçãousadanasabordagensAA1e
AA2,podeserútilparaobteroutrostiposdeinformações
sobreasáreasonsideradas. Amdedeixarmaislara
autilidade dereduçãodedimensão,quandoanalisamos
umsubonjuntodearaterístias,porexemplo,hábitos
debebidaduranteosnsdesemanaemtodasasregiões
de Londres, NovaIorque eTóquio, resultado mostrado
na Figura 3, nós desobrimos que algumas regiões de
Londres e Nova Iorque são agrupadas. Isto é orrobo-
rado pelos resultados apresentados em [16℄: para er-
tasategorias,existemregiõesdediferentesidadesque
são muitosemelhantes e, porisso, são agrupadas. Isto
podeserútilemumapliativo,porexemplo,parasugerir
áreasparaonsumirbebidasomos amigos.
CONCLUSÕES
ConsiderandodatasetsdoFoursquareomdiferentesvo-
lumes de dados e tamanhos de janela de observação,
avaliamosumametodologiaparaaidentiaçãodefron-
teiras ulturais em diferentes aspetos. Os resultados
reforçamasugestãodequeametodologiaestudada,que
usa de dados da Web soial, partiularmente sobre a
preferênia dosusuáriosporestabeleimentos alimenta-
res, pode ser uma alternativa viável a métodos tradi-
ionais para a extração de fronteiras ulturais. Uma
formaautomátiadeidentiaçãodefronteirasulturais
podehabilitaraonstruçãonovasapliaçõesdaWebso-
ial. Existemvários trabalhosfuturos paraeste estudo,
por exemplo, um estudo teório do impato da janela
deobservaçãodedadosnosresultados,bemomoaava-
liaçãodoimpatodaqualidadedosdadosutilizadosnos
resultados.
Agradecimentos
Este trabalho foi parialmente naniado pelo projeto
FAPEMIG-PRONEX-MASWeb, Modelos, Algoritmos eSis-
temasparaWeb,proessonúmeroAPQ-01400-14,bemomo
pelo Instituto Naional de Ciênia e Tenologia para Web
(INWEB),FAPEMIG, FundaçãoArauáriaeCNPq.
REFERENCES
1. Carole,C.FoodAndCulture: A Reader,2nded.
Routledge,De.1997.
2. Cho,E.,Myers,S.A.,andLeskove,J.Friendshipand
mobility: usermovementinloation-basedsoial
networks.InProeedingsofKDD'11,ACM(SanDiego,
California,USA,2011),10821090.
3. Cranshaw,J.,Shwartz,R.,Hong,J.I.,andSadeh,N.
TheLivehoodsProjet: UtilizingSoialMediato
UnderstandtheDynamisofaCity.InProeedings of
ICWSM'12(Dublin,Ireland,2012).
4. Garia-Gavilanes,R.,Queria,D.,andJaimes,A.
Culturaldimensionsintwitter: Time,individualismand
power.InProeedingsofICWSM'13(Boston,USA,
2013).
5. Hohman,N.,andShwartz,R.Visualizinginstagram:
Traingulturalvisualrhythms.InProeedingsof
WorkshoponSoialMedia Vis.,AAAI(Dublin,Ireland,
2012),69.
6. Inglehart,R.,andWelzel,C.ChangingMassPriorities:
TheLinkbetweenModernizationandDemoray.
Perspetives onPolitis8,02(2010),551567.
7. Jollie,I.T.PrinipalComponent Analysis,seonded.
Springer,2002.
8. Murdok,G.SoialStruture. Mamillan,1949.
9. Noulas,A.,Sellato, S.,Masolo,C.,andPontil,M.An
EmpirialStudyofGeographiUserAtivityPatterns
inFoursquare.InProeedingsof ICWSM'11(Barelona,
Spain,2011).
10. Noulas,A.,Sellato, S.,Masolo,C.,andPontil,M.
ExploitingSemantiAnnotationsforClustering
GeographiAreasandUsersinLoation-basedSoial
Networks.InProeedings ofICWSM'11,AAAI
(Barelona,Spain,2011).
11. Sales,A.,Alves,L.,Araújo,M.,Menezes,A.,Morais,
A.,andAndrade,N.Ousodeumaredegeossoialnas
idadesbrasileiras esuarelaçãoomfatores
soioeonmios.InProeedingsofIHC'13(Manaus,
Brasil,2013),142147.
12. Sellato,S.,Noulas,A.,Lambiotte,R.,andMasolo, C.
Soio-spatialPropertiesofOnlineLoation-basedSoial
Networks.InProeedings ofICWSM'11(Barelona,
Spain,2011).
13. Shankar,P.,Huang,Y.-W.,Castro,P.,Nath,B.,and
Iftode,L.Crowdsreplaeexperts: Buildingbetter
loation-basedserviesusingmobilesoialnetwork
interations.InInt.Conf.onPerv.Comp.andComm.
(Perom'12)(Lugano,Switzerland,2012),2029.
14. Silva,T.,VazDeMelo,P.,Almeida,J.,andLoureiro,A.
Large-salestudyofitydynamisandurbansoial
behaviorusingpartiipatorysensing.Wireless
Communiations,IEEE21,1(Feb2014),4251.
15. Silva,T.H.,deMelo,P.O.S.V.,Almeida,J.M.,and
Loureiro,A.A.F.Estudo dehábitosalimentaresede
bebidausandomídiasoial.InProeedingsofIHC'14,
SoiedadeBrasileiradeComputação(PortoAlegre,
Brazil,Brazil, 2014),337340.
16. Silva,T.H.,VazdeMelo,P.O.S.,Almeida,J.M.,
Musolesi,M.,andLoureiro,A.A.F.YouareWhatyou
Eat(andDrink): IdentifyingCulturalBoundariesby
AnalyzingFood&DrinkHabitsinFoursquare.In
ProeedingsofICWSM'14(AnnArbor,MI,USA,2014).