• Aucun résultat trouvé

Autres informations

Dans le document DOCUMENT DE RÉFÉRENCE (Page 177-199)

Para cumprir com os objetivos elencados, é definida uma metodologia para execução

dos experimentos, que envolve a seleção de Programas de Pós Graduação, escolha de

pesquisadores para análise individual e definição dos parâmetros de execução.

Nesse sentido, a Plataforma Lattes foi acessada e foram baixados (via script) todos

os currículos (em formato XML) dos pesquisadores credenciados nos Programas de (i) Pós

Graduação em Ciência da Computação (PPGCC), (ii) Administração (PPGADM/CPGA)

e (iii) Administração Universitária (PPGAU). Estes programas foram escolhidos a partir da

familiaridade do autor com os pesquisadores credenciados em cada programa (o que facilita

a análise posterior dos dados). Os currículos do PPGCC foram colocados em um grupo;

PPGAU e PPGADM foram unificados (eliminando os duplicados) e colocados em um

segundo grupo. A unificação foi realizada pois se tratam de áreas correlatas (pertencentes

a mesma subárea do conhecimento), possuindo, inclusive, alguns membros em comum no

corpo docente. A escolha dos currículos e parametrização para execução dos testes são

descritas a seguir.

5.2.1

Experimentos com currículos individuais

Para validar o framework com os currículos de maneira individual, foram seleciona-

dos 3 currículos nos dois grupos de pesquisadores formados acima (um grupo do PPGCC

e outro grupo formado por PPGAU e PPGADM). A única restrição foi escolher currículos

entre os maiores (considerando o tamanho do arquivo XML, dado que há interesse no

volume de dados), pois foi adotada a premissa de quanto maior o arquivo, mais informações

estão cadastradas.

Nesta etapa, foram selecionados 2 currículos de pesquisadores do PPGCC, da área

de Ciência da Computação e 1 do PPGADM, que é da área de Economia (mas está

credenciado no programa da Administração). Os IDs dos currículos e sua referência deste

ponto em diante podem ser conferidos na Tabela

5.

Referência

ID Lattes

Área

a

0378897709136226

Computação

b

5509228706749288

Economia

c

4386203755404108

Computação

Tabela 5 – IDs dos currículos utilizados nos testes

Fonte: Elaborado pelo autor.

Todos os currículos foram submetidos individualmente ao TOT, utilizando a

parametrização inicial definida na Tabela

6. Além disso, os tópicos de cada palavra, de

cada documento, são inicializados aleatoriamente entre os T disponíveis. Vale ressaltar que

os parâmetros ψ

z

, θ

d

e φ

z

são justamente aqueles ajustados em cada iteração do Amostrador

de Gibbs (os demais permanecem constantes). Alguns autores discutem formas de calcular

o valor ideal para o número de tópicos, mas para este trabalho optou-se pelo valor fixo

de 6. No trabalho de (WANG; MCCALLUM,

2006), onde o TOT é definido, o número

de tópicos é definido como 50, também como um valor fixo, pois o conjunto de dados

analisado era extenso (cartas trocadas entre o Presidente dos Estados Unidos e o Congresso

americano, entre os anos de 1790 e 2002). Não há uma discussão aprofundada sobre esse

número mágico, mas acredita-se ser um valor para mera análise do conjunto de dados,

com objetivo de descobrir quais os tópicos latentes que poderiam surgir. No caso deste

trabalho, o valor 6 foi considerado para tentar capturar possíveis mudanças na expertise

do pesquisador, levando em conta poucas alterações em seu campo de pesquisa. Foram

realizados testes com outros números, mas quando este é muito elevado, os tópicos perdem

o sentido (misturando palavras com pouco significado), deixando palavras importantes

esparsas; quando é muito baixo, os tópicos mais fortes (aqueles com palavras que ocorrem

muito) tomam conta e praticamente todos ficam com o mesmo conteúdo. A quantidade 6

pareceu a mais razoável para os dados analisados.

Parâmetro

Valor inicial

α

0.1

β

0.1

ψ

z

(tópico x tempo)

(a, b) = (1, 1)

θd

(documento x tópico)

0

φ

z

(palavra x tópico)

0

Iterações do amostrador de Gibbs

1000

T (tópicos por currículo)

6

Ano inicial

0

Ano final

2018

Tabela 6 – Parâmetros utilizados na inicialização do TOT.

Fonte: Elaborado pelo autor.

5.2.2

Experimento com grupo de pesquisadores

Para analisar um grupo de pesquisadores, foi escolhido o PPGCC, também pela

familiaridade do autor com os membros do programa. Neste sentido, o trabalho considerou

todos aqueles que constavam no Sistema de Controle Acadêmico da Pós-Graduação (CAPG)

como membros do programa, até agosto de 2018, sendo coletados 27 currículos.

Todos foram individualmente processados pelos passos iniciais (geração, limpeza e

tratamento de bigramas), sendo que todos os documentos de todos os currículos foram

agrupados para gerar uma nova etapa de limpeza (referente ao Passo 4.f do framework,

referente a limpeza após agrupamento). Esse resultado foi enviado para execução do TOT

(representado pelo Passo 5), para prosseguimento da execução. Como a característica

do conjunto dados é diferente da análise individual (com mais dados e mais campos

de pesquisa envolvidos), os parâmetros de execução foram alterados, conforme pode ser

verificado na Tabela7. O valor de α mais alto se deve ao fato de que, sabidamente, existem

mais tópicos no conjunto de currículos analisados (comparado a uma análise individual),

portanto, os documentos provavelmente possuem uma mistura maior dos tópicos existentes.

Como existem mais palavras no conjunto analisado, considerou-se uma valor menor de β,

para que os tópicos tenham uma mistura menor das palavras disponíveis. O número de

tópicos foi considerado como T = 10, uma vez que existem 7 linhas de pesquisa dentro do

programa, o valor foi levemente aumentado para comportar possíveis variações dentro do

algoritmo. Valores menores que 7 não fazem sentido, escondendo tópicos ou forçando uma

relação irreal na composição. Valores muito altos sofrem do mesmo problema relatado no

caso das análises individuais (palavras ficam esparsas e tópicos sem sentido são criados).

Valor igual a sete também não permite que tópicos um pouco mais fracos apareçam (por

exemplo: dois tópicos fortes de Banco de Dados podem tomar o lugar de um tópico de

Computação Paralela e Distribuída). Durante os experimentos, o valor 10 se mostrou mais

adequado para o conjunto de dados.

O período de início e fim foi considerado o mesmo da criação do programa até o

momento do início desta pesquisa. Mesmo que os atuais integrantes provavelmente não

sejam os mesmos de 1992, é importante verificar se eles estiveram e continuam aderentes

às linhas de pesquisa. Todos os valores foram aproximados a partir de testes realizados

com os dados, que foram considerados aceitáveis para o conjunto de dados.

Parâmetro

Valor inicial

α

0.15

β

0.03

ψz

(tópico x tempo)

(a, b) = (1, 1)

θ

d

(documento x tópico)

0

φ

z

(palavra x tópico)

0

Iterações do amostrador de Gibbs

1000

T (quantidade de tópicos)

10

Ano inicial

1992

Ano final

2018

Tabela 7 – Parâmetros utilizados na inicialização do TOT na execução para os currículos

do PPGCC.

Fonte: Elaborado pelo autor.

Dans le document DOCUMENT DE RÉFÉRENCE (Page 177-199)