Para cumprir com os objetivos elencados, é definida uma metodologia para execução
dos experimentos, que envolve a seleção de Programas de Pós Graduação, escolha de
pesquisadores para análise individual e definição dos parâmetros de execução.
Nesse sentido, a Plataforma Lattes foi acessada e foram baixados (via script) todos
os currículos (em formato XML) dos pesquisadores credenciados nos Programas de (i) Pós
Graduação em Ciência da Computação (PPGCC), (ii) Administração (PPGADM/CPGA)
e (iii) Administração Universitária (PPGAU). Estes programas foram escolhidos a partir da
familiaridade do autor com os pesquisadores credenciados em cada programa (o que facilita
a análise posterior dos dados). Os currículos do PPGCC foram colocados em um grupo;
PPGAU e PPGADM foram unificados (eliminando os duplicados) e colocados em um
segundo grupo. A unificação foi realizada pois se tratam de áreas correlatas (pertencentes
a mesma subárea do conhecimento), possuindo, inclusive, alguns membros em comum no
corpo docente. A escolha dos currículos e parametrização para execução dos testes são
descritas a seguir.
5.2.1
Experimentos com currículos individuais
Para validar o framework com os currículos de maneira individual, foram seleciona-
dos 3 currículos nos dois grupos de pesquisadores formados acima (um grupo do PPGCC
e outro grupo formado por PPGAU e PPGADM). A única restrição foi escolher currículos
entre os maiores (considerando o tamanho do arquivo XML, dado que há interesse no
volume de dados), pois foi adotada a premissa de quanto maior o arquivo, mais informações
estão cadastradas.
Nesta etapa, foram selecionados 2 currículos de pesquisadores do PPGCC, da área
de Ciência da Computação e 1 do PPGADM, que é da área de Economia (mas está
credenciado no programa da Administração). Os IDs dos currículos e sua referência deste
ponto em diante podem ser conferidos na Tabela
5.
Referência
ID Lattes
Área
a
0378897709136226
Computação
b
5509228706749288
Economia
c
4386203755404108
Computação
Tabela 5 – IDs dos currículos utilizados nos testes
Fonte: Elaborado pelo autor.
Todos os currículos foram submetidos individualmente ao TOT, utilizando a
parametrização inicial definida na Tabela
6. Além disso, os tópicos de cada palavra, de
cada documento, são inicializados aleatoriamente entre os T disponíveis. Vale ressaltar que
os parâmetros ψ
z, θ
de φ
zsão justamente aqueles ajustados em cada iteração do Amostrador
de Gibbs (os demais permanecem constantes). Alguns autores discutem formas de calcular
o valor ideal para o número de tópicos, mas para este trabalho optou-se pelo valor fixo
de 6. No trabalho de (WANG; MCCALLUM,
2006), onde o TOT é definido, o número
de tópicos é definido como 50, também como um valor fixo, pois o conjunto de dados
analisado era extenso (cartas trocadas entre o Presidente dos Estados Unidos e o Congresso
americano, entre os anos de 1790 e 2002). Não há uma discussão aprofundada sobre esse
número mágico, mas acredita-se ser um valor para mera análise do conjunto de dados,
com objetivo de descobrir quais os tópicos latentes que poderiam surgir. No caso deste
trabalho, o valor 6 foi considerado para tentar capturar possíveis mudanças na expertise
do pesquisador, levando em conta poucas alterações em seu campo de pesquisa. Foram
realizados testes com outros números, mas quando este é muito elevado, os tópicos perdem
o sentido (misturando palavras com pouco significado), deixando palavras importantes
esparsas; quando é muito baixo, os tópicos mais fortes (aqueles com palavras que ocorrem
muito) tomam conta e praticamente todos ficam com o mesmo conteúdo. A quantidade 6
pareceu a mais razoável para os dados analisados.
Parâmetro
Valor inicial
α
0.1
β
0.1
ψ
z(tópico x tempo)
(a, b) = (1, 1)
θd
(documento x tópico)
0
φ
z(palavra x tópico)
0
Iterações do amostrador de Gibbs
1000
T (tópicos por currículo)
6
Ano inicial
0
Ano final
2018
Tabela 6 – Parâmetros utilizados na inicialização do TOT.
Fonte: Elaborado pelo autor.
5.2.2
Experimento com grupo de pesquisadores
Para analisar um grupo de pesquisadores, foi escolhido o PPGCC, também pela
familiaridade do autor com os membros do programa. Neste sentido, o trabalho considerou
todos aqueles que constavam no Sistema de Controle Acadêmico da Pós-Graduação (CAPG)
como membros do programa, até agosto de 2018, sendo coletados 27 currículos.
Todos foram individualmente processados pelos passos iniciais (geração, limpeza e
tratamento de bigramas), sendo que todos os documentos de todos os currículos foram
agrupados para gerar uma nova etapa de limpeza (referente ao Passo 4.f do framework,
referente a limpeza após agrupamento). Esse resultado foi enviado para execução do TOT
(representado pelo Passo 5), para prosseguimento da execução. Como a característica
do conjunto dados é diferente da análise individual (com mais dados e mais campos
de pesquisa envolvidos), os parâmetros de execução foram alterados, conforme pode ser
verificado na Tabela7. O valor de α mais alto se deve ao fato de que, sabidamente, existem
mais tópicos no conjunto de currículos analisados (comparado a uma análise individual),
portanto, os documentos provavelmente possuem uma mistura maior dos tópicos existentes.
Como existem mais palavras no conjunto analisado, considerou-se uma valor menor de β,
para que os tópicos tenham uma mistura menor das palavras disponíveis. O número de
tópicos foi considerado como T = 10, uma vez que existem 7 linhas de pesquisa dentro do
programa, o valor foi levemente aumentado para comportar possíveis variações dentro do
algoritmo. Valores menores que 7 não fazem sentido, escondendo tópicos ou forçando uma
relação irreal na composição. Valores muito altos sofrem do mesmo problema relatado no
caso das análises individuais (palavras ficam esparsas e tópicos sem sentido são criados).
Valor igual a sete também não permite que tópicos um pouco mais fracos apareçam (por
exemplo: dois tópicos fortes de Banco de Dados podem tomar o lugar de um tópico de
Computação Paralela e Distribuída). Durante os experimentos, o valor 10 se mostrou mais
adequado para o conjunto de dados.
O período de início e fim foi considerado o mesmo da criação do programa até o
momento do início desta pesquisa. Mesmo que os atuais integrantes provavelmente não
sejam os mesmos de 1992, é importante verificar se eles estiveram e continuam aderentes
às linhas de pesquisa. Todos os valores foram aproximados a partir de testes realizados
com os dados, que foram considerados aceitáveis para o conjunto de dados.
Parâmetro
Valor inicial
α
0.15
β
0.03
ψz
(tópico x tempo)
(a, b) = (1, 1)
θ
d(documento x tópico)
0
φ
z(palavra x tópico)
0
Iterações do amostrador de Gibbs
1000
T (quantidade de tópicos)
10
Ano inicial
1992
Ano final
2018
Tabela 7 – Parâmetros utilizados na inicialização do TOT na execução para os currículos
do PPGCC.
Fonte: Elaborado pelo autor.
Dans le document
DOCUMENT DE RÉFÉRENCE
(Page 177-199)