Um trabalho inicial da coleta das referências na base EduTec mostrou uma grande quantidade de trabalho manual a ser despendida para a mineração dos dados. Desta forma, optou-se por uma amostragem estatística que permitisse a coleta e análise ao trazer o número de teses a terem suas referências catalogadas para um nível factível com a pouca mão-de-obra disponível49.
49
Primeiro, como aconteceu com a produção total, verificou-se que os trabalhos da base EduTec estavam fortemente concentrados em dois Estados brasileiros: Rio Grande do Sul (227; 41,12%) e São Paulo (225; 40,76%). Como esses Estados somados passavam de 80% da população total, eles foram considerados como tendo um volume de dados capaz de trazer informações relevantes para os propósitos desta pesquisa. Mesmo assim, a quantidade de teses ainda era muito grande para a mão de obra disponível durante a coleta. Desta forma, decidiu-se por utilizar uma técnica de amostragem estatística em um dessas unidades da federação. A unidade federativa escolhida foi São Paulo. Apesar de ter dois trabalhos a menos que Rio Grande do Sul, o território paulista possui uma diversidade de Instituições de Ensino Superior (IES) maior que o Estado gaúcho além de sediar a Universidade Estadual de Campinas (UNICAMP) que é a IES com maior produção da base.
A partir desse número de trabalhos do estado de São Paulo50, aplicou-se uma fórmula para se chegar a uma amostragem que tinha margem de erro de 5% resultando num total de 144 teses51. A técnica de amostragem foi replicada para cada ano da janela temporal, desta vez para determinar quantos n trabalhos de cada IES deveriam compor a amostra final por ano. Depois de determinado o n de cada IES por ano, os trabalhos foram escolhidos aleatoriamente dentro desse limite n.
Esta seção contém a análise das referências de pouco mais da metade da janela temporal completa da base. Mesmo com a equipe vinculada ao processo de coleta de dados da investigação, o volume ainda se mostrou muito denso, a tal ponto que se tornou inviável uma coleta de todos os anos pretendidos mesmo com a amostragem com margem de erro de 5%. Foi possível coletar as referências de todos os trabalhos da amostragem de 1996 a 2008. Esses primeiros treze anos da janela temporal contém 58 (40,27%) dos 144 trabalhos elegíveis para a coleta. Ou seja, praticamente 3/5 de todos os
os alunos participam de atividades no campus coordenadas por professores. Desta forma, a pesquisa contou com a participação de alunos que receberam uma bolsa mensal para ajudarem a compor os dados disponíveis na base do Grupo Horizonte, especialmente as referências bibliográficas apresentadas neste capítulo. Também aprenderam sobre procedimentos metodológicos de coleta e análise de dados. Outros integrantes do grupo de pesquisas participaram da coleta quando também utilizaram da base para suas investigações individuais.
50
Doravante, o texto irá se referir às teses desta amostragem como EduTecSP. 51
A fórmula utilizada foi n=(Nn’)/(N+n’), onde n é o tamanho da amostragem, N a população total e n’ é em função da margem de erro. Para encontrar um n’ de margem de erro de 5% a fórmula é 1/(0,05)². As instruções para as técnicas estatísticas utilizadas para definir o tamanho nesta investigação da amostra total e por ano estão disponíveis em: http://www.ufscar.br/jcfogo/EACH/Arquivos/Material_Aula_2.pdf.
trabalhos a serem coletados estão entre os anos de 2009 e 2016. Desses 58 trabalhos, foram coletadas 5.871 referências o que dá uma média de 101,22 referências por tese.
Uma investigação serviu como um guia de quais dados deveriam ser extraídos das referências. Noronha (1998) em seu estudo analisa as citações utilizadas em dissertações e teses de saúde pública entre 1990 e 1994. Primeiro, a autora classificou os tipos de documentos citados (livros e capítulos de livros, artigos de periódicos, dissertações e teses, comunicações em eventos, relatórios técnicos e outros). Em segundo lugar, a autora mensurou a temporalidade das citações, que foi medida em relação ao ano da defesa da tese. Em seguida, categorizou as citações por idioma. Por fim, a autora ainda categorizou as citações por procedência geográfica. Ou seja, foi considerado o país ou região onde foi editado o documento citado.
O trabalho de Noronha (1998) ajudou a determinar critérios que norteassem a coleta de dados da presente investigação, mas algumas mudanças foram implementadas. Para cada referência do banco constam os seguintes dados bibliométricos: a) autor da tese onde se encontra a referência (quem fez a citação); b) orientador; c) título da tese onde se encontra a referência; d) ano da defesa; e) tipo de publicação da referência (se artigo de periódico, livro, tese etc.); f) nacionalidade de origem da referência. Os tipos de publicação foram divididos em categorias: a) Livro completo; b) capítulo de livro; c) periódico; d) dissertação; e) tese; f) trabalhos em anais de congresso; g) outros. Para a categoria capítulo de livro coletou-se o título do livro e o nome do organizador(es). Na categoria periódico, coletou-se o nome da revista. Na categoria trabalhos em anais de congresso, coletou-se o nome do evento. Finalmente, na categoria outros estão todos os tipos de publicação que não se encaixam nessas categorias. Por exemplo, documentos oficiais, sites da internet, entrevistas, artigos de jornais, filmes etc. Em grande parte, são referências não acadêmico-científicas ou na categoria mimeo52.
Quanto à procedência da referência, priorizou-se a origem geográfica da produção da pesquisa. Por exemplo, um pesquisador francês que faz parte do corpo docente de uma universidade na França e publica em uma revista norte americana em inglês, ainda assim será contado como uma produção francesa, independentemente do idioma e do
52 Na categoria mimeo estão textos acadêmicos não publicados. Quando uma tese se referia a uma publicação como mimeo, mas a coleta encontrou uma versão da mesma referência já publicada, ela foi categorizada como a versão que foi encontrada.
local da revista serem diferentes do autor. Um livro escrito por um pesquisador espanhol na Espanha e traduzido para o português e publicado numa editora brasileira, ainda assim será uma produção espanhola. Da mesma forma, um cientista francês que trabalhe e faça pesquisa em uma universidade brasileira será contado como uma produção nacional. Desta forma, para a análise desta pesquisa, o que conta é onde o cientista se situa profissionalmente e onde fica a instituição onde faz a pesquisa. Foi justamente esse critério que tornou a coleta trabalhosa e demorada. Todas as informações sobre o autor precisavam ser checadas antes de serem lançadas na base. Mas sacrificar o rigor com este critério distorceria muito as informações sobre a origem das referências.
Tendo como critério de análise, principalmente, os conceitos de capital científico de Pierre Bourdieu, mas calcada também em outros autores, foi feita uma discussão sobre o porquê da análise das referências. Em seguida, seguem-se alguns comentários sobre índices bibliométricos e quais suas aplicações para esta investigação além do papel da bibliometria como método de avaliação da pesquisa. Portanto, esta seção do texto traz a análise do fenômeno da distribuição do capital científico no campo, desta vez pelo viés das citações das teses investigadas.