Conclusion - Extraction de structures de documents par champs aléatoires conditionnels : applic

Segundo Santillán Rivero (2012), a primeira tentativa sistemática de estudar o comportamento científico está descrito no livro de Alphonse de Candolle, de 1885,

Histoire des sciences et des savants depuis deux siècles que estuda a comparação das

publicações científicas em 14 países europeus e dos Estados Unidos da América. Segundo o mesmo autor, este e outros trabalhos elaborados durante o século XIX descreviam a distribuição estatística do mérito científico, relativo a realizações individuais como a afiliação em instituições de prestígio, a inclusão em algum dicionário ou a partir da opinião de colegas qualificados e de mérito.

No momento em que quer a matemática quer a estatística “invadiram” vários campos do saber, como a biblioteconomia, passou a surgir uma nova disciplina designada de bibliografia estatística. A partir de então, foram vários os estudos desenvolvidos e que contribuíram para o desenvolvimento da bibliometria. No entanto, é considerado como sendo o primeiro estudo bibliométrico o trabalho de Cole e Eales, de 1917, no qual os autores aplicaram uma análise quantitativa e representaram a curva de crescimento documental da literatura sobre anatomia comparada entre 1543 e 1860. Estes autores demonstraram que as publicações podem ser objeto de estudo e, como tal, a ciência e o progresso científico podem ser medidos através da análise estatística (De Bellis, 2009).

O segundo estudo data de 1923 e foi realizado por Hulme, que refere que para se conhecer o desenvolvimento da ciência e da tecnologia este deve ser ordenado cronologicamente com critérios universais e com o auxílio da bibliografia estatística através da contagem de documentos. Segundo Hertzel (2003), Hulme foi o primeiro analista do crescimento da literatura.

Outro autor que se destaca é Lotka que, em 1926, estuda a frequência da distribuição da produção científica. Segundo Cadamuro, (2011), a Lei de Lotka está relacionada com a produtividade de autores e é fundamentada na premissa básica de que poucos investigadores publicam muito e muitos publicam pouco.

Em 1927, Gross e Gross, publicaram o seu estudo baseado na análise de citações com o intuito de auxiliar na tomada de decisão relativamente a decidir quais os periódicos da área da química que deviam ser adquiridos por parte das pequenas bibliotecas académicas. Examinaram 3.633 citações do volume de 1926 do Journal of the American

Chemical Society. Este estudo é considerado a primeira análise de citações, embora não

seja uma análise de citações no sentido da bibliometria atual (Glänzel, 2003, p. 6). Em 1934, oito anos após o artigo de Lotka, Bradford publicou um estudo sobre a distribuição da frequência de artigos em periódicos de geofísica. Ordenou as revistas por ordem decrescente de produtividade e organizou-as em três grupos com o mesmo número de artigos. Desta forma pôde estabelecer uma lei que ajuda a determinar o núcleo básico dos periódicos de determinadas áreas do conhecimento. A Lei de Bradford, designada por Lei da Dispersão sugere que através da medição da produtividade dos periódicos se pode estabelecer o núcleo principal e as áreas de dispersão de um determinado tema. Segundo Bradford, na medida em que os primeiros artigos sobre um novo assunto são escritos, eles são submetidos a uma pequena seleção por periódicos apropriados. Se aceites, esses periódicos atraem mais e mais artigos no decorrer do desenvolvimento da área temática.

Ao mesmo tempo, outros periódicos publicam os seus primeiros artigos sobre o assunto. Se o assunto continua a desenvolver-se, emerge eventualmente um núcleo de periódicos que corresponde aos periódicos mais produtivos em termos de artigos, sobre o tal assunto. O que lhe interessava na época era determinar o núcleo dos periódicos que melhor se concentravam num determinado tema. Esta Lei resultou de estudos que visavam propor critérios de seleção de periódicos para uma dada coleção, equilibrando a análise custo/bene.fício.

Em 1935, Zipf estudou a ocorrência de palavras em diversos textos e formulou uma lei em bibliometria e linguística quantitativa. Segundo este autor, o ranking ou grau de uma palavra é baseado na frequência da ocorrência da palavra e é uma constante que depende do texto analisado. A Lei de Zipf também conhecida como Lei do Menor Esforço incide na medição de frequência do aparecimento das palavras em vários textos.

Assim, é gerada uma lista ordenada de termos de uma determinada disciplina ou assunto (Vanti, 2002). Meadows (1999) diz que as palavras mais citadas são também as mais curtas, sendo as mais longas difíceis de absorver. O autor utiliza o exemplo do termo DNA, amplamente empregue em textos científicos, contra o termo ácido desoxirribonucleico. Assim, é poupado esforço no momento da leitura, na qual é a todo o instante citado o composto. Uma aplicação prática desta Lei de Zipf é a possibilidade de poder prever as ocorrências e frequências de termos indexados em bases de dados.

Price estabeleceu as técnicas da avaliação da investigação, segundo o autor:

Deixando de lado os julgamentos de valor, parece clara a importância de se dispor de uma distribuição que nos informe sobre o número de autores, trabalhos, países ou revistas que existem em cada categoria de produtividade, utilidade ou o que mais desejarmos saber (Price, 1976, p. 39).

Entre as contribuições de Price destaca-se a formulação da Lei do Crescimento Exponencial, segundo a qual o crescimento científico tem um ritmo de aceleração maior do que a maioria dos fenómenos sociais. Por exemplo, enquanto a população duplica a cada 50 anos, as publicações científicas fazem-no em 10 ou 15 anos. Como consequência do crescimento exponencial, o autor também refere a contemporaneidade da ciência, uma vez que quase 90% dos investigadores de todos os tempos ainda estão vivos. Este "fator de contemporaneidade" também influencia as publicações que também têm uma curva de envelhecimento exponencial. Price percebeu que os artigos publicados nos últimos anos recebiam mais citações do que aquelas que, teoricamente lhes corresponderiam, uma vez que a literatura recente é, proporcionalmente, a mais citada.

Não gostando da designação de bibliografia estatística, em 1969, Pritchard, passa a utilizar a designação bibliometria, visando deste modo evitar confusões com estatística, estatísticas e bibliografias. Pelo facto de a designação de “bibliografia estatística” apresentar uma reduzida utilização (apenas quatro vezes em quarenta e seis anos), na ótica de Pritchard, deveria proceder-se à sua substituição pelo termo “bibliometria”, que, embora se tratasse de um neologismo, se situava próximo de outros termos já adotados e estabelecidos entre a comunidade científica, como biometrics, econometrics e scientometrics.

O termo bibliometria já havia sido usado no passado e, segundo Pritchard (1969), o mesmo refere-se ao estudo e análise da comunicação escrita por meio da aplicação de métodos estatísticos e matemáticos a livros e outros meios de comunicação.

Dans le document Extraction de structures de documents par champs aléatoires conditionnels : application aux traitements des courriers manuscrits (Page 104-107)