A avaliação da qualidade da indexação em bases de dados documentais enquadra-se na perspetiva mais abrangente da avaliação de sistemas de recuperação de informação. Muitos dos conceitos envolvidos que vamos expor têm origem em estudos determinantes nesta temática, iniciados nos anos 50. Os principais projetos de avaliação de SRI que apresentamos são referidos por vários autores em estudos que se sucederam (Boccato e Fujita 2006, 2010; Fidel 1991b; Melo 1994; Muddamalle 1998; Ribeiro 1996; White e Griffith 1987).
Os Projectos Cranfield I e II:
O Projecto Cranfield I, desenvolvido de 1957 a 1962 e orientado por Cleverdon, teve o objetivo de conhecer a eficiência de sistemas de indexação, através de um método objetivo de avaliação comparada. Foram comparados quatro sistemas, uma classificação facetada, a CDU, cabeçalhos alfabéticos de assuntos e um sistema Uniterm. As principais conclusões retiradas deste projeto foram: - que a linguagem de indexação usada não alterava substancialmente a taxa de revocação “versus” taxa de relevância, e que alguma variação significativa na curva desses valores se devia a inadequadas decisões intelectuais sobre os conceitos do assunto na indexação ou na pesquisa; - que se verificava uma melhoria na indexação à medida que os indexadores adquiriam conhecimentos e experiência; - que o fator isolado que mais contribuiu para a presença de falhas nos sistemas foi o erro humano, tanto na indexação como na pesquisa. A
147
principal contribuição deste projeto foi a nível teórico, na definição dos conceitos de revocação e relevância e na formulação dos critérios de especificidade e exaustividade (Melo 1994).
O Projecto Cranfield II, que surgiu em 1963 na sequência dos resultados obtidos no primeiro, foi de carácter puramente experimental e comparou a eficácia de recuperação de informação, medida em termos de precisão (precision) e revocação (recall) de 33 linguagens de indexação, incorporando vários graus de controlo. As principais conclusões retiradas deste projeto foram: - que a utilização de termos simples retirados dos documentos deu bons resultados, piorando, no entanto, quando a linguagem natural foi utilizada para exprimir conceitos com termos compostos; - que os vocabulários controlados originaram piores resultados que os termos simples, exceto na expressão de termos compostos em que se revelaram muito melhores. O seu resultado mais citado foi que um controlo mínimo do vocabulário, em que só os sinónimos e a terminação das palavras eram normalizados, dava resultados tão bons, e por vezes ainda melhores que um total controlo de vocabulário (Melo 1994; Svenonius 2003).
O Sistema MEDLARS (Medical Literature Analysis and Retrieval System) é um sistema informatizado de recuperação de referências criado pela National Library of Medicine nos Estados Unidos. Num projeto iniciado em 1965, conduzido por Lancaster, pretendeu-se avaliar o comportamento do sistema e analisar os fatores que afetam a recuperação da informação e as necessidades para uma maior eficiência e menor custo. Foi o maior teste de avaliação
148
realizado até hoje, no que se refere à quantidade de documentação envolvida (cerca de 800.000 documentos). Teve a importante característica de ter sido efetuado num sistema de informação em funcionamento, e não num ambiente laboratorial. A análise dos resultados permitiu calcular a média de valores característicos da eficácia do sistema, bem como identificar falhas, no que respeita a documentos incorretamente recuperados e documentos relevantes não recuperados. O teste funcionou como indicador do desempenho do sistema, mas também como meio de corrigir deficiências detetadas. As principais conclusões retiradas da avaliação do sistema foram as seguintes: - em relação à linguagem de indexação, os fracassos deveram-se à falta de especificidade e a relações incorretas entre os termos, e à inadequada exaustividade na indexação, quer insuficiente ou em demasia; - em relação ao processo de indexação os erros humanos deram origem a muitas falhas, quer por atribuição inadequada de termos, quer por omissões; - em relação ao processo de pesquisa revelaram-se muitas falhas, e o uso da linguagem natural proporcionava melhores resultados nas pesquisas heurísticas (em que o usuário modificava a sua estratégia de acordo com o resultado que ia obtendo) do que nas pesquisas interativas. Os principais melhoramentos propostos a partir deste projeto foram no sentido de melhorar a especificidade da linguagem de indexação (Melo 1994; Ribeiro 1996).
Projecto Aberystwyth, realizado em 1968 e levado a cabo por E. Michael Keen, comparou três linguagens pós-coordenadas de indexação, nomeadamente de termo condensado (vocabulário mínimo de uma lista), linguagem natural não
149
controlada (palavras simples derivadas dos documentos) e linguagem estruturada hierarquicamente (baseada numa classificação). As principais conclusões retiradas foram sobre o desempenho dos sistemas em função da revocação, que indicaram ser o termo condensado o melhor sistema em função de tempo de duração da pesquisa, e que o desempenho do sistema numa linguagem pré-coordenada era pior. Este estudo revelou que não são significativos os ganhos decorrentes do uso de linguagens complexas de indexação (Melo 1994).
Projecto SMART (System for the Mechanical Analysis and Retrieval of Text), orientado por Gerard Salton em 1965 nos Estados Unidos, no qual se estudou a avaliação de sistemas informatizados de recuperação de informação, em que as pesquisas eram realizadas em texto livre, sem uso de qualquer controlo no vocabulário de indexação e de pesquisa. As principais conclusões retiradas foram que a análise automática da linguagem era tão eficaz na recuperação quanto a obtida por indexação intelectual (não automática), e que a utilização do procedimento com o thesaurus para reconhecer sinónimos e termos relacionados melhorava a eficácia na recuperação da informação. Apesar de algumas críticas, o projeto SMART permitiu demonstrar limitações inerentes aos SRI, e definir ações para melhorar o seu desempenho. A principal conclusão foi a de que não se justificava realizar a indexação manual, com uso do vocabulário controlado, pois a linguagem natural e a pesquisa em texto livre revelavam a mesma eficácia na recuperação da informação (Melo 1994; Ribeiro 1996).
150
As contribuições destes projetos têm servido de base a todas as investigações relacionadas. A partir dos anos setenta é difícil generalizar conclusões nesta matéria, tendo sido divulgados outros testes de avaliação de desempenho a par dos avanços tecnológicos e do aparecimento de numerosos sistemas de recuperação de informação. Deve-se salientar que todas essas experiências se basearam nos conceitos e nos métodos definidos nos projetos pioneiros de Cranfield (Melo 1994; Ribeiro 2005), e a linha de trabalho da avaliação da indexação em função dos resultados da recuperação em entornos controlados tem tido continuidade nas conferências TREC (Text REtrieval Conferences).36