Os componentes definidos pelo modelo são necessários para compor todas as etapas de um processo de recuperação de informação (Figura 19). Um processo de recuperação de informação possui um conjunto de etapas que, embora não sendo padronizadas, possui características comuns na maioria dos sistemas. Entre elas, podemos destacar a criação de uma coleção de itens de informação, indexação, formulação da consulta, operação textuais, a criação da representação interna, o casamento e a análise de similaridade entre a consulta e os itens de informação.
Figura 19 Visão geral do processo de recuperação de informação proposto
O processo de recuperação começa com a estratégia para a formulação da consulta, que é uma etapa dependente do usuário, que decide como expressar a sua necessidade de informação. A etapa seguinte é a formulação da consulta pelo usuário que pode ser especificada de diversas formas como: texto livre, de modo similar aos modelos de recuperação de informação tradicionais, através de uma interface personalizada para o domínio ou mesmo por alguma linguagem de consulta. Cada formato deve ser capaz de produzir um conjunto de termos a serem representados de acordo com a estratégia de casos semânticos. A criação da representação interna da consulta origina o conjunto previsto no modelo.
A inclusão de novos itens de informação na base de conhecimento é feita através da instanciação desses itens na etapa de criação da representação interna, de modo similar à criação da representação interna da consulta. O conjunto previsto no modelo é formado nessa etapa que é responsável pela identificação de conceitos e instâncias da base de conhecimento que aparecem nos itens de informação.
O processo de instanciação dos documentos, tanto a consulta quanto os itens de informação, conta com o suporte de técnicas para o povoamento de ontologias. O povoamento de ontologias é uma atividade de aquisição de conhecimento que tem por objetivo instanciar conceitos de uma base de conhecimento a partir de fontes de dados desestruturadas ou semi-estruturadas (CIMIANO, HANDSCHUH, STAAB, 2004).
Outras operações r8 do modelo são também utilizadas para dar suporte ao processo. Os conceitos são extraídos diretamente do texto ou obtidos através do cálculo do conceito mais específico (most specific concept) das instâncias extraídas. O esquema de representação deve estar especificado através de uma ontologia armazenada na base de conhecimento e ajustada ao domínio. Os conceitos e instâncias obtidos nesta etapa são separados de acordo com uma estratégia baseada no modelo de casos semânticos. Essa estratégia utiliza a definição do conjunto ## dos casos semânticos do domínio prevista no modelo e as operações definidas para separar os elementos em pares da representação interna de acordo com cada caso semântico. As representações internas dos itens de informação são armazenadas na base de conhecimento do domínio. O resultado desta etapa, portanto, são instâncias dos documentos, criadas segundo o modelo de representação, para posterior processamento na fase de recuperação dos itens de informação que irão satisfazer uma dada consulta.
Em seguida, a fase de recuperação dos itens seleciona os itens de informação de mesmo conteúdo semântico de uma dada consulta. Nessa fase, o componente do modelo t( , ) é responsável por selecionar os itens de informação relevantes, utilizando a base de conhecimento como referência e o critério de seleção definido pela função, chamada na figura de “Fórmula do Casamento”.
Finalmente, os itens recuperados são então ordenados, usando a função ( , ) do modelo, de acordo com a análise de similaridade semântica entre as representações para que seja apresentado o resultado final. O modelo de similaridade semântica a ser aplicado, conforme citado no tópico sobre a análise de similaridade, irá determinar a similaridade entre os termos das representações. Tal modelo pode ser uma instância de alguma medida já descrita na literatura.
Uma desvantagem comum nas abordagens de representação baseada em metadados é a pouca abrangência da base de conhecimento (VALLET, FERNÁNDEZ, CASTELLS, 2005). Novos documentos adicionados à máquina de busca podem conter conceitos que não estão presentes na base de conhecimento. Portanto, existe a necessidade de um processo de manutenção da base de conhecimento. Este processo pode ser manual, executado por um especialista, ou automático, suportado por técnicas de povoamento de ontologias (ontology
population) (CIMIANO, HANDSCHUH, STAAB, 2004). Apesar da importância deste processo de manutenção da base de conhecimento para a recuperação de informação baseada em ontologias, a discussão das técnicas de aprendizado de ontologias está fora do escopo deste trabalho.
4.6 CONSIDERAÇÕES FINAIS
Neste capítulo foi descrito um modelo de recuperação de informação para a Web Semântica, construído a partir de componentes semânticos e serviços como ontologias e regras de inferência. Para evitar resultados ambíguos e ruidosos, o modelo utiliza representação semântica, ou seja, conceitos e instâncias, em lugar de palavras-chave para representar os itens de informação. Uma base de conhecimento armazena os conceitos e instâncias do domínio, bem como os itens de informação coletados.
O modelo usa uma estratégia baseada em casos semânticos para organizar conceitos e instâncias na representação interna dos itens de informação. Os casos semânticos representam grupos de interesse do usuário e criam diferentes contextos dentro do domínio que são utilizados pelos processos de recuperação e análise de similaridade para encontrar um valor de relevância para os documentos segundo interesses específicos do usuário.
No capítulo a seguir, será feito um estudo de caso para validar a instanciação do modelo e ter uma avaliação de um sistema construído a partir das idéias apresentadas.