Synthèse sur la commission territoriale Somme

ABC DE FDB E

VI.2 Synthèse par commission territoriale

VI.2.5 Synthèse sur la commission territoriale Somme

Nesta seção são analisados aspectos referentes a busca baseada em Metadados e classificação dos metadados com relação a objetos multimídia.

3.2.1 Busca baseada em Metadados

Um banco de dados multimídia contém imagens gráficas, vídeos, arquivos de áudio, objetos de realidade virtual entre outros. Assim, o objeto armazenado no banco de dados multimídia deve ser descrito de tal modo que o mesmo possa ser facilmente localizado e recuperado [VAS 2000].

A Indexação é usada para determinar quais dados devem ser armazenados para descrever os objetos multimídia e permitir a pesquisa e recuperação dos mesmos.

As pesquisas realizadas pelos usuários de banco de dados convencionais tendem a ser bem estruturadas, enquanto que usuários de sistemas de banco de dados multimídia podem desejar realizar consultas baseadas na descrição do conteúdo de um objeto multimídia.

Um metadado é um descritor estruturado de recursos de informação, como por exemplo, websites, textos eletrônicos, artefatos digitais, entre outros. Através do qual a compilação de descritores é estruturada de acordo com um frame específico (chamado de esquema). Tais descritores são colocados juntos para servir como uma função de indexação na recuperação de informação [METADATA 2005]

Segundo Durval et al. (2005), é preciso levar em consideração alguns conceitos e um conjunto de práticas, de forma que haja regras de manuseio, e conhecer as limitações relativas a problemas de infra-estrutura de forma que se possa construir e manter sistemas sustentáveis. Abaixo é mostrado o conjunto de práticas sugeridas por Durval et al. (2005):

Perfis de aplicação – o objetivo é prover um meio para permitir modularidade, extensibilidade, adaptação e combinar esquemas existentes dentro de um pacote que é “costurado” a um requisito funcional de uma aplicação particular, enquanto retem interoperabilidade com a base original do esquema;

Sintaxe e semântica – sintaxe é a forma, semântica é o significado. Um acordo sobre esses dois termos é necessário para que duas comunidades possam compartilhar metadados. É preciso existir uma conversão entre as comunidades de forma que tais comunidades possam se comunicar de forma inteligível;

Modelos de associação – são modelos que definem como os metadados estão integrados aos dados descritos. Pode-se definir quatro modelos de associação:

• Metadados “embutidos” - os metadados são inseridos no cabeçalho do arquivo ou do objeto descrito. O metadado é criado no momento que o recurso é criado;

• Metadados “associados” - o metadado usado como uma referência para o recurso; e

• Metadados “separados” - o metadado é mantido em um repositório separado do objeto descrito, de forma que o metadado é organizado e relacionado com o objeto descrito através que um relacionamento.

Identificação de elementos nomeados – pode-se definir um conjunto de tokens (fichas)ou labels (rótulos)

• Token – é uma referência simbólica para um recurso, por exemplo uma URI (Universal Resource Information) para identificar a localização de um determinado objeto descrito;

• Labels – são strings associadas a um recurso, são mais facilmente inteligíveis por pessoas do que tokens ou símbolos.

Registro de metadados – assume características de um dicionário eletrônico. É um importante tópico para pesquisas em bibliotecas digitais;

Completude de descrição – quanto mais informações são dadas de um objeto, mais precisa será a pesquisa, porém acarreta em um alto custo de criação e manutenção;

Elementos essenciais e elementos opcionais – é a definição de quais propriedades são essenciais para descrever o objeto e quais propriedades são opcionais para descrição do objeto em questão;

Subjetividade e objetividade – as descrições manuais não baseadas em regras são subjetivas, pois a descrição de cada objeto varia de pessoa para pessoa e de momento para momento. Uma forma de se definir objetividade é motar uma estrutura com um conjunto bem definido de valores, como por exemplo: autor (regra para o nome do autor), data de criação (dever ser necessário estabelecer um formato fixo de data) e atributos físicos (é preciso definir o conjuto dos atributos, a formatação de cada atributo e o domínio do valor de cada um);

Geração automática de metadados – é uma forma de se minimizar o esforço para descrição de metadados. Pode-se definir um conjunto de informações que podem ser extraídas automaticamente por um sistema, tais como: data de criação do objeto, elementos estruturais, formato do arquivo e propriedades intrínsecas do objeto, como por exemplo, no caso de imagem, é possível extrair propriedades físicas como resolução, mapa de cores, tamanho em bytes, entre outros. Outra forma de se extrair informações do objeto é usar inferências baseadas em algoritmos de análises do objeto. A combinação dessas abordagens pode incrementar a qualidade e reduzir o custo da descrição de metadados.

3.2.2 Classificação de Metadados

No contexto multimídia, metadados podem corresponder a referências a dados, as quais são utilizadas para facilitar a recuperação baseada em descrição do conteúdo. A seguir é descrita uma classificação para metadados [Bohms 1994]

• Metadado para representação de tipos de mídias – São informações adicionais que são importantes para fins de representação de dados multimídia. Essas informações podem ser utilizadas para apresentação desses dados. Exemplos deste tipo de metadado incluem formato de condificação e técnicas aplicadas para compressão de dados, ou seja, para cada tipo de mídia o metadados pode assumir um valor ou um conjuto de valores definidos em um domínio. Por exemplo, uma mídia do tipo vídeo pode assumir valores de formatos como MPEG4, MPEG2 ou AVI; uma mídia do tipo imagem pode assumir valores de formatos como JPEG, GIF ou PNG; uma mídia como áudio como assumir valores de formatos como MP3, WMA ou PCM;

• Metadado para Descrição de Conteúdo – Esse tipo de metadado descreve o conteúdo do objeto ou dos componentes do mesmo. A descrição pode ser feita manualmente, de forma automática ou semi-automática, dependendo do tipo de mídia tratada. Um exemplo típico é uma lista de pessoas ou instituições relacionadas ao conteúdo de um objeto multimídia. Essa lista de pessoas é fornecida pelo usuário de forma manual;

• Metadado para classificação de conteúdo – A classificação de conteúdo consiste em informações adicionais que podem ser derivadas do conteúdo do documento. Esse tipo de metadado pode ser gerado de forma automática ou semi-automática. Por exemplo, a classificação pode ser feita pelo nível de conhecimento do leitor sobre determinado tema;

• Metadado para composição de documentos – Componentes lógicos de documentos multimídia têm certa semântica como parte do documento. Metadado para composição de documentos permite conhecimentos de características dos relacionamentos entre componentes de documentos. Este tipo de metadado só faz sentido para documentos multimídia e não para tipos de dados simples. Por exemplo, os modelos de hipermídia podem ter metadados para descrever os componentes e os relacionamentos entre eles;

• Metadados para história de documentos – em ambientes de publicações multimídia é comum registrar o status de dados multimídia. Esse tipo de metadado serve tanto para um documento como para componentes individuais, tais como data da útima atualização de um determinado documento. Metadado desse tipo pode ser registrado automaticamente ou não. O nome do autor de documentos, data de autoria e os relacionamentos derivados em modelos de versões são exemplos desse tipo de metadado;

• Metadado para localização de documentos – os objetos multimídia não são duplicados ou distribuídos, desta forma são acessados de acordo com a necessidade de cada usuário. Metadados são utilizados para localizar documentos. A informação sobre a localização de certos documentos e como esses podem ser acessados são exemplos desse tipo de metadado; e

• Metadados estatístico – esse tipo de metadado quantifica a freqüência dos documentos ou componentes de documentos com certas características. Os aspectos de desempenho, acessos e freqüência de apresentação de documentos em determinados período de tempo também são exemplos de metadado estatístico.

Projeto SACCA

Um exemplo de projeto que usa busca de conteúdo baseada em metadados é o projeto SACCA [SACCA 2004]. Ele apresenta um sistema automático de catalogação audiovisual de vídeo para ambientes virtuais de ensino, desenvolvido pelo grupo de pesquisa em Novas Tecnologias na Educação da Universidade Federal do Rio Grande do Sul.

No âmbito da Internet2 foi iniciado um experimento com catalogação automática de todo o conteúdo (full content), em que o áudio do vídeo é analisado e palavras- chaves são identificadas e localizadas no tempo (em que momento são faladas). No projeto SACCA, é usado o software comercial VIRAGE [VIRAGE 2007] para fazer esta análise, mas este software somente funciona para a língua inglesa. Todavia, o resultado é muito relevante, pois possibilita ao aluno digitar uma ou mais palavras- chaves e receber uma coleção de URL que apontam para vídeos armazenados no repositório (incluindo pontos específicos do vídeo onde a palavra é dita). O SACCA, apresenta um resultado similar, pois ele só trabalha com a língua portuguesa, entretanto vale lembrar que ele opera inicialmente de forma não automática, porque não há no

momento recursos (software de reconhecimento de áudio apropriado para o Português falado no Brasil). Assim, busca-se projetar e desenvolver um sistema que apoie o processo de catalogação full content, mas com a intermediação de um usuário que assiste ao vídeo e seleciona as palavras-chaves a serem incluídas na catalogação.

Foi usado um software de domínio público que abre os tipos padrão de vídeo (MPEG), identifica e separa cenas. O IBM Annotation Tool [VIDEOANNEX 2007] pode ser utilizado para descrever arquivo de vídeo gravado no padrão MPEG (1 e 2), gerando uma descrição XML segundo o padrão MPEG 7[MPEG 2007]. O SACCA faz o interfaceamento com este software e permite ao usuário catalogador a digitação das palavras-chaves, agregando de forma semi-automática as informações de tempo de início em que as mesmas foram faladas. As informações resultantes são armazenadas em um banco de dados invertido, com todas as palavras-chaves catalogadas e ponteiros para os arquivos XML (MPEG 7) e para os registros do projeto SACCA, onde os objetos de aprendizagem tipo vídeo também estarão catalogados e onde estarão as informações referentes aos demais metadados de catalogação.

Dans le document Rapport sur l’étude de l’impact (Page 106-109)