aire /* ^finale
II.5 Température de transition solide-solide
11.6 Synthèse et Conclusions
Após a fase de extração de informação e formação de arbustos é necessária a realização de um processo de integração de conhecimento. O processo de
5.5 Integração de Conhecimento Geográfico
Figura 5.3: Espaço de possibilidades de integração de conhecimento geográfico. integração de conhecimento permanece um problema em aberto na literatura. A maior parte das metodologias de extração de informação raramente alcançam o processo de integração de informação com o conhecimento disponível em estruturas formais (informação já compreensível por máquinas), fazendo com que a informação extraída fique sub-utilizada. Tão importante quanto extrair informação nova e útil de textos, é sua ligação ao conhecimento já existente de modo legível por máquina. Um dos objetivos do SEI-Geo é expandir o conhecimento presente em geo-ontologias com o conhecimento novo extraído de textos.
A Figura5.3ilustra um dos principais problemas que o algoritmo de integração de informação deve resolver. Um arbusto é composto por uma ou mais triplas. Cada tripla detectada no texto possui duas entidades e um relacionamento. Em relação a uma geo-ontologia, cada entidade pode ser nova (N), única (U) ou ambígua (A). Caso seja ambígua, a ambigüidade pode ocorrer somente (1) no nome (No), quando o texto fornece apenas um nome e esse é traduzido em vários identificadores de entidade com diferentes tipos de entidade ou (2) a entidade (tipo + nome) é traduzida em diferentes identificadores de entidades da geo- ontologia com o mesmo tipo encontrado no texto. Os relacionamentos podem ser novos (N) ou únicos (U).
Eu trato o problema da integração de conhecimento usando as seguintes estratégias.
Arbusto completo na geo-ontologia: nesse caso não existe nova informação a integrar, apenas o arbusto é confirmado como válido. Esse fato é usado
para avaliar a capacidade do algoritmo de extração de informação de extrair arbustos corretos.
Arbusto parcial na geo-ontologia: nesse caso há duas possibilidades:
1. Apenas uma entidade da tripla na geo-ontologia: a entidade que não está na geo-ontologia é validada por uma pessoa. Se realmente for uma entidade geográfica a tripla será integrada na geo-ontologia, caso contrário é descartada;
2. Ambas as entidades da tripla estão na geo-ontologia e o relacionamento está fora da geo-ontologia: adiciona um novo relacionamento entre as entidades existentes na geo-ontologia.
Arbusto fora da geo-ontologia: quando não há nomes de ocorrências comuns entre o arbusto e a geo-ontologia, ele pode pertencer a geografia portuguesa ou pode ser formado por nomes da geografia mundial. Nesses casos, é necessário a validação por uma pessoa. Se pertencer a geografia portuguesa, o arbusto deve ser inserido na geo-ontologia, caso contrário o arbusto deve ser inserido na geo-ontologia mundial.
5.5.1
Tratamento de Ambigüidade Geográfica
A ambigüidade é uma característica comum da LN. No contexto geográfico, substantivos como local, área e região, entre outros são utilizados de modo altamente ambíguo (Bennett e Agarwal, 2007). Existem dois principais tipos de ambigüidade na tarefa de reconhecimento de locais, conforme descrito no capítulo
2, na seção 2.4.1: ambigüidade por referente e multiplicidade de referências. A ambigüidade por referente ocorre quando uma entidade ou um nome geográfico designa mais de um local. Nesse caso, a informação geográfica adicional a qualquer entidade geográfica, extraída de uma sentença, tem um papel fundamental no processo de desambiguação. Por exemplo, se ‘Belém’ é mencionada numa sentença com a ‘cidade de Lisboa’, é possível inferir que a ‘Belém’ em questão é a freguesia em Portugal e não a cidade no Brasil.
O algoritmo proposto para o tratamento dos casos ambíguos usa a informação geográfica complementar na mesma sentença mais os identificadores presentes em
5.5 Integração de Conhecimento Geográfico
geo-ontologias. Quando nenhum identificador é encontrado nas geo-ontologias, o arbusto ou a tripla extraída deve ser validada por uma pessoa.
O caso da multiplicidade de referências, no qual o mesmo local possui mais de um nome, não é tratado pelo SEI-Geo.
O SEI-Geo pode reconhecer nomes de organizações e pessoas multi-palavra que contenham nomes de locais formando o nome da organização ou do local. Essa capacidade de distinguir nomes de organizações e de pessoas de nomes de locais permite ao SEI-Geo aumentar a precisão em termos de EIG e RIG. A sobreposição (ambigüidade) entre nomes de organizações, pessoas e locais foi mensurada no Capítulo 4 e evidenciou que esses casos de ambigüidade ocorrem em quantidade considerável em textos em português e merecem ser tratados explicitamente por sistemas de EIG e RIG.
O algoritmo do SEI-Geo lê as sentenças átomo a átomo. Toda vez que o algoritmo encontra uma EM multi-palavra (p. ex. ‘X Y Z’) e não reconhece ela como local, ele passa para o próximo átomo do texto após o último átomo da EM multi-palavra, nesse caso após o Z. Assim, mesmo ‘Y Z’ ou ‘Z’ sendo nomes de locais, o algoritmo não os considera como locais. Essa estratégia de reconhecimento de EM permite que o algoritmo seja facilmente alterado para reconhecer nomes de locais no meio de nomes de organizações e pessoas.
O reconhecimento de nomes de locais como parte de nomes de organizações é útil para sistemas de REM. Por exemplo, a ‘Farmácia Campo de Ourique’ possui o nome do local onde ela está localizada e, nesse caso, o nome ‘Campo de Ourique’ passa a ser útil no processo de formação de arbustos a partir dos nomes de locais presentes no texto.
O Algoritmo 4apresenta a formalização do módulo de integração de conheci- mento do SEI-Geo.
Algoritmo 4 Algoritmo para integração de conhecimento geográfico extraído de texto em geo-ontologias.
1: P = {padrões} //todos os descritos na Seção 5.4.2 2: O = {ocorrências de geo-ontologias}
3: S = {sentenças do texto}
4: EGs = {entidades geográficas extraídas das sentenças} 5: Ar = {} //Arbustos 6: T = {} //Triplas 7: for all s ∈ S do 8: if |EGs| ≥ 2 then 9: if EG ∈ O then 10: {ids} = consulta-geo-ontologia(EGs)
11: T = ids-EG1,rel,ids-EG2 //tripla existente numa geo-ontologia 12: else if P ∈ s then 13: T = EG1,P,EG2 14: else 15: T = EG1,undef,EG2 16: end if 17: Ar = Ar ∪ T 18: end if 19: end for 20: for all T ∈ Ar do 21: inseriu = falso 22: for allEG ∈ T do
23: if (EG ∈ O) and (! inseriu) then
24: insere(T,O) 25: inseriu = verdadeiro 26: end if 27: end for 28: if ! inseriu then 29: avaliacao-manual 30: end if 31: end for
Esse algoritmo recebe como entrada os conceitos (C) da geo-ontologia que incluem aqueles já povoados e os vazios (sem ocorrências) além das ocorrências