3.1 C ONTEXTE DE L ’ ETUDE
3.1.1 Typologie de transformateurs tournants
Uma vez que este trabalho propõe a integração de um recurso lexical (a FrameNet) com uma ontologia (a Ontologia SIMPLE), a discussão sobre a interface entre léxico e ontologias - denominada Interface OntoLex, em Huang et al.(2010) - torna-se relevante. O resumo de Hirst (2009) continua sendo um bom ponto de partida para a discussão sobre OntoLex como um todo :
"A lexicon is a linguistic object and hence is not the same thing as an ontology, which is non-linguistic. Nonetheless, word senses are in many ways similar to ontological concepts and the relationships found between word senses resemble the relationships found between concepts."3
Assim, embora haja um certo consenso de que o léxicos não são realmente ontologias, tanto as diferenças quanto as semelhanças entre os dois tipos de recursos mantêm em andamento a investigação sobre uma possível interface entre eles.
No campo das diferenças, pode-se citar, por exemplo, que enquanto a sinonímia e a quase-sinonímia são relações muito importantes para os léxicos semânticos, não há espaço para elas nas ontologias formais, onde os conceitos não podem ser ambíguos e onde termos sinônimos são agrupados sob o mesmo conceito. Outro exemplo é a informação sobre como as palavras são usadas (seu registro) que é oferecida pelos léxicos e que não é relevante para as ontologias tradicionais. Afinal, os recursos linguísticos, como os léxicos, são constituídos de expressões linguísticas e não dos conceitos subjacentes, enquanto ontologias linguísticas contém estes conceitos. É fácil perceber que o tipo de conhecimento que estes recursos tentam capturar são de naturezas muito diferentes.
No campo das semelhanças, embora um léxico seja sobre palavras e ontologias sejam sobre conceitos, ambos representam uma conceptualização compartilhada, da perspectiva da convencionalização (HUANG et al., 2010). Para aplicações referentes à tecnologia da linguagem humana, um léxico estabelece uma interface entre agentes humanos e o conhecimento. Para aplicações na Web Semântica, uma ontologia possibilita à maquina o processamento do conhecimento diretamente.
Assim, ontologias e recursos lexicais estão associados, historicamente, a tipos diferentes de aplicações e só recentemente começaram a ser considerados simultaneamente. Do ponto de vista ontológico, os blocos de construção básicos de ontologias são conceitos e
relações. Identificar estes objetos e decidir sobre sua natureza é uma tarefa fundamental
na análise ontológica. Algo similar ocorre nos recursos lexicais, referente a termos e
relações, uma vez que supõe-se que as relações contribuem de maneira significativa para
o significado das entradas lexicais. Conceitos (ou palavras) e relações são, assim, os dois primeiros objetos a serem considerados, quando se pensa em um trabalho que reúna ontologias e recursos lexicais.
A interface OntoLex possui também uma grande importância quando se pensa no projeto de recursos multilinguais. Estes recursos, via de regra, são constituídos de vários recursos monolinguais mapeados para uma interlíngua . A possibilidade de que esta interlíngua seja estruturada, correspondendo a um nível conceitual e, portanto,
3 "Um léxico é um objeto linguístico e, assim, não é a mesma coisa que uma ontologia, que é não-
linguística. Apesar disto, os sentidos das palavras são, de várias maneiras, semelhantes a conceitos ontológicos e os relacionamentos encontrados entre os sentidos das palavras lembram os relacionamentos encontrados entre os conceitos." (Tradução nossa)
representável via ontologias, mostra o quanto uma interface entre léxico e ontologias pode ser útil.
Porém, esta interface entre recursos não é trivial. Considere-se, por exemplo, os dois objetos básicos (conceitos e termos, de um lado e relações, do outro). A diferença entre um léxico baseado em termos e um léxico baseado em conceitos é bastante clara. Mas um léxico baseado em sentidos embaça a distinção. Neste tipo de léxico (como a FrameNet ou a Wordnet) os nós do recurso lexical (por exemplo, as unidades lexicais ou os synsets) nem são simples termos, nem são entidades puramente conceituais: estão associados a sentidos de um lexema que correspondem ao seu uso convencionalizado, possivelmente vindo de exemplos atestados em corpus. Estes recursos podem ser considerados léxicos, uma vez que suas entradas são expressões linguísticas, mas tem sido muitas vezes usados como ontologias. Claramente um nível intermediário parece ser necessário, sendo discutido com detalhes em Huang et al. (2010).
Com as relações, a questão também não é simples. Nas ontologias os conceitos são integrados em um todo coerente com relações. Estas relações são conceitualmente dirigidas e tomam os conceitos como argumentos. Por outro lado, os recursos lexicais estão preocupados com a organização dos itens lexicalizados. As relações usadas por eles não estão, geralmente, focadas nos conceitos. Além disso, relações com o mesmo nome em ontologias formais e linguísticas parecem ser muito diferentes, quando analisadas com mais cuidado. No entanto, deve-se ressaltar que a classificação destas relações em paradigmáticas ou sintagmáticas é comum tanto nas abordagens conceituais quanto lexicais.
Relações paradigmáticas existem entre elementos da mesma natureza que per-
tencem a um paradigma comum. No domínio lexical são bem conhecidas as relações de sinonímia, antonímia, meronímia, hiperonímia e hiponímia. Em ontologias, as relações de oposição conceitual, parte-de, é-um-tipo-de são formalmente definidas. Como estas relações estão associadas entre si ainda é tema de investigação, uma vez que o uso de recursos lexicais como ontologias (ou vice-versa) pode gerar uma interpretação errônea das relações.
Relações sintagmáticas existem entre entidades de naturezas diferentes. Os
itens relacionados por estas relações co-ocorrem frequentemente, mas não podem ser substituídos por um outro. Geralmente estas relações são lexicalizadas por palavras que pertencem a categorias sintáticas diferentes. Na Semântica Lexical, relações sintagmáticas são associadas a estudos da interface sintaxe-semântica, com foco na predicação e papéis temáticos, e constituem a maioria das relações na FrameNet.
Outro ponto importante na discussão da interface OntoLex está no próprio processo de categorização (ou classificação). Uma abordagem de cunho mais cognitivo, como a adotada neste trabalho, vê a associação entre palavras e conceitos como uma condição de gradiência (graded membership). Assim, a determinação dos limites de uma categoria (ou
a própria existência destes limites) é um problema relevante, já que são diversos fatores que podem influenciar esta limitação. A definição de uma lista de características (feature
list), que é a solução geralmente adotada nas implementações computacionais, é tida como
uma solução simplista demais e levanta a questão sobre como as próprias características devem ser definidas.
Finalmente, Huang et al.(2010) mostram também que, apesar da realização de estudos com base filósofica sobre a linguagem e os sistemas de língua natural, em busca de uma ontologia que possa representar a linguagem, estas pesquisas tem tido pouco impacto direto no desenvolvimento de recursos práticos. A exceção apontada é a TLG (discutida na seção 3.2deste texto). Segundo aqueles autores (HUANG et al.,2010, p. 20), a contribuição de Pustejovsky é combinar uma base filosófica com uma teoria semântica-lexical rica, apresentando uma abordagem sofisticada para a predicação. Ao invés de trabalhar com a enumeração de sentidos e tentar uma longa lista de palavras, a TLG argumenta que os sentidos das palavras são infinitos, uma vez que os falantes podem facilmente criar novos sentidos. Por outro lado, a visão multidimensional do significado, que é as vezes capturada por uma herança múltipla massiva é resolvida pela TLG através de uma herança ortogonal cuidadosa.