• Aucun résultat trouvé

Structure du chapitre

5 Conclusion du chapitre

A mesma palavra pode ter diferentes significados em diferentes contextos. Vamos considerar o exemplo de bateria. Esta palavra pode significar um instrumento mu- sical, um artefacto de guerra, ou uma pilha el´ectrica. A tarefa de desambigua¸c˜ao de acep¸c˜ao de palavra consiste em decidir segundo o contexto, qual dos significados ´e expresso pelo lexema.

Tamb´em esta tarefa se assemelha ao nosso problema. Podemos encarar a sequˆencia de lema e tra¸cos verbais como “a acep¸c˜ao da palavra” relativa `a ocorrˆencia de um verbo num dado contexto.

Na desambigua¸c˜ao da acep¸c˜ao de palavra, o conjunto de classes que se pode atribuir n˜ao ´e fechado, tal como no nosso caso. Uma palavra pode ter in´umeros significados. Embora se saiba pelas entradas no dicion´ario qual o n´umero m´aximo de significados de cada uma das palavras, esse n´umero n˜ao ´e inalter´avel pois novos significados e novas palavras podem surgir.

2.5.2

Abordagens populares

A tarefa de desambigua¸c˜ao da acep¸c˜ao de palavra tem aspectos comuns com a tarefa de etiqueta¸c˜ao. A diferen¸ca reside nas regras a combinar com os m´etodos usados para os adaptar ao problema. Por exemplo, no problema de etiqueta¸c˜ao podem-se juntar regras que eliminem `a partida algumas combina¸c˜oes de sequˆencias de classes gramaticais que n˜ao s˜ao poss´ıveis, ou no problema de desambigua¸c˜ao da acep¸c˜ao de palavra uma consulta a uma ontologia, como a WordNet,21

pode permitir relacionar as palavras do contexto e a palavra a ser desambiguada com uma medida de “distˆancia semˆantica” entre os n´os das entradas correspondentes ´as palavras na ontologia.

Tal como na tarefa de etiqueta¸c˜ao, os m´etodos com melhores resultados s˜ao os m´etodos supervisionados de aprendizagem autom´atica. De entre estes sobressaem alguns algoritmos que costumam ter os melhores desempenhos para a desambigua¸c˜ao de acep¸c˜ao de palavra (Agirre e Edmonds, 2006).

O classificador Na¨ıve Bayes baseia-se no Teorema de Bayes assumindo in- dependˆencia entre os atributos.22

O Teorema de Bayes consiste em relacionar a probabilidade condicional e marginal de dois eventos aleat´orios. Supondo dois eventos A e B, a rela¸c˜ao ´e expressa pela f´ormula

P (A|B) = P (B |A)P (A) P (B )

21

http://wordnet.princeton.edu/

22

onde P(A) ´e a probabilidade marginal de A, sem conhecimento pr´evio de B. P(A|B ) ´e a probabilidade condicional de A dado o evento B. P(B |A) ´e a probabili- dade de B dado A. P(B ) ´e a probabilidade marginal de B e funciona como constante de normaliza¸c˜ao.

O classificador dos k -vizinhos mais pr´oximos consiste em guardar exemplos de treino, depois os novos exemplos s˜ao classificados de acordo com os k -vizinhos mais pr´oximos segundo uma m´etrica de distˆancia pr´eviamente escolhida, tipicamente a distancia de Hamming.

O classificador Listas de Decis˜ao consiste em criar regras do tipo (condi¸c˜ao, classe, peso). Os exemplos de treino servem para definir o peso de se classificar um novo exemplo dada a ocorrˆencia de uma certa condi¸c˜ao. A lista ´e ordenada por ordem decrescente dos pesos. Para classificar novos exemplos, a lista ´e percorrida at´e se encontrar o peso mais alto que coincide com o novo exemplo.

Outro classificador ´e o AdaBoost, que consiste em combinar classificadores mais fracos, moderadamente precisos, para se obter um classificador com alta precis˜ao.

O algoritmo de Support Vector Machines (SVM) baseia-se no princ´ıpio de Minimiza¸c˜ao do Risco Estrutural da teoria de aprendizagem estat´ıstica (Vapnik, 1998). De uma forma geral os algoritmos de SVM aprendem uma discriminante lin- ear que separa os exemplos negativos dos exemplos positivos com margem m´axima. Segundo (Agirre e Edmonds, 2006), o algoritmo SVM ´e o que tem melhores resultados, sendo que o AdaBoost melhora quando o n´umero de exemplos por classe aumenta, embora a diferen¸ca n˜ao aumente significativamente. Todos os algoritmos estudados neste livro s˜ao executados sobre as mesmas condi¸c˜oes de teste.

Segundo Pederson e Mihalcea (2005), que analisa v´arios testes feitos em diversos trabalhos, indica por sua vez que em geral o Na¨ıve Bayes obt´em melhores resultados ou ao n´ıvel do estado da arte. O mesmo ´e testado por v´arios autores como ´e dito em (Pederson e Mihalcea, 2005, p´agina 90).

Assim, dado que a abordagem ao problema que nos interessa como tarefa de etiqueta¸c˜ao j´a foi explorada sem se conseguir ultrapassar os resultados do valor base de compara¸c˜ao,23

para al´em de n˜ao abranger a totalidade do problema, vamos apostar em explorar uma abordagem de tipo desambigua¸c˜ao da acep¸c˜ao da palavra, focando os algoritmos que em princ´ıpio ter˜ao melhores resultados, Na¨ıve Bayes e SVM.

23

Abordagem explicada no ponto ponto 3.2. Algoritmo de m´axima verosimilhan¸ca ´e tido como a base de compara¸c˜ao do problema.

Cap´ıtulo 3

Estado-da-arte

Neste cap´ıtulo vou descrever os resultados que foram alcan¸cados at´e agora no que diz respeito `a tarefa de desambigua¸c˜ao de flex˜ao verbal em contexto e que se encontram publicados na literatura relevante.

Vou come¸car por descrever como costuma ser feita a avalia¸c˜ao neste tipo de prob- lemas e apresentar a caracteriza¸c˜ao do l´exico, depois apresentarei a caracteriza¸c˜ao do corpus usado na avalia¸c˜ao, o que dar´a uma ideia de como a ambiguidade do l´exico se traduz num exemplo concreto.

Em seguida apresentarei algoritmos j´a explorados para este problema ou proble- mas semelhantes, come¸cando pelo algoritmo que define o valor base (Heur´ıstica de m´axima verosimilhan¸ca) passando depois a outros.

3.1

Avalia¸c˜ao e conjunto de dados

Para se aplicar m´etodos estat´ısticos, torna-se necess´ario um conjunto de dados de treino, conhecido como corpus de treino. Este corpus pode encontrar-se anotado com etiquetas que veiculam informa¸c˜ao lingu´ıstica associada `as express˜oes que ocor- rem no texto (suportando aprendizagem autom´atica supervisionada) ou n˜ao anotado (suportando aprendizagem autom´atica n˜ao supervisionada). Tipicamente, a apren- dizagem supervisionada leva a resultados superiores aos que se obtˆem com apren- dizagem n˜ao supervisionada, quer se encare a desambigua¸c˜ao verbal como uma tarefa de etiqueta¸c˜ao (Silva, 2007, p´agina 51), quer como uma tarefa de desambigua¸c˜ao da acep¸c˜ao de palavra (Agirre e Edmonds, 2006, p´agina 14). Visto que dispomos de um corpus etiquetado1

vamos focar este trabalho em m´etodos supervisionados. O conjunto de dados de treino serve para o computador “aprender” a tarefa. Atrav´es do processamento dos exemplos no corpus de treino, s˜ao estimados parˆametros estat´ısticos relevantes que o computador usa para procurar classificar novos casos apresentados. Para se avaliar o desempenho deste procedimento de decis˜ao au-

1

O corpus descrito no ponto 3.1.1

tom´atica, ´e preciso determinar se a classifica¸c˜ao est´a correcta ou n˜ao. Isto pode ser conseguido se tivermos exemplos para testar que, em ocasi˜ao pr´evia, tenham sido correctamente anotados manualmente. Assim podemos comparar a anota¸c˜ao correcta com a anota¸c˜ao autom´atica produzida pelo algoritmo de classifica¸c˜ao.

Por conseguinte, ´e comum dividir-se o conjunto de dados anotados em corpus de treino e corpus de teste, usando-se maior quantidade de dados para o corpus de treino. Assim podemos obter uma medida de qu˜ao boa ´e a classifica¸c˜ao autom´atica. Em todos os resultados obtidos por mim ou obtidos previamente coloca-se a quest˜ao de o conjunto de dados utilizado ser ou n˜ao apropriado para a execu¸c˜ao da tarefa e em que medida a existˆencia de diferentes corpora para dom´ınios espec´ıficos poderia ajudar ou n˜ao esta tarefa.

Para o nosso caso, se todo o texto for, por exemplo, um discurso na primeira pessoa, dificilmente vamos conseguir classificar novos exemplos com boa taxa de acerto noutras pessoas verbais. No entanto, e aqui podem surgir resultados de avalia¸c˜ao enganadores, se os exemplos de teste vˆem do mesmo corpus vamos ter medidas de desempenho elevadas, apesar desse poss´ıvel enviesamento.

Documents relatifs