NETWORKING, LIC PROGRAM 5799-AZT, DESIGN OBJECTIVES SCREEN DEFINITION ~CILITY/CUSTOMER INFORMATION CONTROL SYSTEM

RELEASE II USER'S GUIDE - IUP NUMBER 5796-AAT

JES 3 NETWORKING, LIC PROGRAM 5799-AZT, DESIGN OBJECTIVES SCREEN DEFINITION ~CILITY/CUSTOMER INFORMATION CONTROL SYSTEM

Segundo Jurafsky e Martin (2017), parsing sintático é uma tarefa que consiste em reconhecer uma sentença e atribuir a ela uma estrutura sintática. As ferramentas que executam o parsing são chamadas de analisadores sintáticos automáticos ou parsers19.Os autores ressaltam que as árvores sintáticas (isto é, a saída de um parser, representada pela estrutura sintática em formato de árvore) são úteis em aplicações como corretores gramaticais em editores de texto. Segundo os autores, uma sentença para a qual o parser não consegue gerar uma estrutura pode conter desvios gramaticais ou pode no mínimo ser difícil de ler(JURAFSKY; MARTIN, 2017).

Atualmente há diversos parsers disponíveis (gratuitamente ou não) para línguas específicas (p. ex., inglês) ou multilíngues (cujas representações são independentes de língua). Tais ferramentas em geral seguem um dos dois formalismos mais comuns: (i) gramáticas por constituintes ou (ii) gramáticas por dependências. Um parser geralmente é desenvolvido com base em grandes bancos de sentenças na(s) língua(s) de trabalho da ferramenta, as quais foram anotadas sintaticamente de forma manual ou (semi)automática. Esses bancos são chamados de treebanks (ou bancos de árvores). Uma vez que as estruturas sintáticas das sentenças desses bancos foram explicitadas com base em um dos formalismos citados, estas podem ser usadas especificamente para treinar os parsers usando algoritmos de AM.

19_{Nesta dissertação, utiliza-se o termo parser como sinônimo de parser sintático, isto é, a ferramenta}

No formalismo por constituintes, considera-se que as palavras se agrupam formando constituintes (ou sintagmas), que tipicamente recebem o nome das classes morfossintáticas que estão no topo ou são o núcleo (em inglês, head) do constituinte: sintagma verbal (núcleo é um verbo), sintagma nominal (núcleo é um nome), sintagma preposicional (núcleo é uma preposição), sintagma adverbial (núcleo é um advérbio). Segundo Manning e Schütze (1999 – tradução nossa), para o PLN, “uma ideia fundamental é a de que certos agrupamentos de palavras se comportam como constituintes. Constituintes podem ser identificados porque podem ocorrer em várias posições, e porque mostram possibilidades sintáticas regulares de expansão”20_{. A Figura 4 mostra um exemplo de uma árvore por constituintes gerada por meio}

da plataforma on-line de teste21 do parser LX Parser (SILVA et al., 2010).

Figura 4 – Exemplo de árvore por constituintes.

Já o formalismo das gramáticas por dependências, que é o utilizado nesta pesquisa, vem ganhando destaque em diversos sistemas de PLN (JURAFSKY; MARTIN, 2017), e o desenvolvimento de parsers que utilizam essa representação tem sido fomentado em campanhas de avaliação (em inglês, shared tasks)22 de projetos internacionais, com destaque

20_{“one fundamental idea is that certain groupings of words behave as constituents. Constituents can be detected}

by their being able to occur in various positions, and showing uniform syntactic possibilities for expansion”

21_{Disponível em: http://lxcenter.di.fc.ul.pt/services/pt/LXParserPT.html.}

22_{Esse modelo tem sido utilizado de forma a unir um conjunto de pessoas vindas de diversas comunidades para o}

desenvolvimento de sistemas focados na tarefa pretendida. É comum haver um ranking para as ferramentas desenvolvidas, com premiações às de melhor desempenho (nem sempre em termos monetários). Esse é o modelo utilizado, por exemplo, pela conferência internacional CONLL, que lança campanhas de avaliação anuais com os mais diversos objetivos, as quais ocorrem desde 1999. Disponível em: https://www.conll.org/2019-shared-task.

para o projeto Universal Dependencies (NIVRE et al., 2016). Nesse formalismo, a estrutura sintática é representada em termos de associações (ou dependências) binárias entre as palavras (JURAFSKY; MARTIN, 2017). Assim, há uma palavra considerada raiz (em inglês, root) da estrutura, que geralmente é o termo predicador (p. ex., o verbo em sentenças com verbos plenos). A partir da raiz, estabelecem-se os dependentes diretos (os núcleos), e os seus demais dependentes (os nodos). Logo, a raiz de cada sentença é sempre o núcleo da estrutura sentencial inteira. As relações de dependência são rotuladas conforme a sua função na sentença (p. ex., sujeito e objeto), e o conjunto de etiquetas é específico de cada ferramenta. Uma das maiores vantagens desse formalismo, segundo Jurafsky e Martin (2017), é que ela permite representar sentenças de línguas em que a ordem das palavras é livre, isto é, em que as funções sintáticas se dão por meio de marcas morfológicas. No formalismo por dependências, pode-se considerar como núcleos as mesmas classes morfossintáticas consideradas núcleos no formalismo por constituintes, ou pode-se dar prioridade às palavras lexicais, como é o caso do Universal Dependencies. Esta pesquisa utiliza a segunda forma de representação, com os núcleos sendo as palavras lexicais, e as gramaticais ocupando apenas a posição de nodos.

Para ilustrar esse formalismo, mostra-se, na Figura 5, uma representação por dependências gerada na plataforma on-line do parser UDPipe (a mesma utilizada para gerar a saída do POS tagger, mostrada na Figura 2).

A ferramenta utilizou as POS tags para identificar o verbo fazer como a raiz, o nome próprio Maria como o sujeito, o substantivo bolo como o objeto. Além disso, o advérbio permitiu a identificação da estrutura como tendo a função de modificador do verbo. Na plataforma on- line, é possível obter as informações morfológicas e o lema clicando em cada elemento da árvore.

Entre os parsers por constituintes existentes para o português do Brasil, destaca-se o já citado LX Parser, desenvolvido pelo grupo NLX23, de Portugal. Já entre os parsers por dependências, há uma variedade de opções, geradas principalmente pelos esforços despendidos no âmbito do referido projeto UD. Entre as opções, estão o UDPipe (STRAKA; HAJIČ; STRAKOVÁ, 2016), o Turbo Parser (MARTINS et al., 2010) e o MaltParser (NIVRE et al., 2007). O treebank mais comumente utilizado para treinar ferramentas para o português é o Bosque, subcorpus do projeto Floresta Sintá(c)tica cujas árvores sintáticas foram originalmente revisadas por especialistas humanos. O referido projeto engloba bancos de árvores sintáticas revisadas, não revisadas (Floresta Virgem e Amazônia) e semirrevisadas (Selva) (SANTOS et al., 2001). Há ainda um parser desenvolvido especialmente para o português, que não utiliza nenhum dos dois formalismos descritos: o PALAVRAS (BICK, 1996), que emprega o formalismo constraint grammar (ou gramática constritiva). Esse parser não é de uso livre e exige aquisição da licença.

A próxima seção descreve o Aprendizado de Máquina, que é uma técnica comumente utilizada em pesquisas em PLN e em outras áreas que trabalham com grandes conjuntos de dados.

Dans le document IBM System/370 (Page 157-164)