I- Introduction
2- Les Protéines de liaison à l’ARN
2.1 Les RBPs dans les corps cytoplasmiques
2.1.5 npcARN et RNA binding proteins dans le noyau
Seguindo o que ´e comum na literatura, e face `a escassez de conjuntos de dados de treino e teste, o estudo da adaptabilidade do corpus `a nossa tarefa n˜ao costuma ser feito e n˜ao vai ser feito no presente trabalho.
Deixamos aqui no entanto alguma informa¸c˜ao sobre o corpus que est´a `a nossa dis- posi¸c˜ao, e cuja constitui¸c˜ao est´a em linha com a constitui¸c˜ao que ´e tipico encontrar para corpora usados em processamento de linguagem natural.
O corpus ´e composto por 689.1262
lexemas anotados, cada um verificado manual- mente por especialistas em lingu´ıstica. A anota¸c˜ao inclui informa¸c˜ao sobre a classe morfossint´actica, sobre o lema e a flex˜ao das classes abertas, sobre express˜oes multi- palavra pertencentes `a classe dos adv´erbios e `as classes fechadas, e sobre nomes pr´oprios multi-palavra.
Este corpus inclui 63.4% de texto recolhido de artigos, jornais e revistas. O resto do corpus ´e essencialmente constitu´ıdo por textos liter´arios.3
O corpus ´e composto por excertos como este:
Com/PREP[O] tiros/TIRO/CN\#mp[O] de/PREP[O] ca¸cadeira/CAC¸ADEIRA/CN\#fs[O] ,*//PNT[O] um/UM\#ms[O] desconhecido/DESCONHECIDO/CN\#ms[O] sem/PREP[O] motivo/MOTIVO/CN\#ms[O] aparente/APARENTE/ADJ\#ms[O]
abateu/ABATER/V\#ppi-3s[O] uma/UM\#fs[O] fam´ılia/FAM´ILIA/CN\#fs[O]
2
De notar que apenas me refiro `a parte escrita, o corpus divide-se em duas partes, escrita e oral. No presente trabalho iremos usar apenas a parte escrita
3
Cap´ıtulo 3. Estado-da-arte 15
inteira/INTEIRO/ADJ\#fs[O] .*//PNT[O]
Cada lexema pode ter cinco campos distintos, a forma ortogr´afica (e.g. ca¸cadeira), o lema (CAC¸ ADEIRA),4
a categoria morfossint´actica (CN), a informa¸c˜ao sobre tra¸cos de flex˜ao (fs) e informa¸c˜ao sobre express˜oes multi-palavra ([0]).
Pegando num lexema referente a um verbo deste excerto - abateu/ABATER/V#ppi- 3s[O] - o primeiro campo abateu representa a forma ortogr´afica, ABATER representa o lema. Quanto `a informa¸c˜ao morfossint´actica, primeiro vem a categoria gramatical. Depois, separado por um ’#’, vˆem os tra¸cos que levam o lema `a forma flexionada, que ocorre no texto original. Por ´ultimo, entre parˆentesis rectos, vem a informa¸c˜ao relativa ao lexema fazer parte ou n˜ao de uma entidade nomeada e, se sim, de que modo.5
Para a nossa tarefa de desambigua¸c˜ao da flex˜ao verbal vamos precisar ape- nas do conte´udo de trˆes campos: a forma ortogr´afica (abateu), o lema (ABATER) e os tra¸cos de flex˜ao (ppi-3s).
Em (Branco et al., 2007) o problema da ambiguidade verbal foi quantificado. Com o conjugador verbal,6
geraram-se todas as formas flexionadas para os lemas conhecidos.7
Estes ´ultimos perfazem um total de 11.350 entradas que deram origem a 816.830 formas conjugadas. Destas formas, apenas 598.651 s˜ao formas ´unicas, diferentes entre si quando se ignora o conjunto de tra¸cos de flex˜ao que expressam.
Como foi explicado anteriormente na sec¸c˜ao 2.1, a ambiguidade associada `a flex˜ao verbal pode ser de trˆes tipos. Ambiguidade de lema, de tra¸cos, ou de ambos os tipos. Tendo isto em conta, (Branco et al., 2007) determinaram que das 598.651 formas verbais ´unicas, 438.064 s˜ao n˜ao amb´ıguas, sendo 73.18% dessas formas ´unicas. As formas verbais amb´ıguas nos tra¸cos s˜ao 159.376, ou seja 26.62%. Apenas 141 formas tˆem ambiguidade de lema, o que representa 0.02% das formas. A ambiguidade de lema e tra¸co afecta 1.070 formas verbais, representando 0.18%.
No corpus que vou utilizar ocorrem 85.6428
formas verbais, etiquetadas como V, VAUX, INF, INFAUX, GER, PPT, PPA, INFAUX e GERAUX. VAUX etiqueta os verbos auxiliares, como por exemplo tinha sido em que o verbo ter na sua forma tinha est´a a auxiliar o verbo ser na sua forma sido. INF etiqueta os infinitivos, como por exemplo ser em que a forma ortogr´afica ´e igual `a forma lematizada. Contudo, os infinitivos podem ser flexionados em g´enero e n´umero. INFAUX etiqueta os infinitivos auxiliares, como por exemplo ter sido em que a forma infinitiva do verbo ter est´a a auxiliar o verbo ser na sua forma sido. GER etiqueta os ger´undios, como por exemplo tornando, e GERAUX os ger´undios aux-
4
apenas se este puder ser diferente da forma ortogr´afica em resultado da flex˜ao.
5
valores possiveis para os campos de informa¸c˜ao morfossint´actica encontram-se em http://lxcorpus.di.fc.ul.pt/cintilwhatsin.html#pos
6
http://lxconj.di.fc.ul.pt
7
Sem incluir formas com cliticos inerentes e formas de verbos compostos
8
iliares, como por exemplo tendo sido em que o verbo ter na sua forma do ger´undio tendo est´a a auxiliar o verbo ser na sua forma sido. PPT etiqueta os partic´ıpios passados em tempos compostos, como por exemplo sido em tendo sido, etiquetando PPA os partic´ıpios passados que n˜ao ocorrem em tempos compostos, como por ex- emplo reflectida em luz reflectida que ´e um partic´ıpio passado do verbo reflectir. V etiqueta as restantes ocorrˆencias de formas verbais.
Destas 85.642 ocorrˆencias, 57.968 s˜ao lexicalmente amb´ıguas. Por sua vez, es- sas 85.642 ocorrˆencias s˜ao ocorrˆencias de 15.640 formas ´unicas, entre as quais se encontram 7.637 formas ´unicas lexicalmente amb´ıguas.
De notar que apenas 2.6% do total de formas ´unicas do l´exico ocorre no corpus. Por´em, quase metade das formas ´unicas que a´ı ocorrem s˜ao amb´ıguas. Sendo que s˜ao aproximadamente 68% as formas amb´ıguas do total de ocorrˆencias no corpus. Na Figura 3.1 apresenta-se a distribui¸c˜ao das formas verbais por grau de ambiguidade, isto ´e, por n´ıvel de diferentes leituras lexicalmente adm´ıssiveis por forma verbal. Verifica-se que o grau de ambiguidade diminui com o aumento de frequˆencia.
Figura 3.1: N´umero de ocorrˆencias de formas verbais por grau de ambiguidade.
Em suma, e no que tem impacto para a tarefa de desambigua¸c˜ao: quase metade dos tipos que tˆem instˆancias no corpus s˜ao amb´ıguos; e cerca de 68% das ocorrˆencias de formas verbais carecem de desambigua¸c˜ao em contexto. Para quantificar por tipo de ambiguidade, ver Figura 3.2.
De notar que nesta estat´ıstica n˜ao s˜ao consideradas formas verbais com cl´ıtico ou compostas.
Cap´ıtulo 3. Estado-da-arte 17
Figura 3.2: Propor¸c˜ao de ocorrˆencias no corpus de formas verbais lexicalmente amb´ıguas por tipo de ambiguidade.